Actions

Beaucoup, beaucoup de mots

From Algolit

Revision as of 15:18, 2 November 2017 by An (talk | contribs)
(diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)

Beaucoup, beaucoup de mots de la Biblio de St-Gilles

Pour comparer la taille des ensembles de données que nous avons utilisés, nous avons calculé le nombre de pages de la bibliothèque de St-Gilles. Avec un petit script, tout le catalogue du Biblio de Saint-Gilles a été lu et les pages ont été comptées. Le catalogue contient 43.673 articles, dont 42.759 sont imprimés: Historique des recherches = (Recherche simple : terme * dans Tous les champs pour tous les types de documents) Et Type de document = (texte imprimé) - 42759 résultat(s)

Pour 28.163 de ces livres, le nombre de pages était indiqué et pouvait être compté. Notre petit script a fait une lecture nocturne du catalogue de la bibliothèque. Cela a donné un nombre de 6.409.431 pages pour 28.163 livres.

Une page de livre contient généralement entre 200 et 600 mots, avec une moyenne estimée à 450 mots (taille de police Arial 12, interligne simple - source: https://wordcounter.net/words-per-page). Cela donne une estimation de 2.884.243.950 ou approx. 2,9 milliards de mots pour ces 6.409.431 pages ou 28.163 livres. En moyenne, cela donne 102.400 mots ou 227 pages par livre. Extrapolé à l'ensemble des 42.759 livres de cette bibliothèque, cela donne environ 10 millions de pages et 4.4 milliards de mots.

Beaucoup, beaucoup de mots de GloVe

Nous avons principalement utilisé les jeux de données de plongement lexical préprogrammés GloVe. Ces plongements de mots sont basées sur les données de texte Common Crawl. Le grand ensemble a 840B de symboles ou de mots utilisés dans les textes lus, ce qui se compare à env. 1,9 milliard de pages. L'ensemble le plus petit a des symboles de 42B, ou approx. 90 millions de pages. En d'autres termes, pour apprendre les plongements de mots dans le glove.42B-dataset, l'ordinateur lisait environ 9 fois la quantité de textes du Biblio de Saint-Gilles. Pour l'ensemble de données du glove 840B, l'ordinateur a lu 36 fois le Biblio de Saint-Gilles. Les ordinateurs lisent vite mais apprennent lentement.

La formation GloVe a abouti à un vocabulaire de 1,9 million de mots distincts, chacun avec 300 valeurs associées. Le plus grand crawl a abouti à un vocabulaire de 2,2 millions de mots. L'impression d'un mot avec toutes les 300 valeurs sur une page entraînerait 1,9 ou 2,2 millions de pages, soit environ 20% du Biblio de Saint-Gilles. Même si nous optons pour des petits caractères et mettons 2 mots avec leurs valeurs sur une page, il resterait environ un million de pages ou 10% de la bibliothèque. L'impression de tous les 1,9 million de mots, avec chaque mot sur une ligne de 4 mm de hauteur, se traduirait par un rouleau de papier de 7600m.

Nous avons donc gardé l'espace de mots utilisé par l'ordinateur à l'état virtuel et décidé de fournir quelques aperçus alternatifs de cet univers de langage.