Actions

Exploration de Paysages Multidimensionels: Sur le plongement lexical

From Algolit

Revision as of 13:58, 30 October 2017 by Emma (talk | contribs)
Type: Exploration algolittéraire
Technique: plongement lexical
Développé par: Algolit

"Le sens est cette chose insaisissable que nous essayons de capturer" (Richard Socher dans CS224D Lecture 2 - 31 Mars 2016 (Youtube))

Les plongements de mots sont utilisés pour représenter les mots en tant qu'intrants à l'apprentissage automatique. Les mots deviennent des vecteurs dans un espace multidimensionnel, où les vecteurs voisins représentent des significations similaires. Avec le plongement lexical, vous pouvez comparer les mots par (grosso modo) ce qu'ils signifient, pas seulement les correspondances exactes.

L'hypothèse commune dans cette approche est que la co-occurrence des mots dans leurs voisinages respectifs au sein du texte reflète une relation ou une similarité de sens. Alors que le mot-clé se réfère à la fréquence des mots dans tout le texte, ces approches font un compte de fréquence des mots dans un petit intervalle autour de chaque mot. Plusieurs algorithmes ont été développés pour transformer de tels comptes locaux de co-occurrence en mots-plongements, comme word2vec (un réseau de neurones à couche unique) et GloVe (modèle sémantique distributionnel).

La formation réussie de vecteurs de mots nécessite de partir de centaines de gigaoctets de textes d'entrée. Heureusement, divers groupes d'apprentissage automatique l’ont déjà fait et ont fourni des plongements de mots pré-formés que l'on peut télécharger. Word2vec est pré-formé sur les données de Google News, et deux jeux de données très connus sur les plongements de mots anglais GloVe pré-formés sur les pages web de Common Crawl.

Le terme est récemment entré dans le vocabulaire de l'apprentissage automatique, avec l'expansion de la communauté d'apprentissage profond. En linguistique computationnelle, l'expression «modèle sémantique distributif» est parfois préférée. D'autres termes incluent «représentation distribuée», «espace vectoriel sémantique» ou «espace de mots».