Actions

Un vecteur one-hot

From Algolit

Revision as of 14:35, 27 October 2017 by Emma (talk | contribs) (Created page with "{| |- | Type: || Exploration algolittéraire |- | Technique: || plongement lexical |- | Développé par: || Algolit |} =Recette pour un vecteur one-hot= Si ceci est notre p...")
(diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)
Type: Exploration algolittéraire
Technique: plongement lexical
Développé par: Algolit

Recette pour un vecteur one-hot

Si ceci est notre phrase d’exemple ...


"Les explorateurs algolittéraires ont découvert un paysage multidimensionnel fait de mots déguisés en nombres."


... nous travaillons avec les 15 mots suivants...


  • algolittéraires
  • de
  • découvert
  • déguisés
  • en
  • explorateurs
  • fait
  • Les
  • mots
  • multidimensionnel
  • nombres
  • ont
  • paysage
  • un
  • .


... un seul vecteur dans un vecteur unique ressemble à ceci ...


[0 0 0 0 0 0 0 0 0 0 0 0 0 0] 


... et une matrice complète de quinze dimensions à ceci...


[[0 0 0 0 0 0 0 0 0 0 0 0 0 0]  algolittéraires
 [0 0 0 0 0 0 0 0 0 0 0 0 0 0]  de
 [0 0 0 0 0 0 0 0 0 0 0 0 0 0]  découvert
 [0 0 0 0 0 0 0 0 0 0 0 0 0 0]  déguisés
 [0 0 0 0 0 0 0 0 0 0 0 0 0 0]  en
 [0 0 0 0 0 0 0 0 0 0 0 0 0 0]  explorateurs
 [0 0 0 0 0 0 0 0 0 0 0 0 0 0]  fait
 [0 0 0 0 0 0 0 0 0 0 0 0 0 0]  Les
 [0 0 0 0 0 0 0 0 0 0 0 0 0 0]  mots
 [0 0 0 0 0 0 0 0 0 0 0 0 0 0]  multidimensionnel
 [0 0 0 0 0 0 0 0 0 0 0 0 0 0]  nombres
 [0 0 0 0 0 0 0 0 0 0 0 0 0 0]  ont
 [0 0 0 0 0 0 0 0 0 0 0 0 0 0]  paysage
 [0 0 0 0 0 0 0 0 0 0 0 0 0 0]  un
 [0 0 0 0 0 0 0 0 0 0 0 0 0 0]] .


... avec un 0 pour chaque mot unique dans un vocabulaire et une ligne pour chaque mot unique.

L'étape suivante consiste à compter combien de fois un mot apparaît à côté d'un autre ...


"Les explorateurs algolittéraires ont découvert un paysage multidimensionnel fait de mots déguisés en nombres."


[[0 0 0 1 0 0 0 0 1 0 0 0 0 0]  algolittéraires
 [0 0 0 0 0 1 0 0 0 0 0 1 0 0]  de
 [0 0 0 0 1 0 0 0 0 1 0 0 0 0]  découvert
 [1 0 0 0 0 1 0 0 0 0 0 0 0 0]  déguisés
 [0 0 1 0 0 0 0 0 0 0 0 0 1 0]  en
 [0 1 0 1 0 0 0 0 0 0 0 0 0 0]  explorateurs
 [0 0 0 0 0 0 0 1 1 0 0 0 0 0]  fait
 [0 0 0 0 0 0 1 0 0 0 1 0 0 0]  Les
 [1 0 0 0 0 0 1 0 0 0 0 0 0 0]  mots
 [0 0 1 0 0 0 0 0 0 0 0 0 0 1]  multidimensionnel
 [0 0 0 0 0 0 0 1 0 0 0 0 1 0]  nombres
 [0 1 0 0 0 0 0 0 0 0 0 0 0 0]  ont
 [0 0 0 0 1 0 0 0 0 0 1 0 0 0]  paysage
 [0 0 0 0 1 0 0 0 0 0 1 0 0 0]  un
 [0 0 0 0 0 0 0 0 0 1 0 0 0 0]] .


(NDLT: Le tableau ci-dessus est une simulation pour donner une idée du processus, et ne représente donc pas les valeurs réelles).

Les scriptes de vecteurs one-hot d’Algolit

Deux scripts ont été créés lors d'une des sessions d'Algolit, créant la même matrice mais de manière différente. Pour les télécharger et les exécuter, utilisez les liens suivants: one-hot-vector_gijs.py & one-hot-vector_hans.py

A noter

" Les mots sont représentés une fois dans un vecteur, donc les mots avec des significations multiples, comme 'banque', sont plus difficiles à représenter. Une recherche existe autour des multivecteurs pour un mot, pour qu'il ne finisse pas au milieu. "(Richard Socher, idem.)]

Pour plus de notes sur cette conférence, visitez http://pad.constantvzw.org/public_pad/neural_networks_3