Actions

Difference between revisions of "Un vecteur one-hot"

From Algolit

Line 90: Line 90:
 
''(NDLT: Le tableau ci-dessus est une simulation pour donner une idée du processus, et ne représente donc pas les valeurs réelles pour la phrase en français).''
 
''(NDLT: Le tableau ci-dessus est une simulation pour donner une idée du processus, et ne représente donc pas les valeurs réelles pour la phrase en français).''
  
==Les scriptes de vecteurs one-hot d’Algolit==
+
==Les scripts de vecteurs one-hot d’Algolit==
  
 
Deux scripts ont été créés lors d'une des sessions d'Algolit, créant la même matrice mais de manière différente. Pour les télécharger et les exécuter, utilisez les liens suivants: [https://gitlab.constantvzw.org/algolit/algolit/blob/master/algoliterary_encounter/one-hot-vector/one-hot-vector_gijs.py one-hot-vector_gijs.py] & [https://gitlab.constantvzw.org/algolit/algolit/blob/master/algoliterary_encounter/one-hot-vector/one-hot-vector_hans.py one-hot-vector_hans.py]
 
Deux scripts ont été créés lors d'une des sessions d'Algolit, créant la même matrice mais de manière différente. Pour les télécharger et les exécuter, utilisez les liens suivants: [https://gitlab.constantvzw.org/algolit/algolit/blob/master/algoliterary_encounter/one-hot-vector/one-hot-vector_gijs.py one-hot-vector_gijs.py] & [https://gitlab.constantvzw.org/algolit/algolit/blob/master/algoliterary_encounter/one-hot-vector/one-hot-vector_hans.py one-hot-vector_hans.py]

Revision as of 12:20, 31 October 2017

Type: Exploration algolittéraire
Technique: plongement lexical
Développé par: Algolit

Recette pour un vecteur one-hot

Si ceci est notre phrase d’exemple ...


"Les explorateurs algolittéraires ont découvert un paysage multidimensionnel fait de mots déguisés en nombres."


... nous travaillons avec les 15 mots suivants...


  • algolittéraires
  • de
  • découvert
  • déguisés
  • en
  • explorateurs
  • fait
  • Les
  • mots
  • multidimensionnel
  • nombres
  • ont
  • paysage
  • un
  • .


... un seul vecteur dans un vecteur unique ressemble à ceci ...


[0 0 0 0 0 0 0 0 0 0 0 0 0 0] 


... et une matrice complète de quinze dimensions à ceci...


[[0 0 0 0 0 0 0 0 0 0 0 0 0 0]  algolittéraires
 [0 0 0 0 0 0 0 0 0 0 0 0 0 0]  de
 [0 0 0 0 0 0 0 0 0 0 0 0 0 0]  découvert
 [0 0 0 0 0 0 0 0 0 0 0 0 0 0]  déguisés
 [0 0 0 0 0 0 0 0 0 0 0 0 0 0]  en
 [0 0 0 0 0 0 0 0 0 0 0 0 0 0]  explorateurs
 [0 0 0 0 0 0 0 0 0 0 0 0 0 0]  fait
 [0 0 0 0 0 0 0 0 0 0 0 0 0 0]  Les
 [0 0 0 0 0 0 0 0 0 0 0 0 0 0]  mots
 [0 0 0 0 0 0 0 0 0 0 0 0 0 0]  multidimensionnel
 [0 0 0 0 0 0 0 0 0 0 0 0 0 0]  nombres
 [0 0 0 0 0 0 0 0 0 0 0 0 0 0]  ont
 [0 0 0 0 0 0 0 0 0 0 0 0 0 0]  paysage
 [0 0 0 0 0 0 0 0 0 0 0 0 0 0]  un
 [0 0 0 0 0 0 0 0 0 0 0 0 0 0]] .


... avec un 0 pour chaque mot unique dans un vocabulaire et une ligne pour chaque mot unique.

L'étape suivante consiste à compter combien de fois un mot apparaît à côté d'un autre ...


"Les explorateurs algolittéraires ont découvert un paysage multidimensionnel fait de mots déguisés en nombres."


[[0 0 0 1 0 0 0 0 1 0 0 0 0 0]  algolittéraires
 [0 0 0 0 0 1 0 0 0 0 0 1 0 0]  de
 [0 0 0 0 1 0 0 0 0 1 0 0 0 0]  découvert
 [1 0 0 0 0 1 0 0 0 0 0 0 0 0]  déguisés
 [0 0 1 0 0 0 0 0 0 0 0 0 1 0]  en
 [0 1 0 1 0 0 0 0 0 0 0 0 0 0]  explorateurs
 [0 0 0 0 0 0 0 1 1 0 0 0 0 0]  fait
 [0 0 0 0 0 0 1 0 0 0 1 0 0 0]  Les
 [1 0 0 0 0 0 1 0 0 0 0 0 0 0]  mots
 [0 0 1 0 0 0 0 0 0 0 0 0 0 1]  multidimensionnel
 [0 0 0 0 0 0 0 1 0 0 0 0 1 0]  nombres
 [0 1 0 0 0 0 0 0 0 0 0 0 0 0]  ont
 [0 0 0 0 1 0 0 0 0 0 1 0 0 0]  paysage
 [0 0 0 0 1 0 0 0 0 0 1 0 0 0]  un
 [0 0 0 0 0 0 0 0 0 1 0 0 0 0]] .


(NDLT: Le tableau ci-dessus est une simulation pour donner une idée du processus, et ne représente donc pas les valeurs réelles pour la phrase en français).

Les scripts de vecteurs one-hot d’Algolit

Deux scripts ont été créés lors d'une des sessions d'Algolit, créant la même matrice mais de manière différente. Pour les télécharger et les exécuter, utilisez les liens suivants: one-hot-vector_gijs.py & one-hot-vector_hans.py

A noter

" Les mots sont représentés une fois dans un vecteur, donc les mots avec des significations multiples, comme 'banque', sont plus difficiles à représenter. Une recherche existe autour des multivecteurs pour un mot, pour qu'il ne finisse pas au milieu. "(Richard Socher, idem.)]

Pour plus de notes sur cette conférence, visitez http://pad.constantvzw.org/public_pad/neural_networks_3