Difference between revisions of "Vous connaîtrez un mot par la compagnie qu'il tient"
From Algolit
(7 intermediate revisions by 2 users not shown) | |||
Line 1: | Line 1: | ||
__NOTOC__ | __NOTOC__ | ||
− | |||
− | |||
− | |||
− | |||
{| | {| | ||
|- | |- | ||
− | | Type: || | + | | Type: || Exploration Algolittéraire |
|- | |- | ||
− | | Données: || [[Frankenstein | + | | Données: || [[Frankenstein]], [[AstroBlackness]], [[WikiHarass]], [[Apprendre de l'apprentissage profond]], [[PrèsdeSaussure|PrèsdeSaussure]] |
|- | |- | ||
| Technique: || plongement lexical | | Technique: || plongement lexical | ||
Line 15: | Line 11: | ||
|} | |} | ||
− | ''Vous connaîtrez un mot par la compagnie qu'il tient'' est une série de 5 paysages basés sur différents ensembles de données. Chaque paysage comprend les mots | + | ''Vous connaîtrez un mot par la compagnie qu'il tient'' est une série de 5 paysages basés sur différents ensembles de données. Chaque paysage comprend les mots «human», «learning», «system» en compagnie de différents groupes sémantiques. L'intuition que les distances au sein du graphique sont liées à la similarité sémantique des mots est l'un des fondements de word2vec. |
Les graphiques sont le résultat d'une étude de code basée sur un script de tutoriel de plongement lexical existant [[word2vec_basic.py]]. Dans une pratique d'apprentissage automatique, ces graphiques fonctionnent comme des outils de validation pour voir si un modèle commence à avoir du sens. Il est intéressant de voir comment ce processus de validation est alimenté par la compréhension sémantique individuelle des groupes et des mots. | Les graphiques sont le résultat d'une étude de code basée sur un script de tutoriel de plongement lexical existant [[word2vec_basic.py]]. Dans une pratique d'apprentissage automatique, ces graphiques fonctionnent comme des outils de validation pour voir si un modèle commence à avoir du sens. Il est intéressant de voir comment ce processus de validation est alimenté par la compréhension sémantique individuelle des groupes et des mots. | ||
Line 21: | Line 17: | ||
Comment pouvons-nous utiliser ces paysages sémantiques comme outils de lecture? | Comment pouvons-nous utiliser ces paysages sémantiques comme outils de lecture? | ||
− | ==graphique 1: | + | ==graphique 1: Frankenstein== |
Inclut le livre [http://www.algolit.net/index.php/Frankenstein Frankenstein, ou le Prométhée Moderne de Mary Shelley]. | Inclut le livre [http://www.algolit.net/index.php/Frankenstein Frankenstein, ou le Prométhée Moderne de Mary Shelley]. | ||
+ | <pre> | ||
+ | loss value: 4.45983128536 | ||
+ | Nearest to human: fair, active, crevice, sympathizing, pretence, fellow, nightingale, productions, deaths, medicine, | ||
+ | Nearest to learning: steeple, clump, electricity, security, foretaste, fluctuating, finding, gazes, pour, decides, | ||
+ | Nearest to system: philosophy, coincidences, threatening, selfcontrol, distinctly, babe, stream, chimney, recess, accounts, | ||
+ | </pre> | ||
+ | |||
+ | [[File:Detail-frankenstein.png]] | ||
[[File:5 graphs frankenstein gutenberg tf.png]] | [[File:5 graphs frankenstein gutenberg tf.png]] | ||
− | ==graphique 2: | + | ==graphique 2: AstroBlackness == |
− | + | Une sélection de textes avec une perspective afrofuturiste. | |
− | + | <pre> | |
+ | loss value: 5.8195698024 | ||
+ | Nearest to human: black, difference, white, gender, otherwise, 3, 7, ignorance, contemporary, greater, | ||
+ | Nearest to learning: superior, truth, function, lens, start, dying, existence, changing, symbol, place, | ||
+ | Nearest to system: attempts, adapt, programmed, varieties, limit, realization, color, promise, population, voice, | ||
+ | </pre> | ||
− | + | [[File:Detail-astroBlackness.png]] | |
− | + | [[File:5 graphs astroBlackness.png]] | |
− | + | ==graphique 3: PrèsdeSaussure== | |
+ | Inclut trois livres secondaires sur l'oeuvre de Saussure en linguistique structuraliste. | ||
− | + | <pre> | |
− | + | loss value: 5.78265964687 | |
+ | Nearest to human: cultural, 181, psychic, Human, rational, physical, story, chance, domain, furthermore, | ||
+ | Nearest to system: structure, content, community, System, term, center, study, plurality, form, value, | ||
+ | Le mot 'learning' n'était pas présent dans la liste des 5000 mots les plus communs. | ||
+ | </pre> | ||
+ | |||
+ | [[File:Detail-nearbySaussure.png]] | ||
+ | [[File:5 graphs nearbySaussure.png]] | ||
+ | |||
+ | ==graphique 4: Apprendre de l'apprentissage profond == | ||
+ | Inclut sept livres sur le sujet de l'apprentissage en profondeur. | ||
+ | |||
+ | <pre> | ||
+ | loss value: 6.65393904257 | ||
+ | Nearest to human: healthy, given, modeling, poorly, inspired, criterion, specifically, Accuracy, surface, predicting, | ||
+ | Nearest to learning: Learning, pretrained, sparse, neat, 21, inference, tuning, adagrad, tested, Use, | ||
+ | Nearest to system: UNK, roi, dataframe, code, win, page, approach, diagonal, cae, letter, | ||
+ | </pre> | ||
+ | |||
+ | [[File:Detail-learning-deep-learning.png]] | ||
[[File:5 graphs deep-learning-trainingset.png]] | [[File:5 graphs deep-learning-trainingset.png]] | ||
− | ==graphique 5: | + | ==graphique 5: WikiHarass == |
Inclut des exemples de harcèlement sur les commentaires de la page Talk de Wikipedia. | Inclut des exemples de harcèlement sur les commentaires de la page Talk de Wikipedia. | ||
+ | <pre> | ||
+ | loss value: 3.93717244664 | ||
+ | Nearest to human: jacob, Persianyes, phrase, track, star, attack, puts, jews, helps, plastic, | ||
+ | Nearest to learning: sound, people, getting, writing, thinking, talking, thoughts, modify, less, prince, | ||
+ | Nearest to system: armenian, UNK, georgia, george, n, developed, its, each, daniele, claim, | ||
+ | </pre> | ||
+ | |||
+ | [[File:Detail-WikiHarass.png]] | ||
[[File:5_graphs_Talk_page_comments_from_Wikipedia_stripped.png]] | [[File:5_graphs_Talk_page_comments_from_Wikipedia_stripped.png]] | ||
+ | |||
+ | [[Category:Rencontres-Algolittéraires]] | ||
+ | [[Category:algolit-extension]] |
Latest revision as of 15:17, 2 November 2017
Type: | Exploration Algolittéraire |
Données: | Frankenstein, AstroBlackness, WikiHarass, Apprendre de l'apprentissage profond, PrèsdeSaussure |
Technique: | plongement lexical |
Développé par: | word2vec de Google Tensorflow, Algolit |
Vous connaîtrez un mot par la compagnie qu'il tient est une série de 5 paysages basés sur différents ensembles de données. Chaque paysage comprend les mots «human», «learning», «system» en compagnie de différents groupes sémantiques. L'intuition que les distances au sein du graphique sont liées à la similarité sémantique des mots est l'un des fondements de word2vec.
Les graphiques sont le résultat d'une étude de code basée sur un script de tutoriel de plongement lexical existant word2vec_basic.py. Dans une pratique d'apprentissage automatique, ces graphiques fonctionnent comme des outils de validation pour voir si un modèle commence à avoir du sens. Il est intéressant de voir comment ce processus de validation est alimenté par la compréhension sémantique individuelle des groupes et des mots.
Comment pouvons-nous utiliser ces paysages sémantiques comme outils de lecture?
graphique 1: Frankenstein
Inclut le livre Frankenstein, ou le Prométhée Moderne de Mary Shelley.
loss value: 4.45983128536 Nearest to human: fair, active, crevice, sympathizing, pretence, fellow, nightingale, productions, deaths, medicine, Nearest to learning: steeple, clump, electricity, security, foretaste, fluctuating, finding, gazes, pour, decides, Nearest to system: philosophy, coincidences, threatening, selfcontrol, distinctly, babe, stream, chimney, recess, accounts,
graphique 2: AstroBlackness
Une sélection de textes avec une perspective afrofuturiste.
loss value: 5.8195698024 Nearest to human: black, difference, white, gender, otherwise, 3, 7, ignorance, contemporary, greater, Nearest to learning: superior, truth, function, lens, start, dying, existence, changing, symbol, place, Nearest to system: attempts, adapt, programmed, varieties, limit, realization, color, promise, population, voice,
graphique 3: PrèsdeSaussure
Inclut trois livres secondaires sur l'oeuvre de Saussure en linguistique structuraliste.
loss value: 5.78265964687 Nearest to human: cultural, 181, psychic, Human, rational, physical, story, chance, domain, furthermore, Nearest to system: structure, content, community, System, term, center, study, plurality, form, value, Le mot 'learning' n'était pas présent dans la liste des 5000 mots les plus communs.
graphique 4: Apprendre de l'apprentissage profond
Inclut sept livres sur le sujet de l'apprentissage en profondeur.
loss value: 6.65393904257 Nearest to human: healthy, given, modeling, poorly, inspired, criterion, specifically, Accuracy, surface, predicting, Nearest to learning: Learning, pretrained, sparse, neat, 21, inference, tuning, adagrad, tested, Use, Nearest to system: UNK, roi, dataframe, code, win, page, approach, diagonal, cae, letter,
graphique 5: WikiHarass
Inclut des exemples de harcèlement sur les commentaires de la page Talk de Wikipedia.
loss value: 3.93717244664 Nearest to human: jacob, Persianyes, phrase, track, star, attack, puts, jews, helps, plastic, Nearest to learning: sound, people, getting, writing, thinking, talking, thoughts, modify, less, prince, Nearest to system: armenian, UNK, georgia, george, n, developed, its, each, daniele, claim,