http://www.algolit.net/api.php?action=feedcontributions&user=Emma&feedformat=atomAlgolit - User contributions [en]2024-03-29T06:52:45ZUser contributionsMediaWiki 1.31.14http://www.algolit.net/index.php?title=AstroBlackness_FR&diff=10495AstroBlackness FR2017-11-03T13:35:05Z<p>Emma: </p>
<hr />
<div>{|<br />
|-<br />
| Type: || Jeu de Données<br />
|-<br />
| Quantité de Mots: || 236.450<br />
|-<br />
| Mots uniques: || 21.891<br />
|-<br />
| Source(s): || [http://aaaaarg.fail aaaaarg.fail]<br />
|-<br />
| Développé par: || Sun Ra, James L. Wolf, Harttnut Geerken, Alondra Nelson, Octavia Butler, Gerry Canavan, Algolit<br />
|}<br />
<br />
Le 26 octobre 2017 Het Nieuwe Instituut à Rotterdam a organisé [https://botclub.hetnieuweinstituut.nl/en/activities/decolonising-bots une soirée autour de la spéculation technologique] focalisée sur le sujet des algorithmes décolonisateurs. [https://medium.com/@afrofutures.uk Florence Okoye], développeuse UX posait les '''questions''' suivantes: Comment pouvons-nous incarner une compréhension de la technologie comme une révélation? Et comment un technologiste AstroBlack interprèterait-il la méthodologie Agile?<br />
<br />
Inspiré par sa conférence, ce jeu de données ne vise pas à trouver des réponses, mais il propose plutôt un exercise collectif imaginaire. Selon Ytasha Womack, «Afrofuturism views race as a technology, a man-made creation with power imbalances and seeks to heal this idea of separation in humanity.» A l'ère où la technologie intègre les idées biaisées sur l'égalité qui existent dans la plupart des sociétés, nous pouvons nous demander '''ce qu'une machine apprendrait de données afrofuturistes?'''<br />
<br />
Les livres présents dans ce jeu de données sont:<br />
* ''The Immeasurable Equation. The Collected Poetry and Prose by Sun Ra''. Compilé et édité par James L. Wolf et Harttnut Geerken<br />
* ''Social Text - Afrofuturism''. Issue 71. 2002. Edité par Alondra Nelson<br />
* ''Octavia E. Butler - Modern Masters of Science Fiction.'' par Gerry Canavan</div>Emmahttp://www.algolit.net/index.php?title=Pr%C3%A8sdeSaussure&diff=10494PrèsdeSaussure2017-11-03T13:27:19Z<p>Emma: </p>
<hr />
<div>{|<br />
|-<br />
| Type: || Jeu de Données<br />
|-<br />
| Quantité de Mots: || 424.811<br />
|-<br />
| Mots Uniques: || 24.651<br />
|-<br />
| Source(s): || [http://aaaaarg.fail aaaaarg.fail]<br />
|-<br />
| Développé par: || Ferdinand de Saussure, Carol Sanders (editor), Beata Stawarska, Robert M. Strozier, Algolit<br />
|}<br />
<br />
''PrèsdeSaussure'' est un jeu de données compilé qui est le résultat d'un intérêt pour la linguistique structuraliste et l'oeuvre du linguiste suisse Ferdinand de Saussure (1857-1913). L'importance de de Saussure s'est manifestée dans ce qu'il appelait la sémiologie: «la science qui étudie la vie des signes au sein de la vie sociale». La plupart de ses pensées sont publiées dans le livre [https://archive.org/details/courseingenerall00saus Course in General Linguistics] en 1916.<br />
<br />
Le choix pour ce jeu de données est motivé par le texte de Johanna Drucker sur [http://www.digitalhumanities.org/dhq/vol/7/1/000143/000143.html des interfaces performatives], dans lequel elle insiste de différentes façons sur l'importance de considérer la lecture comme un acte actif, interpretatif et créatif. Quand elle fait référence à de Saussure avec ces intentions, elle explicite que «Classic structuralism, as exemplified by Saussurean linguistics, de-essentialized and systematized the understanding of meaning as value, and performative materiality builds on that basic shift into the post-structuralist engagement with readerly production of texts, and beyond, to a probabilistic perspective that synthesizes these critical traditions with those of user experience.» <br />
<br />
Le 'lecteur performatif', 'la production lue d'un texte', et 'les expériences d'utilisateur probabilistiques' nous semblent former un dialogue intéressant avec les techniques numériques et statistiques appliquées au language naturel dans les pratiques d'apprentissage automatique. <br />
<br />
Le jeu de données est constitué trois livres qui répondent aux pensées de Ferdinand de Saussure: <br />
<br />
* The Cambridge Companion to Saussure, par Carol Sanders (editor), Anna Morpurgo Davies, Rudolf Engler, John E. Joseph, W. Terrence Gordon, Claudine Normand, Julia S. Falk, Christian Puech, Stephen C. Hutchings, Steven Ungar, Peter Wunderli, Geoffrey Bennington, Simon Bouquet, Christopher Norris, Paul Bouissac <br />
* Saussure's Philosophy of Language as Phenomenology: Undoing the Doctrine of the Course in General Linguistics, par Beata Stawarska <br />
* Saussure, Derrida, and the Metaphysics of Subjectivity, par Robert M. Strozier <br />
<br />
[[Category:Rencontres-Algolittéraires]]</div>Emmahttp://www.algolit.net/index.php?title=Alg%C3%A8bre_Invers%C3%A9e&diff=10310Algèbre Inversée2017-10-31T23:57:11Z<p>Emma: </p>
<hr />
<div>{|<br />
|-<br />
| Type: || Exploration Algolittéraire<br />
|-<br />
| Technique: || [[Sur le plongement lexical|plongement lexical]]<br />
|-<br />
| Développé par: || Radim Rehurek et Petr Sojka & Algolit<br />
|}<br />
<br />
L'algèbre est généralement définie comme une généralisation de l'arithmétique dans laquelle des lettres représentant des numéros sont combinées selon les règles de l'arithmétique. Dans le traitement automatique du langage naturel l'ordre est inversé: les mots sont représentés par des numéros qui sont générés par les circonstances du texte et de l'algorithme qui les traite. <br />
<br />
Cette exploration utilise [https://radimrehurek.com/gensim/index.html gensim], une boîte à outils open source pour créer des espaces de vecteurs et des modèles thématiques, implémentée en Python. Elle manipule le texte selon les relations mathématiques qui émergent entre les mots, une fois qu'ils ont été tracés dans l'espace de vecteurs. <br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
[[Category:Rencontres-Algolittéraires]]</div>Emmahttp://www.algolit.net/index.php?title=Alg%C3%A8bre_Invers%C3%A9e&diff=10309Algèbre Inversée2017-10-31T23:55:13Z<p>Emma: Created page with "{| |- | Type: || Exploration Algolittéraire |- | Technique: || plongement lexical |- | Développé par: || Radim Rehurek et Petr Sojka & Algolit..."</p>
<hr />
<div>{|<br />
|-<br />
| Type: || Exploration Algolittéraire<br />
|-<br />
| Technique: || [[Sur le plongement lexical|plongement lexical]]<br />
|-<br />
| Développé par: || Radim Rehurek et Petr Sojka & Algolit<br />
|}<br />
<br />
L'algèbre est généralement définie comme une généralisation de l'arithmique dans laquelle des lettres représentant des numéros sont combinées selon les règles de l'arithmétique. Dans le traitement automatique du langage naturel l'ordre est inversé: les mots sont représentés par des numéros qui sont générés par les circonstances du texte et de l'algorithme qui les traite. <br />
<br />
Cette exploration utilise [https://radimrehurek.com/gensim/index.html gensim], une boîte à outils open source pour créer des espaces de vecteurs et des modèles thématiques, implémentée en Python. Elle manipule le texte selon les relations mathématiques qui émergent entre les mots, une fois qu'ils ont été tracés dans l'espace de vecteurs. <br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
[[Category:Rencontres-Algolittéraires]]</div>Emmahttp://www.algolit.net/index.php?title=Rencontres_Algolitt%C3%A9raires&diff=10308Rencontres Algolittéraires2017-10-31T23:53:55Z<p>Emma: </p>
<hr />
<div>__NOTOC__<br />
== Introduction Générale==<br />
* [[Rencontres Algolittéraires - Algolit|Algolit]] - ok<br />
* [[Program]] = [[Programme]] - ok<br />
<br />
==Oeuvres Algolittéraires==<br />
* [[Oulipo recipes]] = [[Recettes Oulipo]] <br />
* [[i-could-have-written-that]] = [[i-could-have-written-that FR]] <br />
* [[The Weekly Address, A model for a politician]] = [[The Weekly Address, Un modèle pour un politicien]]- translated, ok<br />
* [[In the company of CluebotNG]] = [[En compagnie de CluebotNG]] - decide on link to False Positive page<br />
<br />
==Explorations Algolittéraires==<br />
=== Ce que la machine écrit: mise au point sur la sortie===<br />
* [[CHARNN text generator]] = [[Générateur de texte CHARNN]] - ok<br />
* [[You shall know a word by the company it keeps]] = [[Vous connaîtrez un mot par la compagnie qu'il tient]]<br />
<br />
===Comment la machine lit: dissection des réseaux neuronaux===<br />
<br />
====Ensemble de données ====<br />
* [[Many many words]] = [[Beaucoup, beaucoup de mots]] <br />
* [[The data (e)speaks]] = [[La donnée (e)parle]] - needs to be completed<br />
<br />
=====Ensembles de données publics communs=====<br />
* [[Common Crawl]] = [[Common Crawl FR]]<br />
* [[WikiHarass]] = [[WikiHarass FR]]<br />
<br />
=====Ensembles de données Algolittéraires =====<br />
* [[Frankenstein]] = [[Frankenstein FR]]<br />
* [[Learning from Deep Learning]] = [[Apprendre de l'apprentissage profond]]<br />
* [[nearbySaussure]] <br />
* [[astroBlackness]]<br />
<br />
====Des mots aux nombres ====<br />
* [[A Bag of Words]] = [[Un sac de mots]]<br />
* [[A One Hot Vector]] = [[Un vecteur one-hot]] - ok<br />
<br />
====Exploration de paysages Multidimensionnels: le plongement lexical ====<br />
* [[About Word embeddings]] = [[Sur le plongement lexical]] <br />
* [[Crowd Embeddings]] = [[Crowd Embeddings FR]] <br />
<br />
=====Différents portraits du plongement lexical =====<br />
* [[Word embedding Projector]] = [[Projecteur de plongement lexical]] <br />
* [[The GloVe Reader]] = [[Le Lecteur GloVe]] - Decide on Link to GloVe page...<br />
<br />
=====Inspection de la technique =====<br />
* [[word2vec_basic.py]] = [[word2vec_basic.py FR]] - ok<br />
* [[Reverse Algebra]] = [[Algèbre Inversée]] - ok<br />
<br />
===Comment une machine pourrait parler ===<br />
* [[We Are A Sentiment Thermometer]] = [[Nous sommes un thermomètre sentimental]]<br />
<br />
== Sources ==<br />
* [[Algoliterary Toolkit]] = [[Boîte à outils Algolittéraire]]<br />
* [[Algoliterary Bibliography]] = [[Bibliographie Algolittéraire]]</div>Emmahttp://www.algolit.net/index.php?title=Alg%C3%A8bre_Invers%C3%A9&diff=10307Algèbre Inversé2017-10-31T23:51:30Z<p>Emma: </p>
<hr />
<div>{|<br />
|-<br />
| Type: || Exploration Algolittéraire<br />
|-<br />
| Technique: || Plongement de mots<br />
|-<br />
| Développé par: || Radim Rehurek et Petr Sojka & Algolit<br />
|}<br />
<br />
L'algèbre est généralement définie comme une généralisation de l'arithmique dans laquelle des lettres représentant des numéros sont combinées selon les règles de l'arithmétique. Dans le traitement automatique du langage naturel l'ordre est inversé: les mots sont représentés par des numéros qui sont générés par les circonstances du texte et de l'algorithme qui les traite. <br />
<br />
Cette exploration utilise [https://radimrehurek.com/gensim/index.html gensim], une boîte à outils open source pour créer des espaces de vecteurs et des modèles thématiques, implémentée en Python. Elle manipule le texte selon les relations mathématiques qui émergent entre les mots, une fois qu'ils ont été tracés dans l'espace de vecteurs. <br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
[[Category:Algoliterary-Encounters]]</div>Emmahttp://www.algolit.net/index.php?title=Rencontres_Algolitt%C3%A9raires&diff=10306Rencontres Algolittéraires2017-10-31T23:48:03Z<p>Emma: </p>
<hr />
<div>__NOTOC__<br />
== Introduction Générale==<br />
* [[Rencontres Algolittéraires - Algolit|Algolit]] - ok<br />
* [[Program]] = [[Programme]] - ok<br />
<br />
==Oeuvres Algolittéraires==<br />
* [[Oulipo recipes]] = [[Recettes Oulipo]] <br />
* [[i-could-have-written-that]] = [[i-could-have-written-that FR]] <br />
* [[The Weekly Address, A model for a politician]] = [[The Weekly Address, Un modèle pour un politicien]]- translated, ok<br />
* [[In the company of CluebotNG]] = [[En compagnie de CluebotNG]] - decide on link to False Positive page<br />
<br />
==Explorations Algolittéraires==<br />
=== Ce que la machine écrit: mise au point sur la sortie===<br />
* [[CHARNN text generator]] = [[Générateur de texte CHARNN]] - ok<br />
* [[You shall know a word by the company it keeps]] = [[Vous connaîtrez un mot par la compagnie qu'il tient]]<br />
<br />
===Comment la machine lit: dissection des réseaux neuronaux===<br />
<br />
====Ensemble de données ====<br />
* [[Many many words]] = [[Beaucoup, beaucoup de mots]] <br />
* [[The data (e)speaks]] = [[La donnée (e)parle]] - needs to be completed<br />
<br />
=====Ensembles de données publics communs=====<br />
* [[Common Crawl]] = [[Common Crawl FR]]<br />
* [[WikiHarass]] = [[WikiHarass FR]]<br />
<br />
=====Ensembles de données Algolittéraires =====<br />
* [[Frankenstein]] = [[Frankenstein FR]]<br />
* [[Learning from Deep Learning]] = [[Apprendre de l'apprentissage profond]]<br />
* [[nearbySaussure]] <br />
* [[astroBlackness]]<br />
<br />
====Des mots aux nombres ====<br />
* [[A Bag of Words]] = [[Un sac de mots]]<br />
* [[A One Hot Vector]] = [[Un vecteur one-hot]] - ok<br />
<br />
====Exploration de paysages Multidimensionnels: le plongement lexical ====<br />
* [[About Word embeddings]] = [[Sur le plongement lexical]] <br />
* [[Crowd Embeddings]] = [[Crowd Embeddings FR]] <br />
<br />
=====Différents portraits du plongement lexical =====<br />
* [[Word embedding Projector]] = [[Projecteur de plongement lexical]] <br />
* [[The GloVe Reader]] = [[Le Lecteur GloVe]] - Decide on Link to GloVe page...<br />
<br />
=====Inspection de la technique =====<br />
* [[word2vec_basic.py]] = [[word2vec_basic.py FR]] - needs check<br />
* [[Reverse Algebra]] = [[Algèbre Inversé]] - needs check<br />
<br />
===Comment une machine pourrait parler ===<br />
* [[We Are A Sentiment Thermometer]] = [[Nous sommes un thermomètre sentimental]]<br />
<br />
== Sources ==<br />
* [[Algoliterary Toolkit]] = [[Boîte à outils Algolittéraire]]<br />
* [[Algoliterary Bibliography]] = [[Bibliographie Algolittéraire]]</div>Emmahttp://www.algolit.net/index.php?title=Un_vecteur_one-hot&diff=10305Un vecteur one-hot2017-10-31T23:47:34Z<p>Emma: </p>
<hr />
<div>{|<br />
|-<br />
| Type: || Exploration algolittéraire<br />
|-<br />
| Technique: || [[Sur le plongement lexical|plongement lexical]] <br />
|-<br />
| Développé par: || Algolit<br />
|}<br />
<br />
Un vecteur d'encodage one-hot est une technique de représentation de mots qui utilise la similitude distributionelle afin de trouver des motifs dans des phrases à base de co-occurence. En général, les vecteurs d'encodage one-hot sont des matrices larges de zéros, composées d'autant de rangées et de colonnes qu'il y a des mots uniques dans la phrase. Un texte composé de 500 mots uniques sera représenté par une matrice de 500x500. En utilisant cette matrice comme outil principal, le script voyagera à travers toutes les phrases du jeu de données et comptera combien de fois un mot apparaît en compagnie d'un autre mot. <br />
<br />
==Recette pour un vecteur d'encodage one-hot==<br />
<br />
Si ceci est notre phrase d’exemple ...<br />
<br />
"Les explorateurs algolittéraires ont découvert un paysage multidimensionnel fait de mots déguisés en nombres."<br />
<br />
... nous travaillons avec les 15 mots suivants...<br />
<pre><br />
algolittéraires<br />
de<br />
découvert<br />
déguisés<br />
en<br />
explorateurs<br />
fait<br />
Les<br />
mots<br />
multidimensionnel<br />
nombres<br />
ont<br />
paysage<br />
un<br />
.<br />
</pre><br />
<br />
... un seul vecteur dans un vecteur unique ressemble à ceci ...<br />
<br />
<pre><br />
[0 0 0 0 0 0 0 0 0 0 0 0 0 0] <br />
</pre><br />
<br />
... et une matrice complète de quinze dimensions à ceci...<br />
<br />
<pre><br />
[[0 0 0 0 0 0 0 0 0 0 0 0 0 0] algolittéraires<br />
[0 0 0 0 0 0 0 0 0 0 0 0 0 0] de<br />
[0 0 0 0 0 0 0 0 0 0 0 0 0 0] découvert<br />
[0 0 0 0 0 0 0 0 0 0 0 0 0 0] déguisés<br />
[0 0 0 0 0 0 0 0 0 0 0 0 0 0] en<br />
[0 0 0 0 0 0 0 0 0 0 0 0 0 0] explorateurs<br />
[0 0 0 0 0 0 0 0 0 0 0 0 0 0] fait<br />
[0 0 0 0 0 0 0 0 0 0 0 0 0 0] Les<br />
[0 0 0 0 0 0 0 0 0 0 0 0 0 0] mots<br />
[0 0 0 0 0 0 0 0 0 0 0 0 0 0] multidimensionnel<br />
[0 0 0 0 0 0 0 0 0 0 0 0 0 0] nombres<br />
[0 0 0 0 0 0 0 0 0 0 0 0 0 0] ont<br />
[0 0 0 0 0 0 0 0 0 0 0 0 0 0] paysage<br />
[0 0 0 0 0 0 0 0 0 0 0 0 0 0] un<br />
[0 0 0 0 0 0 0 0 0 0 0 0 0 0]] .<br />
</pre><br />
<br />
... avec un 0 pour chaque mot unique dans un vocabulaire et une ligne pour chaque mot unique.<br />
<br />
L'étape suivante consiste à compter combien de fois un mot apparaît à côté d'un autre ...<br />
<br />
"Les explorateurs algolittéraires ont découvert un paysage multidimensionnel fait de mots déguisés en nombres."<br />
<br />
<pre><br />
[[0 0 0 1 0 0 0 0 1 0 0 0 0 0] algolittéraires<br />
[0 0 0 0 0 1 0 0 0 0 0 1 0 0] de<br />
[0 0 0 0 1 0 0 0 0 1 0 0 0 0] découvert<br />
[1 0 0 0 0 1 0 0 0 0 0 0 0 0] déguisés<br />
[0 0 1 0 0 0 0 0 0 0 0 0 1 0] en<br />
[0 1 0 1 0 0 0 0 0 0 0 0 0 0] explorateurs<br />
[0 0 0 0 0 0 0 1 1 0 0 0 0 0] fait<br />
[0 0 0 0 0 0 1 0 0 0 1 0 0 0] Les<br />
[1 0 0 0 0 0 1 0 0 0 0 0 0 0] mots<br />
[0 0 1 0 0 0 0 0 0 0 0 0 0 1] multidimensionnel<br />
[0 0 0 0 0 0 0 1 0 0 0 0 1 0] nombres<br />
[0 1 0 0 0 0 0 0 0 0 0 0 0 0] ont<br />
[0 0 0 0 1 0 0 0 0 0 1 0 0 0] paysage<br />
[0 0 0 0 1 0 0 0 0 0 1 0 0 0] un<br />
[0 0 0 0 0 0 0 0 0 1 0 0 0 0]] .<br />
</pre><br />
<br />
''(NDLT: Le tableau ci-dessus est une simulation pour donner une idée du processus, et ne représente donc pas les valeurs réelles pour la phrase en français).''<br />
<br />
==Les scripts de vecteurs d'encodage one-hot d’Algolit==<br />
Deux scripts ont été créés lors d'une des sessions d'Algolit, créant la même matrice mais de manière différente. Pour les télécharger et les exécuter, utilisez les liens suivants: [https://gitlab.constantvzw.org/algolit/algolit/blob/master/algoliterary_encounter/one-hot-vector/one-hot-vector_gijs.py one-hot-vector_gijs.py] & [https://gitlab.constantvzw.org/algolit/algolit/blob/master/algoliterary_encounter/one-hot-vector/one-hot-vector_hans.py one-hot-vector_hans.py]<br />
<br />
== A noter ==<br />
"'' Les mots sont représentés une fois dans un vecteur, donc les mots avec des significations multiples, comme 'banque', sont plus difficiles à représenter. Une recherche existe autour des multivecteurs pour un mot, pour qu'il ne finisse pas au milieu. '' "(Richard Socher, idem.)]<br />
<br />
Pour plus de notes sur cette conférence, visitez http://pad.constantvzw.org/public_pad/neural_networks_3<br />
<br />
<br />
<br />
[[Category:Rencotres-Algolittéraires]]</div>Emmahttp://www.algolit.net/index.php?title=Rencontres_Algolitt%C3%A9raires&diff=10304Rencontres Algolittéraires2017-10-31T23:45:04Z<p>Emma: </p>
<hr />
<div>__NOTOC__<br />
== Introduction Générale==<br />
* [[Rencontres Algolittéraires - Algolit|Algolit]] - ok<br />
* [[Program]] = [[Programme]] - ok<br />
<br />
==Oeuvres Algolittéraires==<br />
* [[Oulipo recipes]] = [[Recettes Oulipo]] <br />
* [[i-could-have-written-that]] = [[i-could-have-written-that FR]] <br />
* [[The Weekly Address, A model for a politician]] = [[The Weekly Address, Un modèle pour un politicien]]- translated, ok<br />
* [[In the company of CluebotNG]] = [[En compagnie de CluebotNG]] - decide on link to False Positive page<br />
<br />
==Explorations Algolittéraires==<br />
=== Ce que la machine écrit: mise au point sur la sortie===<br />
* [[CHARNN text generator]] = [[Générateur de texte CHARNN]] - ok<br />
* [[You shall know a word by the company it keeps]] = [[Vous connaîtrez un mot par la compagnie qu'il tient]]<br />
<br />
===Comment la machine lit: dissection des réseaux neuronaux===<br />
<br />
====Ensemble de données ====<br />
* [[Many many words]] = [[Beaucoup, beaucoup de mots]] <br />
* [[The data (e)speaks]] = [[La donnée (e)parle]] - needs to be completed<br />
<br />
=====Ensembles de données publics communs=====<br />
* [[Common Crawl]] = [[Common Crawl FR]]<br />
* [[WikiHarass]] = [[WikiHarass FR]]<br />
<br />
=====Ensembles de données Algolittéraires =====<br />
* [[Frankenstein]] = [[Frankenstein FR]]<br />
* [[Learning from Deep Learning]] = [[Apprendre de l'apprentissage profond]]<br />
* [[nearbySaussure]] <br />
* [[astroBlackness]]<br />
<br />
====Des mots aux nombres ====<br />
* [[A Bag of Words]] = [[Un sac de mots]]<br />
* [[A One Hot Vector]] = [[Un vecteur one-hot]] - needs check<br />
<br />
====Exploration de paysages Multidimensionnels: le plongement lexical ====<br />
* [[About Word embeddings]] = [[Sur le plongement lexical]] <br />
* [[Crowd Embeddings]] = [[Crowd Embeddings FR]] <br />
<br />
=====Différents portraits du plongement lexical =====<br />
* [[Word embedding Projector]] = [[Projecteur de plongement lexical]] <br />
* [[The GloVe Reader]] = [[Le Lecteur GloVe]] - Decide on Link to GloVe page...<br />
<br />
=====Inspection de la technique =====<br />
* [[word2vec_basic.py]] = [[word2vec_basic.py FR]] - needs check<br />
* [[Reverse Algebra]] = [[Algèbre Inversé]] - needs check<br />
<br />
===Comment une machine pourrait parler ===<br />
* [[We Are A Sentiment Thermometer]] = [[Nous sommes un thermomètre sentimental]]<br />
<br />
== Sources ==<br />
* [[Algoliterary Toolkit]] = [[Boîte à outils Algolittéraire]]<br />
* [[Algoliterary Bibliography]] = [[Bibliographie Algolittéraire]]</div>Emmahttp://www.algolit.net/index.php?title=G%C3%A9n%C3%A9rateur_de_texte_CHARNN&diff=10303Générateur de texte CHARNN2017-10-31T23:44:23Z<p>Emma: </p>
<hr />
<div>{|<br />
|-<br />
| Type: || Exploration Algolittéraire<br />
|-<br />
| Dataset(s): || L'Oeuvre Complète de Shakespeare & Jules Verne, l'Archive de Correspondance Email d'Enron<br />
|-<br />
| Technique: || Torch, Cuda, Réseau Neuronal Récurrent, LSTM<br />
|-<br />
| Développé par: || Justin Johnson (version originale: Andrej Karpathy)<br />
|}<br />
<br />
Le générateur de text CharRNN produit du texte à partir d'un modèle CharRNN. Ceci est un réseu neuronal récurrent qui lit un texte lettre par lettre. Lors de la phase d'entraînement le modèle analyse quelles lettres se suivent et apprend la probabilité de la lettre suivante sur base de la lettre qui précède. La taille de la mémoire du modèle varie. Pendant le processus d'apprentissage, le modèle peut 'oublier' de l'information puisque le réseau est construit en utilisant des modules de 'Long Short Term Memory'.<br />
<br />
Une des premières choses que le modèle apprend est que les mots sont séparés par des espaces et que les phrases se séparent par un point et un espace, suivis d'une majuscule. Même si le modèle donne l'impression d'avoir appris qu'un texte est composé de mots et phrases multiples, en réalité il a appris qu'il est fort probable qu'une certaine quantité de lettres soit suivie d'un espace; et qu'une séries de lettres et espaces font augmenter la probabilité d'un point, suivi d'un espace et d'une majuscule. <br />
<br />
L'interface du générateur de texte s'est entraîné sur différents jeux de données qui peuvent être testés. <br />
Le modèle est basé sur un script de Justin Johnson: https://github.com/jcjohnson/torch-rnn<br />
Ce script est une version améliorée du script original par Andrej Karpathy: https://github.com/karpathy/char-rnn<br />
<br />
[[Category:Rencontres-Algolittéraires]]</div>Emmahttp://www.algolit.net/index.php?title=Programme&diff=10302Programme2017-10-31T23:41:24Z<p>Emma: </p>
<hr />
<div>__NOTOC__<br />
==Jeudi 9 novembre==<br />
*18h30 : vernissage de l’exposition<br />
*19h & 20h30 : visite guidée de l’exposition<br />
<br />
==Vendredi 10 novembre: conférences==<br />
===Modèles génératifs et sciences humaines numériques : Vers une littérature synthétique, par Mike Kestemont===<br />
[http://www.mike-kestemont.org/ Mike Kestemont] est professeur adjoint au département de littérature de l’Université d’Anvers en Belgique. Il est chercheur en analyse de texte informatique, en particulier les textes historiques. L’attribution d’auteur est l’un de ses principaux domaines d’expertise. Il conçoit des algorithmes de calcul qui peuvent identifier automatiquement les auteurs de textes anonymes grâce à l’analyse quantitative de styles d’écriture individuels.<br />
Pour l’événement annuel ’Nederland Leest !’, il a co-conçu Asibot, un outil d’écriture formé par des réseaux neuronaux récurrents, basé sur plus de 4000 romans néerlandais. L’outil a été utilisé par le romancier néerlandais Ronald Giphart pour écrire une histoire de fiction supplémentaire à la réédition de « I Robot » d’Asimov début novembre.<br />
Mike présentera les progrès récents dans l’apprentissage par machine - et l’évolution de son statut culturel - en mettant l’accent sur les modèles générateurs, c’est-à-dire des modèles qui synthétisent de nouvelles données artificielles, à l’inverse d’une modélisation de données préexistantes. Cela comprendra une enquête sur certaines discussions éthiques en cours dans le monde de l’IA.<br />
<br />
===Le projet ORES de Wikipedia, par Amir Sarabadani===<br />
L’ingénieur de logiciels [https://wikimediafoundation.org/wiki/User:Ladsgroup Amir Sarabadani] présentera le projet [https://www.mediawiki.org/wiki/ORES ORES]. « The Objective Revision Evaluation Service » (Le service objectif de révision et d’évaluation) est un service Web et une API qui fournit l’apprentissage par machine comme service pour les projets Wikimedia. Le système est conçu pour aider à automatiser le travail-wiki critique - par exemple, la détection et la suppression de vandalisme. À l’heure actuelle, les deux types généraux de notation que ORES génère concernent la « qualité d’édition » et la « qualité de l’article ».<br />
<br />
Amir est actif pour Wikipedia depuis 2006, en tant que sysop, bureaucrate et vérificateur d’adresses IP pour le Wikipédia perse et développeur pour les projets Wikimedia. Il est opérateur de Dexbot et l’un des développeurs du framework pywikibot et travaille comme ingénieur de logiciels pour Wikimedia Allemagne. Amir est né en 1992 à Téhéran en Iran et a étudié la physique. Il vit actuellement à Berlin en Allemagne.<br />
<br />
==Samedi 11 novembre==<br />
*de 13h à 19h : atelier ’Variation sur un clin d’oeil’, par Nicolas Malevé<br />
<br />
===Variation sur un clin d’oeil===<br />
Dans le cadre des Rencontres algolittéraires à la Maison du Livre, Nicolas Malevé proposera un atelier autour de la vision par ordinateur.<br />
<br />
Le langage, les mots, l’écriture, les descriptions et les formulations sont intimement liés à la façon dont les millions d’images sont organisées sur Internet. Au fil des ans, des techniques algorithmiques ont évolué en créant une nouvelle articulation des relations entre vision, information et connaissance. La génération récente d’algorithmes qui alimentent la vision par ordinateur utilise fortement les techniques d’apprentissage par machine. Comme d’autres algorithmes, les algorithmes d’apprentissage par machine doivent être programmés, mais ils doivent également être formés. L’intelligence artificielle contemporaine vise à « enseigner » les capacités cognitives des humains aux machines.<br />
<br />
Mais comment les informaticiens comprennent-ils la vision humaine et comment la traduisent-ils dans un concept avec lequel ils peuvent travailler ? Ils s’intéressent à un aspect très spécifique de la vision humaine : l’aperçu, le regard, le moment de la perception qui permet de prendre des décisions immédiates, une perception proche du réflexe.<br />
Dans cet atelier, Nicolas présentera une méthode pour assigner des relations entre les images et les mots, comme décrit dans « Qu’est-ce que nous percevons d’un coup d’œil sur une scène du monde réel ? »(Fei Fei et al., 2007). En proposant une variation sur cette méthode, il met l’accent sur l’expérience, qui ne consiste pas à recueillir des données quantitatives des participants, mais à discuter avec les participants de ce qui est en jeu dans l’expérience et la façon dont elle modélise la vision.<br />
<br />
La participation est réservée à 15 personnes. <br />
<br />
==Dimanche 12 novembre==<br />
*de 12h à 18h : atelier ’Vers une Gentillesse Collective ?’ par Algolit<br />
<br />
==Vers une Gentillesse Collective ?==<br />
« Nous Sommes Un Thermomètre Sentimental » est l’une des installations de l’exposition des Rencontres algolittéraires. Elle forme aussi le point de départ de cet atelier.<br />
<br />
Elle pose des questions aux modèles de langage couramment utilisés basés sur l’apprentissage automatique, comme GloVe et word2vec. En utilisant une partie d’Internet comme données de formation, ces modèles sont considérés comme apprenant de « l’intelligence collective ».<br />
<br />
« Nous Sommes Un Thermomètre Sentimental » contribue des points à des phrases écrites, en les considérant comme plutôt positives ou négatives. Cette technique, également appelée analyse du sentiment, est largement utilisée pour mesurer entre autres le succès de campagnes de marketing. L’installation est basée sur un script de l’ingénieur de logiciels Rob Speer, qui démontre un biais raciste intégré de façon automatique une fois que le modèle commence à juger des phrases spécifiques à la culture. <br />
« Nous Sommes Un Thermomètre Sentimental » est présenté comme un cas pour soulever des questions de types très différents. Dans cet atelier, les membres d’Algolit présenteront le script et étendront les différentes étapes et composants utilisés. Selon les intérêts et les compétences, le script peut être utilisé pour poser d’autres questions à cette inconscience construite par algorithme. Ou il peut être modifié de différentes façons, pour offrir une meilleure compréhension et des points de vue alternatifs.<br />
L’atelier se déroulera en anglais.<br />
<br />
Avec : Manetta Berends, Cristina Cochior, Gijs De Heij, Hans Lammerant, An Mertens<br />
<br />
[[Category:Rencontres-Algolittéraires]]</div>Emmahttp://www.algolit.net/index.php?title=Rencontres_Algolitt%C3%A9raires&diff=10301Rencontres Algolittéraires2017-10-31T23:40:30Z<p>Emma: </p>
<hr />
<div>__NOTOC__<br />
== Introduction Générale==<br />
* [[Rencontres Algolittéraires - Algolit|Algolit]] - ok<br />
* [[Program]] = [[Programme]] - ok<br />
<br />
==Oeuvres Algolittéraires==<br />
* [[Oulipo recipes]] = [[Recettes Oulipo]] <br />
* [[i-could-have-written-that]] = [[i-could-have-written-that FR]] <br />
* [[The Weekly Address, A model for a politician]] = [[The Weekly Address, Un modèle pour un politicien]]- translated, ok<br />
* [[In the company of CluebotNG]] = [[En compagnie de CluebotNG]] - decide on link to False Positive page<br />
<br />
==Explorations Algolittéraires==<br />
=== Ce que la machine écrit: mise au point sur la sortie===<br />
* [[CHARNN text generator]] = [[Générateur de texte CHARNN]] - needs check<br />
* [[You shall know a word by the company it keeps]] = [[Vous connaîtrez un mot par la compagnie qu'il tient]]<br />
<br />
===Comment la machine lit: dissection des réseaux neuronaux===<br />
<br />
====Ensemble de données ====<br />
* [[Many many words]] = [[Beaucoup, beaucoup de mots]] <br />
* [[The data (e)speaks]] = [[La donnée (e)parle]] - needs to be completed<br />
<br />
=====Ensembles de données publics communs=====<br />
* [[Common Crawl]] = [[Common Crawl FR]]<br />
* [[WikiHarass]] = [[WikiHarass FR]]<br />
<br />
=====Ensembles de données Algolittéraires =====<br />
* [[Frankenstein]] = [[Frankenstein FR]]<br />
* [[Learning from Deep Learning]] = [[Apprendre de l'apprentissage profond]]<br />
* [[nearbySaussure]] <br />
* [[astroBlackness]]<br />
<br />
====Des mots aux nombres ====<br />
* [[A Bag of Words]] = [[Un sac de mots]]<br />
* [[A One Hot Vector]] = [[Un vecteur one-hot]] - needs check<br />
<br />
====Exploration de paysages Multidimensionnels: le plongement lexical ====<br />
* [[About Word embeddings]] = [[Sur le plongement lexical]] <br />
* [[Crowd Embeddings]] = [[Crowd Embeddings FR]] <br />
<br />
=====Différents portraits du plongement lexical =====<br />
* [[Word embedding Projector]] = [[Projecteur de plongement lexical]] <br />
* [[The GloVe Reader]] = [[Le Lecteur GloVe]] - Decide on Link to GloVe page...<br />
<br />
=====Inspection de la technique =====<br />
* [[word2vec_basic.py]] = [[word2vec_basic.py FR]] - needs check<br />
* [[Reverse Algebra]] = [[Algèbre Inversé]] - needs check<br />
<br />
===Comment une machine pourrait parler ===<br />
* [[We Are A Sentiment Thermometer]] = [[Nous sommes un thermomètre sentimental]]<br />
<br />
== Sources ==<br />
* [[Algoliterary Toolkit]] = [[Boîte à outils Algolittéraire]]<br />
* [[Algoliterary Bibliography]] = [[Bibliographie Algolittéraire]]</div>Emmahttp://www.algolit.net/index.php?title=Rencontres_Algolitt%C3%A9raires&diff=10300Rencontres Algolittéraires2017-10-31T23:39:54Z<p>Emma: </p>
<hr />
<div>__NOTOC__<br />
== Introduction Générale==<br />
* [[Rencontres Algolittéraires - Algolit|Algolit]] - ok<br />
* [[Program]] = [[Programme]] - ok<br />
<br />
==Oeuvres Algolittéraires==<br />
* [[Oulipo recipes]] = [[Recettes Oulipo]] <br />
* [[i-could-have-written-that]] = [[i-could-have-written-that FR]] <br />
* [[The Weekly Address, A model for a politician]] = [[The Weekly Address, Un modèle pour un politicien]]- needs check<br />
* [[In the company of CluebotNG]] = [[En compagnie de CluebotNG]] - decide on link to False Positive page<br />
<br />
==Explorations Algolittéraires==<br />
=== Ce que la machine écrit: mise au point sur la sortie===<br />
* [[CHARNN text generator]] = [[Générateur de texte CHARNN]] - needs check<br />
* [[You shall know a word by the company it keeps]] = [[Vous connaîtrez un mot par la compagnie qu'il tient]]<br />
<br />
===Comment la machine lit: dissection des réseaux neuronaux===<br />
<br />
====Ensemble de données ====<br />
* [[Many many words]] = [[Beaucoup, beaucoup de mots]] <br />
* [[The data (e)speaks]] = [[La donnée (e)parle]] - needs to be completed<br />
<br />
=====Ensembles de données publics communs=====<br />
* [[Common Crawl]] = [[Common Crawl FR]]<br />
* [[WikiHarass]] = [[WikiHarass FR]]<br />
<br />
=====Ensembles de données Algolittéraires =====<br />
* [[Frankenstein]] = [[Frankenstein FR]]<br />
* [[Learning from Deep Learning]] = [[Apprendre de l'apprentissage profond]]<br />
* [[nearbySaussure]] <br />
* [[astroBlackness]]<br />
<br />
====Des mots aux nombres ====<br />
* [[A Bag of Words]] = [[Un sac de mots]]<br />
* [[A One Hot Vector]] = [[Un vecteur one-hot]] - needs check<br />
<br />
====Exploration de paysages Multidimensionnels: le plongement lexical ====<br />
* [[About Word embeddings]] = [[Sur le plongement lexical]] <br />
* [[Crowd Embeddings]] = [[Crowd Embeddings FR]] <br />
<br />
=====Différents portraits du plongement lexical =====<br />
* [[Word embedding Projector]] = [[Projecteur de plongement lexical]] <br />
* [[The GloVe Reader]] = [[Le Lecteur GloVe]] - Decide on Link to GloVe page...<br />
<br />
=====Inspection de la technique =====<br />
* [[word2vec_basic.py]] = [[word2vec_basic.py FR]] - needs check<br />
* [[Reverse Algebra]] = [[Algèbre Inversé]] - needs check<br />
<br />
===Comment une machine pourrait parler ===<br />
* [[We Are A Sentiment Thermometer]] = [[Nous sommes un thermomètre sentimental]]<br />
<br />
== Sources ==<br />
* [[Algoliterary Toolkit]] = [[Boîte à outils Algolittéraire]]<br />
* [[Algoliterary Bibliography]] = [[Bibliographie Algolittéraire]]</div>Emmahttp://www.algolit.net/index.php?title=The_Weekly_Address,_Un_mod%C3%A8le_pour_un_politicien&diff=10299The Weekly Address, Un modèle pour un politicien2017-10-31T23:38:55Z<p>Emma: Created page with "{| |- | Type: || Oeuvre Algolittéraire |- | Données: || The Weekly Address, videos on [https://www.youtube.com/channel/UCDGknzyQfNiThyt4vg4MlTQ/search?query=weekly+address..."</p>
<hr />
<div>{|<br />
|-<br />
| Type: || Oeuvre Algolittéraire<br />
|-<br />
| Données: || The Weekly Address, videos on [https://www.youtube.com/channel/UCDGknzyQfNiThyt4vg4MlTQ/search?query=weekly+address youtube]<br />
|-<br />
| Technique: || Markov Chain, PocketSphinx<br />
|-<br />
| Développé par: || Gijs de Heij<br />
|}<br />
<br />
The Weekly Address, un modèle pour un politicien, étudie le rôle du langage et des profils d'image en politique et leur capacité à influencer notre jugement.<br />
<br />
L'installation utilise la reconnaissance de parole et l'apprentissage automatique pour analyser les modèles des façons de parler d'un politicien. Alors que l'apprentissage automatique reconnaît des modèles et produit des résultats fiables et reproductibles basés sur un ensemble de données, les politiciens construisent des modèles à travers la rhétorique, en répétant leur message pour transmettre leur propre vérité.<br />
<br />
L'installation est basée sur une base de données qui a été générée en laissant un algorithme de reconnaissance vocale écouter l'adresse hebdomadaire d'Obama. Les mots reconnus ont été stockés sous forme de texte et analysés à l'aide d'une chaîne de Markov. Il y a deux interfaces à cette base de données, l'une montrant des phrases répétées ou des combinaisons de mots et l'autre permettant la génération de nouveaux discours.</div>Emmahttp://www.algolit.net/index.php?title=Rencontres_Algolitt%C3%A9raires&diff=10298Rencontres Algolittéraires2017-10-31T23:35:26Z<p>Emma: </p>
<hr />
<div>__NOTOC__<br />
== Introduction Générale==<br />
* [[Rencontres Algolittéraires - Algolit|Algolit]] - needs check<br />
* [[Program]] = [[Programme]] - needs check<br />
<br />
==Oeuvres Algolittéraires==<br />
* [[Oulipo recipes]] = [[Recettes Oulipo]] <br />
* [[i-could-have-written-that]] = [[i-could-have-written-that FR]] <br />
* [[The Weekly Address, A model for a politician]] = [[The Weekly Address, Un modèle pour un politicien]]- needs check<br />
* [[In the company of CluebotNG]] = [[En compagnie de CluebotNG]] - decide on link to False Positive page<br />
<br />
==Explorations Algolittéraires==<br />
=== Ce que la machine écrit: mise au point sur la sortie===<br />
* [[CHARNN text generator]] = [[Générateur de texte CHARNN]] - needs check<br />
* [[You shall know a word by the company it keeps]] = [[Vous connaîtrez un mot par la compagnie qu'il tient]]<br />
<br />
===Comment la machine lit: dissection des réseaux neuronaux===<br />
<br />
====Ensemble de données ====<br />
* [[Many many words]] = [[Beaucoup, beaucoup de mots]] <br />
* [[The data (e)speaks]] = [[La donnée (e)parle]] - needs to be completed<br />
<br />
=====Ensembles de données publics communs=====<br />
* [[Common Crawl]] = [[Common Crawl FR]]<br />
* [[WikiHarass]] = [[WikiHarass FR]]<br />
<br />
=====Ensembles de données Algolittéraires =====<br />
* [[Frankenstein]] = [[Frankenstein FR]]<br />
* [[Learning from Deep Learning]] = [[Apprendre de l'apprentissage profond]]<br />
* [[nearbySaussure]] <br />
* [[astroBlackness]]<br />
<br />
====Des mots aux nombres ====<br />
* [[A Bag of Words]] = [[Un sac de mots]]<br />
* [[A One Hot Vector]] = [[Un vecteur one-hot]] - needs check<br />
<br />
====Exploration de paysages Multidimensionnels: le plongement lexical ====<br />
* [[About Word embeddings]] = [[Sur le plongement lexical]] <br />
* [[Crowd Embeddings]] = [[Crowd Embeddings FR]] <br />
<br />
=====Différents portraits du plongement lexical =====<br />
* [[Word embedding Projector]] = [[Projecteur de plongement lexical]] <br />
* [[The GloVe Reader]] = [[Le Lecteur GloVe]] - Decide on Link to GloVe page...<br />
<br />
=====Inspection de la technique =====<br />
* [[word2vec_basic.py]] = [[word2vec_basic.py FR]] - needs check<br />
* [[Reverse Algebra]] = [[Algèbre Inversé]] - needs check<br />
<br />
===Comment une machine pourrait parler ===<br />
* [[We Are A Sentiment Thermometer]] = [[Nous sommes un thermomètre sentimental]]<br />
<br />
== Sources ==<br />
* [[Algoliterary Toolkit]] = [[Boîte à outils Algolittéraire]]<br />
* [[Algoliterary Bibliography]] = [[Bibliographie Algolittéraire]]</div>Emmahttp://www.algolit.net/index.php?title=Nous_sommes_un_thermom%C3%A8tre_sentimental&diff=10297Nous sommes un thermomètre sentimental2017-10-31T23:33:21Z<p>Emma: </p>
<hr />
<div>{|<br />
|-<br />
| Type: || Exploration Algolittéraire<br />
|-<br />
| Données: || Glove, 1984 by George Orwell, Frankenstein by Mary Shelly<br />
|-<br />
| Technique: || [[Sur le plongement lexical|plongement lexical]], Scikit Learn<br />
|-<br />
| Développé par: || Common Crawl/GloVe, Rob Speer/ConceptNet, Algolit<br />
|}<br />
<br />
Un modèle de langage raconte son histoire de manière métaphorique. Vous êtes guidés dans un monde multidimensionnel où des intelligences artificielles mènent des explorations, parcourent des paysages et créent des cartes qui leur permettent de suivre des chemins de prédictions.<br />
<br />
''Nous sommes un thermomètre sentimental'' est un être collectif basé sur un apprentissage automatique supervisé classique et sur des plongements de mots GloVe pré-formés dans des réseaux neuronaux non supervisés. Ils peuvent soit juger une phrase sur son sentiment positif ou négatif, soit vous guider à travers ses composantes et montrer comment ils sont faits, quels choix ont conduit à leur fonctionnement, qui a développé chacun des éléments, comment chaque partie peut être remplacée. En utilisant l'intelligence collective d'Internet comme donnée d'apprentissage, ils montrent comment leurs scores et jugements sont influencés par les données avec lesquelles ils ont été formés. Nos préjugés et nos clichés humains sont transmis aux machines, leur insufflant nos préjugés racistes et autres.<br />
<br />
Basé sur un script de Rob Speer: https://blog.conceptnet.io/2017/07/13/how-to-make-a-racist-ai-without-really-trying/<br />
<br />
[[Category:Rencontres-Algolittéraires]]</div>Emmahttp://www.algolit.net/index.php?title=Nous_sommes_un_thermom%C3%A8tre_sentimental&diff=10296Nous sommes un thermomètre sentimental2017-10-31T23:32:52Z<p>Emma: Created page with "{| |- | Type: || Exploration Algolittéraire |- | Données: || Glove, 1984 by George Orwell, Frankenstein by Mary Shelly |- | Technique: || Sur le plongement lexical|plongem..."</p>
<hr />
<div>{|<br />
|-<br />
| Type: || Exploration Algolittéraire<br />
|-<br />
| Données: || Glove, 1984 by George Orwell, Frankenstein by Mary Shelly<br />
|-<br />
| Technique: || [[Sur le plongement lexical|plongement lexical]], Scikit Learn<br />
|-<br />
| Développé par: || Common Crawl/GloVe, Rob Speer/ConceptNet, Algolit<br />
|}<br />
<br />
Un modèle de langage raconte son histoire de manière métaphorique. Vous êtes guidés dans un monde multidimensionnel où des intelligences artificielles mènent des explorations, parcourent des paysages et créent des cartes qui leur permettent de suivre des chemins de prédictions.<br />
<br />
''Nous sommes un thermomètre de sentiments'' est un être collectif basé sur un apprentissage automatique supervisé classique et sur des plongements de mots GloVe pré-formés dans des réseaux neuronaux non supervisés. Ils peuvent soit juger une phrase sur son sentiment positif ou négatif, soit vous guider à travers ses composantes et montrer comment ils sont faits, quels choix ont conduit à leur fonctionnement, qui a développé chacun des éléments, comment chaque partie peut être remplacée. En utilisant l'intelligence collective d'Internet comme donnée d'apprentissage, ils montrent comment leurs scores et jugements sont influencés par les données avec lesquelles ils ont été formés. Nos préjugés et nos clichés humains sont transmis aux machines, leur insufflant nos préjugés racistes et autres.<br />
<br />
Basé sur un script de Rob Speer: https://blog.conceptnet.io/2017/07/13/how-to-make-a-racist-ai-without-really-trying/<br />
<br />
[[Category:Rencontres-Algolittéraires]]</div>Emmahttp://www.algolit.net/index.php?title=Rencontres_Algolitt%C3%A9raires&diff=10295Rencontres Algolittéraires2017-10-31T23:32:34Z<p>Emma: updated title in accordance with program</p>
<hr />
<div>__NOTOC__<br />
== Introduction Générale==<br />
* [[Rencontres Algolittéraires - Algolit|Algolit]] - needs check<br />
* [[Program]] = [[Programme]] - needs check<br />
<br />
==Oeuvres Algolittéraires==<br />
* [[Oulipo recipes]] = [[Recettes Oulipo]] <br />
* [[i-could-have-written-that]] = [[i-could-have-written-that FR]] <br />
* [[The Weekly Address, A model for a politician]] - needs check<br />
* [[In the company of CluebotNG]] = [[En compagnie de CluebotNG]] - decide on link to False Positive page<br />
<br />
==Explorations Algolittéraires==<br />
=== Ce que la machine écrit: mise au point sur la sortie===<br />
* [[CHARNN text generator]] = [[Générateur de texte CHARNN]] - needs check<br />
* [[You shall know a word by the company it keeps]] = [[Vous connaîtrez un mot par la compagnie qu'il tient]]<br />
<br />
===Comment la machine lit: dissection des réseaux neuronaux===<br />
<br />
====Ensemble de données ====<br />
* [[Many many words]] = [[Beaucoup, beaucoup de mots]] <br />
* [[The data (e)speaks]] = [[La donnée (e)parle]] - needs to be completed<br />
<br />
=====Ensembles de données publics communs=====<br />
* [[Common Crawl]] = [[Common Crawl FR]]<br />
* [[WikiHarass]] = [[WikiHarass FR]]<br />
<br />
=====Ensembles de données Algolittéraires =====<br />
* [[Frankenstein]] = [[Frankenstein FR]]<br />
* [[Learning from Deep Learning]] = [[Apprendre de l'apprentissage profond]]<br />
* [[nearbySaussure]] <br />
* [[astroBlackness]]<br />
<br />
====Des mots aux nombres ====<br />
* [[A Bag of Words]] = [[Un sac de mots]]<br />
* [[A One Hot Vector]] = [[Un vecteur one-hot]] - needs check<br />
<br />
====Exploration de paysages Multidimensionnels: le plongement lexical ====<br />
* [[About Word embeddings]] = [[Sur le plongement lexical]] <br />
* [[Crowd Embeddings]] = [[Crowd Embeddings FR]] <br />
<br />
=====Différents portraits du plongement lexical =====<br />
* [[Word embedding Projector]] = [[Projecteur de plongement lexical]] <br />
* [[The GloVe Reader]] = [[Le Lecteur GloVe]] - Decide on Link to GloVe page...<br />
<br />
=====Inspection de la technique =====<br />
* [[word2vec_basic.py]] = [[word2vec_basic.py FR]] - needs check<br />
* [[Reverse Algebra]] = [[Algèbre Inversé]] - needs check<br />
<br />
===Comment une machine pourrait parler ===<br />
* [[We Are A Sentiment Thermometer]] = [[Nous sommes un thermomètre sentimental]]<br />
<br />
== Sources ==<br />
* [[Algoliterary Toolkit]] = [[Boîte à outils Algolittéraire]]<br />
* [[Algoliterary Bibliography]] = [[Bibliographie Algolittéraire]]</div>Emmahttp://www.algolit.net/index.php?title=Programme&diff=10294Programme2017-10-31T23:31:07Z<p>Emma: </p>
<hr />
<div>__NOTOC__<br />
==Jeudi 9 novembre==<br />
*18h30 : vernissage de l’exposition<br />
*19h & 20h30 : visite guidée de l’exposition<br />
<br />
==Vendredi 10 novembre: conférences==<br />
===Modèles génératifs et sciences humaines numériques : Vers une littérature synthétique, par Mike Kestemont===<br />
[http://www.mike-kestemont.org/ Mike Kestemont] est professeur adjoint au département de littérature de l’Université d’Anvers en Belgique. Il est chercheur en analyse de texte informatique, en particulier les textes historiques. L’attribution d’auteur est l’un de ses principaux domaines d’expertise. Il conçoit des algorithmes de calcul qui peuvent identifier automatiquement les auteurs de textes anonymes grâce à l’analyse quantitative de styles d’écriture individuels.<br />
Pour l’événement annuel ’Nederland Leest !’, il a co-conçu Asibot, un outil d’écriture formé par des réseaux de neurones récurrents, basé sur plus de 4000 romans néerlandais. L’outil a été utilisé par le romancier néerlandais Ronald Giphart pour écrire une histoire de fiction supplémentaire à la réédition de « I Robot » d’Asimov début novembre.<br />
Mike présentera les progrès récents dans l’apprentissage par machine - et l’évolution de son statut culturel - en mettant l’accent sur les modèles générateurs, c’est-à-dire des modèles qui synthétisent de nouvelles données artificielles, à l’inverse d’une modélisation de données préexistantes. Cela comprendra une enquête sur certaines discussions éthiques en cours dans le monde de l’IA.<br />
<br />
===Le projet ORES de Wikipedia, par Amir Sarabadani===<br />
L’ingénieur de logiciels [https://wikimediafoundation.org/wiki/User:Ladsgroup Amir Sarabadani] présentera le projet [https://www.mediawiki.org/wiki/ORES ORES]. « The Objective Revision Evaluation Service » (Le service objectif de révision et d’évaluation) est un service Web et une API qui fournit l’apprentissage par machine comme service pour les projets Wikimedia. Le système est conçu pour aider à automatiser le travail-wiki critique - par exemple, la détection et la suppression de vandalisme. À l’heure actuelle, les deux types généraux de notation que ORES génère concernent la « qualité d’édition » et la « qualité de l’article ».<br />
<br />
Amir est actif pour Wikipedia depuis 2006, en tant que sysop, bureaucrate et vérificateur d’adresses IP pour le Wikipédia perse et développeur pour les projets Wikimedia. Il est opérateur de Dexbot et l’un des développeurs du framework pywikibot et travaille comme ingénieur de logiciels pour Wikimedia Allemagne. Amir est né en 1992 à Téhéran en Iran et a étudié la physique. Il vit actuellement à Berlin en Allemagne.<br />
<br />
==Samedi 11 novembre==<br />
*de 13h à 19h : atelier ’Variation sur un clin d’oeil’, par Nicolas Malevé<br />
<br />
===Variation sur un clin d’oeil===<br />
Dans le cadre des Rencontres algolittéraires à la Maison du Livre, Nicolas Malevé proposera un atelier autour de la vision par ordinateur.<br />
<br />
Le langage, les mots, l’écriture, les descriptions et les formulations sont intimement liés à la façon dont les millions d’images sont organisées sur Internet. Au fil des ans, des techniques algorithmiques ont évolué en créant une nouvelle articulation des relations entre vision, information et connaissance. La génération récente d’algorithmes qui alimentent la vision par ordinateur utilise fortement les techniques d’apprentissage par machine. Comme d’autres algorithmes, les algorithmes d’apprentissage par machine doivent être programmés, mais ils doivent également être formés. L’intelligence artificielle contemporaine vise à « enseigner » les capacités cognitives des humains aux machines.<br />
<br />
Mais comment les informaticiens comprennent-ils la vision humaine et comment la traduisent-ils dans un concept avec lequel ils peuvent travailler ? Ils s’intéressent à un aspect très spécifique de la vision humaine : l’aperçu, le regard, le moment de la perception qui permet de prendre des décisions immédiates, une perception proche du réflexe.<br />
Dans cet atelier, Nicolas présentera une méthode pour assigner des relations entre les images et les mots, comme décrit dans « Qu’est-ce que nous percevons d’un coup d’œil sur une scène du monde réel ? »(Fei Fei et al., 2007). En proposant une variation sur cette méthode, il met l’accent sur l’expérience, qui ne consiste pas à recueillir des données quantitatives des participants, mais à discuter avec les participants de ce qui est en jeu dans l’expérience et la façon dont elle modélise la vision.<br />
<br />
La participation est réservée à 15 personnes. <br />
<br />
==Dimanche 12 novembre==<br />
*de 12h à 18h : atelier ’Vers une Gentillesse Collective ?’ par Algolit<br />
<br />
==Vers une Gentillesse Collective ?==<br />
« Nous Sommes Un Thermomètre Sentimental » est l’une des installations de l’exposition des Rencontres algolittéraires. Elle forme aussi le point de départ de cet atelier.<br />
<br />
Elle pose des questions aux modèles de langage couramment utilisés basés sur l’apprentissage automatique, comme GloVe et word2vec. En utilisant une partie d’Internet comme données de formation, ces modèles sont considérés comme apprenant de « l’intelligence collective ».<br />
<br />
« Nous Sommes Un Thermomètre Sentimental » contribue des points à des phrases écrites, en les considérant comme plutôt positives ou négatives. Cette technique, également appelée analyse du sentiment, est largement utilisée pour mesurer entre autres le succès de campagnes de marketing. L’installation est basée sur un script de l’ingénieur de logiciels Rob Speer, qui démontre un biais raciste intégré de façon automatique une fois que le modèle commence à juger des phrases spécifiques à la culture. <br />
« Nous Sommes Un Thermomètre Sentimental » est présenté comme un cas pour soulever des questions de types très différents. Dans cet atelier, les membres d’Algolit présenteront le script et étendront les différentes étapes et composants utilisés. Selon les intérêts et les compétences, le script peut être utilisé pour poser d’autres questions à cette inconscience construite par algorithme. Ou il peut être modifié de différentes façons, pour offrir une meilleure compréhension et des points de vue alternatifs.<br />
L’atelier se déroulera en anglais.<br />
<br />
Avec : Manetta Berends, Cristina Cochior, Gijs De Heij, Hans Lammerant, An Mertens<br />
<br />
[[Category:Rencontres-Algolittéraires]]</div>Emmahttp://www.algolit.net/index.php?title=Un_Itin%C3%A9raire_Algolitt%C3%A9raire&diff=10293Un Itinéraire Algolittéraire2017-10-31T23:24:20Z<p>Emma: </p>
<hr />
<div>'''Les Rencontres Algolittéraires''' explorent la perspective narrative des algorithmes d'apprentissage automatique comme des récits lisibles et ludiques. En prenant des modèles implémentés comme point de départ, Les Rencontres Algolittéraires essaient d'avoir une emprise sur quelques matériaux qui co-composent l'Internet. <br />
<br />
Dans le cadre de la Saison des Cultures Numériques, la Maison du Livre ouvrira son espace à Algolit pendant trois jours. Le groupe y présentera des conférences, des ateliers et une modeste exposition autour de la perspective narrative des modèles d’apprentissage automatique. Ceux-ci sont construits à l’aide d’algorithmes sur base d’algèbre et de statistiques. Souvent ils fonctionnent comme des algorithmes ’black-box’ (opaques), mais ils sont cependant utilisés quotidiennement dans de nombreuses applications informatiques à grand échelle : moteurs de recherche, applications de traduction automatique, profiling pour la publicité, reconnaissance faciale pour les protocoles d’identificiation etc.<br />
<br />
Face à l’omniprésence des modèles d’apprentissage automatique, les membres d’Algolit ont senti l’envie d’y distiller des expérimentations de lecture et d’écriture. L’exécution de parties de processus de création de ces modèles en contexte littéraire les rendent plus lisibles pour un public non inité. Il s’agit là d’une manière de se réapproprier quelques éléments de décision qui sont généralement cachés et de donner forme aux récits contemporains à travers l’organisation de l’information.<br />
Algolit est un groupe de travail autour des algorithmes et de la littérature, initié au sein de l’asbl Constant, active dans les domaines de l’art, des médias et de la technologie à Bruxelles. Dans l’esprit de l’Oulipo, les participants partagent leurs expériences en code et écriture et explorent de nouveaux territoires lors de rencontres mensuelles.<br />
<br />
L'exposition des Rencontres Littéraires est composée de deux parties. Les Oeuvres Algolittéraires sont des créations de membres d'Algolit, qui ont déjà été montrées et performées dans de différents contextes. Les Explorations Algolittéraires sont composées d'une collection d'expérimentations qui montrent comment le groupe a été à la découverte des algorithmes d'apprentissage automatique. Elles se lisent comme une méthodologie qui mène à la compréhension du code de modèles existents, en essayant des scripts, en jouant avec l'input et l'output, en dissequant le processus de modèles d'apprentissage automatique, en explorant des jeux de données, en inspectant les méthodes qui permettent de transformer les mots en numéros, en créant des perspectives différentes sur les données et finalement, en adaptant les scripts à nos besoins, en peaufinant nos outils.<br />
<br />
Sous forme d'annexe à l'exposition, vous trouverez une bibliographie des livres et essais qui nous ont accompagnés. Vous y trouverez aussi le lien vers le dépôt des scripts et matériaux, qui est librement téléchargeable. <br />
<br />
<small>Organisé par : '''Manetta Berends, Cristina Cochior, Gijs de Heij, Hans Lammerant, An Mertens'''</small><br />
<small>Traduction: '''Emma Kraak'''</small><br />
<br />
<small>Avec le soutien de : '''Constant vzw/asbl, La Maison du Livre, la Saison des Cultures Numériques'''</small><br />
<br />
<small>'''Algolit, Bruxelles, Octobre 2017.'''</small><br />
<br />
<small>Copyleft: Ceci est une oeuvre libre, vous pouvez la copier, distribuer et modifier sous les conditions de la License Art Libre: http://artlibre.org/</small><br />
<br />
[[Category:Rencontres-Algolittéraires]]</div>Emmahttp://www.algolit.net/index.php?title=I-could-have-written-that_FR&diff=10110I-could-have-written-that FR2017-10-30T17:00:08Z<p>Emma: </p>
<hr />
<div>[[Category:Rencontres-Algolittéraires]]<br />
{|<br />
|-<br />
| Type: || Travail Algolittéraire<br />
|-<br />
| Données || sources textuelles personnalisées, modality.py, Twitter API, DuckDuckGo API, Wikipedia API<br />
|-<br />
| Technique: || apprentissage basé sur des règles, apprentissage supervisé, apprentissage non supervisé, [[Un sac de mots|sac-de-mots]], similarité_cosinus<br />
|-<br />
| Developpé par: || Tom De Smedt/Pattern, les équipes de SciKit Learn, Python, Nltk, Jinja2 & Manetta Berends<br />
|}<br />
<br />
'''''i-could-have-written-that''''' * est un projet de recherche pratique sur l'apprentissage automatique textuel, qui interroge la nature ludique des techniques et propose de les représenter comme des machines à écrire. Le projet comprend la série d'affiches '' du mythe (-1.00) au pouvoir (+1.00) '' et trois systèmes d'écriture: '' écrire le mythe (-1.00) au pouvoir (+1.00) '', '' Écriture supervisée & Cosine Morphs Similarity''. Ceux-ci traduisent les éléments techniques de l'apprentissage automatique en interfaces utilisateur graphiques dans le navigateur.<br />
<br />
Les interfaces permettent à leurs utilisateurs d'explorer les techniques et de faire une série de tests eux-mêmes avec une source de données textuelles au choix. Après le traitement de la source textuelle choisie, les systèmes d'écriture offrent la possibilité d'exporter leurs sorties vers un document PDF.<br />
<br />
==du Mythe (-1.00) au Pouvoir (+1.00)==<br />
[[File:I-could-have-written-that text-mining-is-power.png|300px]]<br />
[[File:I-could-have-written-that text-mining-is-a-myth.png|300px]]<br />
<br />
'''''du mythe (-1.00) au pouvoir (+1.00)''''' est une série d'affiches et un miroir linguistique reflétant le sujet de la certitude dans la fouille de texte.<br />
<br />
Les séries de déclarations sont le produit d'un exercice de traduction poétique basé sur un script inclus dans le logiciel de fouille de textes [https://www.clips.uantwerpen.be/pattern Pattern] (Université d'Anvers), appelé modalité.py. Ce script basé sur des règles est écrit pour calculer le degré de certitude d'une phrase, exprimé par une valeur entre -1.00 et +1.00.<br />
<br />
Modality.py est un programme basé sur des règles, l'une des plus anciennes techniques de fouille de textes. Les séries de calculs dans un programme basé sur des règles sont déterminées par un ensemble de règles écrites après une période intensive de recherche linguistique sur un sujet spécifique. Un programme basé sur des règles est très précis et efficace, mais aussi très statique et spécifique, ce qui en fait un type coûteux de technique de fouille de textes, en termes de temps, de travail et au regard de la difficulté à réutiliser un programme sur différents types de texte.<br />
<br />
Pour surmonter ces dépenses, les programmes basés sur des règles sont actuellement massivement remplacés par des techniques de reconnaissance de formes telles que l'apprentissage supervisé et les réseaux neuronaux, où les règles d'un programme sont basées sur des patrons de grands ensembles de données.<br />
<br />
Les sources utilisées pour modality.py sont des articles académiques tirés d'un jeu de données appelé «BioScope» ainsi que des données de formation Wikipedia de la tâche partagée CoNLL2010 12. Une partie de cet ensemble de données est composée de mots «weasel», qui sont annotés comme «vagues» par la communauté Wikipedia. Des exemples de mots weasel sont: certaines personnes disent, beaucoup de chercheurs disent, on croit / on considère, disent les scientifiques, il est souvent dit.<br />
<br />
Le script modality.py est livré avec des valeurs prédéfinies. Les mots fait (+1.00), preuve (+0.75) et donnée (paire) (+0.75) indiquent un haut niveau de certitude. Par opposition aux mots comme la fiction (-1.00), et la croyance (-0.25).<br />
<br />
Dans le script, le concept de certitude est divisé en 9 catégories:<br />
<br />
<br><br />
<pre><br />
-1.00 = NÉGATIF<br />
-0,75 = NÉGATIF, avec de légers doutes<br />
-0.50 = NÉGATIF, avec des doutes<br />
-0.25 = NEUTRE, légèrement négatif<br />
+0.00 = NEUTRE<br />
+0.25 = NEUTRE, légèrement positif<br />
+0.50 = POSITIF, avec des doutes<br />
+0,75 = POSITIF, avec de légers doutes<br />
+1.00 = POSITIF<br />
</pre><br />
<br><br />
<br />
après quoi un ensemble de mots est relié à chaque catégorie, par exemple cet ensemble de noms:<br />
<br />
<br><br />
<pre><br />
-1.00: d ("fantaisie", "fiction", "mensonge", "mythe", "non-sens"),<br />
-0,75: d ("controverse"),<br />
-0.50: d ("critique", "débat", "doute"),<br />
-0.25: d ("croyance", "chance", "foi", "chance", "perception", "spéculation"),<br />
0,00: d ("défi", "deviner", "sentir", "intuition", "opinion", "possibilité", "question"),<br />
+0.25: d ("hypothèse", "attente", "hypothèse", "notion", "autres", "équipe"),<br />
+0.50: d ("exemple", "proces", "théorie"),<br />
+0.75: d ("conclusion", "données", "preuve", "majorité", "preuve", "symptôme", "symptômes"),<br />
+1.00: d ("fait", "vérité", "pouvoir")<br />
</pre><br />
<br><br />
<br />
Un exercice de traduction poétique, à partir d'un intérêt pour une perception numérique du langage humain, tout en pliant les catégories strictes.<br />
<br />
==L’écriture basée sur des règles==<br />
[[File:Screenshot-rule-based-modality.py result.png|300px]]<br />
<br />
Le système d'écriture '''''écrit du Mythe (-1.00) au Pouvoir (+1.00)''''' est également basé sur le script de détection de certitude modality.py. L'interface est un outil de lecture basé sur des règles, qui met en évidence l'effet des règles écrites par les scientifiques de l'Université d'Anvers. L'interface offre également la possibilité de modifier les règles et de créer un ensemble de règles de lecture personnalisé appliqué à un texte au choix.<br />
<br />
==L’écriture supervisée==<br />
[[File:Screenshot-supervised-writing-pdf_v2.png|300px]]<br />
<br />
Le système d'écriture '''''L'écriture supervisée''''' est construit avec un ensemble de techniques souvent utilisées dans un projet d'apprentissage automatique supervisé. Par une série d'étapes, l'utilisateur est guidé à travers un système de traitement de la langue pour créer un exercice personnalisé d'écriture de vocabulaire. En chemin, l'utilisateur respecte le principe de comptage en explorant son point de vue numérique sur le langage humain ''[[Un sac de mots|sac-de-mots]]''. Avec la possibilité de travailler avec du matériel texte provenant de trois sources externes, Twitter ou DuckDuckGo ou Wikipédia, ce système d'écriture offre une perspective numérique alternative à des sources bien connues de données textuelles.<br />
<br />
==Morphes Similarité Cosinus==<br />
[[File:Screenshot_from_2017-10-07_00-53-56.png|300px]]<br />
<br />
Le système d'écriture '''''Morphes Similarité Cosinus''''' fonctionne avec des mesures de similarité non supervisées au niveau de la phrase. La source textuelle de choix est d'abord transformée en un corpus et une matrice vectorielle, après quoi la fonction de similarité cosinus de SciKit Learn est appliquée. La fonction [https://en.wikipedia.org/wiki/Cosine_similarity similarité cosinus] est souvent utilisée dans des pratiques d'apprentissage automatique non supervisé pour extraire les informations sémantiques «cachées» du texte. Puisque les données textuelles sont montrées à l'ordinateur sans aucune étiquette, cette technique est souvent appelée apprentissage «non supervisé».<br />
<br />
L'interface permet à l'utilisateur de sélectionner un ensemble de méthodes de comptage possibles, également appelées caractéristiques, pour créer un spectre des quatre phrases les plus similaires. Tout en créant la multiplicité comme résultat, l'interface comprend des informations numériques sur les calculs de similarité qui ont été faits. L'utilisateur, la fonction de similarité cosinus, l'auteur du texte choisi et le créateur de ce système d'écriture, créent collectivement un quatuor de phrases qui se transforment entre la compréhension linguistique et numérique de la similarité.<br />
<br />
=Colophon=<br />
i-could-have-written-that est un projet de Manetta Berends avec le soutien aimable de [https://www.cbkrotterdam.nl/ CBK Rotterdam]. Le code et les documents de sortie sont sous [http://artlibre.org/licence/lal/en/ Licence Art Libre].<br />
<br />
<br><small>* Le titre 'i-could-have-written-that' est dérivé d’un article d’ [https://www.csee.umbc.edu/courses/331/papers/eliza.html ELIZA--A Computer Program For the Study of Natural Language Communication Between Man and Machine], écrit par Joseph Weizenbaum et publié en 1966. </small></div>Emmahttp://www.algolit.net/index.php?title=I-could-have-written-that_FR&diff=10109I-could-have-written-that FR2017-10-30T16:59:13Z<p>Emma: Created page with "Category:Rencontres-Algolittéraires {| |- | Type: || Travail Algolittéraire |- | Données || sources textuelles personnalisées, modality.py, Twitter API, DuckDuckGo API..."</p>
<hr />
<div>[[Category:Rencontres-Algolittéraires]]<br />
{|<br />
|-<br />
| Type: || Travail Algolittéraire<br />
|-<br />
| Données || sources textuelles personnalisées, modality.py, Twitter API, DuckDuckGo API, Wikipedia API<br />
|-<br />
| Technique: || apprentissage basé sur des règles, apprentissage supervisé, apprentissage non supervisé, [[Un sac de mots|sac-de-mots]], similarité_cosinus<br />
|-<br />
| Developpé par: || Tom De Smedt/Pattern, les équipes de SciKit Learn, Python, Nltk, Jinja2 & Manetta Berends<br />
|}<br />
<br />
'''''i-could-have-written-that''''' * est un projet de recherche pratique sur l'apprentissage automatique textuel, qui interroge la nature ludique des techniques et propose de les représenter comme des machines à écrire. Le projet comprend la série d'affiches '' du mythe (-1.00) au pouvoir (+1.00) '' et trois systèmes d'écriture: '' écrire le mythe (-1.00) au pouvoir (+1.00) '', '' Écriture supervisée & Cosine Morphs Similarity''. Ceux-ci traduisent les éléments techniques de l'apprentissage automatique en interfaces utilisateur graphiques dans le navigateur.<br />
<br />
Les interfaces permettent à leurs utilisateurs d'explorer les techniques et de faire une série de tests eux-mêmes avec une source de données textuelles au choix. Après le traitement de la source textuelle choisie, les systèmes d'écriture offrent la possibilité d'exporter leurs sorties vers un document PDF.<br />
<br />
==du Mythe (-1.00) au Pouvoir (+1.00)==<br />
[[File:I-could-have-written-that text-mining-is-power.png|300px]]<br />
[[File:I-could-have-written-that text-mining-is-a-myth.png|300px]]<br />
<br />
'''''du mythe (-1.00) au pouvoir (+1.00)''''' est une série d'affiches et un miroir linguistique reflétant le sujet de la certitude dans la fouille de texte.<br />
<br />
Les séries de déclarations sont le produit d'un exercice de traduction poétique basé sur un script inclus dans le logiciel de fouille de textes [https://www.clips.uantwerpen.be/pattern Pattern] (Université d'Anvers), appelé modalité.py. Ce script basé sur des règles est écrit pour calculer le degré de certitude d'une phrase, exprimé par une valeur entre -1.00 et +1.00.<br />
<br />
Modality.py est un programme basé sur des règles, l'une des plus anciennes techniques de fouille de textes. Les séries de calculs dans un programme basé sur des règles sont déterminées par un ensemble de règles écrites après une période intensive de recherche linguistique sur un sujet spécifique. Un programme basé sur des règles est très précis et efficace, mais aussi très statique et spécifique, ce qui en fait un type coûteux de technique de fouille de textes, en termes de temps, de travail et au regard de la difficulté à réutiliser un programme sur différents types de texte.<br />
<br />
Pour surmonter ces dépenses, les programmes basés sur des règles sont actuellement massivement remplacés par des techniques de reconnaissance de formes telles que l'apprentissage supervisé et les réseaux neuronaux, où les règles d'un programme sont basées sur des patrons de grands ensembles de données.<br />
<br />
Les sources utilisées pour modality.py sont des articles académiques tirés d'un jeu de données appelé «BioScope» ainsi que des données de formation Wikipedia de la tâche partagée CoNLL2010 12. Une partie de cet ensemble de données est composée de mots «weasel», qui sont annotés comme «vagues» par la communauté Wikipedia. Des exemples de mots weasel sont: certaines personnes disent, beaucoup de chercheurs disent, on croit / on considère, disent les scientifiques, il est souvent dit.<br />
<br />
Le script modality.py est livré avec des valeurs prédéfinies. Les mots fait (+1.00), preuve (+0.75) et donnée (paire) (+0.75) indiquent un haut niveau de certitude. Par opposition aux mots comme la fiction (-1.00), et la croyance (-0.25).<br />
<br />
Dans le script, le concept de certitude est divisé en 9 catégories:<br />
<br />
<br><br />
<pre><br />
-1.00 = NÉGATIF<br />
-0,75 = NÉGATIF, avec de légers doutes<br />
-0.50 = NÉGATIF, avec des doutes<br />
-0.25 = NEUTRE, légèrement négatif<br />
+0.00 = NEUTRE<br />
+0.25 = NEUTRE, légèrement positif<br />
+0.50 = POSITIF, avec des doutes<br />
+0,75 = POSITIF, avec de légers doutes<br />
+1.00 = POSITIF<br />
</pre><br />
<br><br />
<br />
après quoi un ensemble de mots est relié à chaque catégorie, par exemple cet ensemble de noms:<br />
<br />
<br><br />
<pre><br />
-1.00: d ("fantaisie", "fiction", "mensonge", "mythe", "non-sens"),<br />
-0,75: d ("controverse"),<br />
-0.50: d ("critique", "débat", "doute"),<br />
-0.25: d ("croyance", "chance", "foi", "chance", "perception", "spéculation"),<br />
0,00: d ("défi", "deviner", "sentir", "intuition", "opinion", "possibilité", "question"),<br />
+0.25: d ("hypothèse", "attente", "hypothèse", "notion", "autres", "équipe"),<br />
+0.50: d ("exemple", "proces", "théorie"),<br />
+0.75: d ("conclusion", "données", "preuve", "majorité", "preuve", "symptôme", "symptômes"),<br />
+1.00: d ("fait", "vérité", "pouvoir")<br />
</pre><br />
<br><br />
<br />
Un exercice de traduction poétique, à partir d'un intérêt pour une perception numérique du langage humain, tout en pliant les catégories strictes.<br />
<br />
==L’écriture basée sur des règles==<br />
[[File:Screenshot-rule-based-modality.py result.png|300px]]<br />
<br />
Le système d'écriture '''''écrit du Mythe (-1.00) au Pouvoir (+1.00)''''' est également basé sur le script de détection de certitude modality.py. L'interface est un outil de lecture basé sur des règles, qui met en évidence l'effet des règles écrites par les scientifiques de l'Université d'Anvers. L'interface offre également la possibilité de modifier les règles et de créer un ensemble de règles de lecture personnalisé appliqué à un texte au choix.<br />
<br />
==L’écriture supervisée==<br />
[[File:Screenshot-supervised-writing-pdf_v2.png|300px]]<br />
<br />
Le système d'écriture '''''L'écriture supervisée''''' est construit avec un ensemble de techniques souvent utilisées dans un projet d'apprentissage automatique supervisé. Par une série d'étapes, l'utilisateur est guidé à travers un système de traitement de la langue pour créer un exercice personnalisé d'écriture de vocabulaire. En chemin, l'utilisateur respecte le principe de comptage en explorant son point de vue numérique sur le langage humain ''[[Un sac de mots|sac-de-mots]''. Avec la possibilité de travailler avec du matériel texte provenant de trois sources externes, Twitter ou DuckDuckGo ou Wikipédia, ce système d'écriture offre une perspective numérique alternative à des sources bien connues de données textuelles.<br />
<br />
==Morphes Similarité Cosinus==<br />
[[File:Screenshot_from_2017-10-07_00-53-56.png|300px]]<br />
<br />
Le système d'écriture '''''Morphes Similarité Cosinus''''' fonctionne avec des mesures de similarité non supervisées au niveau de la phrase. La source textuelle de choix est d'abord transformée en un corpus et une matrice vectorielle, après quoi la fonction de similarité cosinus de SciKit Learn est appliquée. La fonction [https://en.wikipedia.org/wiki/Cosine_similarity similarité cosinus] est souvent utilisée dans des pratiques d'apprentissage automatique non supervisé pour extraire les informations sémantiques «cachées» du texte. Puisque les données textuelles sont montrées à l'ordinateur sans aucune étiquette, cette technique est souvent appelée apprentissage «non supervisé».<br />
<br />
L'interface permet à l'utilisateur de sélectionner un ensemble de méthodes de comptage possibles, également appelées caractéristiques, pour créer un spectre des quatre phrases les plus similaires. Tout en créant la multiplicité comme résultat, l'interface comprend des informations numériques sur les calculs de similarité qui ont été faits. L'utilisateur, la fonction de similarité cosinus, l'auteur du texte choisi et le créateur de ce système d'écriture, créent collectivement un quatuor de phrases qui se transforment entre la compréhension linguistique et numérique de la similarité.<br />
<br />
=Colophon=<br />
i-could-have-written-that est un projet de Manetta Berends avec le soutien aimable de [https://www.cbkrotterdam.nl/ CBK Rotterdam]. Le code et les documents de sortie sont sous [http://artlibre.org/licence/lal/en/ Licence Art Libre].<br />
<br />
<br><small>* Le titre 'i-could-have-written-that' est dérivé d’un article d’ [https://www.csee.umbc.edu/courses/331/papers/eliza.html ELIZA--A Computer Program For the Study of Natural Language Communication Between Man and Machine], écrit par Joseph Weizenbaum et publié en 1966. </small></div>Emmahttp://www.algolit.net/index.php?title=Rencontres_Algolitt%C3%A9raires&diff=10108Rencontres Algolittéraires2017-10-30T16:58:25Z<p>Emma: </p>
<hr />
<div>__NOTOC__<br />
<br />
Hey Emma, <br />
This is a start of the French version of the Algoliterary Encounters catalog. We marked the pages below that are ready to be translated. <br />
<br />
It would be nice to translate the titles of the works into French as well, the titles below are still the English ones. And it would be great if you could do the headers as well.<br />
<br />
Thanks a lot! <br />
<br />
---<br />
<br />
== General Introduction / Introduction Générale==<br />
* [[Rencontres Algolittéraires - Algolit|Algolit]] - already translated!<br />
* [[Program]] = [[Programme]] - already translated!<br />
<br />
==Algoliterary works / Travaux Algolittéraires==<br />
* [[Oulipo recipes]] = [[Recettes Oulipo]] - already translated!<br />
* [[i-could-have-written-that]] = [[i-could-have-written-that FR]] - translated!<br />
* Obama, model for a politician<br />
* [[In the company of CluebotNG]] = [[En compagnie de CluebotNG]] - translated!<br />
<br />
==Algoliterary explorations / Explorations Algolittéraires==<br />
=== What the Machine Writes: a closer look at the output / Ce que la machine écrit: mise au point sur la sortie===<br />
* [[CHARNN text generator]]<br />
* [[You shall know a word by the company it keeps]] = [[Vous connaîtrez un mot par la compagnie qu'il tient]]- translated!<br />
<br />
=== How the Machine Reads: Dissecting Neural Networks / Comment la machine lit: dissection des réseaux neuronaux===<br />
<br />
==== Datasets / Ensemble de données ====<br />
* [[Many many words]] = [[Beaucoup, beaucoup de mots]] - translated!<br />
* [[The data (e)speaks]] = [[La donnée (e)parle]]- translated!<br />
<br />
=====Common public datasets / Ensembles de données publics communs=====<br />
* [[Common Crawl]] = [[Common Crawl FR]]- translated!<br />
* [[WikiHarass]] = [[WikiHarass FR]]- translated!<br />
<br />
=====Algoliterary datasets / Ensembles de données Algolittéraires =====<br />
* [[Frankenstein]] = [[Frankenstein FR]] - translated!<br />
* [[Learning from Deep Learning]] = [[Apprendre de l'apprentissage automatique]]- translated!<br />
* [[AnarchFem]]<br />
* [[Tristes Tropiques]]<br />
<br />
==== From words to numbers / Des mots aux nombres ====<br />
* [[A Bag of Words]] = [[Un sac de mots]] - translated!<br />
* [[A One Hot Vector]] = [[Un vecteur one-hot]] - translated!<br />
<br />
==== Special Focus: Word Embeddings / Focus spécial: le plongement lexical ====<br />
* [[About Word embeddings]] = [[Sur le plongement lexical]] - translated!<br />
* [[Crowd Embeddings]] = [[Crowd Embeddings FR]] - translated!<br />
<br />
===== Different portraits of word embeddings / Différents portraits du plongement lexical =====<br />
* [[Word embedding Projector]] = [[Projecteur de plongement lexical]] - translated!<br />
* [[5 dimensions 32 graphs]]<br />
* [[The GloVe Reader]] = [[Le Lecteur GloVe]] - translated!<br />
<br />
===== Inspecting the technique / Inspection de la technique =====<br />
* [[word2vec_basic.py]] = [[word2vec_basic.py FR]] - translated!<br />
* [[Reverse Algebra]]<br />
<br />
=== How a Machine Might Speak / Comment une machine pourrait parler ===<br />
* [[We Are A Sentiment Thermometer]] = [[Nous sommes un thermomètre de sentiments]]- translated!<br />
<br />
== Sources ==<br />
* [[Algoliterary Toolkit]] = [[Boîte à outils Algolittéraire]]- translated!<br />
* [[Algoliterary Bibliography]] = [[Bibliographie Algolittéraire]] - translated!</div>Emmahttp://www.algolit.net/index.php?title=I-could-have-written_that_FR&diff=10107I-could-have-written that FR2017-10-30T16:53:44Z<p>Emma: </p>
<hr />
<div>[[Category:Rencontres-Algolittéraires]]<br />
{|<br />
|-<br />
| Type: || Travail Algolittéraire<br />
|-<br />
| Données || sources textuelles personnalisées, modality.py, Twitter API, DuckDuckGo API, Wikipedia API<br />
|-<br />
| Technique: || apprentissage basé sur des règles, apprentissage supervisé, apprentissage non supervisé, [[Un sac de mots|sac-de-mots]], similarité_cosinus<br />
|-<br />
| Developpé par: || Tom De Smedt/Pattern, les équipes de SciKit Learn, Python, Nltk, Jinja2 & Manetta Berends<br />
|}<br />
<br />
'''''i-could-have-written-that''''' * est un projet de recherche pratique sur l'apprentissage automatique textuel, qui interroge la nature ludique des techniques et propose de les représenter comme des machines à écrire. Le projet comprend la série d'affiches '' du mythe (-1.00) au pouvoir (+1.00) '' et trois systèmes d'écriture: '' écrire le mythe (-1.00) au pouvoir (+1.00) '', '' Écriture supervisée & Cosine Morphs Similarity''. Ceux-ci traduisent les éléments techniques de l'apprentissage automatique en interfaces utilisateur graphiques dans le navigateur.<br />
<br />
Les interfaces permettent à leurs utilisateurs d'explorer les techniques et de faire une série de tests eux-mêmes avec une source de données textuelles au choix. Après le traitement de la source textuelle choisie, les systèmes d'écriture offrent la possibilité d'exporter leurs sorties vers un document PDF.<br />
<br />
==du Mythe (-1.00) au Pouvoir (+1.00)==<br />
[[File:I-could-have-written-that text-mining-is-power.png|300px]]<br />
[[File:I-could-have-written-that text-mining-is-a-myth.png|300px]]<br />
<br />
'''''du mythe (-1.00) au pouvoir (+1.00)''''' est une série d'affiches et un miroir linguistique reflétant le sujet de la certitude dans la fouille de texte.<br />
<br />
Les séries de déclarations sont le produit d'un exercice de traduction poétique basé sur un script inclus dans le logiciel de fouille de textes [https://www.clips.uantwerpen.be/pattern Pattern] (Université d'Anvers), appelé modalité.py. Ce script basé sur des règles est écrit pour calculer le degré de certitude d'une phrase, exprimé par une valeur entre -1.00 et +1.00.<br />
<br />
Modality.py est un programme basé sur des règles, l'une des plus anciennes techniques de fouille de textes. Les séries de calculs dans un programme basé sur des règles sont déterminées par un ensemble de règles écrites après une période intensive de recherche linguistique sur un sujet spécifique. Un programme basé sur des règles est très précis et efficace, mais aussi très statique et spécifique, ce qui en fait un type coûteux de technique de fouille de textes, en termes de temps, de travail et au regard de la difficulté à réutiliser un programme sur différents types de texte.<br />
<br />
Pour surmonter ces dépenses, les programmes basés sur des règles sont actuellement massivement remplacés par des techniques de reconnaissance de formes telles que l'apprentissage supervisé et les réseaux neuronaux, où les règles d'un programme sont basées sur des patrons de grands ensembles de données.<br />
<br />
Les sources utilisées pour modality.py sont des articles académiques tirés d'un jeu de données appelé «BioScope» ainsi que des données de formation Wikipedia de la tâche partagée CoNLL2010 12. Une partie de cet ensemble de données est composée de mots «weasel», qui sont annotés comme «vagues» par la communauté Wikipedia. Des exemples de mots weasel sont: certaines personnes disent, beaucoup de chercheurs disent, on croit / on considère, disent les scientifiques, il est souvent dit.<br />
<br />
Le script modality.py est livré avec des valeurs prédéfinies. Les mots fait (+1.00), preuve (+0.75) et donnée (paire) (+0.75) indiquent un haut niveau de certitude. Par opposition aux mots comme la fiction (-1.00), et la croyance (-0.25).<br />
<br />
Dans le script, le concept de certitude est divisé en 9 catégories:<br />
<br />
<br><br />
<pre><br />
-1.00 = NÉGATIF<br />
-0,75 = NÉGATIF, avec de légers doutes<br />
-0.50 = NÉGATIF, avec des doutes<br />
-0.25 = NEUTRE, légèrement négatif<br />
+0.00 = NEUTRE<br />
+0.25 = NEUTRE, légèrement positif<br />
+0.50 = POSITIF, avec des doutes<br />
+0,75 = POSITIF, avec de légers doutes<br />
+1.00 = POSITIF<br />
</pre><br />
<br><br />
<br />
après quoi un ensemble de mots est relié à chaque catégorie, par exemple cet ensemble de noms:<br />
<br />
<br><br />
<pre><br />
-1.00: d ("fantaisie", "fiction", "mensonge", "mythe", "non-sens"),<br />
-0,75: d ("controverse"),<br />
-0.50: d ("critique", "débat", "doute"),<br />
-0.25: d ("croyance", "chance", "foi", "chance", "perception", "spéculation"),<br />
0,00: d ("défi", "deviner", "sentir", "intuition", "opinion", "possibilité", "question"),<br />
+0.25: d ("hypothèse", "attente", "hypothèse", "notion", "autres", "équipe"),<br />
+0.50: d ("exemple", "proces", "théorie"),<br />
+0.75: d ("conclusion", "données", "preuve", "majorité", "preuve", "symptôme", "symptômes"),<br />
+1.00: d ("fait", "vérité", "pouvoir")<br />
</pre><br />
<br><br />
<br />
Un exercice de traduction poétique, à partir d'un intérêt pour une perception numérique du langage humain, tout en pliant les catégories strictes.<br />
<br />
==L’écriture basée sur des règles==<br />
[[File:Screenshot-rule-based-modality.py result.png|300px]]<br />
<br />
Le système d'écriture '''''écrit du Mythe (-1.00) au Pouvoir (+1.00)''''' est également basé sur le script de détection de certitude modality.py. L'interface est un outil de lecture basé sur des règles, qui met en évidence l'effet des règles écrites par les scientifiques de l'Université d'Anvers. L'interface offre également la possibilité de modifier les règles et de créer un ensemble de règles de lecture personnalisé appliqué à un texte au choix.<br />
<br />
==L’écriture supervisée==<br />
[[File:Screenshot-supervised-writing-pdf_v2.png|300px]]<br />
<br />
Le système d'écriture '''''L'écriture supervisée''''' est construit avec un ensemble de techniques souvent utilisées dans un projet d'apprentissage automatique supervisé. Par une série d'étapes, l'utilisateur est guidé à travers un système de traitement de la langue pour créer un exercice personnalisé d'écriture de vocabulaire. En chemin, l'utilisateur respecte le principe de comptage en explorant son point de vue numérique sur le langage humain ''[http://www.algolit.net/index.php/Bag-of-words sac-à-mots]''. Avec la possibilité de travailler avec du matériel texte provenant de trois sources externes, Twitter ou DuckDuckGo ou Wikipédia, ce système d'écriture offre une perspective numérique alternative à des sources bien connues de données textuelles.<br />
<br />
==Morphes Similarité Cosinus==<br />
[[File:Screenshot_from_2017-10-07_00-53-56.png|300px]]<br />
<br />
Le système d'écriture '''''Morphes Similarité Cosinus''''' fonctionne avec des mesures de similarité non supervisées au niveau de la phrase. La source textuelle de choix est d'abord transformée en un corpus et une matrice vectorielle, après quoi la fonction de similarité cosinus de SciKit Learn est appliquée. La fonction [https://en.wikipedia.org/wiki/Cosine_similarity similarité cosinus] est souvent utilisée dans des pratiques d'apprentissage automatique non supervisé pour extraire les informations sémantiques «cachées» du texte. Puisque les données textuelles sont montrées à l'ordinateur sans aucune étiquette, cette technique est souvent appelée apprentissage «non supervisé».<br />
<br />
L'interface permet à l'utilisateur de sélectionner un ensemble de méthodes de comptage possibles, également appelées caractéristiques, pour créer un spectre des quatre phrases les plus similaires. Tout en créant la multiplicité comme résultat, l'interface comprend des informations numériques sur les calculs de similarité qui ont été faits. L'utilisateur, la fonction de similarité cosinus, l'auteur du texte choisi et le créateur de ce système d'écriture, créent collectivement un quatuor de phrases qui se transforment entre la compréhension linguistique et numérique de la similarité.<br />
<br />
=Colophon=<br />
i-could-have-written-that est un projet de Manetta Berends avec le soutien aimable de [https://www.cbkrotterdam.nl/ CBK Rotterdam]. Le code et les documents de sortie sont sous [http://artlibre.org/licence/lal/en/ Licence Art Libre].<br />
<br />
<br><small>* Le titre 'i-could-have-written-that' est dérivé d’un article d’ [https://www.csee.umbc.edu/courses/331/papers/eliza.html ELIZA--A Computer Program For the Study of Natural Language Communication Between Man and Machine], écrit par Joseph Weizenbaum et publié en 1966. </small></div>Emmahttp://www.algolit.net/index.php?title=I-could-have-written_that_FR&diff=10103I-could-have-written that FR2017-10-30T14:18:11Z<p>Emma: </p>
<hr />
<div>[[Category:Rencontres-Algolittéraires]]<br />
{|<br />
|-<br />
| Type: || Travail Algolittéraire<br />
|-<br />
| Données || sources textuelles personnalisées, modality.py, Twitter API, DuckDuckGo API, Wikipedia API<br />
|-<br />
| Technique: || apprentissage basé sur des règles, apprentissage supervisé, apprentissage non supervisé, [[Un sac de mots|sac-de-mots]], similarité_cosinus<br />
|-<br />
| Developpé par: || Tom De Smedt/Pattern, les équipes de SciKit Learn, Python, Nltk, Jinja2 & Manetta Berends<br />
|}<br />
<br />
'''''i-could-have-written-that''''' * est un projet de recherche pratique sur l'apprentissage automatique textuel, qui interroge la nature ludique des techniques et propose de les représenter comme des machines à écrire. Le projet comprend la série d'affiches '' du mythe (-1.00) au pouvoir (+1.00) '' et trois systèmes d'écriture: '' écrire le mythe (-1.00) au pouvoir (+1.00) '', '' Écriture supervisée & Cosine Morphs Similarity''. Ceux-ci traduisent les éléments techniques de l'apprentissage automatique en interfaces utilisateur graphiques dans le navigateur.<br />
<br />
Les interfaces permettent à leurs utilisateurs d'explorer les techniques et de faire une série de tests eux-mêmes avec une source de données textuelles au choix. Après le traitement de la source textuelle choisie, les systèmes d'écriture offrent la possibilité d'exporter leurs sorties vers un document PDF.<br />
<br />
==du Mythe (-1.00) au Pouvoir (+1.00)==<br />
[[File:I-could-have-written-that text-mining-is-power.png|300px]]<br />
[[File:I-could-have-written-that text-mining-is-a-myth.png|300px]]<br />
<br />
'''''du mythe (-1.00) au pouvoir (+1.00)''''' est une série d'affiches et un miroir linguistique reflétant le sujet de la certitude dans la fouille de texte.<br />
<br />
Les séries de déclarations sont le produit d'un exercice de traduction poétique basé sur un script inclus dans le logiciel de fouille de textes [https://www.clips.uantwerpen.be/pattern Pattern] (Université d'Anvers), appelé modalité.py. Ce script basé sur des règles est écrit pour calculer le degré de certitude d'une phrase, exprimé par une valeur entre -1.00 et +1.00.<br />
<br />
Modality.py est un programme basé sur des règles, l'une des plus anciennes techniques de fouille de textes. Les séries de calculs dans un programme basé sur des règles sont déterminées par un ensemble de règles écrites après une période intensive de recherche linguistique sur un sujet spécifique. Un programme basé sur des règles est très précis et efficace, mais aussi très statique et spécifique, ce qui en fait un type coûteux de technique de fouille de textes, en termes de temps, de travail et au regard de la difficulté à réutiliser un programme sur différents types de texte.<br />
<br />
Pour surmonter ces dépenses, les programmes basés sur des règles sont actuellement massivement remplacés par des techniques de reconnaissance de formes telles que l'apprentissage supervisé et les réseaux neuronaux, où les règles d'un programme sont basées sur des patrons de grands ensembles de données.<br />
<br />
Les sources utilisées pour modality.py sont des articles académiques tirés d'un jeu de données appelé «BioScope» ainsi que des données de formation Wikipedia de la tâche partagée CoNLL2010 12. Une partie de cet ensemble de données est composée de mots «weasel», qui sont annotés comme «vagues» par la communauté Wikipedia. Des exemples de mots weasel sont: certaines personnes disent, beaucoup de chercheurs disent, on croit / on considère, disent les scientifiques, il est souvent dit.<br />
<br />
Le script modality.py est livré avec des valeurs prédéfinies. Les mots fait (+1.00), preuve (+0.75) et donnée (paire) (+0.75) indiquent un haut niveau de certitude. Par opposition aux mots comme la fiction (-1.00), et la croyance (-0.25).<br />
<br />
Dans le script, le concept de certitude est divisé en 9 catégories:<br />
<br />
<br><br />
<pre><br />
-1.00 = NÉGATIF<br />
-0,75 = NÉGATIF, avec de légers doutes<br />
-0.50 = NÉGATIF, avec des doutes<br />
-0.25 = NEUTRE, légèrement négatif<br />
+0.00 = NEUTRE<br />
+0.25 = NEUTRE, légèrement positif<br />
+0.50 = POSITIF, avec des doutes<br />
+0,75 = POSITIF, avec de légers doutes<br />
+1.00 = POSITIF<br />
</pre><br />
<br><br />
<br />
après quoi un ensemble de mots est relié à chaque catégorie, par exemple cet ensemble de noms:<br />
<br />
<br><br />
<pre><br />
-1.00: d ("fantaisie", "fiction", "mensonge", "mythe", "non-sens"),<br />
-0,75: d ("controverse"),<br />
-0.50: d ("critique", "débat", "doute"),<br />
-0.25: d ("croyance", "chance", "foi", "chance", "perception", "spéculation"),<br />
0,00: d ("défi", "deviner", "sentir", "intuition", "opinion", "possibilité", "question"),<br />
+0.25: d ("hypothèse", "attente", "hypothèse", "notion", "autres", "équipe"),<br />
+0.50: d ("exemple", "proces", "théorie"),<br />
+0.75: d ("conclusion", "données", "preuve", "majorité", "preuve", "symptôme", "symptômes"),<br />
+1.00: d ("fait", "vérité", "pouvoir")<br />
</pre><br />
<br><br />
<br />
Un exercice de traduction poétique, à partir d'un intérêt pour une perception numérique du langage humain, tout en pliant les catégories strictes.<br />
<br />
==L’écriture basée sur des règles==<br />
[[File:Screenshot-rule-based-modality.py result.png|300px]]<br />
<br />
Le système d'écriture '''''écrit du Mythe (-1.00) au Pouvoir (+1.00)''''' est également basé sur le script de détection de certitude modality.py. L'interface est un outil de lecture basé sur des règles, qui met en évidence l'effet des règles écrites par les scientifiques de l'Université d'Anvers. L'interface offre également la possibilité de modifier les règles et de créer un ensemble de règles de lecture personnalisé appliqué à un texte au choix.<br />
<br />
==L’écriture supervisée==<br />
[[File:Screenshot-supervised-writing-pdf_v2.png|300px]]<br />
<br />
Le système d'écriture '''''L'écriture supervisée''''' est construit avec un ensemble de techniques souvent utilisées dans un projet d'apprentissage automatique supervisé. Par une série d'étapes, l'utilisateur est guidé à travers un système de traitement de la langue pour créer un exercice personnalisé d'écriture de vocabulaire. En chemin, l'utilisateur respecte le principe de comptage en explorant son point de vue numérique sur le langage humain ''[http://www.algolit.net/index.php/Bag-of-words sac-à-mots]''. Avec la possibilité de travailler avec du matériel texte provenant de trois sources externes, Twitter ou DuckDuckGo ou Wikipédia, ce système d'écriture offre une perspective numérique alternative à des sources bien connues de données textuelles.<br />
<br />
==Morphes Similarité Cosinus==<br />
[[File:Screenshot_from_2017-10-07_00-53-56.png|300px]]<br />
<br />
Le système d'écriture '''''Morphes Similarité Cosinus'''''fonctionne avec des mesures de similarité non supervisées au niveau de la phrase. La source textuelle de choix est d'abord transformée en un corpus et une matrice vectorielle, après quoi la fonction de similarité cosinus de SciKit Learn est appliquée. La fonction [https://en.wikipedia.org/wiki/Cosine_similarity similarité cosinus] est souvent utilisée dans des pratiques d'apprentissage automatique non supervisé pour extraire les informations sémantiques «cachées» du texte. Puisque les données textuelles sont montrées à l'ordinateur sans aucune étiquette, cette technique est souvent appelée apprentissage «non supervisé».<br />
<br />
L'interface permet à l'utilisateur de sélectionner un ensemble de méthodes de comptage possibles, également appelées caractéristiques, pour créer un spectre des quatre phrases les plus similaires. Tout en créant la multiplicité comme résultat, l'interface comprend des informations numériques sur les calculs de similarité qui ont été faits. L'utilisateur, la fonction de similarité cosinus, l'auteur du texte choisi et le créateur de ce système d'écriture, créent collectivement un quatuor de phrases qui se transforment entre la compréhension linguistique et numérique de la similarité.<br />
<br />
=Colophon=<br />
i-could-have-written-that est un projet de Manetta Berends avec le soutien aimable de [https://www.cbkrotterdam.nl/ CBK Rotterdam]. Le code et les documents de sortie sont sous [http://artlibre.org/licence/lal/en/ Licence Art Libre].<br />
<br />
<br><small>* Le titre 'i-could-have-written-that' est dérivé d’un article d’ [https://www.csee.umbc.edu/courses/331/papers/eliza.html ELIZA--A Computer Program For the Study of Natural Language Communication Between Man and Machine], écrit par Joseph Weizenbaum et publié en 1966. </small></div>Emmahttp://www.algolit.net/index.php?title=En_compagnie_de_CluebotNG&diff=10102En compagnie de CluebotNG2017-10-30T14:13:43Z<p>Emma: </p>
<hr />
<div>{|<br />
|-<br />
| Type: || Travail Algolittéraire<br />
|-<br />
| Données: || Modifications Wikipédia <br />
|-<br />
| Technique: || Apprentissage automatique supervisé, classificateurs bayésiens naïfs<br />
|-<br />
| Developpé par: || User:Cobi, User:Crispy1989, Cristina Cochior<br />
|}<br />
<br />
<br />
Wikipédia s'appuie sur l'assistance par machine lorsqu'il s'agit de maintenance. L'une de ses applications les plus actives est [https://en.wikipedia.org/wiki/User:ClueBot_NG CluebotNG], un bot anti-vandalisme opérant sur le Wikipédia anglais depuis décembre 2010.<br />
<br />
<br />
CluebotNG utilise une série de classificateurs bayésiens différents, qui mesurent le poids des mots pour attribuer un score de probabilité de vandalisme à une modification. Les résultats sont transmis à un réseau neuronal artificiel qui attribue en outre aux modifications un nombre compris entre 0 et 1, où l'on représente par 100% la probabilité qu'une modification soit mal intentionnée.<br />
<br />
Afin d'établir le point à partir duquel une contribution est considérée comme vandaliste, un seuil doit être choisi par l'opérateur de l'application. Celui-ci est calculé par rapport au taux de faux positifs qu'il génère: plus un seuil est bas, plus le nombre de [[faux positifs]] est élevé. L'algorithme attrape la plupart des instances de vandalisme sur la plate-forme quand il fait le plus d'erreurs. La valeur de seuil pour CluebotNG a causé beaucoup de débats sur Wikipédia, où un équilibre entre haute efficacité est établi par rapport au nombre d'éditeurs qui sont accusés à tort.<br />
<br />
<br />
Si un faux positif se produit, il appartient au responsable du code de l'examiner et de l'ajouter à une liste d'exceptions afin que l'algorithme puisse apprendre de la mauvaise classification. Cela implique une attention constante du mainteneur.<br />
<br />
Grâce à un bot de reconstitution qui passe par chacune des éditions de CluebotNG et les affiche sur un moniteur, la réplication séquentielle de ses éditions tisse ensemble un récit de voix non humaines qui passent généralement inaperçues sur les plateformes médiatiques. Chaque micro-interaction du bot est intrinsèquement réalisée en lien avec un éditeur humain, que l'algorithme contrôle. Au fur et à mesure que le programme taxidermique s'exécute, une corporalité émerge pendant la durée nécessaire au bot pour arriver au terme de ses modifications.<br />
<br />
<br />
[[File:Screen_Shot_2017-10-25.png]]<br />
<br />
<br />
<br />
[[Category:Rencontres-Algolittéraires]]</div>Emmahttp://www.algolit.net/index.php?title=Plongement_lexical:_un_cas_d%27%C3%A9tude&diff=10101Plongement lexical: un cas d'étude2017-10-30T14:00:58Z<p>Emma: </p>
<hr />
<div>{|<br />
|-<br />
| Type: || Etude de cas <br />
|-<br />
| Datasets: || Modifications Wikipédia<br />
|-<br />
| Technique: || Apprentissage automatique supervisé, [[Sur le plongement lexical|plongement lexical]]<br />
|-<br />
| Développé par: || Jigsaw<br />
|}<br />
<br />
==Etude de cas: Perspective API==<br />
[[File:Screenshot-of-the-perspective-API-website.png|Screenshot of the Perspective API website (October, 2017)]]<br />
<br><small>Screenshot du site web Perspective API (Octobre, 2017)</small><br />
<br />
[https://www.perspectiveapi.com/ Perspective API] est un outil d'apprentissage automatique développé par la société Jigsaw, propriété de Google, qui vise à identifier les messages toxiques dans les sections de commentaires de différentes plateformes. Le projet a été élaboré en collaboration avec Wikipédia, le New York Times, The Guardian et The Economist.<br />
<br />
La collaboration entre Perspective API et Wikipédia se déroule sous le nom [https://meta.wikimedia.org/wiki/Research:Detox Detox]. Le projet est basé sur une méthode qui combine le crowdsourcing et l'apprentissage automatique pour analyser les attaques personnelles à l'échelle. Deux intentions semblent être en jeu: une recherche sur les harcèlements dans la section Talk de Wikipedia, et la création de la plus grande base de données annotée pour les harcèlements.<br />
<br />
<br />
Le projet utilise des techniques d'apprentissage automatique supervisé, un algorithme de régression logistique et deux [[WikiHarass FR|jeux de données]]:<br />
* 95M de commentaires de pages de discussion Wikipedia anglais faites entre 2001-2015<br />
* 1M d'annotations par 4000 travailleurs foule sur 100.000 commentaires des pages de discussion Wikipedia anglais, où chaque commentaire est annoté 10 fois.<br />
<br />
<br />
'''Résultats de [https://arxiv.org/abs/1610.08914 l'article] publié par Jigsaw & Wikipedia:'''<br />
* '' Ceci conduit à plusieurs conclusions intéressantes: alors que les commentaires rendus anonymes ont 6 fois plus de chances d'être une attaque, ils contribuent moins de la moitié des attaques. De même, moins de la moitié des attaques proviennent d'utilisateurs avec peu de participation préalable; et peut-être étonnamment, environ 30% des attaques proviennent d'utilisateurs enregistrés avec plus de 100 contributions. <br />
<br />
* '' De plus, les données de crowdsourcing peuvent également entraîner d'autres formes de biais non intentionnels. ''<br />
<br />
Ceci soulève des questions clés pour notre méthode et plus généralement pour les applications de l'apprentissage automatique à l'analyse de commentaires: qui définit la vérité pour la propriété en question? Dans quelle mesure les classificateurs varient-ils en fonction de l'interlocuteur? Quel est l'impact subséquent de l'application d'un modèle avec un biais involontaire pour aider la discussion d'une communauté en ligne?<br />
<br />
<br />
Le projet Detox comprend une section sur les biais, publiée sous le nom de [https://meta.wikimedia.org/wiki/Research:Detox/Fairness "Fairness"].<br />
<br />
[[Category:Rencontres-Algolittéraires]]</div>Emmahttp://www.algolit.net/index.php?title=Exploration_de_Paysages_Multidimensionels:_Sur_le_plongement_lexical&diff=10099Exploration de Paysages Multidimensionels: Sur le plongement lexical2017-10-30T13:58:28Z<p>Emma: </p>
<hr />
<div>{|<br />
|-<br />
| Type: || Exploration algolittéraire <br />
|-<br />
| Technique: || [[Sur le plongement lexical|plongement lexical]]<br />
|-<br />
| Développé par: || Algolit<br />
|}<br />
<br />
"''Le sens est cette chose insaisissable que nous essayons de capturer''" (Richard Socher dans [https://www.youtube.com/watch?v=xhHOL3TNyJs&index=2&list=PLcGUo322oqu9n4i0X3cRJgKyVy7OkDdoi CS224D Lecture 2 - 31 Mars 2016 (Youtube)])<br />
<br><br />
<br />
Les plongements de mots sont utilisés pour représenter les mots en tant qu'intrants à l'apprentissage automatique. Les mots deviennent des vecteurs dans un espace multidimensionnel, où les vecteurs voisins représentent des significations similaires. Avec le plongement lexical, vous pouvez comparer les mots par (grosso modo) ce qu'ils signifient, pas seulement les correspondances exactes.<br />
<br />
L'hypothèse commune dans cette approche est que la co-occurrence des mots dans leurs voisinages respectifs au sein du texte reflète une relation ou une similarité de sens. Alors que le mot-clé se réfère à la fréquence des mots dans tout le texte, ces approches font un compte de fréquence des mots dans un petit intervalle autour de chaque mot. Plusieurs algorithmes ont été développés pour transformer de tels comptes locaux de co-occurrence en mots-plongements, comme word2vec (un réseau de neurones à couche unique) et GloVe (modèle sémantique distributionnel).<br />
<br />
La formation réussie de vecteurs de mots nécessite de partir de centaines de gigaoctets de textes d'entrée. Heureusement, divers groupes d'apprentissage automatique l’ont déjà fait et ont fourni des plongements de mots pré-formés que l'on peut télécharger. Word2vec est pré-formé sur les données de Google News, et deux jeux de données très connus sur les plongements de mots anglais [http://www.algolit.net/index.php/The_GloVe_Reader GloVe] pré-formés sur les pages web de [http://www.algolit.net/index.php/Common_Crawl Common Crawl].<br />
<br />
Le terme est récemment entré dans le vocabulaire de l'apprentissage automatique, avec l'expansion de la communauté d'apprentissage profond. En linguistique computationnelle, l'expression «modèle sémantique distributif» est parfois préférée. D'autres termes incluent «représentation distribuée», «espace vectoriel sémantique» ou «espace de mots».</div>Emmahttp://www.algolit.net/index.php?title=Bo%C3%AEte_%C3%A0_outils_Algolitt%C3%A9raire&diff=10097Boîte à outils Algolittéraire2017-10-30T13:20:52Z<p>Emma: Created page with "Nous avons compilé quelques scripts Algolittéraires dans ce dossier : [https://gitlab.constantvzw.org/algolit/algolit/tree/master/algoliterary_encounter Boîte à outils Alg..."</p>
<hr />
<div>Nous avons compilé quelques scripts Algolittéraires dans ce dossier :<br />
[https://gitlab.constantvzw.org/algolit/algolit/tree/master/algoliterary_encounter Boîte à outils Algolittéraire].<br />
<br />
Dans la boîte à outils: <br />
<br />
* [[softmax annotated]]<br />
* adapting_the_reading_glasses.py<br />
* text-punctuation-clean-up.py<br />
* dataset-inspector<br />
* cgi-example-template</div>Emmahttp://www.algolit.net/index.php?title=Rencontres_Algolitt%C3%A9raires&diff=10096Rencontres Algolittéraires2017-10-30T13:18:41Z<p>Emma: </p>
<hr />
<div>__NOTOC__<br />
<br />
Hey Emma, <br />
This is a start of the French version of the Algoliterary Encounters catalog. We marked the pages below that are ready to be translated. <br />
<br />
It would be nice to translate the titles of the works into French as well, the titles below are still the English ones. And it would be great if you could do the headers as well.<br />
<br />
Thanks a lot! <br />
<br />
---<br />
<br />
== General Introduction / Introduction Générale==<br />
* [[Rencontres Algolittéraires - Algolit|Algolit]] - already translated!<br />
* [[Program]] = [[Programme]] - already translated!<br />
<br />
==Algoliterary works / Travaux Algolittéraires==<br />
* [[Oulipo recipes]] = [[Recettes Oulipo]] - already translated!<br />
* [[i-could-have-written-that]] = [[i-could-have-written that FR]] - translated!<br />
* Obama, model for a politician<br />
* [[In the company of CluebotNG]] = [[En compagnie de CluebotNG]] - translated!<br />
<br />
==Algoliterary explorations / Explorations Algolittéraires==<br />
=== What the Machine Writes: a closer look at the output / Ce que la machine écrit: mise au point sur la sortie===<br />
* [[CHARNN text generator]]<br />
* [[You shall know a word by the company it keeps]] = [[Vous connaîtrez un mot par la compagnie qu'il tient]]- translated!<br />
<br />
=== How the Machine Reads: Dissecting Neural Networks / Comment la machine lit: dissection des réseaux neuronaux===<br />
<br />
==== Datasets / Ensemble de données ====<br />
* [[Many many words]] = [[Beaucoup, beaucoup de mots]] - translated!<br />
* [[The data (e)speaks]] = [[La donnée (e)parle]]- translated!<br />
<br />
=====Common public datasets / Ensembles de données publics communs=====<br />
* [[Common Crawl]] = [[Common Crawl FR]]- translated!<br />
* [[WikiHarass]] = [[WikiHarass FR]]- translated!<br />
<br />
=====Algoliterary datasets / Ensembles de données Algolittéraires =====<br />
* [[Frankenstein]] = [[Frankenstein FR]] - translated!<br />
* [[Learning from Deep Learning]] = [[Apprendre de l'apprentissage automatique]]- translated!<br />
* [[AnarchFem]]<br />
* [[Tristes Tropiques]]<br />
<br />
==== From words to numbers / Des mots aux nombres ====<br />
* [[A Bag of Words]] = [[Un sac de mots]] - translated!<br />
* [[A One Hot Vector]] = [[Un vecteur one-hot]] - translated!<br />
<br />
==== Special Focus: Word Embeddings / Focus spécial: le plongement lexical ====<br />
* [[About Word embeddings]] = [[Sur le plongement lexical]] - translated!<br />
* [[Crowd Embeddings]] = [[Crowd Embeddings FR]] - translated!<br />
<br />
===== Different portraits of word embeddings / Différents portraits du plongement lexical =====<br />
* [[Word embedding Projector]] = [[Projecteur de plongement lexical]] - translated!<br />
* [[5 dimensions 32 graphs]]<br />
* [[The GloVe Reader]] = [[Le Lecteur GloVe]] - translated!<br />
<br />
===== Inspecting the technique / Inspection de la technique =====<br />
* [[word2vec_basic.py]] = [[word2vec_basic.py FR]] - translated!<br />
* [[Reverse Algebra]]<br />
<br />
=== How a Machine Might Speak / Comment une machine pourrait parler ===<br />
* [[We Are A Sentiment Thermometer]] = [[Nous sommes un thermomètre de sentiments]]- translated!<br />
<br />
== Sources ==<br />
* [[Algoliterary Toolkit]] = [[Boîte à outils Algolittéraire]]- translated!<br />
* [[Algoliterary Bibliography]] = [[Bibliographie Algolittéraire]] - translated!</div>Emmahttp://www.algolit.net/index.php?title=Projecteur_de_plongement_lexical&diff=10095Projecteur de plongement lexical2017-10-30T13:08:38Z<p>Emma: </p>
<hr />
<div>[[Category:Rencontres-Algolittéraires]]<br />
<br />
{|<br />
|-<br />
| Type: || Exploration Algolittéraire<br />
|-<br />
| Données: || Glove<br />
|-<br />
| Technique: || [[Sur le plongement lexical|plongement lexical]]<br />
|-<br />
| Développé par: || Google Tensorflow<br />
|}<br />
<br />
<br />
Le projecteur du Google Tensorflow-package permet de visualiser un espace multidimensionnel en le projetant dans un espace à 2 ou 3 dimensions. Cela nous permet de jeter un coup d'œil dans l'espace de mots formé par les plongements de mots à partir des jeux de données que nous utilisons (dans cet exemple le jeu de données glove.42B). La projection ne montre pas l'ensemble des données, mais une sélection de 10000 mots (ou moins).<br />
<br />
<br />
De tels espaces de grande dimension sont impossible à percevoir visuellement pour un humain. Certaines techniques mathématiques existent pour faire des projections spécifiques d'un tel espace dans des espaces de dimension inférieure (par analogie à l'utilisation de la perspective pour visualiser un espace tridimensionnel sur un espace bidimensionnel ou un plan).<br />
<br />
<br />
Le projecteur Tensorflow utilise l'analyse en composantes principales (PCA) pour créer une projection dans les 2 ou 3 dimensions dans lesquelles la plus grande variance de l'ensemble de données peut être exprimée. PCA ne change pas les plongements de mots mais change seulement le point de vue en faisant tourner les axes dans l'espace pour s'assurer que les premières dimensions montrent la plus grande variance (= les plus grandes différences entre les mots). Ensuite, ces deux ou trois premières dimensions sont affichées à l'écran. Sur le panneau de gauche, il est indiqué quelle part de la variance est exprimée dans cette projection.<br />
<br />
<br />
Le projecteur Tensorflow fournit également une projection t-SNE. Le plongement voisin stochastique t-distribué (t-SNE) ne montre pas l'espace de mots original, mais montre une distribution de probabilité dans 2 ou 3 dimensions de mots étant similaires ou non. Les mots semblables, ou proches l'un de l'autre dans l'espace d'inclusion des mots, seront montrés les uns près les autres dans la projection, tandis que les mots qui sont dissemblables sont montrés éloignés l'un de l'autre. En d'autres termes, la projection t-SNE essaie de préserver les distances relatives entre les mots dans l'espace d'inclusion de mots à 300 dimensions dans la projection 2 ou 3D.<br />
<br />
<br />
Les deux projections nous donnent un aperçu de ce que le langage signifie quand il est perçu par l'ordinateur à travers des algorithmes créant des plongées de mots (comme Glove ou word2vec). La (dis)similitude des mots est exprimée par la distance entre les mots. Les associations entre les mots présents dans les textes originaux par co-occurrence se refléteront dans les distances dans l'espace d'inclusion des mots. Ils peuvent être explorés visuellement à travers ces projections, ou mathématiquement en calculant les distances dans l'espace d'inclusion des mots.</div>Emmahttp://www.algolit.net/index.php?title=Plongement_lexical:_un_cas_d%27%C3%A9tude&diff=10094Plongement lexical: un cas d'étude2017-10-30T13:06:03Z<p>Emma: </p>
<hr />
<div>{|<br />
|-<br />
| Type: || Etude de cas <br />
|-<br />
| Datasets: || Modifications Wikipédia<br />
|-<br />
| Technique: || Apprentissage automatique supervisé, [[Sur le plongement lexical|plongement lexical]]<br />
|-<br />
| Développé par: || Jigsaw<br />
|}<br />
<br />
==Etude de cas: Perspective API==<br />
[[File:Screenshot-of-the-perspective-API-website.png|Screenshot of the Perspective API website (October, 2017)]]<br />
<br><small>Screenshot du site web Perspective API (Octobre, 2017)</small><br />
<br />
[https://www.perspectiveapi.com/ Perspective API] est un outil d'apprentissage automatique développé par la société Jigsaw, propriété de Google, qui vise à identifier les messages toxiques dans les sections de commentaires de différentes plateformes. Le projet a été élaboré en collaboration avec Wikipédia, le New York Times, The Guardian et The Economist.<br />
<br />
La collaboration entre Perspective API et Wikipédia se déroule sous le nom [https://meta.wikimedia.org/wiki/Research:Detox Detox]. Le projet est basé sur une méthode qui combine le crowdsourcing et l'apprentissage automatique pour analyser les attaques personnelles à l'échelle. Deux intentions semblent être en jeu: une recherche sur les harcèlements dans la section Talk de Wikipedia, et la création de la plus grande base de données annotée pour les harcèlements.<br />
<br />
<br />
Le projet utilise des techniques d'apprentissage automatique supervisé, un algorithme de régression logistique et deux [[jeux de données WikiHarass]]:<br />
* 95M de commentaires de pages de discussion Wikipedia anglais faites entre 2001-2015<br />
* 1M d'annotations par 4000 travailleurs foule sur 100.000 commentaires des pages de discussion Wikipedia anglais, où chaque commentaire est annoté 10 fois.<br />
<br />
<br />
'''Résultats de [https://arxiv.org/abs/1610.08914 l'article] publié par Jigsaw & Wikipedia:'''<br />
* '' Ceci conduit à plusieurs conclusions intéressantes: alors que les commentaires rendus anonymes ont 6 fois plus de chances d'être une attaque, ils contribuent moins de la moitié des attaques. De même, moins de la moitié des attaques proviennent d'utilisateurs avec peu de participation préalable; et peut-être étonnamment, environ 30% des attaques proviennent d'utilisateurs enregistrés avec plus de 100 contributions. <br />
<br />
* '' De plus, les données de crowdsourcing peuvent également entraîner d'autres formes de biais non intentionnels. ''<br />
<br />
Ceci soulève des questions clés pour notre méthode et plus généralement pour les applications de l'apprentissage automatique à l'analyse de commentaires: qui définit la vérité pour la propriété en question? Dans quelle mesure les classificateurs varient-ils en fonction de l'interlocuteur? Quel est l'impact subséquent de l'application d'un modèle avec un biais involontaire pour aider la discussion d'une communauté en ligne?<br />
<br />
<br />
Le projet Detox comprend une section sur les biais, publiée sous le nom de [https://meta.wikimedia.org/wiki/Research:Detox/Fairness "Fairness"].<br />
<br />
[[Category:Rencontres-Algolittéraires]]</div>Emmahttp://www.algolit.net/index.php?title=Exploration_de_Paysages_Multidimensionels:_Sur_le_plongement_lexical&diff=10093Exploration de Paysages Multidimensionels: Sur le plongement lexical2017-10-30T13:03:20Z<p>Emma: </p>
<hr />
<div>{|<br />
|-<br />
| Type: || Exploration algolittéraire <br />
|-<br />
| Technique: || [[plongement lexical]]<br />
|-<br />
| Développé par: || Algolit<br />
|}<br />
<br />
"''Le sens est cette chose insaisissable que nous essayons de capturer''" (Richard Socher dans [https://www.youtube.com/watch?v=xhHOL3TNyJs&index=2&list=PLcGUo322oqu9n4i0X3cRJgKyVy7OkDdoi CS224D Lecture 2 - 31 Mars 2016 (Youtube)])<br />
<br><br />
<br />
Les plongements de mots sont utilisés pour représenter les mots en tant qu'intrants à l'apprentissage automatique. Les mots deviennent des vecteurs dans un espace multidimensionnel, où les vecteurs voisins représentent des significations similaires. Avec le plongement lexical, vous pouvez comparer les mots par (grosso modo) ce qu'ils signifient, pas seulement les correspondances exactes.<br />
<br />
L'hypothèse commune dans cette approche est que la co-occurrence des mots dans leurs voisinages respectifs au sein du texte reflète une relation ou une similarité de sens. Alors que le mot-clé se réfère à la fréquence des mots dans tout le texte, ces approches font un compte de fréquence des mots dans un petit intervalle autour de chaque mot. Plusieurs algorithmes ont été développés pour transformer de tels comptes locaux de co-occurrence en mots-plongements, comme word2vec (un réseau de neurones à couche unique) et GloVe (modèle sémantique distributionnel).<br />
<br />
La formation réussie de vecteurs de mots nécessite de partir de centaines de gigaoctets de textes d'entrée. Heureusement, divers groupes d'apprentissage automatique l’ont déjà fait et ont fourni des plongements de mots pré-formés que l'on peut télécharger. Word2vec est pré-formé sur les données de Google News, et deux jeux de données très connus sur les plongements de mots anglais [http://www.algolit.net/index.php/The_GloVe_Reader GloVe] pré-formés sur les pages web de [http://www.algolit.net/index.php/Common_Crawl Common Crawl].<br />
<br />
Le terme est récemment entré dans le vocabulaire de l'apprentissage automatique, avec l'expansion de la communauté d'apprentissage profond. En linguistique computationnelle, l'expression «modèle sémantique distributif» est parfois préférée. D'autres termes incluent «représentation distribuée», «espace vectoriel sémantique» ou «espace de mots».</div>Emmahttp://www.algolit.net/index.php?title=Un_vecteur_one-hot&diff=10092Un vecteur one-hot2017-10-30T12:59:09Z<p>Emma: </p>
<hr />
<div>{|<br />
|-<br />
| Type: || Exploration algolittéraire<br />
|-<br />
| Technique: || plongement lexical <br />
|-<br />
| Développé par: || Algolit<br />
|}<br />
<br />
=Recette pour un vecteur one-hot=<br />
<br />
Si ceci est notre phrase d’exemple ...<br />
<br />
<br><br />
"Les explorateurs algolittéraires ont découvert un paysage multidimensionnel fait de mots déguisés en nombres."<br />
<br><br />
<br />
<br />
... nous travaillons avec les 15 mots suivants...<br />
<br />
<br><br />
* algolittéraires<br />
* de<br />
* découvert<br />
* déguisés<br />
* en<br />
* explorateurs<br />
* fait<br />
* Les<br />
* mots<br />
* multidimensionnel<br />
* nombres<br />
* ont<br />
* paysage<br />
* un<br />
* .<br />
<br><br />
<br />
... un seul vecteur dans un vecteur unique ressemble à ceci ...<br />
<br />
<br><br />
[0 0 0 0 0 0 0 0 0 0 0 0 0 0] <br />
<br><br />
<br />
... et une matrice complète de quinze dimensions à ceci...<br />
<br />
<br><br />
[[0 0 0 0 0 0 0 0 0 0 0 0 0 0] algolittéraires<br />
[0 0 0 0 0 0 0 0 0 0 0 0 0 0] de<br />
[0 0 0 0 0 0 0 0 0 0 0 0 0 0] découvert<br />
[0 0 0 0 0 0 0 0 0 0 0 0 0 0] déguisés<br />
[0 0 0 0 0 0 0 0 0 0 0 0 0 0] en<br />
[0 0 0 0 0 0 0 0 0 0 0 0 0 0] explorateurs<br />
[0 0 0 0 0 0 0 0 0 0 0 0 0 0] fait<br />
[0 0 0 0 0 0 0 0 0 0 0 0 0 0] Les<br />
[0 0 0 0 0 0 0 0 0 0 0 0 0 0] mots<br />
[0 0 0 0 0 0 0 0 0 0 0 0 0 0] multidimensionnel<br />
[0 0 0 0 0 0 0 0 0 0 0 0 0 0] nombres<br />
[0 0 0 0 0 0 0 0 0 0 0 0 0 0] ont<br />
[0 0 0 0 0 0 0 0 0 0 0 0 0 0] paysage<br />
[0 0 0 0 0 0 0 0 0 0 0 0 0 0] un<br />
[0 0 0 0 0 0 0 0 0 0 0 0 0 0]] .<br />
<br><br />
<br />
... avec un 0 pour chaque mot unique dans un vocabulaire et une ligne pour chaque mot unique.<br />
<br />
L'étape suivante consiste à compter combien de fois un mot apparaît à côté d'un autre ...<br />
<br />
<br><br />
"Les explorateurs algolittéraires ont découvert un paysage multidimensionnel fait de mots déguisés en nombres."<br />
<br />
<br><br />
[[0 0 0 1 0 0 0 0 1 0 0 0 0 0] algolittéraires<br />
[0 0 0 0 0 1 0 0 0 0 0 1 0 0] de<br />
[0 0 0 0 1 0 0 0 0 1 0 0 0 0] découvert<br />
[1 0 0 0 0 1 0 0 0 0 0 0 0 0] déguisés<br />
[0 0 1 0 0 0 0 0 0 0 0 0 1 0] en<br />
[0 1 0 1 0 0 0 0 0 0 0 0 0 0] explorateurs<br />
[0 0 0 0 0 0 0 1 1 0 0 0 0 0] fait<br />
[0 0 0 0 0 0 1 0 0 0 1 0 0 0] Les<br />
[1 0 0 0 0 0 1 0 0 0 0 0 0 0] mots<br />
[0 0 1 0 0 0 0 0 0 0 0 0 0 1] multidimensionnel<br />
[0 0 0 0 0 0 0 1 0 0 0 0 1 0] nombres<br />
[0 1 0 0 0 0 0 0 0 0 0 0 0 0] ont<br />
[0 0 0 0 1 0 0 0 0 0 1 0 0 0] paysage<br />
[0 0 0 0 1 0 0 0 0 0 1 0 0 0] un<br />
[0 0 0 0 0 0 0 0 0 1 0 0 0 0]] .<br />
<br><br />
<br />
''(NDLT: Le tableau ci-dessus est une simulation pour donner une idée du processus, et ne représente donc pas les valeurs réelles pour la phrase en français).''<br />
<br />
==Les scriptes de vecteurs one-hot d’Algolit==<br />
<br />
Deux scripts ont été créés lors d'une des sessions d'Algolit, créant la même matrice mais de manière différente. Pour les télécharger et les exécuter, utilisez les liens suivants: [https://gitlab.constantvzw.org/algolit/algolit/blob/master/algoliterary_encounter/one-hot-vector/one-hot-vector_gijs.py one-hot-vector_gijs.py] & [https://gitlab.constantvzw.org/algolit/algolit/blob/master/algoliterary_encounter/one-hot-vector/one-hot-vector_hans.py one-hot-vector_hans.py]<br />
<br />
== A noter ==<br />
"'' Les mots sont représentés une fois dans un vecteur, donc les mots avec des significations multiples, comme 'banque', sont plus difficiles à représenter. Une recherche existe autour des multivecteurs pour un mot, pour qu'il ne finisse pas au milieu. '' "(Richard Socher, idem.)]<br />
<br />
Pour plus de notes sur cette conférence, visitez http://pad.constantvzw.org/public_pad/neural_networks_3<br />
<br />
<br />
<br />
[[Category:Rencotres-Algolittéraires]]</div>Emmahttp://www.algolit.net/index.php?title=Apprendre_de_l%27apprentissage_profond&diff=10091Apprendre de l'apprentissage profond2017-10-30T12:56:59Z<p>Emma: </p>
<hr />
<div>[[Category:Rencontres-Algolittéraires]]<br />
<br />
{|<br />
|-<br />
| Type: || Ensemble de données<br />
|-<br />
| Source: || [https://archive.org/details/DataScienceBookV3 An Introduction to Data Science, J Stanton], [https://deeplearning4j.org/neuralnet-overview.html Deep Learning: A Practitioner's Approach, O'Reilly media], [http://www.deeplearningbook.org/ Deep Learning, Ian Goodfellow and Yoshua Bengio and Aaron Courville], [http://neuralnetworksanddeeplearning.com/index.html Neural Networks and Deep Learning, Michael Nielsen], [http://www.heatonresearch.com/book/aifh-vol3-deep-neural.html Artificial Intelligence for Humans - Volume 3: Deep Learning and Neural Networks, Jeff Heaton], [http://www.apress.com/us/book/9781484228449 MatLab Deep Learning with Machine Learning - Neural Networks and Artificial Intelligence-Apress, Phil Kim], [http://www.springer.com/gp/book/9783319429984 Advances in Computer Vision and Pattern Recognition, Le Lu, Yefeng Zheng, Gustavo Carneiro, Lin Yang (eds.)]<br />
|}<br />
<br />
L'ensemble de données '''''Apprendre de l’apprentissage profond''''' est une accumulation de 7 manuels qui donnent une explication technique sur l'apprentissage profond. Les livres ont tous été publiés au cours des deux dernières années. Cet ensemble de données a été créé pour explorer l'effet d'un langage techno-pratique sur les graphiques word2vec.</div>Emmahttp://www.algolit.net/index.php?title=Vous_conna%C3%AEtrez_un_mot_par_la_compagnie_qu%27il_tient&diff=10090Vous connaîtrez un mot par la compagnie qu'il tient2017-10-30T12:55:19Z<p>Emma: </p>
<hr />
<div>__NOTOC__<br />
<br />
[[Category:Rencontres-Algolittéraires]]<br />
[[Category:algolit-extension]]<br />
<br />
{|<br />
|-<br />
| Type: || Algoliterary exploration<br />
|-<br />
| Données: || [[Frankenstein FR]], [[AnarchFem]], [[WikiHarass FR]], [[Apprendre de l'apprentissage automatique]], [[Tristes Tropiques]]<br />
|-<br />
| Technique: || plongement lexical<br />
|-<br />
| Développé par: || word2vec de Google Tensorflow, Algolit<br />
|}<br />
<br />
''Vous connaîtrez un mot par la compagnie qu'il tient'' est une série de 5 paysages basés sur différents ensembles de données. Chaque paysage comprend les mots «collectif», «être», «social» en compagnie de différents groupes sémantiques. L'intuition que les distances au sein du graphique sont liées à la similarité sémantique des mots est l'un des fondements de word2vec.<br />
<br />
Les graphiques sont le résultat d'une étude de code basée sur un script de tutoriel de plongement lexical existant [[word2vec_basic.py]]. Dans une pratique d'apprentissage automatique, ces graphiques fonctionnent comme des outils de validation pour voir si un modèle commence à avoir du sens. Il est intéressant de voir comment ce processus de validation est alimenté par la compréhension sémantique individuelle des groupes et des mots.<br />
<br />
Comment pouvons-nous utiliser ces paysages sémantiques comme outils de lecture?<br />
<br />
==graphique 1: Ensemble de données Frankenstein==<br />
Inclut le livre [http://www.algolit.net/index.php/Frankenstein Frankenstein, ou le Prométhée Moderne de Mary Shelley].<br />
<br />
[[File:5 graphs frankenstein gutenberg tf.png]]<br />
<br />
==graphique 2: Ensemble de données Anarch Feminist ==<br />
Inclut 3 livres (...)<br />
<br />
[[File:5 graphs dataset1-fem-read stripped.png]]<br />
<br />
==graphique 3: Ensemble de données Claude Levi-Strauss==<br />
Inclut le livre Tristes Tropiques de Claude Lévi-Strauss.<br />
<br />
[[File:5 graphs claude-levi-strauss tristestropiques000177mbp djvu strippted.png]]<br />
<br />
==graphique 4: Ensemble de données manuels d'apprentissage profond ==<br />
Inclut les livres (...).<br />
<br />
[[File:5 graphs deep-learning-trainingset.png]]<br />
<br />
==graphique 5: Ensemble de données commentaires harcelants ==<br />
Inclut des exemples de harcèlement sur les commentaires de la page Talk de Wikipedia.<br />
<br />
[[File:5_graphs_Talk_page_comments_from_Wikipedia_stripped.png]]</div>Emmahttp://www.algolit.net/index.php?title=Recettes_Oulipo&diff=10089Recettes Oulipo2017-10-30T12:54:43Z<p>Emma: </p>
<hr />
<div>{|<br />
|-<br />
| Type: || Travail Algolittéraire<br />
|-<br />
| Données: || Inspiration humaine, Wordnet, 1984 de George Orwell, objects of a handbag<br />
|-<br />
| Technique: || Quicksort, Chaîne de Markov<br />
|-<br />
| Développé par: || Oulipo, Marcel Bénabou, Tony Hoare, Allen Downey, Andrey Markov, Consonni, Algolit<br />
|}<br />
<br />
'''Télécharger les scripts''': https://gitlab.constantvzw.org/algolit/algolit/tree/master/algoliterary_encounter/oulipo<br />
<br />
==== L'Abécédaire, un jeu ====<br />
<br />
''[http://oulipo.net/fr/contraintes/abecedaire L'Abécédaire]'' est un texte dont les premières lettres de chaque mot suivent l'ordre alphabétique. L'algorithme Quicksort est un algorithme fructueux pour jouer à '' l'abécédaire '' comme un jeu, que ce soit à l'intérieur ou dans la rue.<br />
<br />
'''Quicksort''' est inventé en 1960 par Tony Hoare, un étudiant en visite d'Oxford à l'Université de Moscou. Il a développé Quicksort pour classer par ordre alphabétique les mots russes dans l'élaboration d'une machine de traduction. De nos jours Quicksort fait partie des systèmes de programmation standard tels que Unix, C, C++.<br />
<br />
Cette compagnie de danse hongroise exécute le Quicksort comme une performance:<br />
[https://www.youtube.com/embed/ywWBy6J5gz8 Quicksort Dance]<br />
<br />
Jouez à l'Abécédaire comme un jeu, développé par Algolit: [[Règles Abécédaire]]<br />
<br />
==== Littérature définitionnelle, Marcel Bénabou, 1966 ====<br />
<br />
Chaque élément d'une phrase est remplacé par l'une de ses définitions d'un dictionnaire. Vous pouvez réitérer indéfiniment cette opération sur le texte transformé. Pour cette recette numérique, nous sélectionnons au hasard des phrases de [http://www.gutenberg.org/files/84/84-h/84-h.htm Frankenstein de Mary Shelley] et utilisons le dictionnaire Wordnet, lisible pour les machines, comme source de définitions.<br />
<br />
[http://wordnetweb.princeton.edu/perl/webwn WordNet] est une base de données lexicale pour la langue anglaise créée dans le Laboratoire des Sciences Cognitives de l'Université de Princeton depuis 1985. Elle regroupe des mots anglais en ensembles de synonymes appelés synsets, fournit des définitions courtes et des exemples d'utilisation, et enregistre un certain nombre de relations entre ces ensembles de synonymes ou leurs membres. WordNet peut donc être considéré comme une combinaison de dictionnaire et de thésaurus. Bien qu'il soit accessible aux utilisateurs via un navigateur Web, il est principalement utilisé dans les applications d'analyse automatique de texte et d'intelligence artificielle. La base de données et les outils logiciels ont été publiés sous licence BSD et peuvent être téléchargés gratuitement sur le site WordNet.<br />
<br />
[http://oulipo.net Oulipo] (Prononciation: [ulipo], acronyme: Ouvroir de littérature potentielle; traduction approximative en anglais: "workshop of potential literature") est un rassemblement libre d'écrivains et de mathématiciens (principalement) francophones qui cherchent à créer des œuvres en utilisant des techniques d'écriture contraignantes. Le groupe est fondé en 1960 par Raymond Queneau et François Le Lionnais. Parmi les autres membres remarquables figurent les romanciers Georges Perec et Italo Calvino, les poètes Oskar Pastior, Jean Lescure et le poète / mathématicien Jacques Roubaud.<br />
Le groupe définit le terme «littérature potentielle» comme: «la recherche de nouvelles structures et de nouveaux modèles qui peuvent être utilisés par les écrivains comme ils le souhaitent».<br />
Les contraintes sont utilisées comme un moyen de déclencher des idées et de l'inspiration, notamment la «machine à faire des histoires» de Perec, qu'il utilise dans la construction de La Vie mode d'emploi. En plus des techniques établies, telles que les lipogrammes (comme dans le roman La Disparition de Perec) et les palindromes, le groupe élabore de nouvelles méthodes, souvent basées sur des problèmes mathématiques, comme la visite du chevalier de l'échiquier et les permutations.<br />
[https://en.wikipedia.org/wiki/Marcel_B%C3%A9nabou Marcel Bénabou] est membre de l'Ouvroir de littérature potentielle (ou OuLiPo) depuis 1969, auquel il a adhéré un an après son ami Georges Perec. L'année suivante, il devient secrétaire définitivement provisoire. Depuis 2003, il associe cette fonction à celle de secrétaire provisoirement définitif.<br />
<br />
==== Un roman dont vous êtes la vedette, de Think Python, par Allen Downey, 2012 ====<br />
<br />
''Un roman dont vous êtes la vedette'' montre comment inventer de nouvelles recettes dans le style de l'Oulipo.<br />
Sur Internet, des sites Web offrent des livres d'amour personnalisés pour lesquels vous fournissez les noms, les caractéristiques et les lieux en personnalisant plus de 30 caractéristiques - vous pouvez même inclure votre chien ou votre chat.<br />
<br />
''Un roman dont vous êtes la vedette'' montre également comment vous pouvez personnaliser les romans existants, comme cet extrait, la scène d'ouverture de 1984. George Orwell utilise la substitution de mots, une fonction très basique dans le langage de programmation Python.<br />
<br />
<br />
==== La chaîne de Markov, un jeu ====<br />
<br />
La chaîne de Markov a été développée en 1906 par Andrey Markov, un mathématicien russe décédé en 1992. Cet algorithme fait partie de nombreux logiciels générateurs de spam. Il est appliqué dans les systèmes qui décrivent les événements dépendants respectifs. Ainsi, ce qui se passe ne dépend que de la sortie de l'étape précédente. C'est pourquoi les chaînes de Markov sont également appelées «sans mémoire».<br />
<br />
Ce jeu a été développé en deux versions, l'une utilisant des phrases et un système de cartes d'écriture (en collaboration avec Brendan Howell, Catherine Lenoble et Désert Numérique, 2014); et une version utilisant des objets (en collaboration avec Consonni, Bilbao: Itziar Olaizola, Emanuel Cantero, Pablo Mendez, Ariadna Chezran, Iñigo Benito, Itziar Markiegi, Josefina Rocco, Andrea Estankona, Mawa Tres (Juan Pablo Orduñez), Maria Ptqk, 2015) .<br />
<br />
[[Règles de Markov avec des objets]]<br />
<br />
[[Règles de Markov avec des mots]]<br />
<br />
[[Category:Rencontres-Algolittéraires]]</div>Emmahttp://www.algolit.net/index.php?title=WikiHarass_FR&diff=10088WikiHarass FR2017-10-30T12:53:39Z<p>Emma: </p>
<hr />
<div>{|<br />
|-<br />
| Type: || Ensemble de données<br />
|-<br />
| Source: || Wikipédia anglais<br />
|-<br />
| Développé par: || La Fondation Wikimedia<br />
|}<br />
<br />
<br />
Le [https://meta.wikimedia.org/wiki/Research:Detox Detox dataset] est un projet de Wikimedia et de [[Crowd Embeddings| Perspective API]] pour former un réseau neuronal qui permettrait de détecter le niveau de toxicité d'un commentaire.<br />
<br />
<br />
L’[https://figshare.com/projects/Wikipedia_Talk/16731 ensemble de données original] consiste en:<br />
* Un corpus de tous les 95 millions d'utilisateurs et d'articles diff fait entre 2001-2015 marqué par le modèle d'attaque personnelle.<br />
* Un jeu de données annoté humainement d'1m d'annotations crowd-sourcées couvrant 100k diff (avec 10 jugements par diff).<br />
<br />
<br />
Pour Algolit, une plus petite section de l'ensemble de données Detox a été utilisée, tirée du [https://conversationai.github.io/wikidetox/testdata/tox-sorted/Wikipedia%20Toxicity%20Sorted%20%28Toxicity%405%5BAlpha%5D%29.html Github Jigsaw], qui contient à la fois des modifications constructives et vandalistes.<br />
<br />
<br />
[[Category:Rencontres-Algolittéraires]</div>Emmahttp://www.algolit.net/index.php?title=Common_Crawl_FR&diff=10087Common Crawl FR2017-10-30T12:51:03Z<p>Emma: </p>
<hr />
<div>{|<br />
|-<br />
| Type: || Ensemble de données<br />
|-<br />
| Technique: || scraping<br />
|-<br />
| Développé par: || The Common Crawl Foundation, California, US<br />
|}<br />
<br />
[http://commoncrawl.org Common Crawl] est une organisation sans but lucratif reconnue, fondée par Gil Elbaz dans le but de démocratiser l'accès à l'information Web en produisant et en maintenant un référentiel ouvert de données d'analyse Web universellement accessible et analysable.<br />
<br />
Common Crawl effectue quatre explorations par an. Amazon Web Services a commencé à héberger les archives de Common Crawl à travers son programme Public Data Sets en 2012. L'analyse de septembre 2017 contient 3,01 milliards de pages Web et plus de 250 TiB de contenu non compressé, soit environ 75% d'Internet.<br />
<br />
Les robots d'exploration de l'organisation respectent les stratégies nofollow et robots.txt. Le code open source pour le traitement du jeu de données Common Crawl est disponible publiquement.<br />
<br />
Les ensembles de données d'analyse commune sont utilisés pour créer des ensembles de données de plongement lexical pré-assemblés, comme GloVe (voir [http://www.algolit.net/index.php/The_GloVe_Reader The GloVe Reader]). word2vec est un autre jeu de données sur les plongées de mots pré-assemblées, très utilisé, basé sur les textes de Google News.<br />
<br />
Le site web de Maison du Livre dans le [http://index.commoncrawl.org/CC-MAIN-2017-39/ Common Crawl Index]:<br />
<br />
{"urlkey": "be,lamaisondulivre)/", "timestamp": "20170921193906", "filename": "crawl-data/CC-MAIN-2017-39/segments/1505818687837.85/warc/CC-MAIN-20170921191047-20170921211047-00095.warc.gz", "mime-detected": "application/xhtml+xml", "status": "200", "mime": "text/html", "digest": "KDTUFUFZASPU7DXCJRQN62DHWGXGUZIX", "length": "5082", "offset": "491381827", "url": "http://www.lamaisondulivre.be/"}<br />
<br />
Le site web de Constant dans le [http://index.commoncrawl.org/CC-MAIN-2017-39/ Common Crawl Index]: <br />
<br />
{"urlkey": "org,constantvzw)/", "timestamp": "20170920232443", "filename": "crawl-data/CC-MAIN-2017-39/segments/1505818687582.7/crawldiagnostics/CC-MAIN-20170920232245-20170921012245-00322.warc.gz", "mime-detected": "text/html", "status": "302", "mime": "text/html", "digest": "3I42H3S6NNFQ2MSVX7XZKYAYSCX5QBYJ", "length": "547", "offset": "10063605", "url": "http://www.constantvzw.org/"}<br />
{"urlkey": "org,constantvzw)/", "timestamp": "20170921101437", "filename": "crawl-data/CC-MAIN-2017-39/segments/1505818687740.4/crawldiagnostics/CC-MAIN-20170921101029-20170921121029-00322.warc.gz", "mime-detected": "text/html", "status": "302", "mime": "text/html", "digest": "3I42H3S6NNFQ2MSVX7XZKYAYSCX5QBYJ", "length": "548", "offset": "10050808", "url": "http://www.constantvzw.org/"}<br />
{"urlkey": "org,constantvzw)/", "timestamp": "20170925145800", "filename": "crawl-data/CC-MAIN-2017-39/segments/1505818691977.66/crawldiagnostics/CC-MAIN-20170925145232-20170925165232-00347.warc.gz", "mime-detected": "text/html", "status": "302", "mime": "text/html", "digest": "3I42H3S6NNFQ2MSVX7XZKYAYSCX5QBYJ", "length": "541", "offset": "1503578", "url": "http://constantvzw.org/"}<br />
<br />
<br />
<br />
[[Category:Rencontres-Algolittéraires]]</div>Emmahttp://www.algolit.net/index.php?title=La_donn%C3%A9e_(e)parle&diff=10086La donnée (e)parle2017-10-30T12:47:43Z<p>Emma: </p>
<hr />
<div>{|<br />
|-<br />
| Type: || Exploration algolittéraire<br />
|-<br />
| Données: || <br />
|-<br />
| Technique: || espeak<br />
|-<br />
| Développé par: || & Algolit<br />
|}<br />
<br />
Lors du processus de création des jeux de données Algolit, une attention particulière a été accordée à la sélection des textes sources. Nous avons tenté d'avoir une diversité de tons de voix afin de mettre en évidence l'hétérogénéité au sein de leurs combinaisons.<br />
<br />
<br />
Les textes ont été rassemblés à partir de aaaaarg.fail, gen.lib.rus.ec, archive.org et gutenberg.org, à travers des commandes de terminal telles que [https://en.wikipedia.org/wiki/Pdftotext pdftotext] afin de générer des fichiers .txt et dépouillés des signes de ponctuation à l'aide d’un [https://gitlab.constantvzw.org/algolit/algolit/blob/master/algoliterary_encounter/algoliterary-toolkit/text-punctuation-clean-up.py fragment de code Python].<br />
<br />
<br />
Les ensembles de données étaient les suivants:<br />
* ...<br />
* ...<br />
* ...<br />
<br />
'' La donnée (e)parle '' est une installation audio qui donne la voix aux jeux de données en sélectionnant des phrases spécifiques du corps du texte.<br />
<br />
<br />
<br />
[[Category:Rencontres-Algolittéraires]]</div>Emmahttp://www.algolit.net/index.php?title=Beaucoup,_beaucoup_de_mots&diff=10085Beaucoup, beaucoup de mots2017-10-30T12:46:34Z<p>Emma: </p>
<hr />
<div>[[Category:Rencontres-Algolittéraires]]<br />
=Beaucoup, beaucoup de mots=<br />
<br />
Pour comparer la taille des ensembles de données que nous avons utilisés, nous avons calculé le nombre de pages de cette bibliothèque. Avec un petit script, tout le catalogue du Biblio de Saint-Gilles a été lu et les pages ont été comptées. Le catalogue contient 43.673 articles, dont 42.759 sont imprimés:<br />
''Historique des recherches = (Recherche simple : terme * dans Tous les champs pour tous les types de documents) Et Type de document = (texte imprimé) - 42759 résultat(s)''<br />
<br />
Pour 28163 de ces livres, le nombre de pages était indiqué et pouvait être compté. Notre petit script a fait une lecture nocturne du catalogue de la bibliothèque. Cela a donné un nombre de 6.409.431 pages pour 28.163 livres.<br />
<br />
Une page de livre contient généralement entre 200 et 600 mots, avec une moyenne estimée à 450 mots (taille de police Arial 12, interligne simple - source: https://wordcounter.net/words-per-page). Cela donne une estimation de 2.884.243.950 ou approx. 2,9 milliards de mots pour ces 6.409.431 pages ou 28.163 livres. En moyenne, cela donne 102.400 mots ou 227 pages par livre. Extrapolé à l'ensemble des 42.759 livres de cette bibliothèque, cela donne environ 10 millions de pages et 4.4 milliards de mots.<br />
<br />
Nous avons principalement utilisé les jeux de données de plongement lexical préprogrammés GloVe. Ces plongements de mots sont basées sur les données de texte [http://www.algolit.net/index.php/Common_Crawl Common Crawl]. Le grand ensemble a 840B de symboles ou de mots utilisés dans les textes lus, ce qui se compare à env. 1,9 milliard de pages. L'ensemble le plus petit a des symboles de 42B, ou approx. 90 millions de pages. En d'autres termes, pour apprendre les plongements de mots dans le glove.42B-dataset, l'ordinateur lisait environ 9 fois la quantité de texte dans le Biblio de Saint-Gilles. Pour l'ensemble de données du glove 840B, l'ordinateur a lu 36 fois le Biblio de Saint-Gilles. Les ordinateurs lisent vite mais apprennent lentement.<br />
<br />
La formation GloVe a abouti à un vocabulaire de 1,9 million de mots distincts, chacun avec 300 valeurs associées. Le plus grand crawl a abouti à un vocabulaire de 2,2 millions de mots. L'impression d'un mot avec toutes les 300 valeurs sur une page entraînerait 1,9 ou 2,2 millions de pages, soit environ 20% du Biblio de Saint-Gilles. Même si nous optons pour des petits caractères et mettons 2 mots avec leurs valeurs sur une page, il resterait environ un million de pages ou 10% de la bibliothèque.<br />
L'impression de tous les 1,9 million de mots, avec chaque mot sur une ligne de 4 mm de hauteur, se traduirait par un rouleau de papier de 7600m.<br />
<br />
Nous avons donc gardé l'espace de mots utilisé par l'ordinateur à l'état virtuel et décidé de fournir quelques aperçus alternatifs de cet univers de langage.</div>Emmahttp://www.algolit.net/index.php?title=Recettes_Oulipo&diff=10084Recettes Oulipo2017-10-30T12:41:33Z<p>Emma: </p>
<hr />
<div>{|<br />
|-<br />
| Type: || Travail Algolittéraire<br />
|-<br />
| Données: || Inspiration humaine, Wordnet, 1984 de George Orwell, objects of a handbag<br />
|-<br />
| Technique: || Quicksort, Chaîne de Markov<br />
|-<br />
| Développé par: || Oulipo, Marcel Bénabou, Tony Hoare, Allen Downey, Andrey Markov, Consonni, Algolit<br />
|}<br />
<br />
'''Télécharger les scripts''': https://gitlab.constantvzw.org/algolit/algolit/tree/master/algoliterary_encounter/oulipo<br />
<br />
==== L'Abécédaire, un jeu ====<br />
<br />
''[http://oulipo.net/fr/contraintes/abecedaire L'Abécédaire]'' est un texte dont les premières lettres de chaque mot suivent l'ordre alphabétique. L'algorithme Quicksort est un algorithme fructueux pour jouer à '' l'abécédaire '' comme un jeu, que ce soit à l'intérieur ou dans la rue.<br />
<br />
'''Quicksort''' est inventé en 1960 par Tony Hoare, un étudiant en visite d'Oxford à l'Université de Moscou. Il a développé Quicksort pour classer par ordre alphabétique les mots russes dans l'élaboration d'une machine de traduction. De nos jours Quicksort fait partie des systèmes de programmation standard tels que Unix, C, C++.<br />
<br />
Cette compagnie de danse hongroise exécute le Quicksort comme une performance:<br />
[https://www.youtube.com/embed/ywWBy6J5gz8 Quicksort Dance]<br />
<br />
Jouez à l'Abécédaire comme un jeu, développé par Algolit: [[Règles Abécédaire]]<br />
<br />
==== Littérature définitionnelle, Marcel Bénabou, 1966 ====<br />
<br />
Chaque élément d'une phrase est remplacé par l'une de ses définitions d'un dictionnaire. Vous pouvez réitérer indéfiniment cette opération sur le texte transformé. Pour cette recette numérique, nous sélectionnons au hasard des phrases de [http://www.gutenberg.org/files/84/84-h/84-h.htm Frankenstein de Mary Shelly] et utilisons le dictionnaire Wordnet, lisible pour les machines, comme source de définitions.<br />
<br />
[http://wordnetweb.princeton.edu/perl/webwn WordNet] est une base de données lexicale pour la langue anglaise créée dans le Laboratoire des Sciences Cognitives de l'Université de Princeton depuis 1985. Elle regroupe des mots anglais en ensembles de synonymes appelés synsets, fournit des définitions courtes et des exemples d'utilisation, et enregistre un certain nombre de relations entre ces ensembles de synonymes ou leurs membres. WordNet peut donc être considéré comme une combinaison de dictionnaire et de thésaurus. Bien qu'il soit accessible aux utilisateurs via un navigateur Web, il est principalement utilisé dans les applications d'analyse automatique de texte et d'intelligence artificielle. La base de données et les outils logiciels ont été publiés sous licence BSD et peuvent être téléchargés gratuitement sur le site WordNet.<br />
<br />
[http://oulipo.net Oulipo] (Prononciation: [ulipo], acronyme: Ouvroir de littérature potentielle; traduction approximative en anglais: "workshop of potential literature") est un rassemblement libre d'écrivains et de mathématiciens (principalement) francophones qui cherchent à créer des œuvres en utilisant des techniques d'écriture contraignantes. Le groupe est fondé en 1960 par Raymond Queneau et François Le Lionnais. Parmi les autres membres remarquables figurent les romanciers Georges Perec et Italo Calvino, les poètes Oskar Pastior, Jean Lescure et le poète / mathématicien Jacques Roubaud.<br />
Le groupe définit le terme «littérature potentielle» comme: «la recherche de nouvelles structures et de nouveaux modèles qui peuvent être utilisés par les écrivains comme ils le souhaitent».<br />
Les contraintes sont utilisées comme un moyen de déclencher des idées et de l'inspiration, notamment la «machine à faire des histoires» de Perec, qu'il utilise dans la construction de La Vie mode d'emploi. En plus des techniques établies, telles que les lipogrammes (comme dans le roman La Disparition de Perec) et les palindromes, le groupe élabore de nouvelles méthodes, souvent basées sur des problèmes mathématiques, comme la visite du chevalier de l'échiquier et les permutations.<br />
[https://en.wikipedia.org/wiki/Marcel_B%C3%A9nabou Marcel Bénabou] est membre de l'Ouvroir de littérature potentielle (ou OuLiPo) depuis 1969, auquel il a adhéré un an après son ami Georges Perec. L'année suivante, il devient secrétaire définitivement provisoire. Depuis 2003, il associe cette fonction à celle de secrétaire provisoirement définitif.<br />
<br />
==== Un roman dont vous êtes la vedette, de Think Python, par Allen Downey, 2012 ====<br />
<br />
''Un roman dont vous êtes la vedette'' montre comment inventer de nouvelles recettes dans le style de l'Oulipo.<br />
Sur Internet, des sites Web offrent des livres d'amour personnalisés pour lesquels vous fournissez les noms, les caractéristiques et les lieux en personnalisant plus de 30 caractéristiques - vous pouvez même inclure votre chien ou votre chat.<br />
<br />
''Un roman dont vous êtes la vedette'' montre également comment vous pouvez personnaliser les romans existants, comme cet extrait, la scène d'ouverture de 1984. George Orwell utilise la substitution de mots, une fonction très basique dans le langage de programmation Python.<br />
<br />
<br />
==== La chaîne de Markov, un jeu ====<br />
<br />
La chaîne de Markov a été développée en 1906 par Andrey Markov, un mathématicien russe décédé en 1992. Cet algorithme fait partie de nombreux logiciels générateurs de spam. Il est appliqué dans les systèmes qui décrivent les événements dépendants respectifs. Ainsi, ce qui se passe ne dépend que de la sortie de l'étape précédente. C'est pourquoi les chaînes de Markov sont également appelées «sans mémoire».<br />
<br />
Ce jeu a été développé en deux versions, l'une utilisant des phrases et un système de cartes d'écriture (en collaboration avec Brendan Howell, Catherine Lenoble et Désert Numérique, 2014); et une version utilisant des objets (en collaboration avec Consonni, Bilbao: Itziar Olaizola, Emanuel Cantero, Pablo Mendez, Ariadna Chezran, Iñigo Benito, Itziar Markiegi, Josefina Rocco, Andrea Estankona, Mawa Tres (Juan Pablo Orduñez), Maria Ptqk, 2015) .<br />
<br />
[[Règles de Markov avec des objets]]<br />
<br />
[[Règles de Markov avec des mots]]<br />
<br />
[[Category:Rencontres-Algolittéraires]]</div>Emmahttp://www.algolit.net/index.php?title=Vous_conna%C3%AEtrez_un_mot_par_la_compagnie_qu%27il_tient&diff=10083Vous connaîtrez un mot par la compagnie qu'il tient2017-10-30T12:40:11Z<p>Emma: Created page with "__NOTOC__ Category:Rencontres-Algolittéraires Category:algolit-extension {| |- | Type: || Algoliterary exploration |- | Données: || Frankenstein FR, AnarchFe..."</p>
<hr />
<div>__NOTOC__<br />
<br />
[[Category:Rencontres-Algolittéraires]]<br />
[[Category:algolit-extension]]<br />
<br />
{|<br />
|-<br />
| Type: || Algoliterary exploration<br />
|-<br />
| Données: || [[Frankenstein FR]], [[AnarchFem]], [[WikiHarass FR]], [[Apprendre de l'apprentissage automatique]], [[Tristes Tropiques]]<br />
|-<br />
| Technique: || plongement lexical<br />
|-<br />
| Développé par: || word2vec de Google Tensorflow, Algolit<br />
|}<br />
<br />
''Vous connaîtrez un mot par la compagnie qu'il tient'' est une série de 5 paysages basés sur différents ensembles de données. Chaque paysage comprend les mots «collectif», «être», «social» en compagnie de différents groupes sémantiques. L'intuition que les distances au sein du graphique sont liées à la similarité sémantique des mots est l'un des fondements de word2vec.<br />
<br />
Les graphiques sont le résultat d'une étude de code basée sur un script de tutoriel de plongement lexical existant [[word2vec_basic.py]]. Dans une pratique d'apprentissage automatique, ces graphiques fonctionnent comme des outils de validation pour voir si un modèle commence à avoir du sens. Il est intéressant de voir comment ce processus de validation est alimenté par la compréhension sémantique individuelle des groupes et des mots.<br />
<br />
Comment pouvons-nous utiliser ces paysages sémantiques comme outils de lecture?<br />
<br />
==graphique 1: Ensemble de données Frankenstein==<br />
Inclut le livre [http://www.algolit.net/index.php/Frankenstein Frankenstein, ou le Prométhée Moderne de Mary Shelly].<br />
<br />
[[File:5 graphs frankenstein gutenberg tf.png]]<br />
<br />
==graphique 2: Ensemble de données Anarch Feminist ==<br />
Inclut 3 livres (...)<br />
<br />
[[File:5 graphs dataset1-fem-read stripped.png]]<br />
<br />
==graphique 3: Ensemble de données Claude Levi-Strauss==<br />
Inclut le livre Tristes Tropiques de Claude Lévi-Strauss.<br />
<br />
[[File:5 graphs claude-levi-strauss tristestropiques000177mbp djvu strippted.png]]<br />
<br />
==graphique 4: Ensemble de données manuels d'apprentissage profond ==<br />
Inclut les livres (...).<br />
<br />
[[File:5 graphs deep-learning-trainingset.png]]<br />
<br />
==graphique 5: Ensemble de données commentaires harcelants ==<br />
Inclut des exemples de harcèlement sur les commentaires de la page Talk de Wikipedia.<br />
<br />
[[File:5_graphs_Talk_page_comments_from_Wikipedia_stripped.png]]</div>Emmahttp://www.algolit.net/index.php?title=Rencontres_Algolitt%C3%A9raires&diff=10079Rencontres Algolittéraires2017-10-30T12:27:11Z<p>Emma: </p>
<hr />
<div>__NOTOC__<br />
<br />
Hey Emma, <br />
This is a start of the French version of the Algoliterary Encounters catalog. We marked the pages below that are ready to be translated. <br />
<br />
It would be nice to translate the titles of the works into French as well, the titles below are still the English ones. And it would be great if you could do the headers as well.<br />
<br />
Thanks a lot! <br />
<br />
---<br />
<br />
== General Introduction / Introduction Générale==<br />
* [[Rencontres Algolittéraires - Algolit|Algolit]] - already translated!<br />
* [[Program]] = [[Programme]] - already translated!<br />
<br />
==Algoliterary works / Travaux Algolittéraires==<br />
* [[Oulipo recipes]] = [[Recettes Oulipo]] - already translated!<br />
* [[i-could-have-written-that]] = [[i-could-have-written that FR]] - translated!<br />
* Obama, model for a politician<br />
* [[In the company of CluebotNG]] = [[En compagnie de CluebotNG]] - translated!<br />
<br />
==Algoliterary explorations / Explorations Algolittéraires==<br />
=== What the Machine Writes: a closer look at the output / Ce que la machine écrit: mise au point sur la sortie===<br />
* [[CHARNN text generator]]<br />
* [[You shall know a word by the company it keeps]] = [[Vous connaîtrez un mot par la compagnie qu'il tient]]- translated!<br />
<br />
=== How the Machine Reads: Dissecting Neural Networks / Comment la machine lit: dissection des réseaux neuronaux===<br />
<br />
==== Datasets / Ensemble de données ====<br />
* [[Many many words]] = [[Beaucoup, beaucoup de mots]] - translated!<br />
* [[The data (e)speaks]] = [[La donnée (e)parle]]- translated!<br />
<br />
=====Common public datasets / Ensembles de données publics communs=====<br />
* [[Common Crawl]] = [[Common Crawl FR]]- translated!<br />
* [[WikiHarass]] = [[WikiHarass FR]]- translated!<br />
<br />
=====Algoliterary datasets / Ensembles de données Algolittéraires =====<br />
* [[Frankenstein]] = [[Frankenstein FR]] - translated!<br />
* [[Learning from Deep Learning]] = [[Apprendre de l'apprentissage automatique]]- translated!<br />
* [[AnarchFem]]<br />
* [[Tristes Tropiques]]<br />
<br />
==== From words to numbers / Des mots aux nombres ====<br />
* [[A Bag of Words]] = [[Un sac de mots]] - translated!<br />
* [[A One Hot Vector]] = [[Un vecteur one-hot]] - translated!<br />
<br />
==== Special Focus: Word Embeddings / Focus spécial: le plongement lexical ====<br />
* [[About Word embeddings]] = [[Sur le plongement lexical]] - translated!<br />
* [[Crowd Embeddings]] = [[Crowd Embeddings FR]] - translated!<br />
<br />
===== Different portraits of word embeddings / Différents portraits du plongement lexical =====<br />
* [[Word embedding Projector]] = [[Projecteur de plongement lexical]] - translated!<br />
* [[5 dimensions 32 graphs]]<br />
* [[The GloVe Reader]] = [[Le Lecteur GloVe]] - translated!<br />
<br />
===== Inspecting the technique / Inspection de la technique =====<br />
* [[word2vec_basic.py]] = [[word2vec_basic.py FR]] - translated!<br />
* [[Reverse Algebra]]<br />
<br />
=== How a Machine Might Speak / Comment une machine pourrait parler ===<br />
* [[We Are A Sentiment Thermometer]] = [[Nous sommes un thermomètre de sentiments]]- translated!<br />
<br />
== Sources ==<br />
* [[Algoliterary Toolkit]] - ready!<br />
* [[Algoliterary Bibliography]] = [[Bibliographie Algolittéraire]] - translated!</div>Emmahttp://www.algolit.net/index.php?title=En_compagnie_de_CluebotNG&diff=10075En compagnie de CluebotNG2017-10-30T12:22:33Z<p>Emma: </p>
<hr />
<div>{|<br />
|-<br />
| Type: || Travail Algolittéraire<br />
|-<br />
| Données: || Modifications Wikipédia <br />
|-<br />
| Technique: || Apprentissage automatique supervisé, classificateurs bayésiens naïfs<br />
|-<br />
| Developpé par: || User:Cobi, User:Crispy1989, Cristina Cochior<br />
|}<br />
<br />
<br />
Wikipédia s'appuie sur l'assistance par machine lorsqu'il s'agit de maintenance. L'une de ses applications les plus actives est [https://en.wikipedia.org/wiki/User:ClueBot_NG CluebotNG], un bot anti-vandalisme opérant sur le Wikipédia anglais depuis décembre 2010.<br />
<br />
<br />
CluebotNG utilise une série de classificateurs bayésiens différents, qui mesurent le poids des mots pour attribuer un score de probabilité de vandalisme à une modification. Les résultats sont transmis à un réseau neuronal artificiel qui attribue en outre aux modifications un nombre compris entre 0 et 1, où l'on représente par 100% la probabilité qu'une modification soit mal intentionnée.<br />
<br />
Afin d'établir le point à partir duquel une contribution est considérée comme vandaliste, un seuil doit être choisi par l'opérateur de l'application. Celui-ci est calculé par rapport au taux de faux positifs qu'il génère: plus un seuil est bas, plus le nombre de [[faux positifs]] est élevé. L'algorithme attrape la plupart des instances de vandalisme sur la plate-forme quand il fait le plus d'erreurs. La valeur de seuil pour CluebotNG a causé beaucoup de débats sur Wikipédia, où un équilibre entre haute efficacité est établi par rapport au nombre d'éditeurs qui sont accusés à tort.<br />
<br />
<br />
Si un faux positif se produit, il appartient au responsable du code de l'examiner et de l'ajouter à une liste d'exceptions afin que l'algorithme puisse apprendre de la mauvaise classification. Cela implique une attention constante du mainteneur.<br />
<br />
Grâce à un bot de reconstitution qui passe par chacune des éditions de CluebotNG et les affiche sur un moniteur, la réplication séquentielle de ses éditions tisse ensemble un récit de voix non humaines qui passent généralement inaperçues sur les plateformes médiatiques. Chaque micro-interaction du bot est intrinsèquement réalisée en lien avec un éditeur humain, que l'algorithme contrôle. Au fur et à mesure que le programme taxidermique s'exécute, une corporalité émerge pendant la durée nécessaire au bot pour arriver au bout de ses modifications.<br />
<br />
<br />
[[File:Screen_Shot_2017-10-25.png]]<br />
<br />
<br />
<br />
[[Category:Rencontres-Algolittéraires]]</div>Emmahttp://www.algolit.net/index.php?title=I-could-have-written_that_FR&diff=10072I-could-have-written that FR2017-10-30T12:19:06Z<p>Emma: </p>
<hr />
<div>[[Category:Rencontres-Algolittéraires]]<br />
{|<br />
|-<br />
| Type: || Travail Algolittéraire<br />
|-<br />
| Données || sources textuelles personnalisées, modality.py, Twitter API, DuckDuckGo API, Wikipedia API<br />
|-<br />
| Technique: || apprentissage basé sur des règles, apprentissage supervisé, apprentissage non supervisé, [[Un sac de mots|sac-de-mots]], similarité_cosinus<br />
|-<br />
| Developpé par: || Tom De Smedt/Pattern, les équipes de SciKit Learn, Python, Nltk, Jinja2 & Manetta Berends<br />
|}<br />
<br />
'''''i-could-have-written-that''''' * est un projet de recherche pratique sur l'apprentissage automatique textuel, qui interroge la nature ludique des techniques et propose de les représenter comme des machines à écrire. Le projet comprend la série d'affiches '' du mythe (-1.00) au pouvoir (+1.00) '' et trois systèmes d'écriture: '' écrire le mythe (-1.00) au pouvoir (+1.00) '', '' Écriture supervisée & Cosine Morphs Similarity''. Ceux-ci traduisent les éléments techniques de l'apprentissage automatique en interfaces utilisateur graphiques dans le navigateur.<br />
<br />
Les interfaces permettent à leurs utilisateurs d'explorer les techniques et de faire une série de tests eux-mêmes avec une source de données textuelles au choix. Après le traitement de la source textuelle choisie, les systèmes d'écriture offrent la possibilité d'exporter leurs sorties vers un document PDF.<br />
<br />
==du Mythe (-1.00) au Pouvoir (+1.00)==<br />
[[File:I-could-have-written-that text-mining-is-power.png|300px]]<br />
[[File:I-could-have-written-that text-mining-is-a-myth.png|300px]]<br />
<br />
'''''du mythe (-1.00) au pouvoir (+1.00)''''' est une série d'affiches et un miroir linguistique reflétant le sujet de la certitude dans l’exploration de texte.<br />
<br />
Les séries de déclarations sont le produit d'un exercice de traduction poétique basé sur un script inclus dans le logiciel d’exploration de texte [https://www.clips.uantwerpen.be/pattern Pattern] (Université d'Anvers), appelé modalité.py. Ce script basé sur des règles est écrit pour calculer le degré de certitude d'une phrase, exprimé par une valeur entre -1.00 et +1.00.<br />
<br />
Modality.py est un programme basé sur des règles, l'une des plus anciennes techniques d'exploration de texte. Les séries de calculs dans un programme basé sur des règles sont déterminées par un ensemble de règles écrites après une période intensive de recherche linguistique sur un sujet spécifique. Un programme basé sur des règles est très précis et efficace, mais aussi très statique et spécifique, ce qui en fait un type coûteux de technique d'exploration de texte, en termes de temps, de travail et au regard de la difficulté à réutiliser un programme sur différents types de texte.<br />
<br />
Pour surmonter ces dépenses, les programmes basés sur des règles sont actuellement massivement remplacés par des techniques de reconnaissance de formes telles que l'apprentissage supervisé et les réseaux de neurones, où les règles d'un programme sont basées sur des patrons de grands ensembles de données.<br />
<br />
Les sources utilisées pour modality.py sont des articles académiques tirés d'un jeu de données appelé «BioScope» ainsi que des données de formation Wikipedia de la tâche partagée CoNLL2010 12. Une partie de cet ensemble de données est composée de mots «weasel», qui sont annotés comme «vagues» par la communauté Wikipedia. Des exemples de mots weasel sont: certaines personnes disent, beaucoup de chercheurs disent, on croit / on considère, disent les scientifiques, il est souvent dit.<br />
<br />
Le script modality.py est livré avec des valeurs prédéfinies. Les mots fait (+1.00), preuve (+0.75) et donnée (paire) (+0.75) indiquent un haut niveau de certitude. Par opposition aux mots comme la fiction (-1.00), et la croyance (-0.25).<br />
<br />
Dans le script, le concept de certitude est divisé en 9 catégories:<br />
<br />
<br><br />
<pre><br />
-1.00 = NÉGATIF<br />
-0,75 = NÉGATIF, avec de légers doutes<br />
-0.50 = NÉGATIF, avec des doutes<br />
-0.25 = NEUTRE, légèrement négatif<br />
+0.00 = NEUTRE<br />
+0.25 = NEUTRE, légèrement positif<br />
+0.50 = POSITIF, avec des doutes<br />
+0,75 = POSITIF, avec de légers doutes<br />
+1.00 = POSITIF<br />
</pre><br />
<br><br />
<br />
après quoi un ensemble de mots est relié à chaque catégorie, par exemple cet ensemble de noms:<br />
<br />
<br><br />
<pre><br />
-1.00: d ("fantaisie", "fiction", "mensonge", "mythe", "non-sens"),<br />
-0,75: d ("controverse"),<br />
-0.50: d ("critique", "débat", "doute"),<br />
-0.25: d ("croyance", "chance", "foi", "chance", "perception", "spéculation"),<br />
0,00: d ("défi", "deviner", "sentir", "intuition", "opinion", "possibilité", "question"),<br />
+0.25: d ("hypothèse", "attente", "hypothèse", "notion", "autres", "équipe"),<br />
+0.50: d ("exemple", "proces", "théorie"),<br />
+0.75: d ("conclusion", "données", "preuve", "majorité", "preuve", "symptôme", "symptômes"),<br />
+1.00: d ("fait", "vérité", "pouvoir")<br />
</pre><br />
<br><br />
<br />
Un exercice de traduction poétique, à partir d'un intérêt pour une perception numérique du langage humain, tout en pliant les catégories strictes.<br />
<br />
==L’écriture basée sur des règles==<br />
[[File:Screenshot-rule-based-modality.py result.png|300px]]<br />
<br />
Le système d'écriture '''''écrit du Mythe (-1.00) au Pouvoir (+1.00)''''' est également basé sur le script de détection de certitude modality.py. L'interface est un outil de lecture basé sur des règles, qui met en évidence l'effet des règles écrites par les scientifiques de l'Université d'Anvers. L'interface offre également la possibilité de modifier les règles et de créer un ensemble de règles de lecture personnalisé appliqué à un texte au choix.<br />
<br />
==L’écriture supervisée==<br />
[[File:Screenshot-supervised-writing-pdf_v2.png|300px]]<br />
<br />
Le système d'écriture '''''L'écriture supervisée''''' est construit avec un ensemble de techniques souvent utilisées dans un projet d'apprentissage automatique supervisé. Par une série d'étapes, l'utilisateur est guidé à travers un système de traitement de la langue pour créer un exercice personnalisé d'écriture de vocabulaire. En chemin, l'utilisateur respecte le principe de comptage en explorant son point de vue numérique sur le langage humain ''[http://www.algolit.net/index.php/Bag-of-words sac-à-mots]''. Avec la possibilité de travailler avec du matériel texte provenant de trois sources externes, Twitter ou DuckDuckGo ou Wikipédia, ce système d'écriture offre une perspective numérique alternative à des sources bien connues de données textuelles.<br />
<br />
==Morphes Similarité Cosinus==<br />
[[File:Screenshot_from_2017-10-07_00-53-56.png|300px]]<br />
<br />
Le système d'écriture '''''Morphes Similarité Cosinus'''''fonctionne avec des mesures de similarité non supervisées au niveau de la phrase. La source textuelle de choix est d'abord transformée en un corpus et une matrice vectorielle, après quoi la fonction de similarité cosinus de SciKit Learn est appliquée. La fonction [https://en.wikipedia.org/wiki/Cosine_similarity similarité cosinus] est souvent utilisée dans des pratiques d'apprentissage automatique non supervisé pour extraire les informations sémantiques «cachées» du texte. Puisque les données textuelles sont montrées à l'ordinateur sans aucune étiquette, cette technique est souvent appelée apprentissage «non supervisé».<br />
<br />
L'interface permet à l'utilisateur de sélectionner un ensemble de méthodes de comptage possibles, également appelées caractéristiques, pour créer un spectre de quatre phrases les plus similaires. Tout en créant la multiplicité comme résultat, l'interface comprend des informations numériques sur les calculs de similarité qui ont été faits. L'utilisateur, la fonction de similarité cosinus, l'auteur du texte de son choix et le créateur de ce système d'écriture, créent collectivement un quatuor de phrases qui se transforment entre la compréhension linguistique et numérique de la similarité.<br />
<br />
=Colophon=<br />
i-could-have-written-that est un projet de Manetta Berends avec le soutien aimable de [https://www.cbkrotterdam.nl/ CBK Rotterdam]. Le code et les documents de sortie sont sous [http://artlibre.org/licence/lal/en/ Licence Art Libre].<br />
<br />
<br><small>* Le titre 'i-could-have-written-that' est dérivé d’un article d’ [https://www.csee.umbc.edu/courses/331/papers/eliza.html ELIZA--A Computer Program For the Study of Natural Language Communication Between Man and Machine], écrit par Joseph Weizenbaum et publié en 1966. </small></div>Emmahttp://www.algolit.net/index.php?title=I-could-have-written_that_FR&diff=10070I-could-have-written that FR2017-10-30T12:17:34Z<p>Emma: </p>
<hr />
<div>[[Category:Rencontres-Algolittéraires]]<br />
{|<br />
|-<br />
| Type: || Travail Algolittéraire<br />
|-<br />
| Données || sources textuelles personnalisées, modality.py, Twitter API, DuckDuckGo API, Wikipedia API<br />
|-<br />
| Technique: || apprentissage basé sur des règles, apprentissage supervisé, apprentissage non supervisé, [[sac-de-mots|Un sac de mots]], similarité_cosinus<br />
|-<br />
| Developpé par: || Tom De Smedt/Pattern, les équipes de SciKit Learn, Python, Nltk, Jinja2 & Manetta Berends<br />
|}<br />
<br />
'''''i-could-have-written-that''''' * est un projet de recherche pratique sur l'apprentissage automatique textuel, qui interroge la nature ludique des techniques et propose de les représenter comme des machines à écrire. Le projet comprend la série d'affiches '' du mythe (-1.00) au pouvoir (+1.00) '' et trois systèmes d'écriture: '' écrire le mythe (-1.00) au pouvoir (+1.00) '', '' Écriture supervisée & Cosine Morphs Similarity''. Ceux-ci traduisent les éléments techniques de l'apprentissage automatique en interfaces utilisateur graphiques dans le navigateur.<br />
<br />
Les interfaces permettent à leurs utilisateurs d'explorer les techniques et de faire une série de tests eux-mêmes avec une source de données textuelles au choix. Après le traitement de la source textuelle choisie, les systèmes d'écriture offrent la possibilité d'exporter leurs sorties vers un document PDF.<br />
<br />
==du Mythe (-1.00) au Pouvoir (+1.00)==<br />
[[File:I-could-have-written-that text-mining-is-power.png|300px]]<br />
[[File:I-could-have-written-that text-mining-is-a-myth.png|300px]]<br />
<br />
'''''du mythe (-1.00) au pouvoir (+1.00)''''' est une série d'affiches et un miroir linguistique reflétant le sujet de la certitude dans l’exploration de texte.<br />
<br />
Les séries de déclarations sont le produit d'un exercice de traduction poétique basé sur un script inclus dans le logiciel d’exploration de texte [https://www.clips.uantwerpen.be/pattern Pattern] (Université d'Anvers), appelé modalité.py. Ce script basé sur des règles est écrit pour calculer le degré de certitude d'une phrase, exprimé par une valeur entre -1.00 et +1.00.<br />
<br />
Modality.py est un programme basé sur des règles, l'une des plus anciennes techniques d'exploration de texte. Les séries de calculs dans un programme basé sur des règles sont déterminées par un ensemble de règles écrites après une période intensive de recherche linguistique sur un sujet spécifique. Un programme basé sur des règles est très précis et efficace, mais aussi très statique et spécifique, ce qui en fait un type coûteux de technique d'exploration de texte, en termes de temps, de travail et au regard de la difficulté à réutiliser un programme sur différents types de texte.<br />
<br />
Pour surmonter ces dépenses, les programmes basés sur des règles sont actuellement massivement remplacés par des techniques de reconnaissance de formes telles que l'apprentissage supervisé et les réseaux de neurones, où les règles d'un programme sont basées sur des patrons de grands ensembles de données.<br />
<br />
Les sources utilisées pour modality.py sont des articles académiques tirés d'un jeu de données appelé «BioScope» ainsi que des données de formation Wikipedia de la tâche partagée CoNLL2010 12. Une partie de cet ensemble de données est composée de mots «weasel», qui sont annotés comme «vagues» par la communauté Wikipedia. Des exemples de mots weasel sont: certaines personnes disent, beaucoup de chercheurs disent, on croit / on considère, disent les scientifiques, il est souvent dit.<br />
<br />
Le script modality.py est livré avec des valeurs prédéfinies. Les mots fait (+1.00), preuve (+0.75) et donnée (paire) (+0.75) indiquent un haut niveau de certitude. Par opposition aux mots comme la fiction (-1.00), et la croyance (-0.25).<br />
<br />
Dans le script, le concept de certitude est divisé en 9 catégories:<br />
<br />
<br><br />
<pre><br />
-1.00 = NÉGATIF<br />
-0,75 = NÉGATIF, avec de légers doutes<br />
-0.50 = NÉGATIF, avec des doutes<br />
-0.25 = NEUTRE, légèrement négatif<br />
+0.00 = NEUTRE<br />
+0.25 = NEUTRE, légèrement positif<br />
+0.50 = POSITIF, avec des doutes<br />
+0,75 = POSITIF, avec de légers doutes<br />
+1.00 = POSITIF<br />
</pre><br />
<br><br />
<br />
après quoi un ensemble de mots est relié à chaque catégorie, par exemple cet ensemble de noms:<br />
<br />
<br><br />
<pre><br />
-1.00: d ("fantaisie", "fiction", "mensonge", "mythe", "non-sens"),<br />
-0,75: d ("controverse"),<br />
-0.50: d ("critique", "débat", "doute"),<br />
-0.25: d ("croyance", "chance", "foi", "chance", "perception", "spéculation"),<br />
0,00: d ("défi", "deviner", "sentir", "intuition", "opinion", "possibilité", "question"),<br />
+0.25: d ("hypothèse", "attente", "hypothèse", "notion", "autres", "équipe"),<br />
+0.50: d ("exemple", "proces", "théorie"),<br />
+0.75: d ("conclusion", "données", "preuve", "majorité", "preuve", "symptôme", "symptômes"),<br />
+1.00: d ("fait", "vérité", "pouvoir")<br />
</pre><br />
<br><br />
<br />
Un exercice de traduction poétique, à partir d'un intérêt pour une perception numérique du langage humain, tout en pliant les catégories strictes.<br />
<br />
==L’écriture basée sur des règles==<br />
[[File:Screenshot-rule-based-modality.py result.png|300px]]<br />
<br />
Le système d'écriture '''''écrit du Mythe (-1.00) au Pouvoir (+1.00)''''' est également basé sur le script de détection de certitude modality.py. L'interface est un outil de lecture basé sur des règles, qui met en évidence l'effet des règles écrites par les scientifiques de l'Université d'Anvers. L'interface offre également la possibilité de modifier les règles et de créer un ensemble de règles de lecture personnalisé appliqué à un texte au choix.<br />
<br />
==L’écriture supervisée==<br />
[[File:Screenshot-supervised-writing-pdf_v2.png|300px]]<br />
<br />
Le système d'écriture '''''L'écriture supervisée''''' est construit avec un ensemble de techniques souvent utilisées dans un projet d'apprentissage automatique supervisé. Par une série d'étapes, l'utilisateur est guidé à travers un système de traitement de la langue pour créer un exercice personnalisé d'écriture de vocabulaire. En chemin, l'utilisateur respecte le principe de comptage en explorant son point de vue numérique sur le langage humain ''[http://www.algolit.net/index.php/Bag-of-words sac-à-mots]''. Avec la possibilité de travailler avec du matériel texte provenant de trois sources externes, Twitter ou DuckDuckGo ou Wikipédia, ce système d'écriture offre une perspective numérique alternative à des sources bien connues de données textuelles.<br />
<br />
==Morphes Similarité Cosinus==<br />
[[File:Screenshot_from_2017-10-07_00-53-56.png|300px]]<br />
<br />
Le système d'écriture '''''Morphes Similarité Cosinus'''''fonctionne avec des mesures de similarité non supervisées au niveau de la phrase. La source textuelle de choix est d'abord transformée en un corpus et une matrice vectorielle, après quoi la fonction de similarité cosinus de SciKit Learn est appliquée. La fonction [https://en.wikipedia.org/wiki/Cosine_similarity similarité cosinus] est souvent utilisée dans des pratiques d'apprentissage automatique non supervisé pour extraire les informations sémantiques «cachées» du texte. Puisque les données textuelles sont montrées à l'ordinateur sans aucune étiquette, cette technique est souvent appelée apprentissage «non supervisé».<br />
<br />
L'interface permet à l'utilisateur de sélectionner un ensemble de méthodes de comptage possibles, également appelées caractéristiques, pour créer un spectre de quatre phrases les plus similaires. Tout en créant la multiplicité comme résultat, l'interface comprend des informations numériques sur les calculs de similarité qui ont été faits. L'utilisateur, la fonction de similarité cosinus, l'auteur du texte de son choix et le créateur de ce système d'écriture, créent collectivement un quatuor de phrases qui se transforment entre la compréhension linguistique et numérique de la similarité.<br />
<br />
=Colophon=<br />
i-could-have-written-that est un projet de Manetta Berends avec le soutien aimable de [https://www.cbkrotterdam.nl/ CBK Rotterdam]. Le code et les documents de sortie sont sous [http://artlibre.org/licence/lal/en/ Licence Art Libre].<br />
<br />
<br><small>* Le titre 'i-could-have-written-that' est dérivé d’un article d’ [https://www.csee.umbc.edu/courses/331/papers/eliza.html ELIZA--A Computer Program For the Study of Natural Language Communication Between Man and Machine], écrit par Joseph Weizenbaum et publié en 1966. </small></div>Emmahttp://www.algolit.net/index.php?title=I-could-have-written_that_FR&diff=10069I-could-have-written that FR2017-10-30T12:14:32Z<p>Emma: </p>
<hr />
<div>[[Category:Rencontres-Algolittéraires]]<br />
{|<br />
|-<br />
| Type: || Travail Algolittéraire<br />
|-<br />
| Données || sources textuelles personnalisées, modality.py, Twitter API, DuckDuckGo API, Wikipedia API<br />
|-<br />
| Technique: || apprentissage basé sur des règles, apprentissage supervisé, apprentissage non supervisé, [[bag-of-words]], similarité_cosinus<br />
|-<br />
| Developpé par: || Tom De Smedt/Pattern, les équipes de SciKit Learn, Python, Nltk, Jinja2 & Manetta Berends<br />
|}<br />
<br />
'''''i-could-have-written-that''''' * est un projet de recherche pratique sur l'apprentissage automatique textuel, qui interroge la nature ludique des techniques et propose de les représenter comme des machines à écrire. Le projet comprend la série d'affiches '' du mythe (-1.00) au pouvoir (+1.00) '' et trois systèmes d'écriture: '' écrire le mythe (-1.00) au pouvoir (+1.00) '', '' Écriture supervisée & Cosine Morphs Similarity''. Ceux-ci traduisent les éléments techniques de l'apprentissage automatique en interfaces utilisateur graphiques dans le navigateur.<br />
<br />
Les interfaces permettent à leurs utilisateurs d'explorer les techniques et de faire une série de tests eux-mêmes avec une source de données textuelles au choix. Après le traitement de la source textuelle choisie, les systèmes d'écriture offrent la possibilité d'exporter leurs sorties vers un document PDF.<br />
<br />
==du Mythe (-1.00) au Pouvoir (+1.00)==<br />
[[File:I-could-have-written-that text-mining-is-power.png|300px]]<br />
[[File:I-could-have-written-that text-mining-is-a-myth.png|300px]]<br />
<br />
'''''du mythe (-1.00) au pouvoir (+1.00)''''' est une série d'affiches et un miroir linguistique reflétant le sujet de la certitude dans l’exploration de texte.<br />
<br />
Les séries de déclarations sont le produit d'un exercice de traduction poétique basé sur un script inclus dans le logiciel d’exploration de texte [https://www.clips.uantwerpen.be/pattern Pattern] (Université d'Anvers), appelé modalité.py. Ce script basé sur des règles est écrit pour calculer le degré de certitude d'une phrase, exprimé par une valeur entre -1.00 et +1.00.<br />
<br />
Modality.py est un programme basé sur des règles, l'une des plus anciennes techniques d'exploration de texte. Les séries de calculs dans un programme basé sur des règles sont déterminées par un ensemble de règles écrites après une période intensive de recherche linguistique sur un sujet spécifique. Un programme basé sur des règles est très précis et efficace, mais aussi très statique et spécifique, ce qui en fait un type coûteux de technique d'exploration de texte, en termes de temps, de travail et au regard de la difficulté à réutiliser un programme sur différents types de texte.<br />
<br />
Pour surmonter ces dépenses, les programmes basés sur des règles sont actuellement massivement remplacés par des techniques de reconnaissance de formes telles que l'apprentissage supervisé et les réseaux de neurones, où les règles d'un programme sont basées sur des patrons de grands ensembles de données.<br />
<br />
Les sources utilisées pour modality.py sont des articles académiques tirés d'un jeu de données appelé «BioScope» ainsi que des données de formation Wikipedia de la tâche partagée CoNLL2010 12. Une partie de cet ensemble de données est composée de mots «weasel», qui sont annotés comme «vagues» par la communauté Wikipedia. Des exemples de mots weasel sont: certaines personnes disent, beaucoup de chercheurs disent, on croit / on considère, disent les scientifiques, il est souvent dit.<br />
<br />
Le script modality.py est livré avec des valeurs prédéfinies. Les mots fait (+1.00), preuve (+0.75) et donnée (paire) (+0.75) indiquent un haut niveau de certitude. Par opposition aux mots comme la fiction (-1.00), et la croyance (-0.25).<br />
<br />
Dans le script, le concept de certitude est divisé en 9 catégories:<br />
<br />
<br><br />
<pre><br />
-1.00 = NÉGATIF<br />
-0,75 = NÉGATIF, avec de légers doutes<br />
-0.50 = NÉGATIF, avec des doutes<br />
-0.25 = NEUTRE, légèrement négatif<br />
+0.00 = NEUTRE<br />
+0.25 = NEUTRE, légèrement positif<br />
+0.50 = POSITIF, avec des doutes<br />
+0,75 = POSITIF, avec de légers doutes<br />
+1.00 = POSITIF<br />
</pre><br />
<br><br />
<br />
après quoi un ensemble de mots est relié à chaque catégorie, par exemple cet ensemble de noms:<br />
<br />
<br><br />
<pre><br />
-1.00: d ("fantaisie", "fiction", "mensonge", "mythe", "non-sens"),<br />
-0,75: d ("controverse"),<br />
-0.50: d ("critique", "débat", "doute"),<br />
-0.25: d ("croyance", "chance", "foi", "chance", "perception", "spéculation"),<br />
0,00: d ("défi", "deviner", "sentir", "intuition", "opinion", "possibilité", "question"),<br />
+0.25: d ("hypothèse", "attente", "hypothèse", "notion", "autres", "équipe"),<br />
+0.50: d ("exemple", "proces", "théorie"),<br />
+0.75: d ("conclusion", "données", "preuve", "majorité", "preuve", "symptôme", "symptômes"),<br />
+1.00: d ("fait", "vérité", "pouvoir")<br />
</pre><br />
<br><br />
<br />
Un exercice de traduction poétique, à partir d'un intérêt pour une perception numérique du langage humain, tout en pliant les catégories strictes.<br />
<br />
==L’écriture basée sur des règles==<br />
[[File:Screenshot-rule-based-modality.py result.png|300px]]<br />
<br />
Le système d'écriture '''''écrit du Mythe (-1.00) au Pouvoir (+1.00)''''' est également basé sur le script de détection de certitude modality.py. L'interface est un outil de lecture basé sur des règles, qui met en évidence l'effet des règles écrites par les scientifiques de l'Université d'Anvers. L'interface offre également la possibilité de modifier les règles et de créer un ensemble de règles de lecture personnalisé appliqué à un texte au choix.<br />
<br />
==L’écriture supervisée==<br />
[[File:Screenshot-supervised-writing-pdf_v2.png|300px]]<br />
<br />
Le système d'écriture '''''L'écriture supervisée''''' est construit avec un ensemble de techniques souvent utilisées dans un projet d'apprentissage automatique supervisé. Par une série d'étapes, l'utilisateur est guidé à travers un système de traitement de la langue pour créer un exercice personnalisé d'écriture de vocabulaire. En chemin, l'utilisateur respecte le principe de comptage en explorant son point de vue numérique sur le langage humain ''[http://www.algolit.net/index.php/Bag-of-words sac-à-mots]''. Avec la possibilité de travailler avec du matériel texte provenant de trois sources externes, Twitter ou DuckDuckGo ou Wikipédia, ce système d'écriture offre une perspective numérique alternative à des sources bien connues de données textuelles.<br />
<br />
==Morphes Similarité Cosinus==<br />
[[File:Screenshot_from_2017-10-07_00-53-56.png|300px]]<br />
<br />
Le système d'écriture '''''Morphes Similarité Cosinus'''''fonctionne avec des mesures de similarité non supervisées au niveau de la phrase. La source textuelle de choix est d'abord transformée en un corpus et une matrice vectorielle, après quoi la fonction de similarité cosinus de SciKit Learn est appliquée. La fonction [https://en.wikipedia.org/wiki/Cosine_similarity similarité cosinus] est souvent utilisée dans des pratiques d'apprentissage automatique non supervisé pour extraire les informations sémantiques «cachées» du texte. Puisque les données textuelles sont montrées à l'ordinateur sans aucune étiquette, cette technique est souvent appelée apprentissage «non supervisé».<br />
<br />
L'interface permet à l'utilisateur de sélectionner un ensemble de méthodes de comptage possibles, également appelées caractéristiques, pour créer un spectre de quatre phrases les plus similaires. Tout en créant la multiplicité comme résultat, l'interface comprend des informations numériques sur les calculs de similarité qui ont été faits. L'utilisateur, la fonction de similarité cosinus, l'auteur du texte de son choix et le créateur de ce système d'écriture, créent collectivement un quatuor de phrases qui se transforment entre la compréhension linguistique et numérique de la similarité.<br />
<br />
=Colophon=<br />
i-could-have-written-that est un projet de Manetta Berends avec le soutien aimable de [https://www.cbkrotterdam.nl/ CBK Rotterdam]. Le code et les documents de sortie sont sous [http://artlibre.org/licence/lal/en/ Licence Art Libre].<br />
<br />
<br><small>* Le titre 'i-could-have-written-that' est dérivé d’un article d’ [https://www.csee.umbc.edu/courses/331/papers/eliza.html ELIZA--A Computer Program For the Study of Natural Language Communication Between Man and Machine], écrit par Joseph Weizenbaum et publié en 1966. </small></div>Emmahttp://www.algolit.net/index.php?title=Oulipo_recipes&diff=10059Oulipo recipes2017-10-30T12:05:10Z<p>Emma: Removed a dutch word that must have slipped in from aprevious translation ;) (een vertaalmachine after a translation machine)</p>
<hr />
<div>__NOTOC__<br />
<br />
{|<br />
|-<br />
| Type: || Algoliterary Work<br />
|-<br />
| Datasets: || Human inspiration, Wordnet, 1984 by George Orwell, objects of a handbag<br />
|-<br />
| Technique: || Quicksort, Markov Chain<br />
|-<br />
| Developed by: || Oulipo, Marcel Bénabou, Tony Hoare, Allen Downey, Andrey Markov, Consonni, Algolit<br />
|}<br />
<br />
'''Download the scripts''': https://gitlab.constantvzw.org/algolit/algolit/tree/master/algoliterary_encounter/oulipo<br />
<br />
== L'Abécédaire, a game ==<br />
''[http://oulipo.net/fr/contraintes/abecedaire L'Abécédaire]'' is a text of which the first letters of each word follow the alphabetical order. The Quicksort-algorithm is a fruitful algoritme to play ''l’abécédaire'' as a game, inside or on the street.<br />
<br />
'''Quicksort''' is invented in 1960 by Tony Hoare, a visiting student from Oxford at the University of Moscou. He developed Quicksort to alphabetically order Russian words as part of a translation machine. Nowadays Quicksort is part of the standard programmingsystems such as Unix, C, C++.<br />
<br />
This Hungarian dance company executes the Quicksort as a performance: <br />
[https://www.youtube.com/embed/ywWBy6J5gz8 Quicksort Dance]<br />
<br />
Play l'Abécédaire as a game, developed by Algolit: [[Abecedaire rules]]<br />
<br />
== Littérature définitionnelle, Marcel Bénabou, 1966 ==<br />
<br />
Each element of a sentence is replaced by one of its definitions from a dictionary. You can infinitely reiterate this operation on the transformed text. For this digital recipe we randomly select sentences from [http://www.gutenberg.org/files/84/84-h/84-h.htm Mary Shelly's Frankenstein] and use the machine readable dictionary Wordnet as a source for definitions.<br />
<br />
[http://wordnetweb.princeton.edu/perl/webwn WordNet] is a lexical database for the English language created in the Cognitive Science Laboratory of Princeton University since 1985. It groups English words into sets of synonyms called synsets, provides short definitions and usage examples, and records a number of relations among these synonym sets or their members. WordNet can thus be seen as a combination of dictionary and thesaurus. While it is accessible to human users via a web browser, its primary use is in automatic text analysis and artificial intelligence applications. The database and software tools have been released under a BSD style license and are freely available for download from the WordNet website.<br />
<br />
[http://oulipo.net Oulipo] (French pronunciation: [ulipo], short for French: Ouvroir de littérature potentielle; roughly translated: "workshop of potential literature") is a loose gathering of (mainly) French-speaking writers and mathematicians who seek to create works using constrained writing techniques. It was founded in 1960 by Raymond Queneau and François Le Lionnais. Other notable members have included novelists Georges Perec and Italo Calvino, poets Oskar Pastior, Jean Lescure and poet/mathematician Jacques Roubaud.<br />
The group defines the term 'littérature potentielle' as: "the seeking of new structures and patterns which may be used by writers in any way they enjoy."<br />
Constraints are used as a means of triggering ideas and inspiration, most notably Perec's "story-making machine", which he used in the construction of Life A User's Manual. As well as established techniques, such as lipograms (Perec's novel A Void) and palindromes, the group devises new methods, often based on mathematical problems, such as the knight's tour of the chess-board and permutations.<br />
[https://en.wikipedia.org/wiki/Marcel_B%C3%A9nabou Marcel Bénabou] is a member of the "Ouvroir de littérature potentielle" (or OuLiPo) since 1969, which he joined one year after his friend Georges Perec, the following year he became the definitively provisional secretary. Since 2003 he combines this function with that of provisionally definitive secretary.<br />
<br />
<br />
== A Novel Starring You, from Think Python, by Allen Downey, 2012 ==<br />
<br />
''A Novel Starring You'' shows how you can invent new recipes in the style of Oulipo. <br />
On the Internet websites pop up that offer you personalized romance books for which you can provide the names, features and places, customize over 30 characteristics - even include your dog or cat.<br />
<br />
''A Novel Starring You'' shows how you can also personalize existing novels, like this fragment, the opening scene of George Orwell's 1984. It uses word substitution, a very basic function in the Python programming language.<br />
<br />
<br />
== Markov Chain, a game ==<br />
Markov Chain was developed in 1906 by Andrey Markov, a Russian mathematician who died in 1992. This algorithm is part of many spam generating softwares. It is applied in systems that describe respective dependent events. What happens, only depends of the output of the previous step. That is why Markov Chains are also called ‘memory less’.<br />
<br />
This game was developed in two versions, one using sentences and a writing card system (in collaboration with Brendan Howell, Catherine Lenoble and Désert Numérique, 2014); and a version using objects (in collaboration with Consonni, Bilbao: Itziar Olaizola, Emanuel Cantero, Pablo Mendez, Ariadna Chezran, Iñigo Benito, Itziar Markiegi, Josefina Rocco, Andrea Estankona, Mawa Tres (Juan Pablo Orduñez), Maria Ptqk, 2015).<br />
<br />
[[Markov Rules with objects]]<br />
<br />
[[Markov Rules with words]]<br />
<br />
[[Category:Algoliterary-Encounters]]</div>Emmahttp://www.algolit.net/index.php?title=Markov_Rules_with_words&diff=10056Markov Rules with words2017-10-30T12:03:43Z<p>Emma: Correction of the rules: at point 5, i changed "we continue 5" to "we continue 4"</p>
<hr />
<div>[[Category:Algoliterary-Encounters]]<br />
<br />
For this game you need a stack of cards, a pen, a dice, a set of sentences.<br />
<br />
0. We take a text, for example:<br />
“Cqrrelations read as poetry to statisticians. Can statisticians read poetry with machines?<br />
Cqrrelations is a practise for artists, for datatravellers, statisticians and other lovers of machines to explore a world of blurry categorisations and crummylations. Machines correlate to dissidents, dissidents correlate to statisticians.”<br />
<br />
1. We create a database for this text; each word is an entry and takes the following word as a possible value. The entry for ‘Cqrrelations’ will have two values:<br />
0_ read<br />
1_ is<br />
You can choose whether the 'dot' is a separate entry in the database.<br />
<br />
2. Once the database is created, we choose a starting word for a new text, for ex. Cqrrelations.<br />
<br />
3. We roll the dice, odd numbers will give ‘read’ as the 2nd word of our text; even numbers will give ‘is’ as the 2nd word.<br />
<br />
4. We roll the dice again, and choose a word amongst the values of the chosen word. This gives the next word of our sentence.<br />
<br />
5. We continue 4 till we arrive at a word with a period (.)<br />
<br />
6. We can repeat rule 3 till 6 until we are satisfied with the amount of generated sentences.<br />
<br />
The output of the game performed at Transmediale in 2014 was: “A world of blurry categorisations and other lovers of blurry categorisations and other lovers of blurry categorisations and other lovers of machines. Cqrrelations read poetry to dissidents correlate to machines. Lovers of machines to statisticians.”</div>Emma