Actions

Récits contextualisés autour des Informateurs

From Algolit

Revision as of 17:29, 12 March 2019 by An (talk | contribs) (Jeux de données comme représentations)

Les jeux de données comme représentations

Les processus de collecte des données qui mènent à la création du jeu de données soulèvent des questions importantes : qui est l'auteur des données ? Qui a le privilège de collectionner ? Pour quelle raison la sélection a-t-elle été faite ? Que manque-t-il ?

L'artiste Mimi Onuoha donne un exemple excellent de l'importance des stratégies de collection. Elle choisit le cas des statistiques relatives aux crimes haineux. En 2012, le Programme de déclaration uniforme de la criminalité (DUC) du FBI a enregistré 5 796 crimes haineux. Toutefois, le Bureau des statistiques du Département de la justice a établi 293 800 rapports sur de tels cas. C'est plus de 50 fois plus. La différence entre les chiffres peut s'expliquer par la façon dont les données ont été recueillies. Dans le premier cas, les organismes d'application de la loi de tout le pays ont volontairement signalé des cas. Pour le deuxième, le Bureau des statistiques a distribué l'enquête nationale sur la victimisation directement aux foyers des victimes de crimes motivés par la haine.

Dans le domaine du traitement du langage naturel, le matériel avec lequel les modèles d'apprentissage automatique travaillent est le texte, mais les mêmes questions se posent : qui sont les auteurs des textes qui composent les jeux de données ? Au cours de quelle période les données ont-elles été recueillies ? Quel type de vision du monde représentent-elles ?

En 2017, l'algorithme Top Stories de Google a placé un fil de discussion trompeur du site 4chan en haut de la page de résultats lors de la recherche du tireur de Las Vegas. Le nom et le portrait d'une personne innocente étaient liés au crime. Bien que Google ait changé son algorithme quelques heures seulement après que l'erreur ait été découverte, cela a sérieusement affecté la personne. Une autre question persiste : pourquoi Google n'a-t-il pas exclu le site de ragôts 4chan du jeu des données d'entraînement ?

Références

https://points.datasociety.net/the-point-of-collection-8ee44ad7c2fa

https://arstechnica.com/information-technology/2017/10/google-admits-citing-4chan-to-spread-fake-vegas-shooter-news/

Étiquetage pour un oracle qui détecte le vandalisme sur Wikipédia

Ce fragment est tiré d'une interview avec Amir Sarabadani, ingénieur de logiciels chez Wikimedia. Il était à Bruxelles en novembre 2017 lors de la Rencontre Algolittéraire.

Femke : En considérant Wikipedia comme une communauté vivante, chaque nouvelle édition change le projet. Chaque modification est en quelque sorte une contribution à un organisme vivant de la connaissance. Donc, si au sein de cette communauté vous essayez de distinguer ce qui rend service à la communauté et de le généraliser – car je pense que c'est ce que l'algorithme de la bonne ou mauvaise foi essaie de faire - de trouver des outils pour soutenir le projet, vous le faites sur base d'une généralisation de l'idée abstraite de Wikipedia, et non sur base de l'organisme vivant. Ce qui m'intéresse dans la relation entre le vandalisme et ce débat, c'est la façon dont nous pouvons comprendre la dynamique conventionnelle de ces processus d'apprentissage automatique qu’on rencontre à de nombreux endroits. Comment pouvons-nous les comprendre et y faire face? Si on distingue la bonne ou la mauvaise foi sur base d’étiquettes préexistantes et qu’on la reproduit ensuite dans notre compréhension des modifications apportées, comment tenir compte des mouvements qui se produisent, c’est-à-dire la vie réelle du projet?

Amir : Ok, j'espère que j'ai bien compris. C'est une discussion intéressante. Premièrement, ce que nous appelons la bonne ou la mauvaise foi provient de la communauté elle-même; nous ne faisons pas l'étiquetage, c’est elle qui le fait pour elle-même. Ainsi, dans beaucoup de Wikipedias de langues différentes, la définition de ce qu'est la bonne ou la mauvaise foi sera différente. Wikimedia essaie de refléter ce qui se trouve à l'intérieur de l'organisme et non de changer l'organisme lui-même. Si l'organisme change et que nous constatons que la définition de la bonne foi et du soutien à Wikipédia a été modifié, nous mettons en œuvre cette boucle de rétroaction qui permet aux gens de porter un jugement sur leurs modifications à l'intérieur de leur communauté. S'ils sont en désaccord avec l'étiquetage, nous pouvons revenir au modèle et modifier l'algorithme pour refléter ce changement. C'est une sorte de boucle fermée : vous changez les choses et si quelqu'un voit qu'il y a un problème, il nous le dit et nous pouvons modifier l'algorithme. C'est un projet en cours.

Référence: https://gitlab.constantvzw.org/algolit/algolit/blob/master/algoliterary_encounter/Interview%20with%20Amir/AS.aac

Comment faire connaître votre jeu de données

NLTK signifie Natural Language Toolkit. Pour les programmeurs qui traitent le langage naturel avec Python, c'est une bibliothèque essentielle. De nombreux rédacteurs de tutoriels recommandent aux programmeurs d'apprentissage automatique de commencer par les jeux de données NLTK intégrés. Il compte 71 collections différentes, avec un total de près de 6000 éléments. Parmi eux, on trouve le corpus Movie Review pour l'analyse des sentiments. Ou le corpus Brown, qui a été créé dans les années 1960 par Henry Kučera et W. Nelson Francis à l'Université Brown de Rhode Island. Il y a aussi le corpus de la Déclaration des droits de l'homme, qui est couramment utilisé pour vérifier si un code peut fonctionner dans plusieurs langues. Le corpus contient la Déclaration des droits de l'homme dans 372 langues du monde entier.

Mais quel est le processus pour faire accepter un jeu de données dans la bibliothèque NLTK de nos jours ? Sur la page Github, l'équipe nltk décrit les exigences suivantes :

  • Ne contribuez que les corpus qui ont obtenu un niveau de notabilité de base. Cela signifie qu'il existe une publication qui le décrit et une communauté de programmeurs qui l'utilisent.
  • Assurez-vous d'avoir l'autorisation de redistribuer les données et de pouvoir les documenter. Cela signifie qu'il est préférable de publier le jeu de données sur un site Web externe avec une licence.
  • Utilisez les lecteurs de corpus NLTK existants lorsque c'est possible, ou bien apportez un lecteur de corpus bien documenté à NLTK. Cela signifie que vous devez organiser vos données de manière à ce qu'elles puissent être facilement lues à l'aide du code NLTK.

Référence: http://www.nltk.org/

Extrait d'une critique positive d'un film IMdB du jeu de données NLTK

corpus : movie_reviews

fichier : pos/cv998_14111.txt

le deuxième film épique de steven spielberg sur la seconde guerre mondiale est un chef-d'œuvre incontesté du cinéma . spielberg , encore étudiant en cinéma , a réussi à ressusciter le genre de la guerre en produisant l'un de ses films les plus poignants et les plus puissants . il a également réussi à faire briller tom hanks , qui livre une performance époustouflante . pendant environ 160 de ses 170 minutes, " sauver le soldat ryan " est sans faille . littéralement . l ' histoire est assez simple . après l ' invasion du jour J ( dont les séquences sont tout à fait spectaculaires ), capt . john miller ( joué par tom hanks ) et son équipe sont forcés à chercher un soldat . james ryan ( joué par matt damon ), dont les frères sont tous morts au combat. une fois qu ' ils l ' ont trouvé , ils doivent le ramener immédiatement pour qu'il puisse rentrer chez lui . la compagnie de miller est composée d ' acteurs aux jeux tout simplement sensationnels : bary pepper , adam goldberg , vin diesel , giovanni ribisi , davies et burns . le film se clôture avec des scènes de bataille extraordinaires .

Les ouroboros de l'apprentissage automatique

Wikipédia est devenue une source d'apprentissage non seulement pour les humains, mais aussi pour les machines. Ses articles sont des sources de premier ordre pour l’entraînement de modèles. Le matériel sur lequel les machines sont formées est identique au contenu qu'elles ont aidé à écrire. En fait, au début de Wikipédia, de nombreux articles ont été écrits par des robots. Rambot, par exemple, était une figure bot controversée sur la plateforme anglophone. Il est l'auteur de 98% des pages décrivant les villes américaines.

De par ces interventions de robots thématiques et en série, les modèles de prédiction qui sont entraînés sur le dump de Wikipedia ont une vision unique de la composition des articles. Par exemple, un modèle thématique formé sur l'ensemble des articles de Wikipédia associe "rivière" à "Roumanie" et "village" à "Turquie". C'est parce qu'il y a plus de 10000 pages écrites sur les villages en Turquie. Cela devrait suffire à susciter des envies de voyage, mais c'est bien trop par rapport à d'autres pays. L'asymétrie provoque une fausse corrélation et doit être corrigée. La plupart des modèles tentent d'exclure le travail de ces auteurs robots prolifiques.

Référence: https://blog.lateral.io/2015/06/the-unknown-perils-of-mining-wikipedia/