Plongement lexical: un cas d'étude

Type:	Etude de cas
Datasets:	Modifications Wikipédia
Technique:	Apprentissage automatique supervisé, plongement lexical
Développé par:	Jigsaw

Etude de cas: Perspective API

Error creating thumbnail: Unable to save thumbnail to destination

Screenshot du site web Perspective API (Octobre, 2017)

Perspective API est un outil d'apprentissage automatique développé par la société Jigsaw, propriété de Google, qui vise à identifier les messages toxiques dans les sections de commentaires de différentes plateformes. Le projet a été élaboré en collaboration avec Wikipédia, le New York Times, The Guardian et The Economist.

La collaboration entre Perspective API et Wikipédia se déroule sous le nom Detox. Le projet est basé sur une méthode qui combine le crowdsourcing et l'apprentissage automatique pour analyser les attaques personnelles à l'échelle. Deux intentions semblent être en jeu: une recherche sur les harcèlements dans la section Talk de Wikipedia, et la création de la plus grande base de données annotée pour les harcèlements.

Le projet utilise des techniques d'apprentissage automatique supervisé, un algorithme de régression logistique et deux jeux de données:

95M de commentaires de pages de discussion Wikipedia anglais faites entre 2001-2015
1M d'annotations par 4000 travailleurs foule sur 100.000 commentaires des pages de discussion Wikipedia anglais, où chaque commentaire est annoté 10 fois.

Résultats de l'article publié par Jigsaw & Wikipedia:

Ceci conduit à plusieurs conclusions intéressantes: alors que les commentaires rendus anonymes ont 6 fois plus de chances d'être une attaque, ils contribuent moins de la moitié des attaques. De même, moins de la moitié des attaques proviennent d'utilisateurs avec peu de participation préalable; et peut-être étonnamment, environ 30% des attaques proviennent d'utilisateurs enregistrés avec plus de 100 contributions.

De plus, les données de crowdsourcing peuvent également entraîner d'autres formes de biais non intentionnels.

Ceci soulève des questions clés pour notre méthode et plus généralement pour les applications de l'apprentissage automatique à l'analyse de commentaires: qui définit la vérité pour la propriété en question? Dans quelle mesure les classificateurs varient-ils en fonction de l'interlocuteur? Quel est l'impact subséquent de l'application d'un modèle avec un biais involontaire pour aider la discussion d'une communauté en ligne?

Le projet Detox comprend une section sur les biais, publiée sous le nom de "Fairness".

Plongement lexical: un cas d'étude

From Algolit

Etude de cas: Perspective API