Actions

Récits contextualisés autour des Lecteurs

From Algolit

Revision as of 16:50, 8 March 2019 by An (talk | contribs)
Introduction

Naive Bayes, Support Vector Machines ou Régression Linéaire sont considérés comme des algorithmes classiques d'apprentissage automatique. Ils fonctionnent bien lorsqu'ils apprennent avec de petits ensembles de données. Mais ils nécessitent souvent des lecteurs complexes. La tâche accomplie par les lecteurs est également appelée 'feature engineering'. Cela signifie qu'un être humain doit consacrer du temps à une analyse exploratoire approfondie de l'ensemble des données.

Leurs caractéristiques peuvent être la fréquence des mots ou des lettres, mais aussi des éléments syntaxiques comme les noms, les adjectifs ou les verbes. Les caractéristiques les plus importantes pour la tâche à résoudre doivent être soigneusement sélectionnées et transmises à l'algorithme classique d'apprentissage automatique. Ce processus diffère de celui des réseaux de neurones. Lors de l'utilisation d'un réseau de neurones, il n'est pas nécessaire de recourir au 'feature engineering'. Les humains peuvent transmettre les données directement au réseau et obtiennent généralement de bonnes performances dès le départ. Cela permet d'économiser beaucoup de temps et de ressources.

L'inconvénient de la collaboration avec les réseaux de neurones est que vous avez besoin de beaucoup plus de données pour former votre modèle de prédiction. Pensez à au moins 1 Go de fichiers texte purs. Pour vous donner une référence, 1 A4 soit un fichier texte de 5000 caractères ne pèse que 5 Ko. Il vous faudrait donc 8.589.934 pages. Plus de données signifie également plus d'accès à des ensembles de données utiles et surtout beaucoup plus de puissance de traitement.

ngram de caractère pour la reconnaissance de la paternité de l'œuvre

Imaginez... vous travaillez pour une entreprise depuis plus de dix ans. Vous avez écrit des tonnes de courriels, d'articles, de notes internes et de rapports sur des sujets et dans des genres très différents. Tous vos écrits, ainsi que ceux de vos collègues, sont sauvegardés en toute sécurité sur les serveurs de l'entreprise.

Un jour, vous tombez amoureuse d'une collègue. Après un certain temps, vous réalisez que cette personne est non seulement folle et hystérique mais qu'elle dépend beaucoup de vous. Le jour où vous décidez de rompre, votre ex élabore un plan pour vous tuer. Elle réussit. Pas de chance. Une lettre de suicide signée de votre nom est retrouvée à côté de votre cadavre. Celle-ci raconte que vous avez décidé de mettre fin à votre vie à cause de problèmes émotionnels. Vos meilleurs amis ne croient pas au suicide. Ils décident de porter l'affaire devant les tribunaux. Et là, à partir des textes que vous et d'autres avez produits, un modèle d'apprentissage automatique révèle que la lettre de suicide a été écrite par quelqu'un d'autre.

Comment une machine analyse-t-elle les textes pour vous identifier ? La caractéristique la plus robuste pour la reconnaissance de l'auteur est fournie par la technique du caractère n-gram. Il est utilisé dans des cas qui présentent une grande variété dans les thématiques et les genres d’écriture. Lors de l'utilisation de caractères n-gram, les textes sont considérés comme des séquences de caractères. Considérons le trigramme des caractères. Toutes les séquences de trois caractères qui se chevauchent sont isolées. Par exemple, le caractère 3-grammes de suicide', serait, "Sui," uic" uic" "ici" "cid" etc. Les caractères n-gram sont très simples, ils sont indépendants du langage et tolérants au bruit. De plus, les fautes d'orthographe ne compromettent pas la technique.

Les motifs trouvés avec les caractères n-gram se concentrent sur les choix stylistiques qui sont faits inconsciemment par l'auteur. Les modèles restent stables sur toute la longueur du texte, ce qui est important pour reconnaître l’auteur. D'autres types d'expériences pourraient inclure la longueur des mots ou des phrases, la richesse du vocabulaire, la fréquence des mots de fonction et même les mesures syntaxiques ou sémantiques.

Cela signifie non seulement que votre empreinte physique est unique, mais qu’il en va de même de la façon dont vous composez vos pensées !

La même technique n-gram a découvert que The Cuckoo's Calling, un roman de Robert Galbraith, a en fait été écrit par... J.K. Rowling !

Références

   • Essai: On the Robustness of Authorship Attribution Based on Character N-gram Features, Efstathios Stamatatos, in Journal of Law & Policy, Volume 21, Issue 2, 2013. 
   • Article: https://www.scientificamerican.com/article/how-a-computer-program-helped-show-jk-rowling-write-a-cuckoos-calling/
Histoire des n-grams

L'algorithme n-gram peut être retracé jusqu'aux travaux de Claude Shannon en théorie de l'information. Dans l'article 'A mathematical theory of communication', publié en 1948, Claude Shannon réalise la première instance d'un modèle de langage naturel à base de n-gram. Il a posé la question suivante : étant donné la séquence des lettres, quelle est la probabilité de la prochaine lettre ?

Si vous écoutez l'extrait suivant, pouvez-vous nous dire par qui il a été écrit ? Shakespeare ou un robot n-gram ?

SEBASTIEN : Dois-je rester debout jusqu'à la rupture.

BIRON : Cache ta tête.

VENTIDIUS : Il se rendit à Athènes, où, par le voeu.

que j'ai fait pour m'occuper de toi.

FALSTAFF : Mon bon fripouille.

Vous aviez peut-être deviné, en considérant le sujet de ce podcast, qu'un algorithme n-gram a généré ce texte. Le modèle est formé sur les travaux compilés de Shakespeare. Alors que les algorithmes plus récents, tels que les réseaux de neurones récursifs de CharNN, deviennent célèbres pour leurs performances, les n-gram exécutent encore beaucoup de tâches NLP. Ils sont utilisés dans la traduction automatique statistique, la reconnaissance vocale, la correction orthographique, la détection d'entités, l'extraction d'informations, etc.

Référence: http://www.math.harvard.edu/~ctm/home/text/others/shannon/entropy/entropy.pdf

Dieu dans Google Books

En 2006, Google crée un ensemble de données n-gram à partir de sa collection de livres numérisés pour le mettre en ligne. Récemment, ils ont également réalisé une visionneuse de n-gram. Cela a permis de nombreuses recherches sociolinguistiques à la fiabilité discutable. Par exemple, en octobre 2018, le New York Times Magazine a publié un avis intitulé It's Getting Harder to Talk About God. L'auteur, Jonathan Merritt, avait analysé la mention du mot "Dieu" dans l'ensemble de données de Google à l'aide du visualiseur N-gram. Il a conclu qu'il y a eu un déclin dans l'usage du mot depuis le 20ème siècle. Le corpus de Google contient des textes du 16e jusqu'au 21e siècle. Cependant l'auteur a manqué la popularité croissante des revues scientifiques vers le début du 20ème siècle. Ce nouveau genre, où il n'était pas question de Dieu, a fait basculer l'ensemble des données. Si la littérature scientifique était retirée du corpus, la fréquence du mot "Dieu" s'écoulerait à nouveau comme l'ondulation douce d'une vague lointaine.

Référence: https://www.nytimes.com/2018/10/13/opinion/sunday/talk-god-sprituality-christian.html

Les traits grammaticaux extraits de Twitter influencent le marché boursier

Les frontières entre les disciplines académiques s'estompent. La recherche économique mélangée à la psychologie, aux sciences sociales, aux concepts cognitifs et émotionnels créent un nouveau sous-domaine économique, appelé "économie comportementale ".

Cela signifie que les chercheurs commencent à expliquer un comportement boursier basé sur d'autres facteurs que l'économie. La Bourse et l'opinion publique s'influencent mutuellement. De nombreuses recherches sont effectuées sur la façon d'utiliser l'opinion publique pour prédire les changements financiers, comme des variations dans le cours des actions.

L'opinion publique est évaluée à partir de grandes quantités de données publiques, comme les tweets ou l’actualité. Dans une certaine mesure, Twitter est plus proche de l'opinion publique que les journaux, parce que la plupart des témoignages sont personnels : un tweet peut provenir d’une personne ordinaire plutôt que d’un journaliste qui travaille pour tel groupe privé. Il y a environ 6 000 tweets par seconde, donc beaucoup d'opinions à passer au crible.

Des études expérimentales utilisant l'analyse machinique des données montrent que l'évolution des cours boursiers peut, dans une certaine mesure, être prédit en examinant l'opinion publique. De nombreux journaux analysent le sentiment d’actualité pour prédire les tendances boursières en les étiquetant comme "à la baisse" ou "à la hausse". La plupart des chercheurs ont utilisé des réseaux de neurones ou des ‘word embeddings’ préformés.

Un article de Haikuan Liu de l'Université Nationale Australienne affirme que le temps des verbes utilisés dans les tweets peut être un indicateur de comportements financiers intensifs. Son idée est inspirée par le fait que la conjugaison du temps peut être utilisée pour détecter les premiers stades de la dépression.

Référence: Grammatical Feature Extraction and Analysis of Tweet Text: An Application towards Predicting Stock Trends, Haikuan Liu, Research School of Computer Science (RSCS), College of Engineering and Computer Science (CECS), The Australian National University (ANU)

Sac de mots

Dans le traitement du langage naturel, le "sac de mots" est considéré comme un modèle simple. Il dépouille un texte de son contexte et le décompose dans sa collection de mots uniques. Ces mots sont ensuite comptés. Dans les phrases précédentes, par exemple, le mot " mots " est mentionné trois fois, mais ce n'est pas nécessairement un indicateur de l'objet du texte.

La première apparition de l'expression "sac de mots" semble remonter à 1954. Zellig Harris a publié un article dans le contexte des études linguistiques, intitulé "Distributional Structure". Dans la partie intitulée "Le sens en fonction de la distribution", il dit "car le langage n'est pas seulement un sac de mots, mais un outil aux propriétés particulières qui ont été façonnées au cours de son utilisation. Le travail du linguiste est précisément de découvrir ces propriétés, que ce soit pour l'analyse descriptive ou pour la synthèse du système quasi-linguistique."