Actions

Difference between revisions of "Récits contextualisés autour des Apprenants"

From Algolit

Line 57: Line 57:
  
 
* BERT_large, avec 345 millions de paramètres, est le plus grand modèle du genre. Il est manifestement supérieur à BERT_base, qui utilise la même architecture avec "seulement" 110 millions de paramètres, pour les tâches à petite échelle.  
 
* BERT_large, avec 345 millions de paramètres, est le plus grand modèle du genre. Il est manifestement supérieur à BERT_base, qui utilise la même architecture avec "seulement" 110 millions de paramètres, pour les tâches à petite échelle.  
* Pour exécuter BERT, vous devez utiliser les TPU. Ce sont les CPU de Google spécialement conçus pour TensorFLow, la plateforme de deep learning. Les tarifs de location de TPU vont de de 8$/h à 394$/h. Si vous ne voulez pas travailler avec des sollutions prêtes à l'emploi, comme nous le faisons avec Algolit, mais que vous souhaitez ouvrir la boîte noire, Bert exige de faire des économies pour pouvoir l’utiliser.
+
* Pour exécuter BERT, vous devez utiliser les TPU. Ce sont les CPU de Google spécialement conçus pour TensorFLow, la plateforme de deep learning. Les tarifs de location de TPU vont de de 8$/h à 394$/h. Si vous êtes comme nous, et vous ne voulez pas travailler avec des sollutions prêtes à l'emploi, et vous souhaitez ouvrir la boîte noire, Bert exige de faire des économies pour pouvoir l’utiliser.
  
 
Références:
 
Références:
 
* https://ai.googleblog.com/2018/11/open-sourcing-bert-state-of-art-pre.html  
 
* https://ai.googleblog.com/2018/11/open-sourcing-bert-state-of-art-pre.html  
 
* https://towardsdatascience.com/deconstructing-bert-distilling-6-patterns-from-100-million-parameters-b49113672f77
 
* https://towardsdatascience.com/deconstructing-bert-distilling-6-patterns-from-100-million-parameters-b49113672f77

Revision as of 15:11, 8 March 2019

Naive Bayes & Viagra

Naive Bayes est une apprenante célèbre qui réussit bien avec peu de données. Nous l'appliquons tout le temps. Christian & Griffiths affirment dans leur livre,'Algorithms to Live by', que 'nos jours sont remplis de petites données'. Imaginez par exemple que vous vous trouviez à un arrêt de bus dans une ville étrangère. L'autre personne qui se tient là attend depuis 7 minutes. Qu'est-ce que vous faites ? Décidez-vous d'attendre ? Et si oui, pour combien de temps ? Quand allez-vous envisager d'autres options ? Un autre exemple. Imaginez qu’un ami demande conseil sur une relation. Il est avec son nouveau partenaire depuis un mois. Doit-il l'inviter à l’accompagner à un mariage de famille ?

Les croyances préexistantes sont cruciales pour que Naive Bayes fonctionne. L'idée est de calculer les probabilités sur base de ses connaissances préalables et d'une situation spécifique.

Le théorème a été formulé dans les années 1740 par le révérend et mathématicien amateur Thomas Bayes. Il a consacré sa vie à résoudre la question de savoir comment gagner à la loterie. Mais la règle de Bayes a a été rendue célèbre dans sa forme actuelle par le mathématicien Pierre Simon Laplace en France un peu plus tard dans le même siècle. Longtemps après la mort de La Place, la théorie tombe dans l'oubli jusqu'à ce qu'elle soit à nouveau déterrée pendant la Seconde Guerre mondiale dans le but de briser le code Enigma.

La plupart des personnes sont aujourd'hui entrées en contact avec Naive Bayes par le biais de leurs dossiers de courrier indésirable. Naive Bayes est un algorithme largement utilisé pour la détection du spam. C’est une coïncidence que le Viagra, médicament contre la dysfonction érectile, a été approuvé par la FDA (US Food & Drug Administration) en 1997, au moment où environ 10 millions d'utilisateurs dans le monde avaient des comptes de messagerie Web gratuits. Les sociétés de vente avaient l’intelligence d'utiliser la publicité massive par e-mail : c'était un média intime, à l'époque réservé à la communication privée. En 2001, le premier programme SpamAssasin s'appuyant sur Naive Bayes a été téléchargé sur SourceForge, réduisant ainsi le marketing “guerilla par courriel”.

Référence: Machine Learners, by Adrian MacKenzie, The MIT Press, Cambridge, US, November 2017.

Naive Bayes & Enigma

Cette histoire de Naive Bayes est tirée du livre ‘La théorie qui ne mourrait pas', écrit par Sharon Bertsch McGrayne. Elle décrit entre autres comment Naive Bayes est vite oubliée après la mort de Simon Laplace, son inventeur. Le mathématicien aurait échoué à créditer les travaux des autres. Par conséquent, il a souffert d’accusations largement diffusées contre sa réputation. Ce n'est que 150 ans plus tard que l'accusation s'est avérée fausse.

Avançons en 1939, alors que le règne de Bayes demeure pratiquement tabou, mort et enterré dans le domaine de la statistique. Lorsque la France est occupée en 1940 par l'Allemagne, qui contrôle les usines et les fermes européennes, la plus grande inquiétude de Winston Churchill est le péril U-boot. Les opérations de sous-marin étaient étroitement contrôlées par le quartier général allemand en France. Chaque sous-marin partait en mer sans ordres, et les recevait sous forme de messages radio codés après avoir atteint l'Atlantique. Les messages étaient cryptés par des machines à brouiller les mots, appelées Enigma machines. Enigma ressemblait à une machine à écrire compliquée. Elle est inventée par la société allemande Scherbius & Ritter après la première guerre mondiale, lorsque le besoin de machines d'encodage de messages est devenu douloureusement évident.

Curieusement, et heureusement pour Naive Bayes et le monde, à l'époque le gouvernement britannique et les systèmes d'éducation considéraient les mathématiques appliquées et les statistiques sans aucun rapport avec la résolution pratique des problèmes. Les données statistiques ont été jugées gênantes en raison de leur caractère détaillé. Ainsi, les données du temps de guerre étaient souvent analysées non pas par des statisticiens, mais par des biologistes, des physiciens et des mathématiciens théoriques. Aucun d'entre eux ne savait qu'en ce qui concerne les statistiques sophistiquées, la règle de Bayes était celle de la coentreprise.

C'est le désormais célèbre Alan Turing, mathématicien, informaticien, logicien, cryptanalyste, philosophe et biologiste théorique, qui a utilisé le système de probabilités des règles de Bayes pour concevoir la "bombe". Il s'agissait d'une machine électromécanique à grande vitesse pour tester tous les arrangements possibles qu'une machine Enigma produirait. Afin de déchiffrer les codes navals des U-boot, Turing simplifie le système de la "bombe" en utilisant des méthodes baysiennes. La "bombe" a transformé le siège social du Royaume-Uni en une usine de décryptage. L'histoire est bien illustrée de manière non technique dans 'The Imitation Game', un film de Morten Tyldum sorti en 2014.

Une histoire sur les petits pois

En statistique, la régression linéaire est une méthode d'apprentissage supervisé. Après la formation avec des données étiquetées, le modèle tente de prédire les valeurs de nouvelles données inconnues. La régression linéaire permet de résumer et d'étudier les relations entre deux éléments, afin de voir s'il existe une corrélation entre eux. S'il y a une corrélation positive, la connaissance d'un élément aide à prédire l'autre. Par exemple, étant donné la critique d'un film, nous pouvons prédire le nombre moyen d'étoiles qui lui sont attribuées, plutôt que de simplement dire si la critique est positive ou négative.

Parfois, les figures que nous rencontrons en grattant sous la surface ne sont pas à notre goût. L'idée de régression vient de Sir Francis Galton, un scientifique influent du 19e siècle. Il a passé sa vie à étudier le problème de l'hérédité - pour comprendre à quel point les caractéristiques d'une génération d'êtres vivants se manifestent dans la génération suivante. Il a établi le domaine de l'eugénisme et l'a défini comme "l'étude des organismes sous contrôle social qui peuvent améliorer ou altérer les qualités raciales des générations futures, que ce soit physiquement ou mentalement". Par conséquent, son nom a marqué l'histoire et l'héritage du racisme scientifique à jamais.

Galton a d'abord abordé le problème de l'hérédité en examinant les caractéristiques du pois de senteur. Il a choisi le pois de senteur parce que l'espèce peut s'auto-fertiliser. Les plantes femelles héritent des variations génétiques des plantes mères sans la contribution d'un deuxième parent. Cette caractéristique élimine la nécessité de traiter avec des sources multiples.

En 1875, Galton a distribué des paquets de graines de pois de senteur à sept amis. Chaque ami recevait des graines de poids uniforme, mais il y avait des variations importantes d'un paquet à l'autre. Les amis de Galton ont récolté les graines des nouvelles générations de plantes et les lui ont rendues. Il a ensuite tracé le poids des graines femelles contre le poids des graines mères. Il a découvert que le poids médian des graines femelles d'une taille particulière de la semence mère décrivait approximativement une ligne droite avec une pente positive inférieure à 1,0. Les premières idées de Galton sur la régression sont nées de ce diagramme bidimensionnel qui compare la taille des petits pois femelles à celle des petits pois mères. Il a utilisé cette représentation de ses données pour illustrer les fondements de ce que les statisticiens appellent encore aujourd'hui la régression. Pour Galton, c'était aussi une façon de décrire les avantages de l'eugénisme.

La recherche de Galton été appréciée par de nombreux intellectuels de son temps. En 1869, dans 'Hereditary Genius', Galton affirme que le génie est principalement une question d'ascendance. Il croyait à tort qu'il y avait une explication biologique à l'inégalité sociale entre les races. Galton a même persuadé son demi-cousin Charles Darwin de ses idées. Après avoir lu l'article de Galton, Darwin a déclaré : "Vous avez converti un adversaire dans un sens, car j'ai toujours soutenu qu'à l'exception des imbéciles, les hommes ne différaient pas beaucoup sur le plan intellectuel, seulement sur le plan du zèle et du dur labeur". Heureusement, l'étude moderne de l'hérédité a réussi à éliminer le mythe de la différence génétique fondée sur la race, un mythe que Galton s'est tant efforcé à maintenir.

La raison pour laquelle nous l'évoquons dans cette série, c'est qu'il a été parmi les premiers scientifiques à utiliser des méthodes statistiques dans ses recherches. Sa principale contribution dans ce domaine a été l'analyse de régression linéaire, qui a fondé les bases d'une grande partie de la modélisation statistique moderne. Alors que nous nous engageons dans le domaine de l'apprentissage automatique, Algolit essaie de ne pas oublier que les systèmes d'ordre ont du pouvoir, et que ce pouvoir n'a pas toujours été exercé par tout le monde. L'apprentissage automatique a hérité de nombreux aspects de la recherche statistique, certains moins agréables que d'autres. Nous devons nous méfier, car ces visions du monde s'infiltrent dans les modèles algorithmiques qui créent des ordres nouveaux.

Références:

http://galton.org/letters/darwin/correspondence.htm

https://www.tandfonline.com/doi/full/10.1080/10691898.2001.11910537

http://www.paramoulipist.be/?p=1693

Perceptron

Nous nous trouvons dans une décennie où les réseaux de neurones suscitent beaucoup d'attention. Cela n'a pas toujours été le cas. L'étude des réseaux de neurones remonte aux années 1940, lorsque la première métaphore des neurones est apparue. Le neurone n'est pas la seule référence biologique dans le domaine de l'apprentissage automatique - pensez au mot corpus ou formation. Le neurone artificiel a été construit en relation étroite avec son homologue biologique.

Le psychologue Frank Rosenblatt s'est inspiré des travaux de son collègue Donald Hebb sur le rôle des neurones dans l'apprentissage humain. Hebb a déclaré que "les cellules qui tirent ensemble filent ensemble." Sa théorie est maintenant à la base de l'apprentissage associatif humain, mais aussi de l'apprentissage en réseau de neurones non supervisé. Il a poussé Rosenblatt à développer l'idée du neurone artificiel. En 1962, il crée le Perceptron. Le Perceptron est un modèle qui apprend par la pondération des entrées. Il a été mis de côté par les chercheurs, parce qu'il ne peut gérer que la classification binaire. Cela signifie que les données doivent être séparables linéairement, comme par exemple hommes et femmes, noir et blanc. Il est clair que ce type de données est très rare dans le monde réel. Lorsque le soi-disant premier hiver d'IA est arrivé en 1974-1980 et que le financement consacré à cette recherche a diminué, le Perceptron a également été négligé. Pendant 10 ans, il est resté inactif. Lorsque le printemps s'installe, de nouvelles générations de chercheurs le reprennent et l'utilisent pour construire des réseaux de neurones. Ceux-ci contiennent de multiples couches de Perceptrons. C'est ainsi que les réseaux de neurones voient la lumière. On pourrait dire que cette saison d'apprentissage automatique est particulièrement chaude, mais il faut un autre hiver pour connaître un été.

BERT

Certains articles en ligne disent que l'année 2018 a marqué un tournant dans le domaine du traitement du langage naturel. Une série de modèles de deep learning ont permis d'obtenir des résultats excellents pour des tâches comme les réponses aux questions ou la classification des sentiments. L'algorithme BERT de Google est entré dans les concours d'apprentissage automatique de l'année dernière comme un "modèle gagnant". Il témoigne d’une performance supérieure sur une grande variété de tâches.

BERT est préformé; ses poids sont appris à l'avance grâce à deux tâches non supervisées. Cela signifie que BERT n'a pas besoin d'être formé à partir de zero pour chaque nouvelle tâche. Vous n'avez qu'à affiner ses poids.

Cela signifie également qu'un programmeur souhaitant utiliser BERT ne sait plus sur quels paramètres BERT est réglé, ni à base de quelles données il a appris ses performances.

BERT signifie Bidirectional Encoder Representations from Transformers. Cela signifie que BERT permet une formation bidirectionnelle. Le modèle apprend le contexte d'un mot à partir de son environnement, à gauche et à droite d'un mot. En tant que tel, il peut faire la différence entre "Je suis pile à l’heure " et "Je l’ai mis sur la pile".

Quelques faits :

  • BERT_large, avec 345 millions de paramètres, est le plus grand modèle du genre. Il est manifestement supérieur à BERT_base, qui utilise la même architecture avec "seulement" 110 millions de paramètres, pour les tâches à petite échelle.
  • Pour exécuter BERT, vous devez utiliser les TPU. Ce sont les CPU de Google spécialement conçus pour TensorFLow, la plateforme de deep learning. Les tarifs de location de TPU vont de de 8$/h à 394$/h. Si vous êtes comme nous, et vous ne voulez pas travailler avec des sollutions prêtes à l'emploi, et vous souhaitez ouvrir la boîte noire, Bert exige de faire des économies pour pouvoir l’utiliser.

Références: