Actions

Difference between revisions of "Une ethnographie des jeux de données"

From Algolit

Line 1: Line 1:
 
par Algolit
 
par Algolit
  
Nous commençons souvent les réunions mensuelles Algolit par la recherche, ou tentative de creation, de datasets (ensembles de données). Parfois, nous utilisons des corpus déjà existants, disponibles via le site Natural Language Toolkit [http://www.nltk.org/ nltk]. NLTK contient, entre autres, la Déclaration universelle des droits de l'Homme, les discours inauguraux des présidents américains, ou des critiques de films du site Internet Movie Database (IMDb). Chaque style d'écriture évoque des relations différentes entre les mots et reflète l'époque dont ils proviennent. En ce sens, le gestionnaire de paquets* Python pour le traitement du langage naturel** pourrait être considéré comme une capsule temporelle. Le matériel inclu a été sélectionné car jugé utile pour au moins une communauté de chercheurs. En dépit des spécificités relatives au contexte initial de chaque document, ceux-ci deviennent universels par défaut, via leur inclusion au sein du corpus mis à la disposition d'un large public.
+
Nous commençons souvent les réunions mensuelles Algolit par la recherche, ou tentative de creation, de datasets (ensembles de données). Parfois, nous utilisons des corpus déjà existants, disponibles via le site Natural Language Toolkit [http://www.nltk.org/ nltk]. NLTK contient, entre autres, la Déclaration universelle des droits de l'Homme, les discours inauguraux des présidents américains, ou des critiques de films du site Internet Movie Database (IMDb). Chaque style d'écriture évoque des relations différentes entre les mots et reflète l'époque dont ils proviennent. En ce sens, le gestionnaire de paquets Python pour le traitement du langage naturel pourrait être considéré comme une capsule temporelle. Le matériel inclu a été sélectionné car jugé utile pour au moins une communauté de chercheurs. En dépit des spécificités relatives au contexte initial de chaque document, ceux-ci deviennent universels par défaut, via leur inclusion au sein du corpus mis à la disposition d'un large public.
  
 
Dans le cadre de ce travail, nous examinons les jeux de données les plus couramment utilisés pour l'entraînement des modèles d'apprentissage automatique. De quels matériaux sont-ils constitués ? Qui les a recueillis ? Quand ? Pour quelle raison ?  
 
Dans le cadre de ce travail, nous examinons les jeux de données les plus couramment utilisés pour l'entraînement des modèles d'apprentissage automatique. De quels matériaux sont-ils constitués ? Qui les a recueillis ? Quand ? Pour quelle raison ?  
  
 
Concept, réalisation: Cristina Cochior
 
Concept, réalisation: Cristina Cochior

Revision as of 21:42, 21 March 2019

par Algolit

Nous commençons souvent les réunions mensuelles Algolit par la recherche, ou tentative de creation, de datasets (ensembles de données). Parfois, nous utilisons des corpus déjà existants, disponibles via le site Natural Language Toolkit nltk. NLTK contient, entre autres, la Déclaration universelle des droits de l'Homme, les discours inauguraux des présidents américains, ou des critiques de films du site Internet Movie Database (IMDb). Chaque style d'écriture évoque des relations différentes entre les mots et reflète l'époque dont ils proviennent. En ce sens, le gestionnaire de paquets Python pour le traitement du langage naturel pourrait être considéré comme une capsule temporelle. Le matériel inclu a été sélectionné car jugé utile pour au moins une communauté de chercheurs. En dépit des spécificités relatives au contexte initial de chaque document, ceux-ci deviennent universels par défaut, via leur inclusion au sein du corpus mis à la disposition d'un large public.

Dans le cadre de ce travail, nous examinons les jeux de données les plus couramment utilisés pour l'entraînement des modèles d'apprentissage automatique. De quels matériaux sont-ils constitués ? Qui les a recueillis ? Quand ? Pour quelle raison ?

Concept, réalisation: Cristina Cochior