Applications concrètes des systèmes de Machine Learning : la littérature

Au cours de cette leçon, vous résoudrez un problème de Machine Learning concret* portant sur la littérature britannique du XVIIIe siècle.

Exemple concret : littérature britannique du XVIIIe siècle

Exemple concret : littérature britannique du XVIIIe siècle

  • Un professeur de littérature britannique du XVIIIe siècle souhaite prédire l'affiliation politique des auteurs en se basant uniquement sur "les métaphores liées à l'esprit" utilisées par ces auteurs.
Vieux livres

Exemple concret : littérature britannique du XVIIIe siècle

  • Un professeur de littérature britannique du XVIIIe siècle souhaite prédire l'affiliation politique des auteurs en se basant uniquement sur "les métaphores liées à l'esprit" utilisées par ces auteurs.
  • Son équipe de recherche crée un important ensemble de données étiquetées constitué de phrases isolées écrites par plusieurs auteurs différents, puis divise cet ensemble de données en trois sous-ensembles : apprentissage, validation et évaluation.
Vieux livres

Exemple concret : littérature britannique du XVIIIe siècle

  • Un professeur de littérature britannique du XVIIIe siècle souhaite prédire l'affiliation politique des auteurs en se basant uniquement sur "les métaphores liées à l'esprit" utilisées par ces auteurs.
  • Son équipe de recherche crée un important ensemble de données étiquetées constitué de phrases isolées écrites par plusieurs auteurs différents, puis divise cet ensemble de données en trois sous-ensembles : apprentissage, validation et évaluation.
  • Le modèle entraîné permet d'obtenir des résultats presque parfaits avec les données d'évaluation, mais un tel niveau de précision paraît suspect aux chercheurs. Où est l'erreur ?
Vieux livres

Exemple concret : littérature britannique du XVIIIe siècle

Pourquoi pensez-vous que le niveau de justesse des évaluations était suspect ? Essayez de voir si vous pouvez identifier d'où vient l'erreur, puis cliquez sur le bouton de lecture (▶) ci-dessous pour savoir si vous aviez raison.

Exemple concret : littérature britannique du XVIIIe siècle

  • Division des données A : les chercheurs distribuent les phrases des différents auteurs dans un ensemble d'apprentissage, un ensemble de validation et un ensemble d'évaluation.
Tous les exemples provenant de Samuel Richardson peuvent se trouver dans l'ensemble d'apprentissage, tandis que ceux de Jonathan Swift peuvent être réunis dans l'ensemble de validation.

Exemple concret : littérature britannique du XVIIIe siècle

  • Division des données B : les chercheurs placent l'intégralité des exemples de chaque auteur dans un même ensemble.

Exemple concret : littérature britannique du XVIIIe siècle

  • Division des données A : les chercheurs distribuent les phrases des différents auteurs dans un ensemble d'apprentissage, un ensemble de validation et un ensemble d'évaluation.
  • Division des données B : les chercheurs placent l'intégralité des exemples de chaque auteur dans un même ensemble.
  • Résultats : le modèle entraîné sur la division de données A obtient un niveau de justesse bien plus élevé que le modèle entraîné sur la division de données B.

Exemple concret : littérature britannique du XVIIIe siècle

La morale : soyez très vigilant lorsque vous créez des sous-ensembles.

Tenez compte de ce que les données représentent.

* Ce module s'inspire de façon très générale (des modifications ayant été apportées) de l'article "Meaning and Mining: the Impact of Implicit Assumptions in Data Mining for the Humanities" ("Sens et exploitation des données : l'impact des hypothèses implicites dans l'exploitation de données appliquée aux lettres"), de David Sculley et Brad Pasanek.

Envoyer des commentaires concernant…

Cours d'initiation au machine learning