Applications concrètes des systèmes de Machine Learning : la littérature

Au cours de cette leçon, vous résoudrez un problème de Machine Learning concret* portant sur la littérature britannique du XVIIIe siècle.

Exemple concret : littérature britannique du XVIIIe siècle

  • Un professeur de littérature britannique du XVIIIe siècle souhaite prédire l'affiliation politique des auteurs en se basant uniquement sur "les métaphores liées à l'esprit" utilisées par ces auteurs.
Vieux livres
  • Un professeur de littérature britannique du XVIIIe siècle souhaite prédire l'affiliation politique des auteurs en se basant uniquement sur "les métaphores liées à l'esprit" utilisées par ces auteurs.
  • Son équipe de recherche crée un important ensemble de données étiquetées constitué de phrases isolées écrites par plusieurs auteurs différents, puis divise cet ensemble de données en trois sous-ensembles : apprentissage, validation et évaluation.
Vieux livres
  • Un professeur de littérature britannique du XVIIIe siècle souhaite prédire l'affiliation politique des auteurs en se basant uniquement sur "les métaphores liées à l'esprit" utilisées par ces auteurs.
  • Son équipe de recherche crée un important ensemble de données étiquetées constitué de phrases isolées écrites par plusieurs auteurs différents, puis divise cet ensemble de données en trois sous-ensembles : apprentissage, validation et évaluation.
  • Le modèle entraîné permet d'obtenir des résultats presque parfaits avec les données d'évaluation, mais un tel niveau de précision paraît suspect aux chercheurs. Où est l'erreur ?
Vieux livres

Pourquoi pensez-vous que le niveau de justesse des évaluations était suspect ? Essayez de voir si vous pouvez identifier d'où vient l'erreur, puis cliquez sur le bouton de lecture (▶) ci-dessous pour savoir si vous aviez raison.

  • Division des données A : les chercheurs distribuent les phrases des différents auteurs dans un ensemble d'apprentissage, un ensemble de validation et un ensemble d'évaluation.
Tous les exemples provenant de Samuel Richardson peuvent se trouver dans l'ensemble d'apprentissage, tandis que ceux de Jonathan Swift peuvent être réunis dans l'ensemble de validation.
  • Division des données B : les chercheurs placent l'intégralité des exemples de chaque auteur dans un même ensemble.
  • Division des données A : les chercheurs distribuent les phrases des différents auteurs dans un ensemble d'apprentissage, un ensemble de validation et un ensemble d'évaluation.
  • Division des données B : les chercheurs placent l'intégralité des exemples de chaque auteur dans un même ensemble.
  • Résultats : le modèle entraîné sur la division de données A obtient un niveau de justesse bien plus élevé que le modèle entraîné sur la division de données B.

La morale : soyez très vigilant lorsque vous créez des sous-ensembles.

Tenez compte de ce que les données représentent.

* Ce module s'inspire de façon très générale (des modifications ayant été apportées) de l'article "Meaning and Mining: the Impact of Implicit Assumptions in Data Mining for the Humanities" ("Sens et exploitation des données : l'impact des hypothèses implicites dans l'exploitation de données appliquée aux lettres"), de David Sculley et Brad Pasanek.