Les systèmes de ML dans le monde réel: littérature

Dans cette leçon, vous allez résoudre un problème réel de ML* lié à la littérature du XVIIIe siècle.

Exemple concret: littérature du XVIIIe siècle

  • Le professeur de littérature du XVIIIe siècle voulait prédire l'affiliation politique des auteurs en se basant uniquement sur les "métaphores" de l'auteur utilisées par l'auteur.
Anciens livres
  • Le professeur de littérature du XVIIIe siècle voulait prédire l'affiliation politique des auteurs en se basant uniquement sur les "métaphores" de l'auteur utilisées par l'auteur.
  • L'équipe de chercheurs a créé un ensemble de données étiquetées volumineux comportant de nombreux auteurs, phrases par phrase, et les a divisées en ensembles d'entraînement, de validation et de test.
Anciens livres
  • Le professeur de littérature du XVIIIe siècle voulait prédire l'affiliation politique des auteurs en se basant uniquement sur les "métaphores" de l'auteur utilisées par l'auteur.
  • L'équipe de chercheurs a créé un ensemble de données étiquetées volumineux comportant de nombreux auteurs, phrases par phrase, et les a divisées en ensembles d'entraînement, de validation et de test.
  • Le modèle entraîné a parfaitement fonctionné avec les données de test, mais les chercheurs ont estimé que les résultats étaient précis. Quel peut être le problème ?
Anciens livres

Pourquoi pensez-vous que la précision des tests était suspecte ? Essayez de trouver une solution à votre problème, puis cliquez sur le bouton de lecture ▶ ci-dessous pour vérifier si vous avez eu raison.

  • Répartition des données A: les chercheurs placent certains exemples de chaque auteur dans un ensemble d'entraînement, d'autres dans un ensemble de validation, d'autres dans un ensemble de test.
Tous les exemples de Richardson peuvent figurer dans l'ensemble d'entraînement, tandis que tous les exemples de Swift peuvent se trouver dans l'ensemble de validation.
Schéma illustrant la répartition d'exemples d'auteurs dans les ensembles d'entraînement, de validation et de test Les exemples de ces trois auteurs sont représentés dans chaque ensemble.
  • Division des données B: les chercheurs placent tous les exemples de chaque auteur dans un seul ensemble.
Schéma illustrant la répartition d'exemples d'auteurs dans les ensembles d'entraînement, de validation et de test L'ensemble d'entraînement ne contient que des exemples de Swift, l'ensemble de validation ne contient que des exemples de Blake, et l'ensemble de test ne contient que des exemples de Defoe.
  • Répartition des données A: les chercheurs placent certains exemples de chaque auteur dans un ensemble d'entraînement, d'autres dans un ensemble de validation, d'autres dans un ensemble de test.
  • Division des données B: les chercheurs placent tous les exemples de chaque auteur dans un seul ensemble.
  • Résultats: la précision du modèle entraîné sur la division de données A est beaucoup plus élevée que celle du modèle entraîné sur la division de données B.

La morale: réfléchissez bien à la façon dont vous divisez les exemples.

Déterminez ce que les données représentent.

* Nous avons basé ce module de manière très générale (en apportant des modifications) sur la page Meaning and Mining: the Impact of Implicit Assumptions in Data Mining for the Humanities" by Sculley and Pasanek.