Cette page a été traduite par l'API Cloud Translation.

Les systèmes de ML dans le monde réel: littérature

Dans cette leçon, vous allez résoudre un problème réel de ML* lié à la littérature du XVIIIe siècle.

Exemple concret: littérature du XVIIIe siècle

Le professeur de littérature du XVIIIe siècle voulait prédire l'affiliation politique des auteurs en se basant uniquement sur les "métaphores" de l'auteur utilisées par l'auteur.

Exemple concret: littérature du XVIIIe siècle

Le professeur de littérature du XVIIIe siècle voulait prédire l'affiliation politique des auteurs en se basant uniquement sur les "métaphores" de l'auteur utilisées par l'auteur.
L'équipe de chercheurs a créé un ensemble de données étiquetées volumineux comportant de nombreux auteurs, phrases par phrase, et les a divisées en ensembles d'entraînement, de validation et de test.

Exemple concret: littérature du XVIIIe siècle

Le professeur de littérature du XVIIIe siècle voulait prédire l'affiliation politique des auteurs en se basant uniquement sur les "métaphores" de l'auteur utilisées par l'auteur.
L'équipe de chercheurs a créé un ensemble de données étiquetées volumineux comportant de nombreux auteurs, phrases par phrase, et les a divisées en ensembles d'entraînement, de validation et de test.
Le modèle entraîné a parfaitement fonctionné avec les données de test, mais les chercheurs ont estimé que les résultats étaient précis. Quel peut être le problème ?

Exemple concret: littérature du XVIIIe siècle

Pourquoi pensez-vous que la précision des tests était suspecte ? Essayez de trouver une solution à votre problème, puis cliquez sur le bouton de lecture ▶ ci-dessous pour vérifier si vous avez eu raison.

Exemple concret: littérature du XVIIIe siècle

Répartition des données A: les chercheurs placent certains exemples de chaque auteur dans un ensemble d'entraînement, d'autres dans un ensemble de validation, d'autres dans un ensemble de test.

Schéma illustrant la répartition d'exemples d'auteurs dans les ensembles d'entraînement, de validation et de test Les exemples de ces trois auteurs sont représentés dans chaque ensemble.

Exemple concret: littérature du XVIIIe siècle

Division des données B: les chercheurs placent tous les exemples de chaque auteur dans un seul ensemble.

Schéma illustrant la répartition d'exemples d'auteurs dans les ensembles d'entraînement, de validation et de test L'ensemble d'entraînement ne contient que des exemples de Swift, l'ensemble de validation ne contient que des exemples de Blake, et l'ensemble de test ne contient que des exemples de Defoe.

Exemple concret: littérature du XVIIIe siècle

Répartition des données A: les chercheurs placent certains exemples de chaque auteur dans un ensemble d'entraînement, d'autres dans un ensemble de validation, d'autres dans un ensemble de test.
Division des données B: les chercheurs placent tous les exemples de chaque auteur dans un seul ensemble.
Résultats: la précision du modèle entraîné sur la division de données A est beaucoup plus élevée que celle du modèle entraîné sur la division de données B.

Exemple concret: littérature du XVIIIe siècle

La morale: réfléchissez bien à la façon dont vous divisez les exemples.

Déterminez ce que les données représentent.

* Nous avons basé ce module de manière très générale (en apportant des modifications) sur la page Meaning and Mining: the Impact of Implicit Assumptions in Data Mining for the Humanities" by Sculley and Pasanek.

Centre d'aide

Prédiction du cancer (5 min)

Consignes (2 min)