Au cours de cette leçon, vous résoudrez un problème de Machine Learning concret* portant sur la littérature britannique du XVIIIe siècle.
Exemple concret : littérature britannique du XVIIIe siècle
Exemple concret : littérature britannique du XVIIIe siècle
- Un professeur de littérature britannique du XVIIIe siècle souhaite prédire l'affiliation politique des auteurs en se basant uniquement sur "les métaphores liées à l'esprit" utilisées par ces auteurs.

Exemple concret : littérature britannique du XVIIIe siècle
- Un professeur de littérature britannique du XVIIIe siècle souhaite prédire l'affiliation politique des auteurs en se basant uniquement sur "les métaphores liées à l'esprit" utilisées par ces auteurs.
- Son équipe de recherche crée un important ensemble de données étiquetées constitué de phrases isolées écrites par plusieurs auteurs différents, puis divise cet ensemble de données en trois sous-ensembles : apprentissage, validation et évaluation.

Exemple concret : littérature britannique du XVIIIe siècle
- Un professeur de littérature britannique du XVIIIe siècle souhaite prédire l'affiliation politique des auteurs en se basant uniquement sur "les métaphores liées à l'esprit" utilisées par ces auteurs.
- Son équipe de recherche crée un important ensemble de données étiquetées constitué de phrases isolées écrites par plusieurs auteurs différents, puis divise cet ensemble de données en trois sous-ensembles : apprentissage, validation et évaluation.
- Le modèle entraîné permet d'obtenir des résultats presque parfaits avec les données d'évaluation, mais un tel niveau de précision paraît suspect aux chercheurs. Où est l'erreur ?

Exemple concret : littérature britannique du XVIIIe siècle
Pourquoi pensez-vous que le niveau de justesse des évaluations était suspect ? Essayez de voir si vous pouvez identifier d'où vient l'erreur, puis cliquez sur le bouton de lecture (▶) ci-dessous pour savoir si vous aviez raison.
Exemple concret : littérature britannique du XVIIIe siècle
- Division des données A : les chercheurs distribuent les phrases des différents auteurs dans un ensemble d'apprentissage, un ensemble de validation et un ensemble d'évaluation.
Exemple concret : littérature britannique du XVIIIe siècle
- Division des données B : les chercheurs placent l'intégralité des exemples de chaque auteur dans un même ensemble.
Exemple concret : littérature britannique du XVIIIe siècle
- Division des données A : les chercheurs distribuent les phrases des différents auteurs dans un ensemble d'apprentissage, un ensemble de validation et un ensemble d'évaluation.
- Division des données B : les chercheurs placent l'intégralité des exemples de chaque auteur dans un même ensemble.
- Résultats : le modèle entraîné sur la division de données A obtient un niveau de justesse bien plus élevé que le modèle entraîné sur la division de données B.
Exemple concret : littérature britannique du XVIIIe siècle
La morale : soyez très vigilant lorsque vous créez des sous-ensembles.
Tenez compte de ce que les données représentent.
* Ce module s'inspire de façon très générale (des modifications ayant été apportées) de l'article "Meaning and Mining: the Impact of Implicit Assumptions in Data Mining for the Humanities" ("Sens et exploitation des données : l'impact des hypothèses implicites dans l'exploitation de données appliquée aux lettres"), de David Sculley et Brad Pasanek.