Applications concrètes de systèmes de Machine Learning : la prédiction de cancer

Au cours de cette leçon, vous résoudrez un problème de Machine Learning concret* portant sur la prédiction de cancer.

Exemple concret : prédiction de cancer

  • Le modèle a fait l'objet d'un apprentissage pour prédire la probabilité que le patient soit atteint d'un cancer en se basant sur son dossier médical.
Cellules cancéreuses
  • Le modèle a fait l'objet d'un apprentissage pour prédire la probabilité que le patient soit atteint d'un cancer en se basant sur son dossier médical.
  • Les caractéristiques prises en compte comprenaient l'âge du patient, son sexe, ses antécédents médicaux, le nom de l'hôpital, ses signes vitaux et ses résultats de tests.
Cellules cancéreuses
  • Le modèle a fait l'objet d'un apprentissage pour prédire la probabilité que le patient soit atteint d'un cancer en se basant sur son dossier médical.
  • Les caractéristiques prises en compte comprenaient l'âge du patient, son sexe, ses antécédents médicaux, le nom de l'hôpital, ses signes vitaux et ses résultats de tests.
  • Le modèle a produit d'excellents résultats sur les données d'évaluation exclues de l'apprentissage.
Cellules cancéreuses
  • Le modèle a fait l'objet d'un apprentissage pour prédire la probabilité que le patient soit atteint d'un cancer en se basant sur son dossier médical.
  • Les caractéristiques prises en compte comprenaient l'âge du patient, son sexe, ses antécédents médicaux, le nom de l'hôpital, ses signes vitaux et ses résultats de tests.
  • Le modèle a produit d'excellents résultats sur les données d'évaluation exclues de l'apprentissage.
  • Mais appliqué à de nouveaux patients, le modèle a généré des prédictions de très mauvaise qualité. Pourquoi ?
Cellules cancéreuses

Pourquoi pensez-vous que le modèle n'a pas été en mesure de fournir de bons résultats sur les nouveaux patients ? Essayez de voir si vous pouvez identifier d'où vient l'erreur, puis cliquez sur le bouton de lecture (▶) ci-dessous pour savoir si vous aviez raison.

* Ce module s'inspire de façon très générale (des modifications ayant été apportées) de l'article "Leakage in data mining: formulation, detection, and avoidance" ("Fuite de données dans le data mining : formulation, détection et prévention") de Shachar Kaufman, Saharon Rosset et Claudia Perlich.