Généralisation

La généralisation fait référence à la capacité de votre modèle à s'adapter correctement à de nouvelles données qui n'étaient pas visibles au préalable ; données qui sont issues de la même distribution que celle utilisée pour créer le modèle.

Généralisation

L'essentiel

Cycle de modèle, prédiction échantillon, découvrir la distribution réelle, plus d'échantillons.
  • Objectif : effectuer des prédictions correctes sur des nouvelles données extraites d'une distribution réelle (cachée).
  • Problème : nous ne voyons pas la vérité.
    • Nous n'en voyons qu'un échantillon.

L'essentiel

Cycle de modèle, prédiction échantillon, découvrir la distribution réelle, plus d'échantillons.
  • Objectif : effectuer des prédictions correctes sur des nouvelles données extraites d'une distribution réelle (cachée).
  • Problème : nous ne voyons pas la vérité.
    • Nous n'en voyons qu'un échantillon.
  • Si le modèle h apprend correctement l'échantillon en cours, comment être sûr que ses prédictions seront valables pour les nouveaux échantillons ?

Comment savoir si un modèle est bon ?

  • En théorie :
    • Domaine intéressant : théorie de la généralisation
    • Repose sur l'idée de mesurer la simplicité/complexité du modèle
  • Intuition : formalisation du principe du rasoir d'Ockham
    • Plus un modèle est simple, plus il y a de chances qu'un résultat empirique correct ne soit pas simplement dû aux particularités de notre échantillon.

Comment savoir si un modèle est bon ?

  • Empiriquement :
    • Question : notre modèle sera-t-il efficace sur un nouvel échantillon de données ?
    • Évaluation : prenez un nouvel échantillon de données et appelez-le "ensemble d'évaluation".
    • L'obtention de bons résultats sur l'ensemble d'évaluation indique généralement de bonnes performances sur les nouvelles données, dans l'hypothèse où :
      • l'ensemble d'évaluation est suffisamment vaste ;
      • vous ne trichez pas en réutilisant sans cesse le même test d'évaluation.

Les subtilités du Machine Learning

Tous les cas énoncés ci-dessus reposent sur trois hypothèses de base :

  1. Des exemples de variables indépendantes et identiquement distribuées (iid) sont extraits de la distribution de manière aléatoire.
  2. La distribution est stationnaire : elle n'évolue pas au fil du temps.
  3. Nous extrayons toujours les données de la même distribution : y compris pour les ensembles d'apprentissage, de validation et d'évaluation.

Envoyer des commentaires concernant…

Cours d'initiation au machine learning