Généralisation : le risque de surapprentissage

Ce module est axé sur la généralisation. Afin de développer une connaissance intuitive de ce concept, vous allez observer trois illustrations. Supposons que chaque point représente la position d'un arbre dans une forêt. La signification des deux couleurs est la suivante :

  • Les points bleus représentent les arbres malades.
  • Les points orange représentent les arbres sains.

En gardant ceci à l'esprit, observez la figure 1.

Cette illustration contient une cinquantaine de points, divisés équitablement en points bleus et orange. Les points orange se situent principalement dans le quadrant sud-ouest, même si quelques-uns se glissent également dans les trois autres quadrants. Les points bleus se concentrent dans le quadrant nord-est, mais quelques-uns sont également présents dans les autres quadrants.

Figure 1 : Arbres malades (en bleu) et arbres sains (en orange).

Essayez d'imaginer un modèle capable de prédire les arbres qui vont rester sains et ceux qui vont attraper des maladies ? Prenez quelques instants pour tracer mentalement un arc qui divise les points bleus des points orange, ou pour vous représenter mentalement un groupe de points bleus ou orange. Observez ensuite la figure 2 qui illustre un modèle de Machine Learning séparant les arbres malades des sujets sains. Notez que ce modèle a généré une très faible perte.

 

Une faible perte certes, mais un modèle toujours imparfait !

La figure 3 montre le résultat de l'ajout de nouvelles données au modèle. Il s'avère que le modèle s'est très mal adapté à ces nouvelles données. On constate, en effet, que le modèle a mal classé la majorité d'entre elles.

Même illustration que la figure 2, si ce n'est qu'une centaine de points ont été ajoutés. Nombre de ces nouveaux points sont bien en dehors du modèle prévu.

Figure 3 : Le modèle n'a pas prédit correctement les nouvelles données.

Le modèle illustré dans les figures 2 et 3 surapprend les particularités des données traitées. Un modèle qui a surappris génère une faible perte lors de l'apprentissage, mais ne parvient pas à prédire efficacement les nouvelles données. Si un modèle apprend bien l'échantillon en cours, comment être sûr que ses prédictions seront valables pour les nouvelles données ? Comme nous le verrons plus tard, le fait de rendre un modèle plus complexe que nécessaire est une cause du surapprentissage. Toute la difficulté du Machine Learning consiste à bien apprendre nos données, tout en veillant à ce que cet apprentissage reste le plus simple possible.

L'objectif du Machine Learning est d'effectuer des prédictions correctes sur de nouvelles données extraites d'une distribution de probabilité réelle (cachée). Malheureusement, le modèle ne peut pas voir toute la vérité ; il peut seulement échantillonner à partir d'un ensemble de données d'apprentissage. Si un modèle apprend correctement les exemples en cours, comment être sûr qu'il fera également des prédictions correctes sur des exemples qu'il n'a encore jamais vus ?

Guillaume d'Ockham, moine et philosophe du XIVe siècle, vénérait la simplicité. Il était d'avis que les scientifiques devaient privilégier les formules et les théories simples, au détriment des concepts compliqués. Pour traduire le principe d'Ockham en termes de Machine Learning :

Plus un modèle de ML est simple, plus il y a de chances qu'un résultat empirique correct ne soit pas simplement dû aux particularités de l'échantillon.

À l'époque moderne, le principe du rasoir d'Ockham a été formalisé dans les domaines de la théorie d'apprentissage statistique et la théorie d'apprentissage computationnel. Ces domaines ont défini des limites de généralisation, c'est-à-dire une description de la capacité d'un modèle à généraliser sur des nouvelles données sur la base de facteurs tels que :

  • la complexité du modèle ;
  • les performances du modèle au niveau des données d'apprentissage.

Bien que l'analyse théorique fournisse des garanties formelles dans le cadre d'hypothèses idéalisées, dans la pratique, leur application peut s'avérer difficile. Le cours d'initiation au Machine Learning est plutôt axé sur l'évaluation empirique à juger la capacité d'un modèle à généraliser sur de nouvelles données.

L'objectif d'un modèle de Machine Learning est de formuler des prédictions exactes sur de nouvelles données qui n'étaient pas visibles précédemment. Mais comment obtenir ces données si vous construisez un modèle à partir de votre ensemble de données ? Une solution consiste à diviser votre ensemble de données en deux sous-ensembles :

  • Ensemble d'apprentissage : sous-ensemble destiné à l'apprentissage d'un modèle.
  • Ensemble d'évaluation : sous-ensemble destiné à l'évaluation du modèle.

L'obtention de bons résultats sur l'ensemble d'évaluation indique généralement de bonnes performances sur les nouvelles données, dans l'hypothèse où :

  • l'ensemble d'évaluation est suffisamment vaste ;
  • vous ne trichez pas en réutilisant sans cesse le même test d'évaluation.

Les subtilités du Machine Learning

Trois hypothèses de base influencent la généralisation :

  • Des variables indépendantes et identiquement distribuées (iid) sont extraites de la distribution de manière aléatoire. En d'autres termes, les exemples ne s'influencent pas mutuellement. (On pourrait également définir le concept de variables iid comme faisant référence au caractère aléatoire des variables.)
  • La distribution est stationnaire, ce qui signifie qu'elle ne change pas à l'intérieur de l'ensemble de données.
  • Les exemples sont extraits des partitions de la même distribution.

Dans la pratique, il nous arrive de ne pas respecter ces hypothèses. Exemple :

  • Prenons l'exemple d'un modèle qui choisit les annonces à diffuser. On considère qu'il y a une violation de l'hypothèse des variables iid si le modèle axe son choix, en partie, sur les annonces que l'utilisateur a vues précédemment.
  • Supposons qu'un ensemble de données contienne des informations de vente au détail pour une année. Les achats de l'utilisateur changent en fonction de la saison, ce qui enfreint la stationnarité.

Lorsque l'on sait que l'une de ces trois hypothèses n'est pas respectée, il convient de prêter une attention toute particulière aux métriques.

Envoyer des commentaires concernant…

Cours d'initiation au machine learning