Ensembles d'apprentissage et d'évaluation : division des données

Dans le module précédent, vous avez abordé la division d'un ensemble de données en deux sous-ensembles :

  • Ensemble d'apprentissage : sous-ensemble destiné à l'apprentissage d'un modèle.
  • Ensemble d'évaluation : sous-ensemble destiné à l'évaluation du modèle.

Vous pouvez diviser l'ensemble de données de la manière suivante :

Une barre horizontale divisée en deux parties : 80 % pour l'ensemble d'apprentissage et 20 % pour l'ensemble d'évaluation

Figure 1 : Division d'un ensemble de données en un ensemble d'apprentissage et un ensemble d'évaluation.

Vérifiez que votre ensemble de données satisfait les deux conditions suivantes :

  • Il est suffisamment volumineux pour produire des résultats statistiquement significatifs.
  • Il est représentatif de l'ensemble de données global. Autrement dit, ne choisissez pas un ensemble d'évaluation dont les caractéristiques sont différentes de celles de l'ensemble d'apprentissage.

Supposons que votre ensemble d'évaluation satisfasse les deux conditions précédentes. Votre objectif est de créer un modèle correctement généralisable aux nouvelles données. Notre ensemble d'évaluation sert de proxy pour les nouvelles données. Voyons la figure ci-dessous. Notez que le modèle entraîné pour l'ensemble d'apprentissage est très simple. Ce modèle n'est pas parfait. Quelques prédictions sont erronées. Il est cependant à peu près aussi performant avec les données d'évaluation qu'avec les données d'apprentissage. En d'autres termes, ce modèle simple ne surapprend pas les données d'apprentissage.

Deux modèles : l'un s'exécute sur les données d'apprentissage et l'autre sur les données d'évaluation. Le modèle est très simple, avec juste une ligne séparant les points orange des points bleus. Le coût pour les données d'apprentissage est semblable à celui pour les données d'évaluation.

Figure 2 : Validation du modèle entraîné par rapport aux données d'évaluation.

N'effectuez jamais l'apprentissage sur des données d'évaluation. Si vous constatez des résultats étonnamment bons pour vos statistiques d'évaluation, il est possible que vous ayez effectué par erreur l'apprentissage sur l'ensemble d'évaluation. Par exemple, une justesse importante peut indiquer que des données d'évaluation se sont retrouvées dans l'ensemble d'apprentissage.

Imaginons un modèle qui prédit si un e-mail est du spam en utilisant comme caractéristiques l'objet et le corps de l'e-mail, ainsi que l'adresse e-mail de l'expéditeur. Nous répartissons les données entre les ensembles d'apprentissage et d'évaluation, selon un rapport 80-20. À l'issue de l'apprentissage, le modèle atteint une précision de 99 % pour l'ensemble d'apprentissage et l'ensemble d'évaluation. La justesse devrait être inférieure pour l'ensemble d'évaluation. Nous vérifions donc les données et nous nous apercevons que de nombreux exemples de l'ensemble d'évaluation sont des doublons des exemples de l'ensemble d'apprentissage. En effet, nous avons oublié de supprimer les entrées en double pour les courriers indésirables identiques dans notre base de données d'entrée avant de diviser les données. Nous avons effectué par inadvertance l'apprentissage sur certaines de nos données d'évaluation. De ce fait, nous ne mesurons plus avec précision la qualité de la généralisation de notre modèle aux nouvelles données.

Envoyer des commentaires concernant…

Cours d'initiation au machine learning