Validation : une autre partition

Le module précédent présentait comment créer un ensemble d'apprentissage et un ensemble d'évaluation à partir d'un ensemble de données. Ce partitionnement vous a permis d'entraîner le modèle en vous basant sur un ensemble d'exemples, puis de l'évaluer avec un autre ensemble d'exemples. Voici ce à quoi ressemble le workflow avec deux partitions :

Schéma d'un workflow composé de trois étapes. 1. Entraînez le modèle avec l'ensemble d'apprentissage. 2. Évaluez le modèle avec l'ensemble d'évaluation. 3. Modifiez le modèle en fonction des résultats obtenus avec l'ensemble d'évaluation. Itérez les étapes 1, 2 et 3, puis choisissez le modèle qui obtient les meilleurs résultats avec l'ensemble d'évaluation.

Figure 1 : Un workflow possible ?

Dans cette figure, "Modifier le modèle" signifie que vous pouvez ajuster absolument tout ce que vous voulez : taux d'apprentissage, ajout ou suppression de caractéristiques, conception d'un tout nouveau modèle, etc. Au terme de ce workflow, vous choisissez le modèle qui a obtenu les meilleurs résultats avec l'ensemble d'évaluation.

La division de l'ensemble de données en deux ensembles est une bonne idée, mais ce n'est pas une panacée. Le partitionnement de l'ensemble de données en trois sous-ensembles, comme illustré dans la figure ci-dessous, permet de réduire considérablement le risque de surapprentissage :

Barre horizontale divisée en trois parties : 70 % de la barre représente l'ensemble d'apprentissage, 15 % l'ensemble de validation et 15 % l'ensemble d'évaluation.

Figure 2 : Partitionnement d'un ensemble de données en trois sous-ensembles

Utilisez l'ensemble de validation pour évaluer les résultats de l'ensemble d'apprentissage. Utilisez ensuite l'ensemble d'évaluation pour vérifier l'évaluation après que le modèle a passé l'étape de validation. La figure suivante présente ce nouveau workflow :

Workflow similaire à la figure 2, à l'exception près qu'au lieu d'évaluer le modèle avec l'ensemble d'évaluation, il est évalué avec l'ensemble de validation. Puis, une fois que les ensembles d'apprentissage et de validation concordent plus ou moins, confirmez le modèle avec l'ensemble d'évaluation.

Figure 3 : Workflow amélioré

Dans ce workflow amélioré :

  1. Choisissez le modèle qui a obtenu les meilleurs résultats avec l'ensemble de validation.
  2. Vérifiez ce modèle avec l'ensemble d'évaluation.

Ce workflow est conseillé, car il implique moins d'expositions à l'ensemble d'évaluation.

Envoyer des commentaires concernant…

Cours d'initiation au machine learning