Ensemble de validation: autre partition

Le module précédent a présenté le partitionnement d'un ensemble de données en un ensemble d'entraînement et un ensemble de test. Ce partitionnement vous a permis d'entraîner le modèle sur un ensemble d'exemples, puis de le tester sur un autre ensemble d'exemples. Avec deux partitions, le workflow peut se présenter comme suit:

Schéma d'un workflow composé de trois étapes. 1. Entraînez le modèle sur l'ensemble d'entraînement. 2. Évaluer le modèle sur l'ensemble de test 3. Ajustez le modèle en fonction des résultats obtenus avec l'ensemble de test. Effectuez des itérations sur les points 1, 2 et 3, afin de choisir le modèle qui a obtenu les meilleurs résultats avec l'ensemble de test.

Figure 1. Un workflow possible ?

Dans la figure, "Ajuster le modèle" consiste à ajuster le modèle dont vous rêvez, qu'il s'agisse de modifier le taux d'apprentissage, d'ajouter ou de supprimer des caractéristiques, ou encore de concevoir un tout nouveau modèle. À la fin de ce workflow, vous choisissez le modèle qui a obtenu les meilleurs résultats avec l'ensemble de test.

Diviser l'ensemble de données en deux ensembles est une bonne idée, mais ce n'est pas une panacée. Vous pouvez réduire considérablement vos risques de surapprentissage en divisant l'ensemble de données en trois sous-ensembles, illustrés dans la figure suivante:

Barre horizontale divisée en trois parties: 70% pour l'ensemble d'entraînement, 15% pour l'ensemble de validation et 15% pour l'ensemble de test

Figure 2 Diviser un ensemble de données unique en trois sous-ensembles

Utilisez l'ensemble de validation pour évaluer les résultats de l'ensemble d'entraînement. Utilisez ensuite l'ensemble de test pour vérifier votre évaluation après que le modèle a "passé" l'ensemble de validation. La figure suivante illustre ce nouveau workflow:

Workflow semblable à la figure 1, à la différence qu'au lieu d'évaluer le modèle avec l'ensemble de test, il est évalué avec l'ensemble de validation. Ensuite, une fois que les ensembles d'entraînement et de validation sont plus ou moins d'accord, confirmez le modèle par rapport à l'ensemble de test.

Figure 3. un meilleur flux de travail

Dans ce workflow amélioré:

  1. Choisissez le modèle qui a obtenu les meilleurs résultats avec l'ensemble de validation.
  2. Comparez ce modèle à l'ensemble de test.

Ce workflow est meilleur, car il réduit les expositions à l'ensemble de test.