Le module précédent a présenté le partitionnement d'un ensemble de données en un ensemble d'entraînement et un ensemble de test. Ce partitionnement vous a permis d'entraîner le modèle sur un ensemble d'exemples, puis de le tester sur un autre ensemble d'exemples. Avec deux partitions, le workflow peut se présenter comme suit:
Figure 1. Un workflow possible ?
Dans la figure, "Ajuster le modèle" consiste à ajuster le modèle dont vous rêvez, qu'il s'agisse de modifier le taux d'apprentissage, d'ajouter ou de supprimer des caractéristiques, ou encore de concevoir un tout nouveau modèle. À la fin de ce workflow, vous choisissez le modèle qui a obtenu les meilleurs résultats avec l'ensemble de test.
Diviser l'ensemble de données en deux ensembles est une bonne idée, mais ce n'est pas une panacée. Vous pouvez réduire considérablement vos risques de surapprentissage en divisant l'ensemble de données en trois sous-ensembles, illustrés dans la figure suivante:
Figure 2 Diviser un ensemble de données unique en trois sous-ensembles
Utilisez l'ensemble de validation pour évaluer les résultats de l'ensemble d'entraînement. Utilisez ensuite l'ensemble de test pour vérifier votre évaluation après que le modèle a "passé" l'ensemble de validation. La figure suivante illustre ce nouveau workflow:
Figure 3. un meilleur flux de travail
Dans ce workflow amélioré:
- Choisissez le modèle qui a obtenu les meilleurs résultats avec l'ensemble de validation.
- Comparez ce modèle à l'ensemble de test.
Ce workflow est meilleur, car il réduit les expositions à l'ensemble de test.