Ensemble de validation: testez votre intuition

Avant d'entamer ce module, demandez-vous si l'utilisation du processus d'entraînement décrit dans la section Ensembles d'entraînement et de test présente des risques.

Explorez les options ci-dessous.

Nous avons envisagé d'utiliser un ensemble de test et un ensemble d'entraînement pour effectuer des itérations du développement du modèle. À chaque itération, nous effectuons l'entraînement avec les données d'entraînement et l'évaluation sur les données de test. Nous utilisons les résultats de l'évaluation sur les données de test pour guider les choix et les modifications concernant différents hyperparamètres du modèle, tels que le taux d'apprentissage et les caractéristiques. Y a-t-il un problème avec cette approche ? (Choisissez une seule réponse.)
Tout à fait. Nous effectuons l'entraînement sur des données d'entraînement et l'évaluation sur des données de test séparées.
En fait, il y a un petit problème. Réfléchissez à ce qui pourrait se passer si nous effectuions un très grand nombre d'itérations de cette forme.
En suivant de nombreuses étapes de cette procédure, vous risquez de nous retrouver implicitement sur les particularités de notre ensemble de test spécifique.
Oui, en effet ! Plus nous effectuons d'évaluations sur un ensemble de test donné, plus le risque de surapprentissage est élevé. Nous allons maintenant voir un meilleur protocole.
Cette démarche est inefficace en termes de calcul. Il suffit de choisir un ensemble d'hyperparamètres par défaut et de le combiner pour économiser les ressources.
Bien que ces types d'itérations soient coûteux, ils jouent un rôle essentiel dans le développement du modèle. Les réglages d'hyperparamètres peuvent faire une énorme différence en termes de qualité du modèle. C'est pourquoi il est important de prévoir systématiquement du temps et des ressources de calcul pour obtenir la meilleure qualité possible.