Le calcul du biais de prédiction est une vérification rapide qui peut signaler les problèmes liés au modèle ou aux données d'entraînement dès le début.
Le biais de prédiction correspond à la différence entre la moyenne des prédictions d'un modèle et la moyenne des étiquettes de vérité terrain dans les données. Un modèle entraîné sur un ensemble de données où 5 % des e-mails sont du spam devrait prédire, en moyenne, que 5 % des e-mails qu'il classe sont du spam. En d'autres termes, la moyenne des étiquettes dans l'ensemble de données de vérité terrain est de 0,05, et la moyenne des prédictions du modèle devrait également être de 0,05. Dans ce cas, le modèle ne présente aucun biais de prédiction. Bien sûr, le modèle peut encore présenter d'autres problèmes.
Si le modèle prédit que 50 % des e-mails sont des spams, cela signifie que l'ensemble de données d'entraînement, le nouvel ensemble de données auquel le modèle est appliqué ou le modèle lui-même présentent un problème. Toute différence significative entre les deux moyennes suggère que le modèle présente un biais de prédiction.
Le biais de prédiction peut être dû aux raisons suivantes :
- Biais ou bruit dans les données, y compris un échantillonnage biaisé pour l'ensemble d'entraînement
- Régularisation trop forte, ce qui signifie que le modèle a été trop simplifié et a perdu une partie de la complexité nécessaire
- Bugs dans le pipeline d'entraînement du modèle
- L'ensemble des caractéristiques fournies au modèle est insuffisant pour la tâche.