Les vrais et faux positifs et négatifs sont utilisés pour calculer plusieurs métriques utiles pour évaluer les modèles. Les métriques d'évaluation les plus pertinentes dépendent du modèle et de la tâche spécifiques, du coût des différentes classifications incorrectes et de l'équilibre ou du déséquilibre de l'ensemble de données.
Toutes les métriques de cette section sont calculées à un seul seuil fixe et changent lorsque le seuil change. Très souvent, l'utilisateur ajuste le seuil pour optimiser l'une de ces métriques.
Précision
La justesse correspond à la proportion de classifications correctes, qu'elles soient positives ou négatives. Elle est mathématiquement définie comme suit :
\[\text{Accuracy} = \frac{\text{correct classifications}}{\text{total classifications}} = \frac{TP+TN}{TP+TN+FP+FN}\]
Dans l'exemple de classification du spam, la précision mesure la fraction de tous les e-mails correctement classés.
Un modèle parfait ne comporterait aucun faux positif ni aucun faux négatif.Il aurait donc une précision de 1, 0, soit 100 %.
Étant donné qu'elle intègre les quatre résultats de la matrice de confusion (VP, FP, VN, FN), la précision peut servir de mesure approximative de la qualité du modèle pour un ensemble de données équilibré, avec un nombre d'exemples similaire dans les deux classes. C'est pourquoi il s'agit souvent de la métrique d'évaluation par défaut utilisée pour les modèles génériques ou non spécifiés effectuant des tâches génériques ou non spécifiées.
Toutefois, lorsque l'ensemble de données est déséquilibré ou qu'un type d'erreur (faux négatif ou faux positif) est plus coûteux que l'autre, ce qui est le cas dans la plupart des applications réelles, il est préférable d'optimiser l'une des autres métriques.
Pour les ensembles de données très déséquilibrés, où une classe apparaît très rarement (par exemple, 1 % du temps), un modèle qui prédit une valeur négative 100 % du temps obtiendrait un score de précision de 99 %, alors qu'il est inutile.
Rappel ou taux de vrais positifs
Le taux de vrais positifs (TVP), ou la proportion de tous les positifs réels qui ont été correctement classés comme positifs, est également appelé rappel.
Le rappel est défini mathématiquement comme suit :
\[\text{Recall (or TPR)} = \frac{\text{correctly classified actual positives}}{\text{all actual positives}} = \frac{TP}{TP+FN}\]
Les faux négatifs sont des positifs réels qui ont été classés à tort comme négatifs. C'est pourquoi ils figurent au dénominateur. Dans l'exemple de classification du spam, le rappel mesure la fraction des e-mails indésirables qui ont été correctement classés comme spam. C'est pourquoi le rappel est également appelé probabilité de détection. Il répond à la question "Quelle fraction des spams est détectée par ce modèle ?"
Un modèle parfait hypothétique ne comporterait aucun faux négatif et aurait donc un rappel (TPR) de 1, 0, c'est-à-dire un taux de détection de 100 %.
Dans un ensemble de données déséquilibré où le nombre de vrais positifs est très faible, le rappel est une métrique plus pertinente que la précision, car il mesure la capacité du modèle à identifier correctement toutes les instances positives. Pour les applications telles que la prédiction des maladies, il est essentiel d'identifier correctement les cas positifs. Un faux négatif a généralement des conséquences plus graves qu'un faux positif. Pour obtenir un exemple concret comparant les métriques de rappel et de précision, consultez les notes dans la définition du rappel.
Taux de faux positifs
Le taux de faux positifs (FPR) correspond à la proportion de tous les résultats négatifs réels qui ont été classés incorrectement comme positifs. Il est également appelé probabilité de fausse alerte. Elle est mathématiquement définie comme suit :
\[\text{FPR} = \frac{\text{incorrectly classified actual negatives}} {\text{all actual negatives}} = \frac{FP}{FP+TN}\]
Les faux positifs sont des valeurs négatives réelles qui ont été mal classées. C'est pourquoi ils figurent au dénominateur. Dans l'exemple de classification du spam, le FPR mesure la fraction d'e-mails légitimes qui ont été classés à tort comme spam,ou le taux de fausses alarmes du modèle.
Un modèle parfait ne comporterait aucun faux positif et aurait donc un TFP de 0,0, c'est-à-dire un taux de fausse alerte de 0 %.
Pour un ensemble de données déséquilibré, le FPR est généralement une métrique plus informative que la précision. Toutefois, si le nombre de vrais négatifs est très faible, le FPR peut ne pas être un choix idéal en raison de sa volatilité. Par exemple, s'il n'y a que quatre vrais négatifs dans un ensemble de données, une classification incorrecte entraîne un FPR de 25 %, tandis qu'une deuxième classification incorrecte fait passer le FPR à 50 %. Dans ce cas, la précision (décrite ci-après) peut être une métrique plus stable pour évaluer les effets des faux positifs.
Précision
La précision correspond à la proportion de classifications positives du modèle qui sont réellement positives. Elle est définie mathématiquement comme suit :
\[\text{Precision} = \frac{\text{correctly classified actual positives}} {\text{everything classified as positive}} = \frac{TP}{TP+FP}\]
Dans l'exemple de classification du spam, la précision mesure la fraction des e-mails classés comme spam qui l'étaient réellement.
Un modèle parfait hypothétique ne comporterait aucun faux positif et aurait donc une précision de 1,0.
Dans un ensemble de données déséquilibré où le nombre de vrais positifs est très faible (par exemple, un ou deux exemples au total), la précision est moins pertinente et moins utile en tant que métrique.
La précision s'améliore lorsque le nombre de faux positifs diminue, tandis que le rappel s'améliore lorsque le nombre de faux négatifs diminue. Toutefois, comme nous l'avons vu dans la section précédente, l'augmentation du seuil de classification tend à diminuer le nombre de faux positifs et à augmenter le nombre de faux négatifs, tandis que la diminution du seuil a les effets inverses. Par conséquent, la précision et le rappel présentent souvent une relation inverse, où l'amélioration de l'un détériore l'autre.
Essayez :
Choix de la métrique et compromis
Les métriques que vous choisissez de privilégier lorsque vous évaluez le modèle et que vous choisissez un seuil dépendent des coûts, des avantages et des risques du problème spécifique. Dans l'exemple de classification du spam, il est souvent judicieux de privilégier le rappel (en attrapant tous les spams) ou la précision (en s'assurant que les e-mails marqués comme spams le sont réellement), ou encore un équilibre entre les deux, au-dessus d'un certain niveau de précision minimal.
| Métrique | Conseils |
|---|---|
| Précision | Utilisez-la comme indicateur approximatif de la progression/convergence de l'entraînement du modèle pour les ensembles de données équilibrés. Pour les performances du modèle, à n'utiliser qu'avec d'autres métriques. À éviter pour les ensembles de données déséquilibrés. Envisagez d'utiliser une autre métrique. |
| Rappel (taux de vrais positifs) |
À utiliser lorsque les faux négatifs sont plus coûteux que les faux positifs. |
| Taux de faux positifs | À utiliser lorsque les faux positifs sont plus coûteux que les faux négatifs. |
| Précision | À utiliser lorsque la précision des prédictions positives est très importante. |