Classification: justesse, rappel, précision et métriques associées

Les vrais et faux positifs et négatifs sont utilisés pour calculer plusieurs métriques utiles pour évaluer les modèles. Les métriques d'évaluation les plus pertinentes dépendent du modèle et de la tâche spécifiques, du coût des différentes classifications incorrectes et de l'équilibre ou du déséquilibre de l'ensemble de données.

Toutes les métriques de cette section sont calculées à un seul seuil fixe et changent lorsque le seuil change. Très souvent, l'utilisateur ajuste le seuil pour optimiser l'une de ces métriques.

Précision

La justesse correspond à la proportion de classifications correctes, qu'elles soient positives ou négatives. Elle est mathématiquement définie comme suit :

\[\text{Accuracy} = \frac{\text{correct classifications}}{\text{total classifications}} = \frac{TP+TN}{TP+TN+FP+FN}\]

Dans l'exemple de classification du spam, la précision mesure la fraction de tous les e-mails correctement classés.

Un modèle parfait ne comporterait aucun faux positif ni aucun faux négatif.Il aurait donc une précision de 1, 0, soit 100 %.

Étant donné qu'elle intègre les quatre résultats de la matrice de confusion (VP, FP, VN, FN), la précision peut servir de mesure approximative de la qualité du modèle pour un ensemble de données équilibré, avec un nombre d'exemples similaire dans les deux classes. C'est pourquoi il s'agit souvent de la métrique d'évaluation par défaut utilisée pour les modèles génériques ou non spécifiés effectuant des tâches génériques ou non spécifiées.

Toutefois, lorsque l'ensemble de données est déséquilibré ou qu'un type d'erreur (faux négatif ou faux positif) est plus coûteux que l'autre, ce qui est le cas dans la plupart des applications réelles, il est préférable d'optimiser l'une des autres métriques.

Pour les ensembles de données très déséquilibrés, où une classe apparaît très rarement (par exemple, 1 % du temps), un modèle qui prédit une valeur négative 100 % du temps obtiendrait un score de précision de 99 %, alors qu'il est inutile.

Rappel ou taux de vrais positifs

Le taux de vrais positifs (TVP), ou la proportion de tous les positifs réels qui ont été correctement classés comme positifs, est également appelé rappel.

Le rappel est défini mathématiquement comme suit :

\[\text{Recall (or TPR)} = \frac{\text{correctly classified actual positives}}{\text{all actual positives}} = \frac{TP}{TP+FN}\]

Les faux négatifs sont des positifs réels qui ont été classés à tort comme négatifs. C'est pourquoi ils figurent au dénominateur. Dans l'exemple de classification du spam, le rappel mesure la fraction des e-mails indésirables qui ont été correctement classés comme spam. C'est pourquoi le rappel est également appelé probabilité de détection. Il répond à la question "Quelle fraction des spams est détectée par ce modèle ?"

Un modèle parfait hypothétique ne comporterait aucun faux négatif et aurait donc un rappel (TPR) de 1, 0, c'est-à-dire un taux de détection de 100 %.

Dans un ensemble de données déséquilibré où le nombre de vrais positifs est très faible, le rappel est une métrique plus pertinente que la précision, car il mesure la capacité du modèle à identifier correctement toutes les instances positives. Pour les applications telles que la prédiction des maladies, il est essentiel d'identifier correctement les cas positifs. Un faux négatif a généralement des conséquences plus graves qu'un faux positif. Pour obtenir un exemple concret comparant les métriques de rappel et de précision, consultez les notes dans la définition du rappel.

Taux de faux positifs

Le taux de faux positifs (FPR) correspond à la proportion de tous les résultats négatifs réels qui ont été classés incorrectement comme positifs. Il est également appelé probabilité de fausse alerte. Elle est mathématiquement définie comme suit :

\[\text{FPR} = \frac{\text{incorrectly classified actual negatives}} {\text{all actual negatives}} = \frac{FP}{FP+TN}\]

Les faux positifs sont des valeurs négatives réelles qui ont été mal classées. C'est pourquoi ils figurent au dénominateur. Dans l'exemple de classification du spam, le FPR mesure la fraction d'e-mails légitimes qui ont été classés à tort comme spam,ou le taux de fausses alarmes du modèle.

Un modèle parfait ne comporterait aucun faux positif et aurait donc un TFP de 0,0, c'est-à-dire un taux de fausse alerte de 0 %.

Pour un ensemble de données déséquilibré, le FPR est généralement une métrique plus informative que la précision. Toutefois, si le nombre de vrais négatifs est très faible, le FPR peut ne pas être un choix idéal en raison de sa volatilité. Par exemple, s'il n'y a que quatre vrais négatifs dans un ensemble de données, une classification incorrecte entraîne un FPR de 25 %, tandis qu'une deuxième classification incorrecte fait passer le FPR à 50 %. Dans ce cas, la précision (décrite ci-après) peut être une métrique plus stable pour évaluer les effets des faux positifs.

Précision

La précision correspond à la proportion de classifications positives du modèle qui sont réellement positives. Elle est définie mathématiquement comme suit :

\[\text{Precision} = \frac{\text{correctly classified actual positives}} {\text{everything classified as positive}} = \frac{TP}{TP+FP}\]

Dans l'exemple de classification du spam, la précision mesure la fraction des e-mails classés comme spam qui l'étaient réellement.

Un modèle parfait hypothétique ne comporterait aucun faux positif et aurait donc une précision de 1,0.

Dans un ensemble de données déséquilibré où le nombre de vrais positifs est très faible (par exemple, un ou deux exemples au total), la précision est moins pertinente et moins utile en tant que métrique.

La précision s'améliore lorsque le nombre de faux positifs diminue, tandis que le rappel s'améliore lorsque le nombre de faux négatifs diminue. Toutefois, comme nous l'avons vu dans la section précédente, l'augmentation du seuil de classification tend à diminuer le nombre de faux positifs et à augmenter le nombre de faux négatifs, tandis que la diminution du seuil a les effets inverses. Par conséquent, la précision et le rappel présentent souvent une relation inverse, où l'amélioration de l'un détériore l'autre.

Essayez :

Choix de la métrique et compromis

Les métriques que vous choisissez de privilégier lorsque vous évaluez le modèle et que vous choisissez un seuil dépendent des coûts, des avantages et des risques du problème spécifique. Dans l'exemple de classification du spam, il est souvent judicieux de privilégier le rappel (en attrapant tous les spams) ou la précision (en s'assurant que les e-mails marqués comme spams le sont réellement), ou encore un équilibre entre les deux, au-dessus d'un certain niveau de précision minimal.

Métrique Conseils
Précision

Utilisez-la comme indicateur approximatif de la progression/convergence de l'entraînement du modèle pour les ensembles de données équilibrés.

Pour les performances du modèle, à n'utiliser qu'avec d'autres métriques.

À éviter pour les ensembles de données déséquilibrés. Envisagez d'utiliser une autre métrique.

Rappel
(taux de vrais positifs)
À utiliser lorsque les faux négatifs sont plus coûteux que les faux positifs.
Taux de faux positifs À utiliser lorsque les faux positifs sont plus coûteux que les faux négatifs.
Précision À utiliser lorsque la précision des prédictions positives est très importante.

Exercice : Vérifier que vous avez bien compris

Un modèle génère 5 VP, 6 VN, 3 FP et 2 FN. Calculez le rappel.
0.714
Le rappel est calculé comme suit : \(\frac{TP}{TP+FN}=\frac{5}{7}\)
0,455
Le rappel prend en compte tous les vrais positifs, et non toutes les classifications correctes. La formule du rappel est la suivante : \(\frac{TP}{TP+FN}\).
0,625
Le rappel prend en compte tous les vrais positifs, et non toutes les classifications positives. La formule pour le rappel est la suivante : \(\frac{TP}{TP+FN}\)
Un modèle génère 3 VP, 4 VN, 2 FP et 1 FN. Calculez la précision.
0,6
La précision est calculée comme suit : \(\frac{TP}{TP+FP}=\frac{3}{5}\).
0,75
La précision prend en compte toutes les classifications positives, et non tous les positifs réels. La formule de précision est la suivante : \(\frac{TP}{TP+FP}\).
0.429
La précision prend en compte toutes les classifications positives, et non toutes les classifications correctes. La formule de précision est la suivante : \(\frac{TP}{TP+FP}\)
Vous allez créer un classificateur binaire qui vérifie si des espèces envahissantes dangereuses sont présentes sur les photos de pièges à insectes. Si le modèle détecte l'espèce, l'entomologiste (scientifique spécialisé dans les insectes) de garde est averti. Il est essentiel de détecter cet insecte rapidement pour éviter une infestation. Une fausse alerte (faux positif) est facile à gérer : l'entomologiste constate que la photo a été mal classée et la marque comme telle. En supposant un niveau de précision acceptable, pour quelle métrique ce modèle doit-il être optimisé ?
Rappel
Dans ce scénario, les fausses alarmes (faux positifs) sont peu coûteuses, tandis que les faux négatifs le sont beaucoup. Il est donc logique de maximiser le rappel, ou la probabilité de détection.
Taux de faux positifs (TFP)
Dans ce scénario, les fausses alarmes (faux positifs) sont peu coûteuses. Il n'est pas judicieux d'essayer de les minimiser au risque de manquer de vrais positifs.
Précision
Dans ce scénario, les faux positifs ne sont pas particulièrement préjudiciables. Il n'est donc pas judicieux d'essayer d'améliorer l'exactitude des classifications positives.