Précision
La précision permet de répondre à la question suivante :
Quelle proportion d'identifications positives était effectivement correcte ?
La précision peut être définie comme suit :
Calculons la précision du modèle de ML que nous avons utilisé dans la section précédente qui analyse les tumeurs :
Vrais Positifs (VP) : 1 | Faux positifs (FP) : 1 |
Faux négatifs (FN) : 8 | Vrais négatifs (VN) : 90 |
Notre modèle a une précision de 0,5. En d’autre termes, quand il prédit qu'une tumeur est maligne, sa prédiction est juste dans 50 % des cas.
Rappel
Le rappel permet de répondre à la question suivante :
Quelle proportion de résultats positifs réels a été identifiée correctement ?
Mathématiquement, le rappel est défini comme suit :
Calculons le rappel pour notre classificateur de tumeurs :
Vrais Positifs (VP) : 1 | Faux positifs (FP) : 1 |
Faux négatifs (FN) : 8 | Vrais négatifs (VN) : 90 |
Notre modèle a un rappel de 0,11. En d'autres termes, il identifie correctement 11 % des tumeurs malignes.
Précision et rappel : un compromis permanent
Pour évaluer les performances d'un modèle de façon complète, vous devez analyser à la fois la précision et le rappel. Malheureusement, précision et rappel sont fréquemment en tension. Ceci est dû au fait que l'amélioration de la précision se fait généralement au détriment du rappel et réciproquement. Découvrez comment fonctionne ce rapport de forces en examinant la figure ci-après, qui présente 30 prédictions réalisées par un modèle de classification d'e-mails. Les cas situés à droite du seuil de classification sont classifiés comme "spam", tandis que ceux qui sont situés à gauche sont considérés comme "non spam".
Figure 1 : Classification d'e-mails comme spam ou non spam
Calculons la précision et le rappel en nous basant sur les résultats présentés en figure 1.
Vrais positifs (VP) : 8 | Faux positifs (FP) : 2 |
Faux négatifs (FN) : 3 | Vrais négatifs (VN) : 17 |
La précision mesure le pourcentage d'e-mails identifiés comme spam ayant été classifiés correctement, c'est-à-dire le pourcentage de points situés à droite de la valeur de seuil représentés en vert sur la figure 1.
Le rappel mesure le pourcentage d'e-mails réels ayant été classifiés correctement, c'est-à-dire le pourcentage de points verts situés à droite de la valeur de seuil sur la figure 1.
La figure 2 illustre l'effet résultant de l'augmentation du seuil de classification.
Figure 2 : Augmentation du seuil de classification
Le nombre de faux positifs diminue, mais les faux négatifs augmentent. En conséquence, la précision augmente tandis que le rappel diminue :
Vrais positifs (VP) : 7 | Faux positifs (FP) : 1 |
Faux négatifs (FN) : 4 | Vrais négatifs (VN) : 18 |
À l'inverse, la figure 3 illustre l'effet résultant de la diminution du seuil de classification (depuis son niveau d'origine en figure 1).
Figure 3 : Diminution du seuil de classification
Les faux positifs sont plus nombreux, et le nombre de faux négatifs diminue. En conséquence, la précision diminue tandis que le rappel augmente :
Vrais positifs (VP) : 9 | Faux positifs (FP) : 3 |
Faux négatifs (FN) : 2 | Vrais négatifs (VN) : 16 |
Différents outils statistiques ont été créés pour évaluer simultanément la précision et le rappel. La F-mesure en fait partie.