Classification : justesse

La justesse est l'un des critères permettant d'évaluer les modèles de classification. De façon non formelle, la justesse désigne la proportion des prédictions correctes effectuées par le modèle. Formellement, la justesse est définie ainsi :

$$\text{Justesse} = \frac{\text{Nombre de prédictions correctes}}{\text{Nombre total de prédictions}}$$

Pour une classification binaire, la justesse peut aussi être calculée en termes de positifs et de négatifs comme suit :

$$\text{Justesse} = \frac{VP+VN}{VP+VN+FP+FN}$$

VP = Vrais positifs, VN = Vrais négatifs, FP = Faux positifs, et FN = Faux négatifs.

Calculons la valeur de justesse pour le modèle suivant, qui a classifié 100 tumeurs comme malignes (la classe positive) ou bénignes (la classe négative) :

Vrai positif (VP) :
  • Réalité : maligne
  • Prédiction du modèle de Machine Learning : maligne
  • Nombre de résultats VP : 1
Faux positif (FP) :
  • Réalité : bénigne
  • Prédiction du modèle de Machine Learning : maligne
  • Nombre de résultats FP : 1
Faux négatif (FN) :
  • Réalité : maligne
  • Prédiction du modèle de Machine Learning : bénigne
  • Nombre de résultats FN : 8
Vrai négatif (VN) :
  • Réalité : bénigne
  • Prédiction du modèle de Machine Learning : bénigne
  • Nombre de résultats VN : 90
$$\text{Justesse} = \frac{VP+VN}{VP+VN+FP+FN} = \frac{1+90}{1+90+1+8} = 0.91$$

Nous obtenons une valeur de justesse égale à 0,91, soit 91 % (91 prédictions correctes sur un total de 100 exemples). On pourrait en conclure que notre classificateur de tumeurs affiche des résultats très satisfaisants du point de vue de la détection de tumeurs malignes.

Examinons les positifs et négatifs de plus près afin de mieux comprendre les résultats obtenus par notre modèle.

Sur les 100 exemples de tumeurs, 91 sont bénignes (90 VN et 1 FP) et 9 sont malignes (1 VP et 8 FN).

Sur les 91 tumeurs bénignes, le modèle en identifie 90 correctement comme bénignes, ce qui est satisfaisant. Toutefois, sur les 9 tumeurs malignes, le modèle n'en a identifié qu'une comme maligne, ce qui est catastrophique puisque 8 tumeurs malignes sur 9 n'ont pas été détectées.

Même si une justesse de 91 % peut paraître suffisante à première vue, un autre modèle de classification de tumeur prédisant systématiquement "bénigne" parviendrait précisément à la même justesse (91 prédictions sur 100 correctes) pour nos exemples. En d'autres termes, notre modèle n'est pas meilleur qu'un modèle dépourvu de toute capacité de prédiction et incapable de distinguer une tumeur maligne d'une tumeur bénigne.

La justesse seule ne reflète pas la réalité de la situation quand vous travaillez sur un ensemble de données avec déséquilibre des classes comme celui-ci, où l'on constate une disproportion entre le nombre des étiquettes positives et négatives.

Dans la section suivante, nous examinerons deux meilleurs critères pour l'évaluation de problèmes avec classes déséquilibrées : la précision et le rappel.