Klassifizierung: Genauigkeit

Die Genauigkeit ist einer der Messwerte zur Bewertung von Klassifizierungsmodellen. Informell ist die Genauigkeit der Anteil der Vorhersagen, die unser Modell richtig getroffen hat. Eigentlich hat die Genauigkeit folgende Definition:

$$\text{Accuracy} = \frac{\text{Number of correct predictions}}{\text{Total number of predictions}}$$

Für die binäre Klassifizierung kann die Genauigkeit so auch als positive und negative Ergebnisse berechnet werden:

$$\text{Accuracy} = \frac{TP+TN}{TP+TN+FP+FN}$$

Dabei gilt: TP = richtig positive Ergebnisse, TN = richtig negative Ergebnisse, FP = falsch positive Ergebnisse und FN = falsch negative Ergebnisse.

Versuchen wir, die Genauigkeit für das folgende Modell zu berechnen, das 100 Tumoren als malignant (die positive Klasse) oder benign (die negative Klasse) klassifiziert hat:

Richtig positive (TP):
  • Realität: Böswillig
  • Geschätztes ML-Modell: Malignant
  • Anzahl der TP-Ergebnisse: 1
Falsch positiv (FP):
  • Wirklichkeit: Gut
  • Geschätztes ML-Modell: Malignant
  • Anzahl der fps-Ergebnisse: 1
Falsch negativ (FN):
  • Realität: Böswillig
  • Geschätztes ML-Modell: Gut
  • Anzahl der FN-Ergebnisse: 8
Richtig negativ (TN):
  • Wirklichkeit: Gut
  • Geschätztes ML-Modell: Gut
  • Anzahl der TN-Ergebnisse: 90
$$\text{Accuracy} = \frac{TP+TN}{TP+TN+FP+FN} = \frac{1+90}{1+90+1+8} = 0.91$$

Die Genauigkeit liegt bei 0, 91 oder 91% (91 richtige Vorhersagen aus 100 Beispielen insgesamt). Das bedeutet, dass unser Tumorklassifikator gut funktioniert, indem wir Bösewichtheiten erkennen.

Tatsächlich geht es aber darum, positive und negative Ergebnisse genauer zu analysieren, um mehr über die Leistung unseres Modells zu erfahren.

Von den 100 Tumorbeispielen sind 91 gutartige (90 TNs und 1 FP) und 9 bösartig (1 TP und 8 FNs).

Von den 91 gutartigen Tumoren identifiziert das Modell richtig 90 als gutartig. Sie sollten die Anzahl erhöhen, denn Allerdings identifiziert das Modell von 9 bösartigen Tumoren nur 1 korrekt als bösartig – ein schreckliches Ergebnis, da 8 von 9 Bösewichte nicht diagnostiziert werden!

Eine Genauigkeit von 91% kann auf den ersten Blick gut erscheinen. Ein anderes Tumorklassifizierungsmodell, bei dem immer gutartige Vorhersage getroffen wird, erreicht in unseren Beispielen die gleiche Genauigkeit (91/100 richtige Vorhersagen). Mit anderen Worten: Unser Modell ist nicht besser als eines, bei dem keine prädiktiven Tumoren von gutartigen Tumoren unterschieden werden können.

Wenn Sie mit einem Datensatz mit Klassenausgleich wie dem hier arbeiten und sich die Anzahl der positiven und negativen Labels erheblich unterscheidet, lässt sich mit der Accuracy allein nicht die ganze Geschichte erzählen.

Im nächsten Abschnitt sehen wir uns zwei bessere Messwerte an, um Probleme mit Klassenausgleich zu bewerten: Genauigkeit und Trefferquote.