Klassifizierung: Precision und Recall

Precision

Mit der Option Genauigkeit soll die folgende Frage beantwortet werden:

Welcher Anteil der positiven Identifikationen war tatsächlich korrekt?

Die Genauigkeit wird so definiert:

$$\text{Precision} = \frac{TP}{TP+FP}$$

Lassen Sie uns die Genauigkeit unseres ML-Modells aus dem vorherigen Abschnitt berechnen, in dem Tumen analysiert werden:

Wahr positive Ergebnisse (TPs): 1 False Positives (FPs): 1
Falsch negative Ergebnisse (FNs): 8 Richtig negative Ergebnisse (TNs): 90
$$\text{Precision} = \frac{TP}{TP+FP} = \frac{1}{1+1} = 0.5$$

Unser Modell hat eine Genauigkeit von 0, 5 – mit anderen Worten: Wenn es einen bösartigen Tumor vorhersagt, ist dies in 50% der Fälle richtig.

Recall

Bei der Trefferquote wird versucht, die folgende Frage zu beantworten:

Welcher Anteil richtig positiver Ergebnisse wurde richtig identifiziert?

Mathematisch ist die Trefferquote so definiert:

$$\text{Recall} = \frac{TP}{TP+FN}$$

Lasst die Trefferquote für unseren Tumorklassifikator berechnen:

Wahr positive Ergebnisse (TPs): 1 False Positives (FPs): 1
Falsch negative Ergebnisse (FNs): 8 Richtig negative Ergebnisse (TNs): 90
$$\text{Recall} = \frac{TP}{TP+FN} = \frac{1}{1+8} = 0.11$$

Unser Modell hat eine Trefferquote von 0,11 – mit anderen Worten, es identifiziert 11% aller bösartigen Tumore korrekt.

Genauigkeit und Trefferquote: Ein Tauziehen

Um die Effektivität eines Modells vollständig zu bewerten, müssen Sie sowohl die Genauigkeit als auch die Trefferquote prüfen. Leider sind Genauigkeit und Trefferquote oft in Spannung. Das heißt, die Verbesserung der Genauigkeit verringert in der Regel die Trefferquote und umgekehrt. Betrachten Sie dieses Konzept anhand der folgenden Abbildung, die 30 Vorhersagen eines E-Mail-Klassifizierungsmodells zeigt. Die, die rechts vom Klassifizierungsschwellenwert liegen, werden als „Spam“ klassifiziert, die links davon als „Kein Spam“.

Eine Zahlzeile von 0 bis 1, bei der 30 Beispiele platziert wurden.

Abbildung 1. E-Mails als Spam oder nicht als Spam klassifizieren

Lasst die Genauigkeit und Trefferquote basierend auf den Ergebnissen in Abbildung 1 berechnen:

Richtig positive Ergebnisse (TP): 8 False Positives (FP): 2
Falsch negative Ergebnisse (FN): 3 Richtig negative Ergebnisse (TN): 17

Die Genauigkeit misst den Prozentsatz der als Spam markierten E-Mails, die korrekt klassifiziert wurden, d. h. der Prozentsatz der Punkte rechts neben der Grenzwertlinie, die in Abbildung 1 grün dargestellt sind:

$$\text{Precision} = \frac{TP}{TP + FP} = \frac{8}{8+2} = 0.8$$

Die Trefferquote misst den Prozentsatz der tatsächlichen Spam-E-Mails, die korrekt klassifiziert wurden, d. h. der Prozentsatz der grünen Punkte, der sich rechts neben der Grenzwertlinie in Abbildung 1 befindet:

$$\text{Recall} = \frac{TP}{TP + FN} = \frac{8}{8 + 3} = 0.73$$

Abbildung 2 veranschaulicht die Auswirkungen einer Erhöhung des Klassifizierungsschwellenwerts.

Die gleichen Beispiele, aber mit einem etwas höheren Klassifizierungsschwellenwert. 2 der 30 Beispiele wurden neu klassifiziert.

Abbildung 2. Grenzwert für die Klassifizierung erhöhen.

Die Anzahl der falsch positiven Ergebnisse nimmt ab, aber die falsch negativen Ergebnisse steigen. Das führt zu einer höheren Genauigkeit und einer geringeren Trefferquote:

Richtig positive Ergebnisse (TP): 7 False Positives (FP): 1
Falsch negative Ergebnisse (FN): 4 Richtig negative Ergebnisse (TN): 18
$$\text{Precision} = \frac{TP}{TP + FP} = \frac{7}{7+1} = 0.88$$ $$\text{Recall} = \frac{TP}{TP + FN} = \frac{7}{7 + 4} = 0.64$$

Umgekehrt ist Abbildung 3 der Effekt der Verringerung des Klassifizierungsschwellenwerts (ab seiner ursprünglichen Position in Abbildung 1).

Dieselben Beispiele, aber mit einem niedrigeren Klassifizierungsschwellenwert.

Abbildung 3. Klassifizierungsschwellenwert wird verringert.

Falsch positive Ergebnisse nehmen zu, falsch negative Ergebnisse nehmen ab. Das führt zu einer verringerten Genauigkeit und einer höheren Trefferquote:

Richtig positive Ergebnisse (TP): 9 False Positives (FP): 3
Falsch negative Ergebnisse (FN): 2 Richtig negative Ergebnisse (TN): 16
$$\text{Precision} = \frac{TP}{TP + FP} = \frac{9}{9+3} = 0.75$$ $$\text{Recall} = \frac{TP}{TP + FN} = \frac{9}{9 + 2} = 0.82$$

Es wurden verschiedene Messwerte entwickelt, die sowohl auf Genauigkeit als auch auf Trefferquote basieren. Beispiel: F1-Wert