Klassifizierung: Genauigkeit, Trefferquote, Präzision und zugehörige Messwerte

Richtig und falsch positive und negative Ergebnisse werden verwendet, um mehrere nützliche Messwerte zur Bewertung von Modellen zu berechnen. Welche Bewertungsmetriken am aussagekräftigsten sind, hängt vom jeweiligen Modell und der jeweiligen Aufgabe, den Kosten verschiedener Falschklassifizierungen und davon ab, ob das Dataset ausgeglichen oder unausgeglichen ist.

Alle Messwerte in diesem Abschnitt werden bei einem einzelnen festen Schwellenwert berechnet und ändern sich, wenn sich der Schwellenwert ändert. Sehr oft passt der Nutzer den Schwellenwert an, um einen dieser Messwerte zu optimieren.

Genauigkeit

Genauigkeit ist der Anteil aller Klassifizierungen, die richtig waren, unabhängig davon, ob sie positiv oder negativ waren. Sie wird mathematisch so definiert:

\[\text{Accuracy} = \frac{\text{correct classifications}}{\text{total classifications}} = \frac{TP+TN}{TP+TN+FP+FN}\]

Im Beispiel zur Spam-Klassifizierung wird mit der Genauigkeit der Anteil aller E‑Mails gemessen, die richtig klassifiziert wurden.

Ein perfektes Modell hätte keine falsch positiven und keine falsch negativen Ergebnisse und daher eine Genauigkeit von 1,0 oder 100%.

Da alle vier Ergebnisse aus der Wahrheitsmatrix (TP, FP, TN, FN) berücksichtigt werden, kann die Genauigkeit bei einem ausgeglichenen Datensatz mit einer ähnlichen Anzahl von Beispielen in beiden Klassen als grobes Maß für die Modellqualität dienen. Aus diesem Grund ist sie oft der Standardmesswert für die Bewertung von generischen oder nicht spezifizierten Modellen, die generische oder nicht spezifizierte Aufgaben ausführen.

Wenn der Datensatz jedoch unausgewogen ist oder eine Art von Fehler (FN oder FP) kostspieliger ist als die andere, was in den meisten realen Anwendungen der Fall ist, ist es besser, einen der anderen Messwerte zu optimieren.

Bei stark unausgewogenen Datasets, in denen eine Klasse sehr selten vorkommt, z. B. in 1% der Fälle, würde ein Modell, das in 100% der Fälle „negativ“ vorhersagt, eine Genauigkeit von 99% erreichen, obwohl es nutzlos ist.

Trefferquote oder Rate richtig positiver Ergebnisse

Die Rate richtig positiver Ergebnisse (True Positive Rate, TPR) oder der Anteil aller tatsächlich positiven Ergebnisse, die richtig als positiv klassifiziert wurden, wird auch als Trefferquote bezeichnet.

Der Recall wird mathematisch so definiert:

\[\text{Recall (or TPR)} = \frac{\text{correctly classified actual positives}}{\text{all actual positives}} = \frac{TP}{TP+FN}\]

Falsch negative Ergebnisse sind tatsächlich positive Ergebnisse, die fälschlicherweise als negativ klassifiziert wurden. Daher werden sie im Nenner berücksichtigt. Im Beispiel zur Spam-Klassifizierung wird mit dem Recall der Anteil der Spam-E‑Mails gemessen, die richtig als Spam klassifiziert wurden. Aus diesem Grund wird der Recall auch als Erkennungswahrscheinlichkeit bezeichnet: Er beantwortet die Frage, welcher Anteil der Spam-E‑Mails von diesem Modell erkannt wird.

Ein hypothetisches perfektes Modell hätte keine falsch negativen Ergebnisse und daher einen Recall (TPR) von 1, 0, d. h. eine Erkennungsrate von 100 %.

Bei einem unausgewogenen Dataset, in dem die Anzahl der tatsächlich positiven Ergebnisse sehr gering ist, ist der Recall ein aussagekräftigerer Messwert als die Genauigkeit, da er die Fähigkeit des Modells misst, alle positiven Instanzen richtig zu identifizieren. Bei Anwendungen wie der Vorhersage von Krankheiten ist es entscheidend, die positiven Fälle richtig zu identifizieren. Ein falsch negatives Ergebnis hat in der Regel schwerwiegendere Folgen als ein falsch positives Ergebnis. Ein konkretes Beispiel für den Vergleich von Messwerten für die Trefferquote und die Genauigkeit finden Sie in den Anmerkungen zur Definition von Trefferquote.

Rate falsch positiver Ergebnisse

Die Falsch-Positiv-Rate (FPR) ist der Anteil aller tatsächlich negativen Ergebnisse, die falsch als positiv klassifiziert wurden. Sie wird auch als Wahrscheinlichkeit eines Fehlalarms bezeichnet. Sie wird mathematisch so definiert:

\[\text{FPR} = \frac{\text{incorrectly classified actual negatives}} {\text{all actual negatives}} = \frac{FP}{FP+TN}\]

Falsch positive Ergebnisse sind tatsächlich negative Ergebnisse, die falsch klassifiziert wurden. Daher werden sie im Nenner berücksichtigt. Im Beispiel für die Spamklassifizierung wird mit der Falsch-Positiv-Rate der Anteil der legitimen E‑Mails gemessen, die fälschlicherweise als Spam klassifiziert wurden,oder die Rate der Fehlalarme des Modells.

Ein perfektes Modell hätte keine falsch positiven Ergebnisse und daher eine Falsch-Positiv-Rate von 0,0 %, was einer Falschalarmrate von 0 % entspricht.

Bei einem unausgewogenen Dataset, in dem die Anzahl der tatsächlichen negativen Werte sehr gering ist (z. B. insgesamt 1–2 Beispiele), ist die Falsch-Positiv-Rate als Messwert weniger aussagekräftig und nützlich.

Precision

Precision ist der Anteil aller positiven Klassifizierungen des Modells, die tatsächlich positiv sind. Mathematisch wird sie so definiert:

\[\text{Precision} = \frac{\text{correctly classified actual positives}} {\text{everything classified as positive}} = \frac{TP}{TP+FP}\]

Im Beispiel zur Spam-Klassifizierung wird mit der Präzision der Anteil der als Spam klassifizierten E‑Mails gemessen, die tatsächlich Spam waren.

Ein hypothetisches perfektes Modell hätte keine falsch positiven Ergebnisse und daher eine Genauigkeit von 1,0.

Bei einem unausgewogenen Dataset, in dem die Anzahl der tatsächlichen positiven Ergebnisse sehr gering ist, z. B. insgesamt 1–2 Beispiele, ist die Genauigkeit als Messwert weniger aussagekräftig und nützlich.

Die Precision verbessert sich, wenn die Anzahl der falsch positiven Ergebnisse sinkt, und der Recall verbessert sich, wenn die Anzahl der falsch negativen Ergebnisse sinkt. Wie im vorherigen Abschnitt zu sehen ist, führt eine Erhöhung des Klassifizierungsschwellenwerts in der Regel zu einer Verringerung der Anzahl falsch positiver Ergebnisse und zu einer Erhöhung der Anzahl falsch negativer Ergebnisse. Eine Verringerung des Schwellenwerts hat die gegenteiligen Auswirkungen. Daher besteht zwischen Precision und Recall häufig ein umgekehrtes Verhältnis: Wenn Sie einen der beiden Werte verbessern, verschlechtert sich der andere.

Probieren Sie es selbst aus:

Was bedeutet „NaN“ in den Messwerten?

„NaN“ oder „Not a Number“ (Keine Zahl) wird angezeigt, wenn durch 0 dividiert wird. Das kann bei allen diesen Messwerten vorkommen. Wenn sowohl TP als auch FP 0 sind, hat die Formel für die Präzision beispielsweise 0 im Nenner, was zu NaN führt. In einigen Fällen kann NaN eine perfekte Leistung bedeuten und durch den Wert 1,0 ersetzt werden.Es kann aber auch von einem Modell stammen, das praktisch nutzlos ist. Ein Modell, das nie positiv vorhersagt, hätte beispielsweise 0 TPs und 0 FPs. Die Berechnung der Genauigkeit würde also zu „NaN“ führen.

Messwertauswahl und Kompromisse

Die Messwerte, die Sie bei der Bewertung des Modells und der Auswahl eines Schwellenwerts priorisieren, hängen von den Kosten, Vorteilen und Risiken des jeweiligen Problems ab. Im Beispiel zur Spam-Klassifizierung ist es oft sinnvoll, die Erinnerung zu priorisieren, um alle Spam-E‑Mails zu erfassen, oder die Präzision, um sicherzustellen, dass als Spam gekennzeichnete E‑Mails tatsächlich Spam sind, oder ein Gleichgewicht zwischen beiden über einem bestimmten Mindestgenauigkeitsniveau.

Messwert Anleitung
Genauigkeit

Kann als grober Indikator für den Fortschritt/die Konvergenz des Modelltrainings bei ausgeglichenen Datasets verwendet werden.

Für die Modellleistung nur in Kombination mit anderen Messwerten verwenden.

Vermeiden Sie unausgewogene Datasets. Verwenden Sie einen anderen Messwert.

Recall
(Rate echt positiver Ergebnisse)
Wird verwendet, wenn falsch negative Ergebnisse teurer sind als falsch positive.
Rate falsch positiver Ergebnisse Wird verwendet, wenn falsch positive Ergebnisse teurer sind als falsch negative.
Precision Verwenden Sie diese Option, wenn es sehr wichtig ist, dass positive Vorhersagen genau sind.

(Optional, erweitert) F1-Wert

Der F1-Wert ist der harmonische Mittelwert (eine Art Durchschnitt) von Precision und Recall.

Mathematisch wird sie so angegeben:

\[\text{F1}=2*\frac{\text{precision * recall}}{\text{precision + recall}} = \frac{2\text{TP}}{2\text{TP + FP + FN}}\]

Dieser Messwert gleicht die Bedeutung von Precision und Recall aus und ist für Datasets mit unausgeglichenen Klassen besser geeignet als die Genauigkeit. Wenn sowohl Precision als auch Recall den Bestwert 1,0 haben, hat auch der F1-Wert den Bestwert 1,0. Allgemein gilt: Wenn Precision und Recall ähnliche Werte haben, liegt der F1-Wert nahe an diesen Werten. Wenn Genauigkeit und Trefferquote weit auseinanderliegen, ähnelt der F1-Wert dem schlechteren Messwert.

Übung: Wissen testen

Ein Modell gibt 5 richtig positive, 6 richtig negative, 3 falsch positive und 2 falsch negative Ergebnisse aus. Recall berechnen
0,714
Der Recall wird so berechnet: \(\frac{TP}{TP+FN}=\frac{5}{7}\).
0,455
Bei der Trefferquote werden alle tatsächlichen positiven Ergebnisse berücksichtigt, nicht alle richtigen Klassifizierungen. Die Formel für den Recall ist \(\frac{TP}{TP+FN}\).
0,625
Bei der Trefferquote werden alle tatsächlichen positiven Ergebnisse berücksichtigt, nicht alle positiven Klassifizierungen. Die Formel für den Recall lautet \(\frac{TP}{TP+FN}\).
Ein Modell gibt 3 TP, 4 TN, 2 FP und 1 FN aus. Berechnen Sie die Precision.
0,6
Die Precision wird so berechnet: \(\frac{TP}{TP+FP}=\frac{3}{5}\).
0,75
Bei der Precision werden alle positiven Klassifizierungen berücksichtigt, nicht alle tatsächlich positiven Ergebnisse. Die Formel für die Precision lautet \(\frac{TP}{TP+FP}\).
0,429
Bei der Precision werden alle positiven Klassifizierungen berücksichtigt, nicht alle korrekten. Die Formel für die Precision lautet \(\frac{TP}{TP+FP}\).
Sie entwickeln einen binären Klassifikator, der Fotos von Insektenfallen darauf prüft, ob eine gefährliche invasive Art vorhanden ist. Wenn das Modell die Art erkennt, wird der diensthabende Entomologe (Insektenforscher) benachrichtigt. Die frühzeitige Erkennung dieses Insekts ist entscheidend, um einen Befall zu verhindern. Ein Fehlalarm (falsch positives Ergebnis) ist einfach zu handhaben: Der Entomologe sieht, dass das Foto falsch klassifiziert wurde, und markiert es entsprechend. Angenommen, das Modell hat ein akzeptables Genauigkeitsniveau. Für welchen Messwert sollte es optimiert werden?
Recall
In diesem Szenario sind Falschmeldungen (FP) kostengünstig und falsch-negative Ergebnisse sehr kostspielig. Daher ist es sinnvoll, die Trefferquote oder die Wahrscheinlichkeit der Erkennung zu maximieren.
Rate falsch positiver Ergebnisse (False Positive Rate, FPR)
In diesem Szenario sind Falschmeldungen (FP) kostengünstig. Es ist nicht sinnvoll, sie zu minimieren, wenn dadurch echte positive Ergebnisse übersehen werden.
Precision
In diesem Szenario sind Falschmeldungen (FP) nicht besonders schädlich. Es ist also nicht sinnvoll, die Richtigkeit positiver Klassifizierungen zu verbessern.