Anhand von richtig positiven und falsch positiven sowie falsch negativen Ergebnissen lassen sich mehrere nützliche Messwerte zur Bewertung von Modellen berechnen. Welche Bewertungsmesswerte am aussagekräftigsten sind, hängt vom jeweiligen Modell und der jeweiligen Aufgabe, den Kosten verschiedener Fehlklassifizierungen und davon ab, ob das Dataset ausgewogen oder unausgewogen ist.
Alle Messwerte in diesem Abschnitt werden anhand eines einzelnen festen Grenzwerts berechnet und ändern sich, wenn sich der Grenzwert ändert. Sehr oft passt der Nutzer den Grenzwert an, um einen dieser Messwerte zu optimieren.
Genauigkeit
Die Genauigkeit ist der Anteil aller korrekten Klassifizierungen, unabhängig davon, ob sie positiv oder negativ waren. Mathematisch wird sie so definiert:
\[\text{Accuracy} = \frac{\text{correct classifications}}{\text{total classifications}} = \frac{TP+TN}{TP+TN+FP+FN}\]
Im Beispiel für die Spamklassifizierung wird mit der Genauigkeit der Anteil aller E-Mails gemessen, die richtig klassifiziert wurden.
Ein perfektes Modell hätte keine falsch positiven und keine falsch negativen Ergebnisse und daher eine Genauigkeit von 1, 0 oder 100%.
Da die Genauigkeit alle vier Ergebnisse aus der Wahrheitsmatrix (richtig positiv, falsch positiv, richtig negativ, falsch negativ) berücksichtigt, kann sie bei einem ausgewogenen Datensatz mit einer ähnlichen Anzahl von Beispielen in beiden Klassen als grobes Maß für die Modellqualität dienen. Aus diesem Grund ist es oft der Standardmesswert für generische oder nicht spezifizierte Modelle, die generische oder nicht spezifizierte Aufgaben ausführen.
Wenn der Datensatz jedoch unausgewogen ist oder eine Art von Fehler (falsch-negativ oder falsch-positiv) teurer ist als die andere, was in den meisten praktischen Anwendungen der Fall ist, ist es besser, stattdessen einen der anderen Messwerte zu optimieren.
Bei stark unausgewogenen Datasets, in denen eine Klasse sehr selten vorkommt, z. B. 1% der Zeit, würde ein Modell, das in 100% der Fälle „negativ“ vorhersagt, eine Genauigkeit von 99% erzielen, obwohl es nutzlos ist.
Trefferquote oder Rate richtig positiver Ergebnisse
Die Rate richtig positiver Ergebnisse (True Positive Rate, TPR), also der Anteil aller tatsächlich positiven Ergebnisse, die korrekt als positiv klassifiziert wurden, wird auch als Trefferquote bezeichnet.
Mathematisch gesehen wird die Trefferquote so definiert:
\[\text{Recall (or TPR)} = \frac{\text{correctly classified actual positives}}{\text{all actual positives}} = \frac{TP}{TP+FN}\]
Falsch negative Ergebnisse sind tatsächlich positive Ergebnisse, die fälschlicherweise als negativ eingestuft wurden. Deshalb werden sie im Nenner aufgeführt. Im Beispiel für die Spamklassifizierung wird mit dem Rückruf der Anteil der Spam-E-Mails gemessen, die richtig als Spam klassifiziert wurden. Daher wird die Rückrufrate auch als Wahrscheinlichkeit der Erkennung bezeichnet: Sie beantwortet die Frage: „Welcher Anteil der Spam-E-Mails wird von diesem Modell erkannt?“
Ein hypothetisches perfektes Modell hätte keine falsch negativen Ergebnisse und daher eine Trefferquote (TPR) von 1, 0, was einer Erkennungsrate von 100% entspricht.
Bei einem unbalancierten Datensatz, bei dem die Anzahl der tatsächlich positiven Elemente sehr gering ist, ist der Recall-Wert aussagekräftiger als die Genauigkeit, da er die Fähigkeit des Modells misst, alle positiven Instanzen korrekt zu identifizieren. Bei Anwendungen wie der Krankheitsvorhersage ist es entscheidend, die positiven Fälle korrekt zu identifizieren. Ein falsch negatives Ergebnis hat in der Regel schwerwiegendere Folgen als ein falsch positives Ergebnis. Ein konkretes Beispiel zum Vergleich der Messwerte für die Trefferquote und die Genauigkeit finden Sie in den Anmerkungen zur Definition der Trefferquote.
Rate falsch positiver Ergebnisse
Die Falsch-Positiv-Rate (FPR) ist der Anteil aller tatsächlich negativen Ergebnisse, die falsch als positiv klassifiziert wurden. Sie wird auch als Wahrscheinlichkeit eines Fehlalarms bezeichnet. Mathematisch wird sie so definiert:
\[\text{FPR} = \frac{\text{incorrectly classified actual negatives}} {\text{all actual negatives}} = \frac{FP}{FP+TN}\]
Falsch positive Ergebnisse sind tatsächlich negative Ergebnisse, die falsch klassifiziert wurden. Deshalb werden sie im Nenner aufgeführt. Im Beispiel für die Spamklassifizierung wird mit der FPR der Anteil der legitimen E-Mails gemessen, die fälschlicherweise als Spam klassifiziert wurden,oder die Rate der Falschalarme des Modells.
Ein perfektes Modell hätte keine Falsch-Positiv-Ergebnisse und daher eine FPR von 0,0, was einer Falschalarmrate von 0% entspricht.
Bei einem unbalancierten Datensatz, in dem die Anzahl der tatsächlichen Negativbeispiele sehr gering ist, z. B. 1–2 Beispiele insgesamt, ist die FPR als Messwert weniger aussagekräftig und nützlich.
Precision
Precision ist der Anteil der positiven Klassifizierungen des Modells, die tatsächlich positiv sind. Mathematisch gesehen wird der BLEU-Score so definiert:
\[\text{Precision} = \frac{\text{correctly classified actual positives}} {\text{everything classified as positive}} = \frac{TP}{TP+FP}\]
Im Beispiel für die Spamklassifizierung wird mit der Genauigkeit der Anteil der als Spam klassifizierten E-Mails gemessen, die tatsächlich Spam waren.
Ein hypothetisches perfektes Modell hätte keine falsch positiven Ergebnisse und daher eine Genauigkeit von 1,0.
Bei einem unbalancierten Datensatz, in dem die Anzahl der tatsächlichen positiven Ergebnisse sehr, sehr niedrig ist, z. B. 1–2 Beispiele insgesamt, ist die Genauigkeit als Messwert weniger aussagekräftig und nützlich.
Die Precision steigt, wenn die Anzahl der falsch positiven Ergebnisse sinkt, während sich der Recall verbessert, wenn die Anzahl der falsch negativen Ergebnisse sinkt. Wie im vorherigen Abschnitt gezeigt, führt eine Erhöhung des Klassifizierungsgrenzwerts jedoch in der Regel zu einer geringeren Anzahl falsch positiver Ergebnisse und zu einer höheren Anzahl falsch negativer Ergebnisse. Eine Verringerung des Grenzwerts hat dagegen die gegenteiligen Auswirkungen. Daher stehen Precision und Recall oft in einem umgekehrten Verhältnis zueinander, d. h., wenn Sie einen Wert verbessern, verschlechtert sich der andere.
Probieren Sie es selbst aus:
Was bedeutet „NaN“ in den Messwerten?
„NaN“ (Not a Number) wird angezeigt, wenn eine Division durch 0 erfolgt. Das kann bei allen diesen Messwerten passieren. Wenn beispielsweise TP und FP beide 0 sind, enthält die Formel für die Genauigkeit im Nenner die Zahl 0, was zu NaN führt. In einigen Fällen kann NaN eine perfekte Leistung anzeigen und durch eine Punktzahl von 1,0 ersetzt werden.Es kann aber auch von einem Modell stammen, das praktisch nutzlos ist. Ein Modell, das beispielsweise nie positiv vorhersagt, hätte beispielsweise 0 TPs und 0 FPs. Die Berechnung der Genauigkeit würde daher zu NaN führen.
Auswahl des Messwerts und Kompromisse
Die Messwerte, die Sie bei der Bewertung des Modells priorisieren und für die Sie einen Grenzwert festlegen, hängen von den Kosten, Vorteilen und Risiken des jeweiligen Problems ab. Im Beispiel für die Spamklassifizierung ist es oft sinnvoll, den Recall zu priorisieren, also alle Spam-E-Mails zu erfassen, oder die Präzision, um sicherzustellen, dass E-Mails mit dem Label „Spam“ tatsächlich Spam sind, oder eine Balance zwischen den beiden, die über einem bestimmten Mindestgenauigkeitsgrad liegt.
Messwert | Anleitung |
---|---|
Genauigkeit | Kann als grober Indikator für den Fortschritt/die Konvergenz des Modelltrainings bei ausgewogenen Datasets verwendet werden. Verwenden Sie diesen Messwert nur in Kombination mit anderen Messwerten, um die Modellleistung zu beurteilen. Nicht für unausgewogene Datensätze geeignet. Verwenden Sie einen anderen Messwert. |
Recall (Rate echt positiver Ergebnisse) |
Verwenden Sie diese Option, wenn falsch negative Ergebnisse teurer sind als falsch positive Ergebnisse. |
Rate falsch positiver Ergebnisse | Verwenden Sie diese Option, wenn falsch positive Ergebnisse teurer sind als falsch negative Ergebnisse. |
Precision | Verwenden Sie diese Option, wenn es sehr wichtig ist, dass positive Vorhersagen genau sind. |
(Optional, fortgeschrittene Nutzer) F1-Wert
Der F1-Wert ist der harmonische Mittelwert (eine Art Mittelwert) von Precision und Recall.
Mathematisch gesehen ergibt sich der Wert aus:
Dieser Messwert gleicht die Bedeutung von Precision und Recall aus und ist bei unausgewogenen Datensätzen vorzuziehen. Wenn Precision und Recall beide den Wert 1,0 erreichen, hat auch F1 den Wert 1,0. Allgemein gilt: Wenn Precision und Recall nahe beieinander liegen, liegt auch der F1-Wert nahe bei ihrem Wert. Wenn sich Genauigkeit und Trefferquote stark unterscheiden, ähnelt der F1-Wert dem schlechteren Messwert.