Klassifizierung: ROC-Kurve und AUC

ROC-Kurve

Eine ROC-Kurve (charakteristische Bedienerkurven) ist ein Diagramm, das die Leistung eines Klassifizierungsmodells für alle Klassifizierungsschwellenwerte zeigt. Diese Kurve stellt zwei Parameter dar:

  • Rate richtig positiver Ergebnisse
  • Rate falsch positiver Ergebnisse

Richtig positive Rate (TPR) ist ein Synonym für die Trefferquote und ist daher so definiert:

$$TPR = \frac{TP} {TP + FN}$$

Die Rate falsch positiver Ergebnisse (FPR) ist so definiert:

$$FPR = \frac{FP} {FP + TN}$$

Ein ROC-Kurvendiagramm zeigt TPR im Vergleich zu FPR bei unterschiedlichen Klassifizierungsschwellenwerten. Wenn Sie den Klassifizierungsschwellenwert senken, werden mehr Elemente als positiv eingestuft, sodass sowohl falsch positive als auch richtig positive Ergebnisse erhöht werden. Die folgende Abbildung zeigt eine typische ROC-Kurve.

ROC-Kurve, die die TP-Rate im Vergleich zur fp-Rate bei verschiedenen Klassifizierungsschwellenwerten anzeigt

Abbildung 4. TP- oder fps-Rate bei unterschiedlichen Klassifizierungsschwellenwerten.

Zum Berechnen der Punkte in einer ROC-Kurve könnten wir ein logistisches Regressionsmodell mehrmals mit unterschiedlichen Klassifizierungsschwellenwerten bewerten, dies wäre jedoch ineffizient. Glücklicherweise gibt es einen effizienten, sortierungsbasierten Algorithmus, der uns diese Informationen zur Verfügung stellt: AUC.

AUC: Fläche unter der ROC-Kurve

AUC steht für „Fläche unter der ROC-Kurve“. Die AUC misst also die gesamte zweidimensionale Fläche unter der gesamten ROC-Kurve (denken Sie an den Integralrechnungswert) von (0,0) bis (1,1).

AUC (Area under the ROC Curve).

Abbildung 5. AUC (Area under the ROC Curve).

AUC liefert eine zusammengefasste Leistungsbewertung für alle möglichen Klassifizierungsschwellenwerte. Eine Möglichkeit zur Interpretation von AUC ist die Wahrscheinlichkeit, dass das Modell ein zufällig positives Beispiel höher bewertet als ein zufälliges negatives Beispiel. Beispiel: Die folgenden Beispiele sind von links nach rechts in aufsteigender Reihenfolge logistischer Regressionsvorhersagen angeordnet:

Positive und negative Beispiele in aufsteigender Reihenfolge des logistischen Regressionsfaktors

Abbildung 6. Die Vorhersagen sind in aufsteigender Reihenfolge nach logistischen Regressionsfaktor sortiert.

AUC steht für die Wahrscheinlichkeit, dass ein zufällig positives (grünes) Beispiel rechts neben einem zufälligen negativen (roten) Beispiel positioniert ist.

Der AUC-Wert reicht von 0 bis 1. Ein Modell, dessen Vorhersagen zu 100% falsch sind, hat einen AUC von 0,0. Ein Modell, dessen Vorhersagen zu 100% richtig sind, hat einen AUC von 1,0.

AUC ist aus den folgenden beiden Gründen empfehlenswert:

  • AUC ist scale-invariant. Sie misst, wie gut Vorhersagen bei der Ermittlung des Rankings ankommen, und nicht ihrer absoluten Werte.
  • AUC ist classification-threshold-invariant. Sie misst die Qualität der Vorhersagen des Modells unabhängig davon, welcher Klassifizierungsschwellenwert ausgewählt wird.

Beide Gründe haben jedoch Vorbehalte, die die Nützlichkeit von AUC in bestimmten Anwendungsfällen beeinträchtigen können:

  • Skalaabweichungen sind nicht immer wünschenswert. Beispielsweise benötigen wir manchmal wirklich gut kalibrierte Wahrscheinlichkeitsausgaben und AUC verrät uns nichts darüber.

  • Die Unstimmigkeiten bei der Klassifizierungsschwelle sind nicht immer wünschenswert. Wenn die Kosten für falsch negative Ergebnisse im Vergleich zu den falsch positiven Werten sehr groß sind, kann es wichtig sein, einen Klassifizierungsfehler zu minimieren. Wenn Sie z. B. die E-Mail-Spamerkennung nutzen, möchten Sie wahrscheinlich falsch positive Ergebnisse priorisieren, selbst wenn dies zu einem deutlichen Anstieg falsch falsch negativer Ergebnisse führt. Die AUC ist kein nützlicher Messwert für diese Art der Optimierung.