Im vorherigen Abschnitt wurden eine Reihe von Modellmesswerten vorgestellt, die alle mit einem einzigen Klassifizierungsgrenzwert berechnet wurden. Wenn Sie die Qualität eines Modells jedoch für alle möglichen Grenzwerte bewerten möchten, benötigen Sie andere Tools.
Grenzwertoptimierungskurve (Receiver Operating Curve, ROC)
Die ROC-Kurve ist eine visuelle Darstellung der Modellleistung über alle Schwellenwerte hinweg. Die lange Version des Namens, „Receiver Operating Characteristic“, stammt aus der Radarerkennung des Zweiten Weltkriegs.
Die ROC-Kurve wird gezeichnet, indem die Richtig-Positiv-Rate (TPR) und die Falsch-Positiv-Rate (FPR) bei jedem möglichen Schwellenwert berechnet werden (in der Praxis in ausgewählten Intervallen) und dann die TPR über die FPR dargestellt wird. Ein perfektes Modell, das bei einem bestimmten Schwellenwert eine TPR von 1,0 und eine FPR von 0,0 hat, kann entweder durch einen Punkt bei (0, 1) dargestellt werden, wenn alle anderen Schwellenwerte ignoriert werden, oder durch Folgendes:

Fläche unter der Kurve (AUC)
Der Bereich unter der ROC-Kurve (AUC) entspricht der Wahrscheinlichkeit, dass das Modell ein zufällig ausgewähltes positives Beispiel höher als ein negatives Beispiel einstuft.
Das perfekte Modell oben, das ein Quadrat mit Seitenlänge 1 enthält, hat eine Fläche unter der Kurve (AUC) von 1,0. Das bedeutet, dass das Modell mit einer Wahrscheinlichkeit von 100% ein zufällig ausgewähltes positives Beispiel korrekt höher als ein zufällig ausgewähltes negatives Beispiel einordnet. Mit anderen Worten: Die AUC gibt die Wahrscheinlichkeit an, dass das Modell ein zufällig ausgewähltes Quadrat rechts neben einem zufällig ausgewählten Kreis platziert, unabhängig davon, wo der Grenzwert festgelegt ist.
Konkreter ausgedrückt: Ein Spamfilter mit einer AUC von 1,0 weist einer zufälligen Spam-E-Mail immer eine höhere Wahrscheinlichkeit zu, Spam zu sein, als einer zufälligen legitimen E-Mail. Die tatsächliche Klassifizierung der einzelnen E-Mails hängt vom ausgewählten Grenzwert ab.
Bei einem binären Klassifikator hat ein Modell, das genau so gut abschneidet wie zufällige Vermutungen oder Münzwürfe, eine ROC-Kurve, die eine diagonale Linie von (0,0) nach (1,1) ist. Der AUC ist 0,5, was einer Wahrscheinlichkeit von 50% entspricht, ein zufälliges positives und negatives Beispiel richtig zu klassifizieren.
Im Beispiel für den Spamfilter weist ein Spamfilter mit einer AUC von 0,5 einer zufälligen Spam-E‑Mail nur in der Hälfte der Fälle eine höhere Wahrscheinlichkeit zu, Spam zu sein, als einer zufälligen legitimen E‑Mail.

(Optional, fortgeschrittene Nutzer) Precision-Recall-Kurve
AUC und ROC eignen sich gut zum Vergleichen von Modellen, wenn die Datensätze ungefähr ausgewogen zwischen den Klassen verteilt sind. Wenn der Datensatz unausgewogen ist, können Precision-Recall-Kurven (PRCs) und die Fläche unter diesen Kurven eine bessere vergleichende Visualisierung der Modellleistung bieten. Genauigkeits-/Trefferquotenkurven werden erstellt, indem die Genauigkeit auf der y-Achse und der Recall auf der x-Achse für alle Grenzwerte dargestellt werden.

AUC und ROC für die Auswahl von Modell und Schwellenwert
Der AUC ist ein nützlicher Messwert, um die Leistung von zwei verschiedenen Modellen zu vergleichen, sofern der Datensatz ungefähr ausgewogen ist. Das Modell mit der größeren Fläche unter der Kurve ist im Allgemeinen das bessere.


Die Punkte auf einer ROC-Kurve, die (0,1) am nächsten liegen, stellen einen Bereich der leistungsstärksten Grenzwerte für das jeweilige Modell dar. Wie in den Abschnitten Grenzwerte, Verwirrmatrix und Messwertauswahl und Kompromisse erläutert, hängt der ausgewählte Grenzwert davon ab, welcher Messwert für den jeweiligen Anwendungsfall am wichtigsten ist. Betrachten Sie die Punkte A, B und C im folgenden Diagramm, die jeweils einen Grenzwert darstellen:

Wenn falsch positive Ergebnisse (Fehlalarme) sehr kostspielig sind, kann es sinnvoll sein, einen Schwellenwert zu wählen, der zu einer niedrigeren FPR führt, wie der bei Punkt A, auch wenn die TPR dadurch sinkt. Umgekehrt ist der Schwellenwert für Punkt C, der die TPR maximiert, möglicherweise vorzuziehen, wenn falsch positive Ergebnisse kostengünstig und falsch negative Ergebnisse (entgangene richtig positive Ergebnisse) sehr teuer sind. Wenn die Kosten ungefähr gleich sind, bietet Punkt B möglicherweise das beste Gleichgewicht zwischen TPR und FPR.
Hier ist die ROC-Kurve für die Daten, die wir bereits kennen:
Übung: Wissen testen








(Optional, fortgeschrittene Nutzer) Bonusfrage
Stellen Sie sich eine Situation vor, in der es besser ist, wenn einige Spam-E-Mails den Posteingang erreichen, als eine geschäftskritische E-Mail in den Spamordner zu verschieben. Sie haben einen Spamfilter für diese Situation trainiert, bei dem die positive Klasse „Spam“ und die negative Klasse „Kein Spam“ ist. Welcher der folgenden Punkte auf der ROC-Kurve für Ihren Klassifikator ist vorzuziehen?
