Angenommen, Sie haben ein logistisches Regressionsmodell zur Erkennung von Spam-E-Mails, das einen Wert zwischen 0 und 1 vorhersagt, der die Wahrscheinlichkeit darstellt, dass eine bestimmte E-Mail Spam ist. Ein Wert von 0,50 bedeutet eine Wahrscheinlichkeit von 50 %, dass die E-Mail Spam ist. Ein Wert von 0,75 bedeutet eine Wahrscheinlichkeit von 75 %, dass die E-Mail Spam ist, und so weiter.
Sie möchten dieses Modell in einer E-Mail-Anwendung bereitstellen, um Spam in einen separaten E-Mail-Ordner zu filtern. Dazu müssen Sie jedoch die Rohausgabe des Modells (z.B. 0.75
) in eine von zwei Kategorien eingeteilt: „Spam“ oder „Kein Spam“.
Dazu wählen Sie einen Grenzwert für die Wahrscheinlichkeit aus, der als Klassifizierungsgrenzwert bezeichnet wird.
Beispiele mit einer Wahrscheinlichkeit über dem Schwellenwert werden dann der positiven Klasse zugewiesen, der Klasse, auf die Sie testen (hier spam
). Beispiele mit einer niedrigeren Wahrscheinlichkeit werden der negativen Klasse zugewiesen, der alternativen Klasse (hier not spam
).
Weitere Informationen zum Klassifizierungsgrenzwert
Was passiert, wenn der vorhergesagte Wert dem Klassifizierungsgrenzwert entspricht (z.B.ein Wert von 0,5, wenn der Klassifizierungsgrenzwert ebenfalls 0,5 ist)? Die Vorgehensweise in diesem Fall hängt von der für das Klassifizierungsmodell ausgewählten Implementierung ab. Die Keras-Bibliothek prognostiziert die negative Klasse, wenn der Wert und der Grenzwert gleich sind. Andere Tools/Frameworks können diesen Fall jedoch anders behandeln.
Angenommen, das Modell bewertet eine E-Mail mit 0,99 und prognostiziert eine Wahrscheinlichkeit von 99 %, dass es sich um Spam handelt. Eine andere E-Mail wird mit 0,51 bewertet und es wird eine Wahrscheinlichkeit von 51% für Spam vorhergesagt. Wenn Sie den Klassifizierungsgrenzwert auf 0,5 festlegen, klassifiziert das Modell beide E-Mails als Spam. Wenn Sie den Schwellenwert auf 0,95 festlegen, wird nur die E-Mail mit dem Wert 0,99 als Spam klassifiziert.
Der Wert 0,5 mag zwar intuitiv erscheinen, ist aber keine gute Wahl, wenn die Kosten einer Art von Falschklassifizierung höher sind als die der anderen oder wenn die Klassen unausgewogen sind. Wenn nur 0,01% der E-Mails Spam sind oder wenn das fälschliche Einordnen legitimer E-Mails schlimmer ist als das Zulassen von Spam in den Posteingang, führt das Markieren von E-Mails, die laut Modell mit mindestens 50% iger Wahrscheinlichkeit Spam sind, als Spam zu unerwünschten Ergebnissen.
Wahrheitsmatrix
Der Wahrscheinlichkeitswert entspricht nicht der Realität oder der Ground Truth. Für jede Ausgabe eines binären Klassifikators gibt es vier mögliche Ergebnisse. Wenn Sie im Beispiel für den Spamfilter die Ground Truth als Spalten und die Vorhersage des Modells als Zeilen anordnen, ergibt sich die folgende Tabelle, die als Wahrheitsmatrix bezeichnet wird:
Tatsächlich positiv | Tatsächlich negativ | |
---|---|---|
Prognostiziert positiv | True Positive (TP): Eine Spam-E-Mail, die korrekt als Spam-E-Mail klassifiziert wurde. Das sind die Spamnachrichten, die automatisch in den Spamordner verschoben werden. | Falsch positiv (FP): Eine E-Mail, die keine Spam-E-Mail ist, aber fälschlicherweise als Spam klassifiziert wurde. Das sind legitime E-Mails, die im Spamordner landen. |
Voraussichtlich negativ | Falsch-negativ (FN): Eine Spam-E-Mail, die fälschlicherweise als „Kein Spam“ klassifiziert wurde. Das sind Spam-E-Mails, die vom Spamfilter nicht erkannt werden und in den Posteingang gelangen. | True Negative (TN): Eine E-Mail, die nicht als Spam eingestuft wurde und korrekt als „Kein Spam“ klassifiziert wurde. Das sind legitime E-Mails, die direkt an den Posteingang gesendet werden. |
Die Gesamtzahl in jeder Zeile gibt die Anzahl aller vorhergesagten positiven (TP + FP) und aller vorhergesagten negativen (FN + TN) Ergebnisse an, unabhängig von ihrer Gültigkeit. Die Summe in jeder Spalte gibt hingegen alle tatsächlich positiven (TP + FN) und alle tatsächlich negativen (FP + TN) Ergebnisse unabhängig von der Modellklassifizierung an.
Wenn die Gesamtzahl der tatsächlichen positiven Fälle nicht annähernd der Gesamtzahl der tatsächlichen negativen Fälle entspricht, ist der Datensatz nicht ausgewogen. Ein Beispiel für ein ungleichmäßiges Dataset wäre eine Reihe von Tausenden von Fotos von Wolken, in denen der seltene Wolkentyp, für den Sie sich interessieren, z. B. Wölkchen, nur wenige Male vorkommt.
Auswirkungen des Schwellenwerts auf richtig positive, falsch positive und falsch negative Ergebnisse
Unterschiedliche Schwellenwerte führen in der Regel zu unterschiedlichen Zahlen von richtig positiven, falsch positiven, richtig negativen und falsch negativen Ergebnissen. Im folgenden Video wird erklärt, warum das so ist.
Versuchen Sie, den Grenzwert selbst zu ändern.
Dieses Widget enthält drei Datasets für Spielzeuge:
- Getrennt: Positive und negative Beispiele sind im Allgemeinen gut voneinander abgegrenzt. Die meisten positiven Beispiele haben eine höhere Bewertung als die negativen Beispiele.
- Nicht getrennt, wobei viele positive Beispiele niedrigere Werte als negative Beispiele haben und viele negative Beispiele höhere Werte als positive Beispiele.
- Unausgeglichen, da nur wenige Beispiele für die positive Klasse enthalten sind.