Klassifizierung: Grenzwert

Die logistische Regression gibt eine Wahrscheinlichkeit zurück. Sie können die zurückgegebene Wahrscheinlichkeit (wie besehen) verwenden (z. B. die Wahrscheinlichkeit, dass der Nutzer auf diese Anzeige klickt, ist 0,00023) oder die zurückgegebene Wahrscheinlichkeit in einen Binärwert konvertieren (z. B. ist diese E-Mail Spam).

Ein logistisches Regressionsmodell, das für eine bestimmte E-Mail-Nachricht 0,9995 zurückgibt, sagt vorher, dass es sich wahrscheinlich um Spam handelt. Umgekehrt ist eine andere E-Mail-Nachricht mit einem Vorhersagewert von 0,0003 für dieses logistische Regressionsmodell höchstwahrscheinlich kein Spam. Aber was ist mit E-Mails mit einem Vorhersagewert von 0, 6? Wenn Sie einer binären Kategorie einen logistischen Regressionswert zuordnen möchten, müssen Sie einen Klassifizierungsschwellenwert (auch als Schwellenwert für die Entscheidung bezeichnet) definieren. Ein Wert über diesem Schwellenwert steht für „Spam“ und ein Wert unten bedeutet „Kein Spam“. Es ist verlockend, den Klassifizierungsschwellenwert immer auf 0, 5 festzulegen.Die Grenzwerte sind jedoch vom Problem abhängig und müssen daher optimiert werden.

In den folgenden Abschnitten erhalten Sie einen genaueren Einblick in Messwerte, mit denen Sie die Vorhersagen eines Klassifizierungsmodells bewerten können, sowie die Auswirkungen einer Änderung des Klassifizierungsschwellenwerts auf diese Vorhersagen.