Klassifizierung

In diesem Modul erfahren Sie, wie die logistische Regression für Klassifizierungsaufgaben verwendet werden kann. Außerdem erfahren Sie, wie Sie die Effektivität von Klassifizierungsmodellen bewerten.

Klassifizierung

  • Manchmal verwenden wir logistische Regressionen für die Wahrscheinlichkeitsausgaben. Dies ist eine Regression in (0, 1).
  • In anderen Fällen wird der Wert für eine eigenständige binäre Klassifizierung begrenzt.
  • Die Auswahl des Schwellenwerts ist eine wichtige Wahl und kann abgestimmt werden.
  • Wie bewerten wir Klassifizierungsmodelle?
  • Wie bewerten wir Klassifizierungsmodelle?
  • Eine mögliche Maßnahme: Genauigkeit
    • den Anteil der Vorhersagen,
  • In vielen Fällen ist die Genauigkeit ein schlechter oder irreführender Messwert.
    • Meistens, wenn verschiedene Arten von Fehlern unterschiedliche Kosten haben
    • Typischer Fall ist ein Ungleichgewicht in der Klasse, in dem positive oder negative Ergebnisse äußerst selten auftreten.
  • Bei Problemen mit ungleichen Klassen, die zum Trennen verschiedener Arten von Fehlern nützlich sind
Richtig positive Ergebnisse
Wir haben Wolf korrekt genannt.
Wir haben die Stadt gerettet.

Falsch positive Ergebnisse
Fehler: Wir haben Wolf fälschlicherweise angerufen.
Wir alle sind sauer auf uns.

Falsch negative Ergebnisse
Es gab einen Wolf, aber wir haben ihn nicht entdeckt. Er aß all unsere Hühner.
Richtig negative Ergebnisse
Kein Wolf, kein Alarm.
Es geht allen gut.

  • Genauigkeit: (positiv positive Ergebnisse) / (alle positiven Vorhersagen)
    • Hat das Modell die „positive“ Klasse gesehen, war es richtig?
    • Intuition: Hat das Modell zu oft „Wolf“ geweint?
  • Genauigkeit: (positiv positive Ergebnisse) / (alle positiven Vorhersagen)
    • Hat das Modell die „positive“ Klasse gesehen, war es richtig?
    • Intuition: Hat das Modell zu oft „Wolf“ geweint?
  • Trefferquote: (positiv positive Ergebnisse) / (alle tatsächlich positiven Ergebnisse)
    • Wie viele der möglichen positiven Ergebnisse hat das Modell richtig identifiziert?
    • Intuition: Hast du Wölfe verfehlt?

Sehen Sie sich die folgenden Optionen an.

Verwenden Sie ein Klassifizierungsmodell, bei dem E-Mails in zwei Kategorien unterteilt werden: „Spam“ oder „Kein Spam“. Was passiert mit der Genauigkeit, wenn Sie den Klassifizierungsschwellenwert erhöhen?
Definitiv erhöhen.
Das Erhöhen des Klassifizierungsschwellenwerts erhöht in der Regel die Genauigkeit. Eine Erhöhung, d. h. die Genauigkeit erhöht sich jedoch nicht monoton, wenn der Grenzwert erhöht wird.
Wahrscheinlich erhöhen.
Im Allgemeinen werden durch eine Erhöhung des Klassifizierungsschwellenwerts falsch positive Ergebnisse reduziert und damit auch die Genauigkeit erhöht.
Wahrscheinlich geringer.
Im Allgemeinen werden durch eine Erhöhung des Klassifizierungsschwellenwerts falsch positive Ergebnisse reduziert und damit auch die Genauigkeit erhöht.
Definitiv verringern.
Im Allgemeinen werden durch eine Erhöhung des Klassifizierungsschwellenwerts falsch positive Ergebnisse reduziert und damit auch die Genauigkeit erhöht.

Jeder Punkt ist der TP- und FP-Rate bei einem Entscheidungsschwellenwert.

ROC-Kurve, die die TP-Rate im Vergleich zur fp-Rate bei verschiedenen Klassifizierungsschwellenwerten anzeigt
  • AUC: „Fläche unter der ROC-Kurve“
  • AUC: „Fläche unter der ROC-Kurve“
  • Interpretation:
    • Wenn wir eine zufällige positive und eine zufällige negative Zahl auswählen, wie wahrscheinlich ist es, dass mein Modell sie in der richtigen Reihenfolge bewertet?
  • AUC: „Fläche unter der ROC-Kurve“
  • Interpretation:
    • Wenn wir eine zufällige positive und eine zufällige negative Zahl auswählen, wie wahrscheinlich ist es, dass mein Modell sie in der richtigen Reihenfolge bewertet?
  • Intuition: gibt einen aggregierten Messwert für die Leistung über alle möglichen Klassifizierungsschwellenwerte hinweg an
  • Die Vorhersagen der logistischen Regression sollten unvoreingenommen sein.
    • Durchschnitt der Vorhersagen == Durchschnitt der Beobachtungen
  • Die Vorhersagen der logistischen Regression sollten unvoreingenommen sein.
    • Durchschnitt der Vorhersagen == Durchschnitt der Beobachtungen
  • Bias ist eine Canary-Version.
    • Null Verzerrung allein bedeutet nicht, dass alles in deinem System perfekt ist.
    • Aber es ist eine gute Plausibilitätsprüfung.
  • Wenn Sie Voreingenommenheit haben, liegt ein Problem vor.
    • Unvollständiger Funktionssatz?
    • Fehlerhafte Pipeline?
    • Verzerrtes Trainingsbeispiel?
  • Beheben Sie Verzerrungen nicht mit einer Kalibrierungsebene, sondern beheben Sie sie im Modell.
  • Suchen Sie nach Verzerrungen in Datensegmenten. Das kann zu Verbesserungen führen.
Ein Kalibrierungsdiagramm