Progi i tabela pomyłek

Załóżmy, że masz model regresji logistycznej do wykrywania spamu, który przewiduje wartość od 0 do 1, odpowiadającą prawdopodobieństwu, że dany e-mail jest spamem. Wartość 0,50 oznacza, że prawdopodobieństwo, że e-mail jest spamem, wynosi 50%. Wartość 0,75 oznacza, że prawdopodobieństwo, że e-mail jest spamem, wynosi 75%. I tak dalej.

Chcesz wdrożyć ten model w aplikacji poczty e-mail, aby odfiltrowywać spam do osobnego folderu poczty. Aby to zrobić, musisz przekonwertować surowy wynik liczbowy modelu (np. 0.75) do jednej z 2 kategorii: „spam” lub „nie spam”.

Aby dokonać tej konwersji, musisz wybrać próg prawdopodobieństwa, zwany progiem klasyfikacji. Przykłady o większym prawdopodobieństwie niż wartość progowa są przypisywane do klasy pozytywnej, czyli klasy, której dotyczy test (tutaj: spam). Przykłady o mniejszym prawdopodobieństwie są przypisywane do klasy negatywnej, czyli klasy alternatywnej (tutaj: not spam).

Więcej informacji o progresorach klasyfikacji

Możesz się zastanawiać, co się stanie, jeśli przewidywana wartość jest równa progowi klasyfikacji (np.wartość 0,5, gdy próg klasyfikacji wynosi również 0,5). Obsługa tego przypadku zależy od konkretnej implementacji wybranej dla modelu klasyfikacji. Biblioteka Keras przewiduje klasę negatywną, jeśli wynik i wartość progowa są równe, ale inne narzędzia lub frameworki mogą inaczej obsługiwać tę sytuację.

Załóżmy, że model ocenia jeden e-mail jako 0,99, przewidując, że ma on 99% szans na to, że jest spamem, a inny e-mail jako 0,51, przewidując, że ma on 51% szans na to, że jest spamem. Jeśli ustawisz próg klasyfikacji na 0,5, model sklasyfikuje oba e-maile jako spam. Jeśli ustawisz próg na 0,95, tylko e-mail z wynikiem 0,99 zostanie sklasyfikowany jako spam.

Chociaż wartość 0,5 może wydawać się intuicyjną wartością progową, nie jest ona dobrym wyborem, jeśli koszt jednego typu błędnej klasyfikacji jest większy od kosztu drugiego lub jeśli klasy są niezrównoważone. Jeśli tylko 0,01% e-maili jest spamem lub jeśli błędne zaklasyfikowanie prawidłowych e-maili jest gorsze niż dopuszczenie spamu do skrzynki odbiorczej, oznaczenie jako spam wszystkiego, co model uznaje za prawdopodobne o co najmniej 50%, daje niepożądane wyniki.

Tablica pomyłek

Wynik prawdopodobieństwa nie jest rzeczywistością ani danymi podstawowymi. W przypadku każdego wyjścia klasyfikatora binarnego mogą wystąpić 4 możliwe wyniki. W przypadku przykładu klasyfikatora spamu, jeśli umieścisz dane podstawowe jako kolumny, a prognozę modelu jako wiersze, otrzymasz tę tabelę, zwaną tablicą pomyłek:

Prawdziwie pozytywny Prawdziwie negatywne
Przewidywane pozytywne Prawdziwy dodatni wynik (TP): e-mail ze spamem prawidłowo sklasyfikowany jako spam. Są to wiadomości spamowe automatycznie wysyłane do folderu spamu. Fałszywie dodatni wynik (FP): e-mail, który nie jest spamem, został błędnie zaklasyfikowany jako spam. To prawdziwe e-maile, które trafiają do folderu ze spamem.
Przewidywany wynik negatywny Wynik fałszywie negatywny (FN): e-mail ze spamem błędnie zaklasyfikowany jako niespam. Są to e-maile ze spamem, które nie zostały wychwycone przez filtr spamu i trafiły do skrzynki odbiorczej. Prawdziwy wynik negatywny (TN): e-mail niebędący spamem, który został prawidłowo sklasyfikowany jako niebędący spamem. To prawdziwe e-maile wysyłane bezpośrednio do skrzynki odbiorczej.

Zwróć uwagę, że suma w każdym wierszu zawiera wszystkie prognozowane wyniki pozytywne (TP + FP) i wszystkie prognozowane wyniki negatywne (FN + TN), niezależnie od ich wiarygodności. Łączna wartość w każdej kolumnie to suma wszystkich prawdziwie pozytywnych (TP + FN) i wszystkich prawdziwie negatywnych (FP + TN) wyników niezależnie od klasyfikacji modelu.

Jeśli łączna liczba rzeczywistych wyników dodatnich nie jest zbliżona do łącznej liczby rzeczywistych wyników ujemnych, zbiór danych jest niezrównoważony. Przykładem zbiórki danych z niezrównoważonym rozkładem może być zbiór tysięcy zdjęć chmur, na których rzadki typ chmur, np. volutus, pojawia się tylko kilka razy.

Wpływ progu na wyniki prawdziwie i fałszywie pozytywne oraz negatywne

Różne progi zwykle powodują różne liczby wyników prawdziwie pozytywnych i fałszywie pozytywnych oraz prawdziwie negatywnych i fałszywie negatywnych. Poniżej znajdziesz film, który wyjaśnia, dlaczego tak się dzieje.

Spróbuj samodzielnie zmienić próg.

Ten widżet zawiera 3 zbiory danych zabawkowych:

  • Oddzielone, gdzie przykłady pozytywne i negatywne są dobrze rozróżnione, a większość przykładów pozytywnych ma wyższe wyniki niż przykłady negatywne.
  • Nierozdzielone, gdzie wiele przykładów pozytywnych ma niższe wyniki niż przykłady negatywne, a wiele przykładów negatywnych ma wyższe wyniki niż przykłady pozytywne.
  • Zrównoważony, zawierający tylko kilka przykładów klasy pozytywnej.

Sprawdź swoją wiedzę

1. Wyobraź sobie model klasyfikacji phishingu lub złośliwego oprogramowania, w którym witryny wyłudzające informacje i złośliwe należą do klasy o oznaczeniu 1 (prawda), a nieszkodliwe – do klasy o oznaczeniu 0 (fałsz). Ten model błędnie klasyfikuje wiarygodną witrynę jako witrynę zawierającą złośliwe oprogramowanie. Jak to się nazywa?
Wynik fałszywie pozytywny
Przykład negatywny (prawdziwa witryna) został błędnie zaklasyfikowany jako przykład pozytywny (witryna ze złośliwym oprogramowaniem).
Wynik prawdziwie pozytywny
Prawidłowo pozytywny wynik to strona z złośliwym oprogramowaniem, która została prawidłowo zaklasyfikowana jako strona z złośliwym oprogramowaniem.
Wynik fałszywie negatywny
Przykładem fałszywie ujemnego wyniku jest witryna z złośliwym oprogramowaniem nieprawidłowo sklasyfikowana jako legalna.
Wynik prawdziwie negatywny
Prawdziwy wynik negatywny to wiarygodna witryna prawidłowo sklasyfikowana jako wiarygodna.
2. Co się dzieje z liczbą wyników fałszywie pozytywnych, gdy próg klasyfikacji wzrasta? A jak wygląda sprawa z wynikami prawdziwie pozytywnymi? Eksperymentuj za pomocą suwaka powyżej.
Zmniejsza się zarówno liczba prawdziwie pozytywnych, jak i fałszywie pozytywnych wyników.
Wraz ze wzrostem progu model będzie prawdopodobnie przewidywać mniej wyników pozytywnych, zarówno prawdziwych, jak i fałszywych. Klasyfikator spamu z progresem 0,9999 oznaczy e-maila jako spam tylko wtedy, gdy uzna, że prawdopodobieństwo takiej klasyfikacji wynosi co najmniej 99,99%. Oznacza to, że jest mało prawdopodobne, aby nieprawidłowo oznaczył prawidłowy e-mail, ale może też nie wykryć prawdziwego e-maila ze spamem.
Zwiększa się zarówno liczba prawdziwie pozytywnych, jak i fałszywie pozytywnych wyników.
Użyj suwaka powyżej, aby ustawić próg na 0,1, a następnie przeciągnij go do 0,9. Co się dzieje z liczbą wyników fałszywie pozytywnych i prawdziwie pozytywnych?
Wzrost wyników prawdziwie pozytywnych. zmniejsza liczbę wyników fałszywie pozytywnych.
Użyj suwaka powyżej, aby ustawić próg na 0,1, a następnie przeciągnij go do 0,9. Co się dzieje z liczbą wyników fałszywie pozytywnych i prawdziwie pozytywnych?
3. Co się dzieje z liczbą fałszywie negatywnych wyników, gdy próg klasyfikacji wzrasta? A jak to wygląda w przypadku wyników prawdziwie negatywnych? Eksperymentuj za pomocą suwaka powyżej.
Zwiększa się liczba zarówno prawdziwie negatywnych, jak i fałszywie negatywnych wyników.
Wraz ze wzrostem progu model będzie prawdopodobnie przewidywać więcej wyników negatywnych, zarówno prawdziwych, jak i fałszywych. Przy bardzo wysokim progu prawie wszystkie e-maile, zarówno te oznaczone jako spam, jak i te, które nie są spamem, będą klasyfikowane jako niebędące spamem.
Zmniejsza się zarówno liczba prawdziwie negatywnych, jak i fałszywie negatywnych.
Użyj suwaka powyżej, aby ustawić próg na 0,1, a następnie przeciągnij go do 0,9. Co się dzieje z liczbą wyników fałszywie negatywnych i prawdziwie negatywnych?
Wzrost wyników prawdziwie negatywnych. Wyniki fałszywie negatywne maleją.
Użyj suwaka powyżej, aby ustawić próg na 0,1, a następnie przeciągnij go do 0,9. Co się dzieje z liczbą wyników fałszywie negatywnych i prawdziwie negatywnych?