Klasyfikacja: sprawdź swoją wiedzę (ROC i AUC)

ROC i AUC

Dostępne opcje są opisane poniżej.

Które z tych krzywych ROC generują wartości AUC większe niż 0,5?
Krzywa ROC z pionową linią biegnącą od (0,0) do (0,1) i poziomą od (0,1) do (1,1). Stawka TP wynosi 1,0 dla wszystkich stawek FP.

Jest to najlepsza krzywa ROC, ponieważ klasyfikuje wszystkie pozytywne wartości powyżej wszystkich wykluczeń. UCA ma wartość 1,0.

W praktyce, jeśli używasz klasyfikatora „doskonałego” z AUC 1,0, musisz wzbudzić podejrzenie, ponieważ wskazuje to na błąd w modelu. Na przykład dane treningowe mogą być przesadzone lub dane etykiet mogą być powielane w jednej z Twoich funkcji.

Krzywa ROC z poziomą linią biegnącą od (0,0) do (1,0) i pionową linią (1,0) do (1,1). Stawka FP wynosi 1,0 dla wszystkich stawek TP
Jest to najgorsza krzywa ROC.Pozycja w rankingu jest wyższa niż wszystkie pozytywne i AUC wynosi 0, 0. Jeśli chcesz zamienić odwrotną prognozę na następną pozytywną i negatywny wynik, musisz mieć idealny klasyfikator.
Krzywa ROC z jedną ukośną linią biegnącą od (0,0) do (1,1). Współczynniki TP i FP rosną liniowo w tym samym tempie.
Ta krzywa ROC ma wartość AUC równą 0,5, co oznacza, że ranking losowego dodatniego wyniku jest wyższy niż losowy przykład ujemny w 50% przypadków. Odpowiedni model klasyfikacji jest więc bezwartościowy, ponieważ jego zdolność prognostyczna nie jest lepsza od losowania.
Krzywa ROC, która przecina łuk w górę i w prawo od (0,0) do (1,1). Wskaźnik TP zwiększa się szybciej niż liczba klatek na sekundę.
Ta krzywa ROC ma wartość AUC od 0,5 do 1,0, co oznacza, że w losowej kolejności losowy przykład jest wyższy niż losowy przykład w ponad 50% przypadków. Rzeczywiste wartości AUC klasyfikacji binarnej należą do tego zakresu.
Krzywa ROC, która przecina łuk w prawo i w górę (0,0) do (1,1). Liczba klatek na sekundę wzrasta szybciej niż w przypadku protokołu TP.
Ta krzywa ROC ma wartość AUC od 0 do 0,5, co oznacza, że w rankingu losowym przykładu dodatniego jest niższy od losowego przykładu w mniej niż 50% przypadków. Odpowiedni model osiąga lepsze wyniki niż zgadywanie. Jeśli widzisz taką krzywą ROC, prawdopodobnie oznacza to błąd w danych.

AUC i skalowanie prognoz

Dostępne opcje są opisane poniżej.

W jaki sposób mnożenie wszystkich przewidywań danego modelu przez 2,0 (np. jeśli model przewiduje 0,4), mnożymy wynik przez 2,0, aby uzyskać prognozę na 0,8), zmieniając skuteczność modelu w pomiarach AUC?
Nic się nie zmieni. AUC skupia się tylko na względnych wynikach prognozy.
Tak, AUC opiera się na względnych podpowiedziach, więc każda transformacja prognoz, która zachowuje względną pozycję w rankingu, nie ma wpływu na AUC. Nie dzieje się tak w przypadku innych wskaźników, takich jak błąd kwadratowy, odchylenie logów lub odchylenie dziennika (które omówimy później).
Dla AUC miałoby to okropne skutki, bo wartości prognoz są teraz odległe.
Co ciekawe, chociaż wartości prognozy są różne (i prawdopodobnie oddalone od rzeczywistości), mnożenie ich przez 2,0 zachowałoby względną kolejność wartości prognoz. AUC skupia się tylko na rankingach względnych, więc nie ma na nie wpływu proste skalowanie w ramach prognoz.
Znacznie ulepszy to AUC, ponieważ wartości prognoz są nieco dalej od siebie.
Ilość przesyłanych danych między prognozami nie ma wpływu na AUC. Nawet wynik prognozy dla losowo losowego wyniku pozytywnego to tylko drobny sztucznik większy niż jego losowy wynik. Można to uznać za sukces oddziałujący na ogólny wynik AUC.