Wyniki prawdziwie pozytywne, fałszywie pozytywne i fałszywie negatywne służą do obliczania kilku przydatnych wskaźników oceny modeli. Które wskaźniki oceny są najbardziej istotne, zależy od konkretnego modelu i konkretnego zadania, kosztu różnych błędnych klasyfikacji oraz tego, czy zbiór danych jest zrównoważony czy niezrównoważony.
Wszystkie dane w tej sekcji są obliczane na podstawie jednego stałego progu i zmieniają się, gdy ten próg ulega zmianie. Bardzo często użytkownik dostosowuje próg, aby zoptymalizować jedną z tych wartości.
Dokładność
Dokładność to odsetek wszystkich poprawnych klasyfikacji, zarówno pozytywnych, jak i negatywnych. Jest on matematycznie zdefiniowany jako:
\[\text{Accuracy} = \frac{\text{correct classifications}}{\text{total classifications}} = \frac{TP+TN}{TP+TN+FP+FN}\]
W przykładzie klasyfikacji spamu dokładność mierzy odsetek wszystkich prawidłowo sklasyfikowanych e-maili.
Idealny model miałby 0 wyników fałszywie pozytywnych i 0 wyników fałszywie negatywnych, a więc dokładność na poziomie 1, 0 czyli 100%.
Ponieważ uwzględnia wszystkie 4 wyniki z macierzy pomyłek (TP, FP, TN, FN), w przypadku zrównoważonego zbioru danych z podobną liczbą przykładów w obu klasach dokładność może służyć jako ogólna miara jakości modelu. Dlatego jest to często domyślna miara oceny używana w przypadku ogólnych lub nieokreślonych modeli wykonujących ogólne lub nieokreślone zadania.
Jeśli jednak zbiór danych jest niezrównoważony lub jeden rodzaj błędu (FN lub FP) jest bardziej kosztowny niż drugi, co ma miejsce w większości rzeczywistych zastosowań, lepiej jest zoptymalizować jedną z pozostałych wartości.
W przypadku bardzo niezrównoważonych zbiorów danych, w których jedna klasa występuje bardzo rzadko, np. w 1% przypadków, model, który w 100% przypadków przewiduje wartość negatywną, uzyskałby dokładność na poziomie 99%, mimo że jest bezużyteczny.
Czułość lub współczynnik wyników prawdziwie pozytywnych
Współczynnik wyników prawdziwie pozytywnych (TPR), czyli odsetek wszystkich rzeczywistych wyników pozytywnych, które zostały prawidłowo sklasyfikowane jako pozytywne, jest też znany jako czułość.
Wartość przypomnienia jest matematycznie zdefiniowana w ten sposób:
\[\text{Recall (or TPR)} = \frac{\text{correctly classified actual positives}}{\text{all actual positives}} = \frac{TP}{TP+FN}\]
Wyniki fałszywie negatywne to rzeczywiste wyniki pozytywne, które zostały błędnie zaklasyfikowane jako negatywne, dlatego pojawiają się w mianowniku. W przykładzie klasyfikacji spamu miara recall określa odsetek e-maili ze spamem, które zostały prawidłowo sklasyfikowane jako spam. Dlatego inną nazwą precyzji jest prawdopodobieństwo wykrycia: odpowiada ona na pytanie „Jaka część e-maili ze spamem jest wykrywana przez ten model?”.
Hipoteza idealnego modelu zakłada, że nie ma on wyników fałszywie negatywnych, a więc ma wartość przypomnienia (TPR) równą 1,0, czyli wykrywa 100% przypadków.
W przypadku niezrównoważonego zbioru danych, w którym liczba rzeczywistych wyników pozytywnych jest bardzo mała, miara precyzji jest bardziej miarodajna niż dokładność, ponieważ mierzy zdolność modelu do prawidłowego identyfikowania wszystkich przypadków pozytywnych. W przypadku zastosowań takich jak przewidywanie chorób prawidłowe rozpoznawanie przypadków pozytywnych ma kluczowe znaczenie. Fałszywie negatywny wynik ma zwykle poważniejsze konsekwencje niż fałszywie pozytywny. Konkretny przykład porównania czułości i dokładności znajdziesz w uwagach w definicji czułości.
Współczynnik wyników fałszywie pozytywnych
Współczynnik wyników fałszywie dodatnich (FPR) to odsetek wszystkich rzeczywistych wyników negatywnych, które zostały nieprawidłowo sklasyfikowane jako pozytywne. Jest on też znany jako prawdopodobieństwo fałszywego alarmu. Jest on matematycznie zdefiniowany jako:
\[\text{FPR} = \frac{\text{incorrectly classified actual negatives}} {\text{all actual negatives}} = \frac{FP}{FP+TN}\]
Wyniki fałszywie pozytywne to rzeczywiste wyniki negatywne, które zostały błędnie sklasyfikowane, dlatego pojawiają się w mianowniku. W przykładzie klasyfikacji spamu wskaźnik FPR mierzy odsetek prawidłowych e-maili, które zostały nieprawidłowo sklasyfikowane jako spam,czyli odsetek fałszywych alarmów modelu.
Idealny model nie generowałby wyników fałszywie pozytywnych, a więc jego współczynnik FPR wynosiłby 0,0, co oznacza 0% fałszywych alarmów.
W przypadku niezrównoważonego zbioru danych wskaźnik FPR jest zwykle bardziej informatywny niż dokładność. Jeśli jednak liczba rzeczywistych negatywnych wyników jest bardzo mała, FPR może nie być idealnym wyborem ze względu na swoją zmienność. Jeśli np. w zbiorze danych są tylko 4 rzeczywiste wartości negatywne, jedno błędne zaklasyfikowanie spowoduje, że wskaźnik FPR wyniesie 25%, a drugie błędne zaklasyfikowanie spowoduje wzrost tego wskaźnika do 50%. W takich przypadkach precyzja (opisana dalej) może być bardziej stabilnym wskaźnikiem do oceny wpływu fałszywie pozytywnych wyników.
Precyzja
Precyzja to odsetek wszystkich klasyfikacji pozytywnych dokonanych przez model, które są faktycznie pozytywne. Definicja matematyczna:
\[\text{Precision} = \frac{\text{correctly classified actual positives}} {\text{everything classified as positive}} = \frac{TP}{TP+FP}\]
W przykładzie klasyfikacji spamu precyzja mierzy odsetek e-maili sklasyfikowanych jako spam, które rzeczywiście były spamem.
Idealny model hipotetyczny nie generowałby wyników fałszywie pozytywnych, a jego precyzja wynosiłaby 1,0.
W przypadku niezrównoważonego zbioru danych, w którym liczba rzeczywistych wyników pozytywnych jest bardzo mała (np. 1–2 przykłady), precyzja jest mniej istotna i mniej przydatna jako wskaźnik.
Precyzja rośnie wraz ze spadkiem liczby wyników fałszywie pozytywnych, a czułość rośnie wraz ze spadkiem liczby wyników fałszywie negatywnych. Jak widać w poprzedniej sekcji, zwiększenie progu klasyfikacji zwykle zmniejsza liczbę wyników fałszywie pozytywnych i zwiększa liczbę wyników fałszywie negatywnych, a zmniejszenie progu ma odwrotne skutki. W efekcie precyzja i czułość często wykazują odwrotną zależność, co oznacza, że poprawa jednej z nich pogarsza drugą.
Wypróbuj:
Wybór danych i kompromisy
Metryki, które wybierzesz jako priorytetowe podczas oceny modelu i wybierania wartości progowej, zależą od kosztów, korzyści i ryzyka związanego z konkretnym problemem. W przykładzie klasyfikacji spamu często warto priorytetowo traktować odtwarzanie, czyli wyłapywanie wszystkich e-maili ze spamem, lub precyzję, czyli upewnianie się, że e-maile oznaczone jako spam rzeczywiście nim są, albo zachować równowagę między tymi dwoma podejściami powyżej minimalnego poziomu dokładności.
| Dane | Wskazówki |
|---|---|
| Dokładność | Używaj jako przybliżonego wskaźnika postępu/zbieżności trenowania modelu w przypadku zrównoważonych zbiorów danych. W przypadku skuteczności modelu używaj tylko w połączeniu z innymi danymi. Unikaj w przypadku niezrównoważonych zbiorów danych. Rozważ użycie innych danych. |
| Czułość (współczynnik wyników prawdziwie pozytywnych) |
Używaj tej opcji, gdy fałszywie negatywne wyniki są bardziej kosztowne niż fałszywie pozytywne. |
| Współczynnik wyników fałszywie pozytywnych | Używaj tej opcji, gdy fałszywie pozytywne wyniki są droższe niż fałszywie negatywne. |
| Precyzja | Użyj tej opcji, gdy bardzo ważne jest, aby prognozy pozytywne były dokładne. |