Prawdziwe i fałszywie pozytywne oraz negatywne wyniki służą do obliczania kilku przydatnych wskaźników do oceny modeli. Które wskaźniki oceny są najbardziej przydatne, zależy od konkretnego modelu i zadania, kosztu różnych błędów klasyfikacji oraz tego, czy zbiór danych jest zrównoważony, czy niezrównoważony.
Wszystkie dane w tej sekcji są obliczane przy użyciu jednego stałego progu i zmieniają się, gdy zmienia się ten próg. Użytkownik często dostosowuje próg, aby zoptymalizować jeden z tych wskaźników.
Dokładność
Dokładność to odsetek wszystkich klasyfikacji, które były prawidłowe, niezależnie od tego, czy były pozytywne, czy negatywne. Jest on matematycznie zdefiniowany jako:
\[\text{Accuracy} = \frac{\text{correct classifications}}{\text{total classifications}} = \frac{TP+TN}{TP+TN+FP+FN}\]
W przykładzie klasyfikacji spamu dokładność mierzy odsetek wszystkich poprawnie sklasyfikowanych e-maili.
Doskonały model nie miałby żadnych wyników fałszywie pozytywnych ani fałszywie negatywnych, a zatem jego dokładność wynosiłaby 1,0, czyli 100%.
Obejmuje ona wszystkie 4 wyniki z macierzy pomyłek (TP, FP, TN, FN). Przy zrównoważonym zbiorze danych z podobną liczbą przykładów w obu klasach dokładność może służyć jako ogólny wskaźnik jakości modelu. Z tego powodu jest to często domyślna metryka oceny używana w przypadku ogólnych lub nieokreślonych modeli wykonujących ogólne lub nieokreślone zadania.
Jeśli jednak zbiór danych jest niezrównoważony lub jeden rodzaj błędu (FN lub FP) jest bardziej kosztowny niż drugi, co ma miejsce w większości zastosowań praktycznych, lepiej jest zoptymalizować jeden z innych wskaźników.
W przypadku bardzo nierównowagi w zbiorach danych, w których jedna klasa pojawia się bardzo rzadko, np. 1% razy, model, który w 100% przypadków przewiduje wynik negatywny, uzyskałby wynik dokładności 99%, mimo że byłby bezużyteczny.
Współczynnik wyników prawdziwie pozytywnych lub czułość
Współczynnik wyników prawdziwie pozytywnych (TPR), czyli odsetek wszystkich rzeczywistych wyników pozytywnych, które zostały prawidłowo sklasyfikowane jako pozytywne, jest też nazywany czułością.
Współczynnik przyrostu jest definiowany matematycznie jako:
\[\text{Recall (or TPR)} = \frac{\text{correctly classified actual positives}}{\text{all actual positives}} = \frac{TP}{TP+FN}\]
Wyniki fałszywie negatywne to rzeczywiste wyniki pozytywne, które zostały błędnie sklasyfikowane jako negatywne, dlatego pojawiają się w mianowniku. W przykładzie klasyfikacji spamu współczynnik przywołań mierzy odsetek e-maili ze spamem, które zostały prawidłowo sklasyfikowane jako spam. Dlatego inną nazwą przywołania jest prawdopodobieństwo wykrycia: odpowiada ono na pytanie „Jaki odsetek e-maili ze spamem wykrył ten model?”.
Hipotetyczny model doskonały nie miałby żadnych wyników fałszywie negatywnych, a zatem współczynnik odzyskiwania (TPR) wynosiłby 1,0, co oznacza 100% skuteczność wykrywania.
W przypadku niesymetrycznego zbioru danych, w którym liczba rzeczywistych wartości dodatnich jest bardzo niska, czułość jest bardziej przydatnym rodzajem danych niż dokładność, ponieważ mierzy zdolność modelu do prawidłowego rozpoznawania wszystkich przypadków pozytywnych. W przypadku takich zastosowań jak przewidywanie chorób prawidłowe rozpoznawanie pozytywnych przypadków jest kluczowe. Fałszywie negatywny wynik zwykle ma poważniejsze konsekwencje niż fałszywie pozytywny. Przykład porównania wskaźników czułości i trafności znajdziesz w uwagach dotyczących definicji czułości.
Współczynnik wyników fałszywie pozytywnych
Współczynnik wyników fałszywie dodatnich (FPR) to proporcja wszystkich rzeczywistych wartości ujemnych, które zostały nieprawidłowo sklasyfikowane jako dodatnie. Jest to też prawdopodobieństwo fałszywego alarmu. Jest on matematycznie zdefiniowany jako:
\[\text{FPR} = \frac{\text{incorrectly classified actual negatives}} {\text{all actual negatives}} = \frac{FP}{FP+TN}\]
Wyniki fałszywie pozytywne to rzeczywiste wyniki negatywne, które zostały błędnie zaklasyfikowane, dlatego pojawiają się w mianowniku. W przykładzie klasyfikacji spamu FPR mierzy ułamek prawidłowych e-maili, które zostały nieprawidłowo sklasyfikowane jako spam,lub współczynnik fałszywych alarmów modelu.
Doskonały model nie miałby żadnych wyników fałszywie pozytywnych, a więc współczynnik FPR wynosiłby 0,0, co oznacza współczynnik fałszywych alarmów 0%.
W niezrównoważonym zbiorze danych, w którym liczba rzeczywistych przykładów negatywnych jest bardzo niska (np. 1–2 przypadki), FPR jest mniej przydatnym wskaźnikiem.
Precyzja
Współczynnik dokładności to odsetek wszystkich pozytywnych klasyfikacji modelu, które są rzeczywiście pozytywne. Jest on matematycznie zdefiniowany jako:
\[\text{Precision} = \frac{\text{correctly classified actual positives}} {\text{everything classified as positive}} = \frac{TP}{TP+FP}\]
W przykładzie klasyfikacji spamu dokładność mierzy odsetek e-maili sklasyfikowanych jako spam, które faktycznie były spamem.
Hipotetyczny model doskonały nie miałby wyników fałszywie pozytywnych, a zatem jego precyzja wynosiłaby 1,0.
W niezrównoważonym zbiorze danych, w którym liczba rzeczywistych wyników dodatnich jest bardzo niska (np. 1–2 przypadki), precyzja jest mniej przydatną miarą.
W miarę zmniejszania liczby wyników fałszywie pozytywnych rośnie precyzja, a w miarę zmniejszania liczby wyników fałszywie negatywnych rośnie czułość. Jak jednak widać w poprzedniej sekcji, zwiększenie progu klasyfikacji powoduje zazwyczaj spadek liczby wyników fałszywie pozytywnych i wzrost liczby wyników fałszywie negatywnych, a obniżenie progu ma odwrotne działanie. W efekcie precyzja i czułość często wykazują odwrotną zależność, w której polepszenie jednego z tych parametrów pogarsza drugi.
Wypróbuj to:
Co oznacza w danych wartość NaN?
Wartość NaN (czyli „nie jest liczbą”) pojawia się, gdy dzielimy przez 0. Może się to zdarzyć w przypadku dowolnego z tych rodzajów danych. Gdy zarówno TP, jak i FP mają wartość 0, w liczniku formuły do obliczania dokładności występuje 0, co powoduje, że wynik jest równy NaN. Chociaż w niektórych przypadkach NaN może wskazywać na doskonałą wydajność i można go zastąpić wartością 1, może też pochodzić z modelu, który jest praktycznie bezużyteczny. Model, który nigdy nie przewiduje wartości dodatniej, miałby 0 TP i 0 FP, a więc obliczenie jego dokładności dałoby wartość NaN.
Wybór danych i ustępstwa
Dane, które mają być priorytetowe podczas oceny modelu i wybierania wartości progowej, zależą od kosztów, korzyści i zagrożeń związanych z konkretnym problemem. W przykładzie klasyfikacji spamu często warto skoncentrować się na czułości, aby wychwycić wszystkie spamowe e-maile, lub na dokładności, aby mieć pewność, że e-maile oznaczone jako spam rzeczywiście są spamem, albo na równowadze obu tych czynników, powyżej pewnego minimalnego poziomu dokładności.
Dane | Wskazówki |
---|---|
Dokładność | Używaj jako przybliżonego wskaźnika postępu/konwergencji treningu modelu w przypadku zbilansowanych zbiorów danych. W przypadku skuteczności modelu używaj go tylko w połączeniu z innymi danymi. Nie stosuj do zbiorów danych z niezrównoważonymi danymi. Możesz użyć innego rodzaju danych. |
Czułość (współczynnik prawdziwie pozytywnych) |
Używaj, gdy fałszywie negatywne wyniki są droższe niż fałszywie pozytywne. |
Współczynnik wyników fałszywie pozytywnych | Używaj, gdy fałszywie pozytywne wyniki są droższe niż fałszywie negatywne. |
Precyzja | Użyj tej opcji, gdy dokładność pozytywnych prognoz jest bardzo ważna. |
(Opcjonalnie, zaawansowane) Wynik F1
Wynik F1 to średnia harmoniczna (rodzaj średniej) precyzji i czułości.
Matematycznie:
Ten wskaźnik zapewnia równowagę między znaczeniem precyzji a czułością i jest preferowany w przypadku niesymetrycznych zbiorów danych. Gdy precyzja i czułość mają idealną wartość 1,0, wynik F1 również będzie idealny – 1,0. Ogólnie rzecz biorąc, gdy precyzja i czułość mają zbliżone wartości, współczynnik F1 będzie zbliżony do ich wartości. Gdy precyzja i czułość są od siebie bardzo odległe, wartość F1 będzie zbliżona do tej, która jest gorsza.