Klasyfikacja: dokładność

Dokładność to jeden z rodzajów danych do oceny modeli klasyfikacji. W prosty sposób dokładność to ułamek prognoz, które nasz model okazał się prawidłowy. Formalność ma taką definicję:

$$\text{Accuracy} = \frac{\text{Number of correct predictions}}{\text{Total number of predictions}}$$

W przypadku klasyfikacji binarnej dokładność można też obliczyć w postaci dodatniej i ujemnej:

$$\text{Accuracy} = \frac{TP+TN}{TP+TN+FP+FN}$$

Gdzie TP = dodatnie dodatnie, TN = prawdziwe wyniki, FP = fałszywie pozytywne, FN = fałszywie negatywne.

Spróbuj obliczyć dokładność dla następującego modelu, który sklasyfikował 100 guzów jako złośliwe (klasy dodatnie) lub łagodne (klasa negatywna):

True dodatnie (TP):
  • Reality show: szkodliwy element
  • Prognozowany model ML: Malignant
  • Liczba wyników TP: 1
Fałszywy dodatni:
  • Reality show: bengalski
  • Prognozowany model ML: Malignant
  • Liczba wyników FP: 1
Fałszywy wynik FN:
  • Reality show: szkodliwy element
  • Prognozowany model ML: Benign
  • Liczba wyników FN: 8
Prawidłowe wykluczenie (TN):
  • Reality show: bengalski
  • Prognozowany model ML: Benign
  • Liczba wyników TN: 90
$$\text{Accuracy} = \frac{TP+TN}{TP+TN+FP+FN} = \frac{1+90}{1+90+1+8} = 0.91$$

Dokładność wynosi 0,91, czyli 91% (91 prawidłowych prognoz na 100 przykładów łącznie). Oznacza to, że nasz klasyfikator klasyfikacji świetnie radzi sobie ze szkodliwymi treściami, prawda?

Wykonajmy bliższą analizę pozytywnych i negatywnych statystyk, aby lepiej poznać skuteczność naszego modelu.

91 ze 100 przykładów nowotworów to niegroźne (90 TN i 1 FP), a 9 to złośliwe (1 TP i 8 FN).

Model 90 spośród 91 łagodnych guzów poprawnie identyfikuje 90 jako łagodny. To nieźle. Model jest jednak rozpoznawany jako 1 z 9 złośliwych guzów (8 z 9).

Na pierwszy rzut oka dokładność na poziomie 91% może wydawać się dobra, ale w innych przykładach inny model klasyfikacji nowotworów, który zawsze przewiduje, że jest nieistotny, da taką samą dokładność (91/100 poprawnych prognoz). Innymi słowy, nasz model nie jest lepszy od tych, które nie są w stanie przewidzieć nowotworów złośliwych i niegroźnych.

Sama dokładność nie daje pełnej informacji o tym, kiedy korzystasz ze zbioru danych niezrównoważonego w klasie jak ten, w którym występuje duża rozbieżność między liczbą etykiet pozytywnych i negatywnych.

W następnej sekcji przyjrzymy się 2 lepszym wskaźnikom dotyczącym oceniania problemów zrównoważonych w klasie: precyzji i czułości.