Классификация: Точность

Точность — это одна из метрик для оценки моделей классификации. Неформально точность — это доля правильных прогнозов, сделанных нашей моделью. Формально точность имеет следующее определение:

$$\text{Accuracy} = \frac{\text{Number of correct predictions}}{\text{Total number of predictions}}$$

Для бинарной классификации точность также может быть рассчитана с точки зрения положительных и отрицательных результатов следующим образом:

$$\text{Accuracy} = \frac{TP+TN}{TP+TN+FP+FN}$$

Где TP = истинные положительные результаты, TN = истинные отрицательные результаты, FP = ложные положительные результаты и FN = ложные отрицательные результаты.

Давайте попробуем рассчитать точность для следующей модели, которая классифицирует 100 опухолей как злокачественные (положительный класс) или доброкачественные (отрицательный класс):

Истинный положительный результат (TP):
  • Реальность: Злокачественный
  • Прогноз модели ML: злокачественный
  • Количество результатов ТП: 1
Ложноположительный результат (FP):
  • Реальность: доброкачественная
  • Прогноз модели ML: злокачественный
  • Количество результатов FP: 1
Ложноотрицательный (FN):
  • Реальность: Злокачественный
  • Прогноз модели ML: доброкачественный
  • Количество результатов FN: 8
Истинный отрицательный результат (TN):
  • Реальность: доброкачественная
  • Прогноз модели ML: доброкачественный
  • Количество результатов TN: 90
$$\text{Accuracy} = \frac{TP+TN}{TP+TN+FP+FN} = \frac{1+90}{1+90+1+8} = 0.91$$

Точность составляет 0,91, или 91% (91 правильный прогноз из 100 примеров). Это означает, что наш классификатор опухолей отлично справляется с идентификацией злокачественных новообразований, верно?

На самом деле, давайте проведем более тщательный анализ положительных и отрицательных сторон, чтобы лучше понять производительность нашей модели.

Из 100 примеров опухолей 91 являются доброкачественными (90 TN и 1 FP) и 9 являются злокачественными (1 TP и 8 FN).

Из 91 доброкачественной опухоли модель правильно идентифицирует 90 как доброкачественные. Это хорошо. Однако из 9 злокачественных опухолей модель правильно идентифицирует только 1 как злокачественную — ужасный результат, поскольку 8 из 9 злокачественных новообразований остаются недиагностированными!

Хотя на первый взгляд точность 91% может показаться хорошей, другая модель классификатора опухолей, которая всегда предсказывает доброкачественные опухоли, достигла бы точно такой же точности (91/100 правильных прогнозов) в наших примерах. Другими словами, наша модель ничем не лучше модели с нулевой прогностической способностью отличать злокачественные опухоли от доброкачественных.

Одна только точность не дает полной картины, когда вы работаете с набором данных с несбалансированными классами , подобным этому, где существует значительное несоответствие между количеством положительных и отрицательных меток.

В следующем разделе мы рассмотрим две лучшие метрики для оценки проблем с несбалансированностью классов: точность и полнота.