Классификация: точность и полнота

Точность

Precision пытается ответить на следующий вопрос:

Какая доля положительных идентификаций была на самом деле правильной?

Точность определяется следующим образом:

$$\text{Precision} = \frac{TP}{TP+FP}$$

Давайте посчитаем точность для нашей модели машинного обучения из предыдущего раздела , посвященного анализу опухолей:

Истинные положительные результаты (TP): 1 Ложные срабатывания (FP): 1
Ложноотрицательные результаты (FN): 8 Истинные негативы (TN): 90
$$\text{Precision} = \frac{TP}{TP+FP} = \frac{1}{1+1} = 0.5$$

Наша модель имеет точность 0,5 — другими словами, когда она предсказывает, что опухоль является злокачественной, она верна в 50% случаев.

Отзывать

Вспомним попытки ответить на следующий вопрос:

Какая доля фактически положительных результатов была определена правильно?

Математически отзыв определяется следующим образом:

$$\text{Recall} = \frac{TP}{TP+FN}$$

Давайте посчитаем отзыв для нашего классификатора опухолей:

Истинные положительные результаты (TP): 1 Ложные срабатывания (FP): 1
Ложноотрицательные результаты (FN): 8 Истинные негативы (TN): 90
$$\text{Recall} = \frac{TP}{TP+FN} = \frac{1}{1+8} = 0.11$$

Наша модель имеет полноту 0,11, другими словами, она правильно идентифицирует 11% всех злокачественных опухолей.

Точность и отзыв: перетягивание каната

Чтобы полностью оценить эффективность модели, вы должны проверить как точность, так и полноту. К сожалению, точность и полнота часто противоречат друг другу. То есть повышение точности обычно снижает отзыв, и наоборот. Изучите это понятие, взглянув на следующий рисунок, на котором показаны 30 прогнозов, сделанных моделью классификации электронной почты. Те, что справа от порога классификации, классифицируются как «спам», а те, что слева, классифицируются как «не спам».

Числовая строка от 0 до 1,0, на которой размещено 30 примеров.

Рисунок 1. Классификация сообщений электронной почты как спама или не спама.

Давайте посчитаем точность и полноту на основе результатов, показанных на рисунке 1:

Истинные положительные результаты (TP): 8 Ложные срабатывания (FP): 2
Ложноотрицательные результаты (FN): 3 Истинные негативы (TN): 17

Точность измеряет процент писем, помеченных как спам , которые были правильно классифицированы, то есть процент точек справа от пороговой линии, выделенных зеленым цветом на рисунке 1:

$$\text{Precision} = \frac{TP}{TP + FP} = \frac{8}{8+2} = 0.8$$

Отзыв измеряет процент правильно классифицированных писем со спамом , то есть процент зеленых точек, которые находятся справа от пороговой линии на рисунке 1:

$$\text{Recall} = \frac{TP}{TP + FN} = \frac{8}{8 + 3} = 0.73$$

Рисунок 2 иллюстрирует эффект увеличения порога классификации.

Тот же набор примеров, но с немного увеличенным порогом классификации. 2 из 30 экземпляров были реклассифицированы.

Рисунок 2. Повышение порога классификации.

Количество ложноположительных результатов уменьшается, а ложноотрицательных увеличивается. В результате точность увеличивается, а полнота уменьшается:

Истинные положительные результаты (TP): 7 Ложные срабатывания (FP): 1
Ложноотрицательные результаты (FN): 4 Истинные негативы (TN): 18
$$\text{Precision} = \frac{TP}{TP + FP} = \frac{7}{7+1} = 0.88$$$$\text{Recall} = \frac{TP}{TP + FN} = \frac{7}{7 + 4} = 0.64$$

И наоборот, рисунок 3 иллюстрирует эффект снижения порога классификации (от его исходного положения на рисунке 1).

Тот же набор примеров, но с пониженным порогом классификации.

Рисунок 3. Снижение порога классификации.

Количество ложноположительных результатов увеличивается, а количество ложноотрицательных уменьшается. В результате на этот раз точность снижается, а полнота увеличивается:

Истинные положительные результаты (TP): 9 Ложные срабатывания (FP): 3
Ложноотрицательные результаты (FN): 2 Истинные негативы (TN): 16
$$\text{Precision} = \frac{TP}{TP + FP} = \frac{9}{9+3} = 0.75$$$$\text{Recall} = \frac{TP}{TP + FN} = \frac{9}{9 + 2} = 0.82$$

Были разработаны различные показатели, которые полагаются как на точность, так и на полноту. Например, см. счет F1 .