Точность
Precision пытается ответить на следующий вопрос:
Какая доля положительных идентификаций была на самом деле правильной?
Точность определяется следующим образом:
Давайте посчитаем точность для нашей модели машинного обучения из предыдущего раздела , посвященного анализу опухолей:
Истинные положительные результаты (TP): 1 | Ложные срабатывания (FP): 1 |
Ложноотрицательные результаты (FN): 8 | Истинные негативы (TN): 90 |
Наша модель имеет точность 0,5 — другими словами, когда она предсказывает, что опухоль является злокачественной, она верна в 50% случаев.
Отзывать
Вспомним попытки ответить на следующий вопрос:
Какая доля фактически положительных результатов была определена правильно?
Математически отзыв определяется следующим образом:
Давайте посчитаем отзыв для нашего классификатора опухолей:
Истинные положительные результаты (TP): 1 | Ложные срабатывания (FP): 1 |
Ложноотрицательные результаты (FN): 8 | Истинные негативы (TN): 90 |
Наша модель имеет полноту 0,11, другими словами, она правильно идентифицирует 11% всех злокачественных опухолей.
Точность и отзыв: перетягивание каната
Чтобы полностью оценить эффективность модели, вы должны проверить как точность, так и полноту. К сожалению, точность и полнота часто противоречат друг другу. То есть повышение точности обычно снижает отзыв, и наоборот. Изучите это понятие, взглянув на следующий рисунок, на котором показаны 30 прогнозов, сделанных моделью классификации электронной почты. Те, что справа от порога классификации, классифицируются как «спам», а те, что слева, классифицируются как «не спам».
Рисунок 1. Классификация сообщений электронной почты как спама или не спама.
Давайте посчитаем точность и полноту на основе результатов, показанных на рисунке 1:
Истинные положительные результаты (TP): 8 | Ложные срабатывания (FP): 2 |
Ложноотрицательные результаты (FN): 3 | Истинные негативы (TN): 17 |
Точность измеряет процент писем, помеченных как спам , которые были правильно классифицированы, то есть процент точек справа от пороговой линии, выделенных зеленым цветом на рисунке 1:
Отзыв измеряет процент правильно классифицированных писем со спамом , то есть процент зеленых точек, которые находятся справа от пороговой линии на рисунке 1:
Рисунок 2 иллюстрирует эффект увеличения порога классификации.
Рисунок 2. Повышение порога классификации.
Количество ложноположительных результатов уменьшается, а ложноотрицательных увеличивается. В результате точность увеличивается, а полнота уменьшается:
Истинные положительные результаты (TP): 7 | Ложные срабатывания (FP): 1 |
Ложноотрицательные результаты (FN): 4 | Истинные негативы (TN): 18 |
И наоборот, рисунок 3 иллюстрирует эффект снижения порога классификации (от его исходного положения на рисунке 1).
Рисунок 3. Снижение порога классификации.
Количество ложноположительных результатов увеличивается, а количество ложноотрицательных уменьшается. В результате на этот раз точность снижается, а полнота увеличивается:
Истинные положительные результаты (TP): 9 | Ложные срабатывания (FP): 3 |
Ложноотрицательные результаты (FN): 2 | Истинные негативы (TN): 16 |
Были разработаны различные показатели, которые полагаются как на точность, так и на полноту. Например, см. счет F1 .