Истинные и ложные положительные и отрицательные результаты используются для расчета нескольких полезных метрик оценки моделей. Какие метрики оценки являются наиболее значимыми, зависит от конкретной модели и конкретной задачи, стоимости различных ошибок классификации, а также от того, является ли набор данных сбалансированным или несбалансированным.
Все метрики в этом разделе рассчитываются при одном фиксированном пороговом значении и изменяются при изменении этого порога. Очень часто пользователь настраивает пороговое значение для оптимизации одной из этих метрик.
Точность
Точность — это доля всех правильных классификаций, как положительных, так и отрицательных. Математически она определяется следующим образом:
\[\text{Accuracy} = \frac{\text{correct classifications}}{\text{total classifications}} = \frac{TP+TN}{TP+TN+FP+FN}\]
В примере с классификацией спама точность измеряет долю всех правильно классифицированных электронных писем.
Идеальная модель должна иметь ноль ложных срабатываний и ноль ложных отрицаний, а следовательно, точность 1,0, или 100%.
Поскольку точность учитывает все четыре результата из матрицы ошибок (TP, FP, TN, FN), при сбалансированном наборе данных с примерно одинаковым количеством примеров в обоих классах, она может служить приблизительной мерой качества модели. По этой причине она часто используется в качестве метрики оценки по умолчанию для универсальных или неспецифических моделей, выполняющих универсальные или неспецифические задачи.
Однако, когда набор данных несбалансирован или когда один тип ошибки (ложная или ложная) обходится дороже, чем другой, что имеет место в большинстве реальных приложений, лучше оптимизировать один из других показателей.
В сильно несбалансированных наборах данных, где один класс встречается очень редко, скажем, в 1% случаев, модель, которая предсказывает отрицательное значение в 100% случаев, получит 99% точности, несмотря на свою бесполезность.
Показатель отзыва или показатель истинно положительных результатов
Показатель истинно положительных результатов (TPR) , или доля всех фактически положительных результатов, которые были правильно классифицированы как положительные, также известен как показатель полноты .
Математически показатель полноты определяется следующим образом:
\[\text{Recall (or TPR)} = \frac{\text{correctly classified actual positives}}{\text{all actual positives}} = \frac{TP}{TP+FN}\]
Ложные отрицательные результаты — это фактически положительные результаты, ошибочно классифицированные как отрицательные, поэтому они и появляются в знаменателе. В примере с классификацией спама показатель полноты (recall) измеряет долю спам-писем, которые были правильно классифицированы как спам. Именно поэтому другое название показателя полноты — вероятность обнаружения : он отвечает на вопрос: «Какая доля спам-писем обнаруживается этой моделью?»
Гипотетическая идеальная модель имела бы ноль ложноотрицательных результатов и, следовательно, показатель полноты обнаружения (TPR) равный 1,0, то есть 100% показатель обнаружения.
В несбалансированном наборе данных, где количество фактически положительных результатов очень мало, показатель полноты (recall) является более значимым, чем показатель точности (accuracy), поскольку он измеряет способность модели правильно идентифицировать все положительные случаи. Для таких приложений, как прогнозирование заболеваний, правильная идентификация положительных случаев имеет решающее значение. Ложноотрицательный результат обычно имеет более серьезные последствия, чем ложноположительный. Конкретный пример сравнения показателей полноты и точности см. в примечаниях к определению полноты .
Частота ложноположительных результатов
Показатель ложноположительных результатов (FPR) — это доля всех фактически отрицательных результатов, которые были ошибочно классифицированы как положительные, также известная как вероятность ложной тревоги. Математически он определяется следующим образом:
\[\text{FPR} = \frac{\text{incorrectly classified actual negatives}} {\text{all actual negatives}} = \frac{FP}{FP+TN}\]
Ложные срабатывания — это фактические отрицательные результаты, которые были неправильно классифицированы, поэтому они и появляются в знаменателе. В примере с классификацией спама показатель FPR измеряет долю легитимных электронных писем, которые были ошибочно классифицированы как спам, или частоту ложных срабатываний модели.
Идеальная модель имела бы ноль ложных срабатываний и, следовательно, FPR равный 0,0, то есть 0% ложных тревог.
Для несбалансированного набора данных показатель FPR (Facebook, PvP, React, Protocol, Financing) обычно является более информативным, чем показатель точности (Territory, accuracy). Однако, если количество фактически отрицательных результатов очень мало, FPR может быть не самым лучшим выбором из-за его нестабильности. Например, если в наборе данных всего четыре фактически отрицательных результата, одна ошибка классификации приводит к FPR в 25%, а вторая ошибка классификации вызывает скачок FPR до 50%. В таких случаях точность (описанная далее) может быть более стабильным показателем для оценки влияния ложноположительных результатов.
Точность
Точность — это доля всех положительных классификаций модели, которые действительно являются положительными. Математически она определяется следующим образом:
\[\text{Precision} = \frac{\text{correctly classified actual positives}} {\text{everything classified as positive}} = \frac{TP}{TP+FP}\]
В примере с классификацией спама точность измеряет долю электронных писем, классифицированных как спам, которые на самом деле таковыми и являлись.
Гипотетическая идеальная модель имела бы ноль ложных срабатываний и, следовательно, точность 1,0.
В несбалансированном наборе данных, где количество фактически положительных результатов очень и очень мало, скажем, 1-2 примера в общей сложности, точность становится менее значимой и менее полезной в качестве показателя.
Точность повышается по мере уменьшения количества ложных срабатываний, а полнота повышается по мере уменьшения количества ложных отрицаний. Но, как было показано в предыдущем разделе, повышение порога классификации, как правило, уменьшает количество ложных срабатываний и увеличивает количество ложных отрицаний, в то время как снижение порога оказывает противоположный эффект. В результате точность и полнота часто демонстрируют обратную зависимость, где улучшение одного из них ухудшает другой.
Попробуйте сами:
Выбор метрики и компромиссы
Выбор приоритетных метрик при оценке модели и определении порогового значения зависит от затрат, преимуществ и рисков конкретной задачи. В примере с классификацией спама часто целесообразно отдавать приоритет полноте (recall), то есть обнаружению всех спам-писем, или точности (precision), то есть обеспечению того, чтобы помеченные как спам письма действительно являлись спамом, или же балансу между этими двумя показателями, превышающему минимальный уровень точности.
| Метрическая система | Руководство |
|---|---|
| Точность | Используйте в качестве приблизительного индикатора прогресса/сходимости обучения модели для сбалансированных наборов данных. Для оценки производительности модели используйте ее только в сочетании с другими метриками. Избегайте использования этого показателя для несбалансированных наборов данных. Рассмотрите возможность использования другой метрики. |
| Отзывать (Показатель истинно положительных результатов) | Используйте этот метод, когда ложноотрицательные результаты обходятся дороже, чем ложноположительные. |
| Частота ложноположительных результатов | Используйте этот метод, когда ложноположительные результаты обходятся дороже, чем ложноотрицательные. |
| Точность | Используйте этот метод, когда точность положительных прогнозов крайне важна. |