Классификация: точность, полнота, прецизионность и соответствующие показатели.

Истинные и ложные положительные и отрицательные значения используются для расчета нескольких полезных метрик для оценки моделей. Какие метрики оценки наиболее значимы, зависит от конкретной модели и конкретной задачи, стоимости различных ошибочных классификаций и от того, сбалансирован или несбалансирован набор данных.

Все метрики в этом разделе рассчитываются по одному фиксированному порогу и изменяются при изменении порога. Очень часто пользователь настраивает порог, чтобы оптимизировать одну из этих метрик.

Точность

Точность — это доля всех правильных классификаций, будь то положительных или отрицательных. Математически она определяется как:

\[\text{Accuracy} = \frac{\text{correct classifications}}{\text{total classifications}} = \frac{TP+TN}{TP+TN+FP+FN}\]

В примере классификации спама точность измеряет долю всех правильно классифицированных писем.

Идеальная модель имела бы ноль ложноположительных и ноль ложноотрицательных результатов и, следовательно, точность составляла бы 1,0 или 100%.

Поскольку он включает все четыре результата из матрицы путаницы (TP, FP, TN, FN), учитывая сбалансированный набор данных с аналогичным количеством примеров в обоих классах, точность может служить грубой мерой качества модели. По этой причине она часто является метрикой оценки по умолчанию, используемой для общих или неопределенных моделей, выполняющих общие или неопределенные задачи.

Однако, если набор данных несбалансирован или один тип ошибок (FN или FP) обходится дороже другого, что имеет место в большинстве реальных приложений, лучше выполнить оптимизацию по одной из других метрик.

Для сильно несбалансированных наборов данных, где один класс появляется очень редко, скажем, в 1% случаев, модель, которая предсказывает отрицательные результаты в 100% случаев, будет иметь точность 99%, несмотря на свою бесполезность.

Отзыв или истинно положительный показатель

Истинно положительный процент (TPR) или доля всех фактических положительных результатов, которые были правильно классифицированы как положительные, также известен как отзыв .

Математически отзыв определяется как:

\[\text{Recall (or TPR)} = \frac{\text{correctly classified actual positives}}{\text{all actual positives}} = \frac{TP}{TP+FN}\]

Ложные отрицательные результаты — это фактические положительные результаты, которые были ошибочно классифицированы как отрицательные, поэтому они и появляются в знаменателе. В примере классификации спама отзыв измеряет долю спам-писем, которые были правильно классифицированы как спам. Вот почему еще одно название отзыва — вероятность обнаружения : он отвечает на вопрос «Какая доля спам-писем обнаруживается этой моделью?»

Гипотетическая идеальная модель имела бы ноль ложноотрицательных результатов и, следовательно, полноту (TPR) 1,0, что означает 100%-ный уровень обнаружения.

В несбалансированном наборе данных, где количество фактических положительных результатов очень мало, полнота является более значимой метрикой, чем точность, поскольку она измеряет способность модели правильно идентифицировать все положительные случаи. Для таких приложений, как прогнозирование заболеваний, правильное определение положительных случаев имеет решающее значение. Ложноотрицательный результат обычно имеет более серьезные последствия, чем ложноположительный. Для конкретного примера сравнения показателей полноты и точности см. примечания в определении полноты .

Ложноположительный процент

Коэффициент ложных срабатываний (FPR) — это доля всех фактических отрицательных результатов, которые были неправильно классифицированы как положительные, также известная как вероятность ложной тревоги. Математически она определяется как:

\[\text{FPR} = \frac{\text{incorrectly classified actual negatives}} {\text{all actual negatives}} = \frac{FP}{FP+TN}\]

Ложные срабатывания — это фактические отрицательные срабатывания, которые были неправильно классифицированы, поэтому они и появляются в знаменателе. В примере классификации спама FPR измеряет долю легитимных писем, которые были неправильно классифицированы как спам, или частоту ложных срабатываний модели.

Идеальная модель имела бы ноль ложных срабатываний и, следовательно, FPR равнялся бы 0,0, то есть 0% ложных срабатываний.

В несбалансированном наборе данных, где количество фактических отрицательных значений очень и очень мало, скажем, всего 1-2 примера, FPR становится менее значимым и менее полезным показателем.

Точность

Точность — это доля всех положительных классификаций модели, которые действительно положительны. Математически она определяется как:

\[\text{Precision} = \frac{\text{correctly classified actual positives}} {\text{everything classified as positive}} = \frac{TP}{TP+FP}\]

В примере классификации спама точность измеряет долю писем, классифицированных как спам, которые на самом деле таковыми не являются.

Гипотетически идеальная модель имела бы ноль ложных срабатываний и, следовательно, точность 1,0.

В несбалансированном наборе данных, где количество фактических положительных результатов очень и очень мало, скажем, всего 1-2 примера, точность имеет меньшее значение и менее полезна как метрика.

Точность улучшается по мере уменьшения ложных положительных результатов, тогда как полнота улучшается по мере уменьшения ложных отрицательных результатов. Но, как было показано в предыдущем разделе, увеличение порога классификации имеет тенденцию уменьшать количество ложных положительных результатов и увеличивать количество ложных отрицательных результатов, тогда как уменьшение порога имеет противоположные эффекты. В результате точность и полнота часто показывают обратную зависимость, когда улучшение одного из них ухудшает другой.

Попробуйте сами:

Что означает NaN в метриках?

NaN, или «не число», появляется при делении на 0, что может произойти с любой из этих метрик. Например, когда TP и FP оба равны 0, формула для точности имеет 0 в знаменателе, что приводит к NaN. Хотя в некоторых случаях NaN может указывать на идеальную производительность и может быть заменено оценкой 1,0, он также может исходить из модели, которая практически бесполезна. Например, модель, которая никогда не предсказывает положительное, будет иметь 0 TP и 0 FP, и, таким образом, расчет ее точности приведет к NaN.

Выбор метрики и компромиссы

Метрика(и), которые вы выбираете в качестве приоритетных при оценке модели и выборе порогового значения, зависят от затрат, выгод и рисков конкретной проблемы. В примере классификации спама часто имеет смысл отдать приоритет отзыву, то есть изъятию всех спам-писем, или точности, то есть попытке убедиться, что помеченные как спам письма на самом деле являются спамом, или некоторому балансу между этими двумя, выше некоторого минимального уровня точности.

Метрический Руководство
Точность

Использовать как приблизительный индикатор прогресса обучения/сходимости модели для сбалансированных наборов данных.

Для оценки эффективности модели используйте только в сочетании с другими показателями.

Избегайте для несбалансированных наборов данных. Рассмотрите возможность использования другой метрики.

Отзывать
(истинно положительный процент)
Используйте, когда ложноотрицательные результаты обходятся дороже ложноположительных.
Ложноположительный процент Используйте, когда ложноположительные результаты обходятся дороже ложноотрицательных.
Точность Используйте, когда очень важно, чтобы положительные прогнозы были точными.

(Необязательно, продвинутый) Оценка F1

Показатель F1 представляет собой среднее гармоническое (своего рода среднее) значение точности и полноты.

Математически это выражается следующим образом:

\[\text{F1}=2*\frac{\text{precision * recall}}{\text{precision + recall}} = \frac{2\text{TP}}{2\text{TP + FP + FN}}\]

Эта метрика уравновешивает важность точности и полноты и предпочтительнее точности для наборов данных с несбалансированным классом. Когда точность и полнота имеют идеальные оценки 1,0, F1 также будет иметь идеальную оценку 1,0. В более широком смысле, когда точность и полнота близки по значению, F1 будет близка к их значению. Когда точность и полнота сильно различаются, F1 будет похожа на худшую метрику.

Упражнение: проверьте свое понимание

Модель выдает 5 TP, 6 TN, 3 FP и 2 FN. Рассчитайте отзыв.
0,714
Отзыв рассчитывается как \(\frac{TP}{TP+FN}=\frac{5}{7}\).
0,455
Recall учитывает все фактические положительные моменты, а не все правильные классификации. Формула для отзыва: \(\frac{TP}{TP+FN}\).
0,625
Recall учитывает все фактические позитивы, а не все положительные классификации. Формула для отзыва: \(\frac{TP}{TP+FN}\)
Модель выводит 3 TP, 4 TN, 2 FP и 1 FN. Рассчитайте точность.
0,6
Точность рассчитывается как \(\frac{TP}{TP+FP}=\frac{3}{5}\).
0,75
Точность учитывает все положительные классификации, а не все фактические положительные. Формула для точности: \(\frac{TP}{TP+FP}\).
0,429
Точность учитывает все положительные классификации, а не все правильные классификации. Формула точности: \(\frac{TP}{TP+FP}\)
Вы создаете бинарный классификатор, который проверяет фотографии ловушек для насекомых на наличие опасного инвазивного вида. Если модель обнаруживает вид, дежурный энтомолог (ученый, изучающий насекомых) уведомляется. Раннее обнаружение этого насекомого имеет решающее значение для предотвращения заражения. Ложную тревогу (ложное срабатывание) легко обработать: энтомолог видит, что фотография была неправильно классифицирована, и отмечает ее как таковую. Предполагая приемлемый уровень точности, для какой метрики следует оптимизировать эту модель?
Отзывать
В этом сценарии ложные тревоги обходятся недорого, а ложные отрицательные сигналы обходятся дорого, поэтому имеет смысл максимизировать полноту или вероятность обнаружения.
Коэффициент ложноположительных результатов (FPR)
В этом сценарии ложные тревоги (ЛТ) обходятся недорого. Попытка минимизировать их за счет риска пропустить реальные положительные результаты не имеет смысла.
Точность
В этом сценарии ложные тревоги (ЛТ) не представляют особой опасности, поэтому попытки улучшить правильность положительных классификаций не имеют смысла.