Классификация: пороговое значение

Логистическая регрессия возвращает вероятность. Вы можете использовать возвращенную вероятность "как есть" (например, вероятность того, что пользователь нажмет на это объявление, равна 0,00023) или преобразовать возвращенную вероятность в двоичное значение (например, это электронное письмо является спамом).

Модель логистической регрессии, которая возвращает 0,9995 для конкретного сообщения электронной почты, предсказывает, что оно, скорее всего, является спамом. И наоборот, другое сообщение электронной почты с прогнозируемой оценкой 0,0003 в той же модели логистической регрессии, скорее всего, не является спамом. Однако как насчет сообщения электронной почты с прогнозируемой оценкой 0,6? Чтобы сопоставить значение логистической регрессии с бинарной категорией, необходимо определить порог классификации (также называемый порогом принятия решения ). Значение выше этого порога указывает на «спам»; значение ниже означает «не спам». Заманчиво предположить, что порог классификации всегда должен быть равен 0,5, но пороги зависят от проблемы и, следовательно, являются значениями, которые вы должны настроить.

В следующих разделах более подробно рассматриваются метрики, которые можно использовать для оценки прогнозов модели классификации, а также влияние изменения порога классификации на эти прогнозы.