Эта страница переведена с помощью Cloud Translation API.

Классификация

В этом модуле показано, как можно использовать логистическую регрессию для задач классификации, и исследуется, как оценить эффективность моделей классификации.

Классификация

Классификация против регрессии

Иногда мы используем логистическую регрессию для выходных данных вероятности — это регрессия в (0, 1)
В других случаях мы будем пороговое значение для дискретной двоичной классификации
Выбор порога является важным выбором и может быть настроен

Показатели оценки: точность

Как мы оцениваем модели классификации?

Показатели оценки: точность

Как мы оцениваем модели классификации?
Одна из возможных мер: Точность
- доля прогнозов, которые мы оправдали

Точность может ввести в заблуждение

Во многих случаях точность является плохой или вводящей в заблуждение метрикой.
- Чаще всего, когда разные виды ошибок имеют разную цену
- Типичный случай включает дисбаланс классов , когда положительные или отрицательные результаты встречаются крайне редко.

Истинные срабатывания и ложноположительные срабатывания

Для задач с несбалансированными классами полезно различать разные виды ошибок.

Истинные положительные стороны Мы правильно назвали волка! Мы спасли город.	Ложные срабатывания Ошибка: мы ложно назвали волка. Все злы на нас.
Ложноотрицательные результаты Был волк, но мы его не заметили. Он съел всех наших кур.	Истинные негативы Нет волка, нет тревоги. Все в порядке.

Метрики оценки: точность и полнота

Точность: (Истинно положительные результаты) / (Все положительные прогнозы)

Когда модель сказала «положительный» класс, она была права?
Интуиция: Модель слишком часто кричала «волк»?

Метрики оценки: точность и полнота

Точность: (Истинно положительные результаты) / (Все положительные прогнозы)

Когда модель сказала «положительный» класс, она была права?
Интуиция: Модель слишком часто кричала «волк»?

Напомним : (истинные положительные результаты) / (все фактические положительные результаты)

Из всех возможных положительных результатов, сколько правильно определила модель?
Интуиция: Пропустил ли он волков?

Когда вы закончите, нажмите кнопку воспроизведения ▶, чтобы продолжить.

Изучите варианты ниже.

Рассмотрим модель классификации, которая разделяет электронную почту на две категории: «спам» и «не спам». Если вы повысите порог классификации, что произойдет с точностью?

Однозначно увеличивать.

Повышение порога классификации обычно увеличивает точность; однако не гарантируется монотонное увеличение точности при повышении порога.

Вероятно увеличение.

В общем, повышение порога классификации уменьшает количество ложных срабатываний, тем самым повышая точность.

Вероятно снижение.

Однозначно уменьшать.

Кривая ROC

Каждая точка представляет собой скорость TP и FP при одном пороге принятия решения.

Метрики оценки: AUC

AUC: «Площадь под кривой ROC»

Метрики оценки: AUC

AUC: «Площадь под кривой ROC»
Интерпретация:

Если мы выберем случайное положительное и случайное отрицательное, какова вероятность того, что моя модель ранжирует их в правильном порядке?

Метрики оценки: AUC

AUC: «Площадь под кривой ROC»
Интерпретация:

Если мы выберем случайное положительное и случайное отрицательное, какова вероятность того, что моя модель ранжирует их в правильном порядке?

Интуиция: дает совокупный показатель производительности по всем возможным порогам классификации.

Смещение прогноза

Прогнозы логистической регрессии должны быть объективными.

среднее значение прогнозов == среднее значение наблюдений

Смещение прогноза

Прогнозы логистической регрессии должны быть объективными.

среднее значение прогнозов == среднее значение наблюдений

Биас - канарейка.

Нулевое смещение само по себе не означает, что все в вашей системе идеально.
Но это отличная проверка здравомыслия.

Смещение прогноза (продолжение)

Если у вас есть предубеждение, у вас есть проблема.

Неполный набор функций?
Глючный трубопровод?
Предвзятая обучающая выборка?

Не исправляйте смещение с помощью калибровочного слоя, исправьте его в модели.
Ищите предвзятость в фрагментах данных — это может помочь в улучшении.

Калибровочные графики показывают систематическую погрешность

Центр помощи

Потеря и регуляризация

Порог