В этом модуле показано, как можно использовать логистическую регрессию для задач классификации, и исследуется, как оценить эффективность моделей классификации.
Классификация
Классификация против регрессии
- Иногда мы используем логистическую регрессию для выходных данных вероятности — это регрессия в (0, 1)
- В других случаях мы будем пороговое значение для дискретной двоичной классификации
- Выбор порога является важным выбором и может быть настроен
Показатели оценки: точность
- Как мы оцениваем модели классификации?
Показатели оценки: точность
- Как мы оцениваем модели классификации?
- Одна из возможных мер: Точность
- доля прогнозов, которые мы оправдали
Точность может ввести в заблуждение
- Во многих случаях точность является плохой или вводящей в заблуждение метрикой.
- Чаще всего, когда разные виды ошибок имеют разную цену
- Типичный случай включает дисбаланс классов , когда положительные или отрицательные результаты встречаются крайне редко.
Истинные срабатывания и ложноположительные срабатывания
- Для задач с несбалансированными классами полезно различать разные виды ошибок.
Истинные положительные стороны Мы правильно назвали волка! Мы спасли город. | Ложные срабатывания Ошибка: мы ложно назвали волка. Все злы на нас. |
Ложноотрицательные результаты Был волк, но мы его не заметили. Он съел всех наших кур. | Истинные негативы Нет волка, нет тревоги. Все в порядке. |
Метрики оценки: точность и полнота
- Точность: (Истинно положительные результаты) / (Все положительные прогнозы)
- Когда модель сказала «положительный» класс, она была права?
- Интуиция: Модель слишком часто кричала «волк»?
Метрики оценки: точность и полнота
- Точность: (Истинно положительные результаты) / (Все положительные прогнозы)
- Когда модель сказала «положительный» класс, она была права?
- Интуиция: Модель слишком часто кричала «волк»?
- Напомним : (истинные положительные результаты) / (все фактические положительные результаты)
- Из всех возможных положительных результатов, сколько правильно определила модель?
- Интуиция: Пропустил ли он волков?
Когда вы закончите, нажмите кнопку воспроизведения ▶, чтобы продолжить.
Изучите варианты ниже.
Рассмотрим модель классификации, которая разделяет электронную почту на две категории: «спам» и «не спам». Если вы повысите порог классификации, что произойдет с точностью?
Однозначно увеличивать.
Повышение порога классификации обычно увеличивает точность; однако не гарантируется монотонное увеличение точности при повышении порога.
Вероятно увеличение.
В общем, повышение порога классификации уменьшает количество ложных срабатываний, тем самым повышая точность.
Вероятно снижение.
В общем, повышение порога классификации уменьшает количество ложных срабатываний, тем самым повышая точность.
Однозначно уменьшать.
В общем, повышение порога классификации уменьшает количество ложных срабатываний, тем самым повышая точность.
Кривая ROC
Каждая точка представляет собой скорость TP и FP при одном пороге принятия решения.
Метрики оценки: AUC
- AUC: «Площадь под кривой ROC»
Метрики оценки: AUC
- AUC: «Площадь под кривой ROC»
- Интерпретация:
- Если мы выберем случайное положительное и случайное отрицательное, какова вероятность того, что моя модель ранжирует их в правильном порядке?
Метрики оценки: AUC
- AUC: «Площадь под кривой ROC»
- Интерпретация:
- Если мы выберем случайное положительное и случайное отрицательное, какова вероятность того, что моя модель ранжирует их в правильном порядке?
- Интуиция: дает совокупный показатель производительности по всем возможным порогам классификации.
Смещение прогноза
- Прогнозы логистической регрессии должны быть объективными.
- среднее значение прогнозов == среднее значение наблюдений
Смещение прогноза
- Прогнозы логистической регрессии должны быть объективными.
- среднее значение прогнозов == среднее значение наблюдений
- Биас - канарейка.
- Нулевое смещение само по себе не означает, что все в вашей системе идеально.
- Но это отличная проверка здравомыслия.
Смещение прогноза (продолжение)
- Если у вас есть предубеждение, у вас есть проблема.
- Неполный набор функций?
- Глючный трубопровод?
- Предвзятая обучающая выборка?
- Не исправляйте смещение с помощью калибровочного слоя, исправьте его в модели.
- Ищите предвзятость в фрагментах данных — это может помочь в улучшении.