Логистическая регрессия

Вместо точного предсказания 0 или 1 логистическая регрессия генерирует вероятность — значение от 0 до 1, исключая. Например, рассмотрим модель логистической регрессии для обнаружения спама. Если модель выводит значение 0,932 для конкретного сообщения электронной почты, это означает, что вероятность того, что сообщение электронной почты является спамом, составляет 93,2%. Точнее, это означает, что в пределе бесконечных обучающих примеров набор примеров, для которых модель предсказывает 0,932, на самом деле будет спамом в 93,2% случаев, а остальные 6,8% — нет.

Логистическая регрессия

  • Представьте себе задачу предсказания вероятности выпадения орла для погнутых монет.
  • Вы можете использовать такие функции, как угол изгиба, масса монеты и т. д.
  • Какую самую простую модель вы могли бы использовать?
  • Что может пойти не так?
2 монеты согнуты
  • Многие задачи требуют оценки вероятности на выходе.
  • Введите логистическую регрессию
  • Многие задачи требуют оценки вероятности на выходе.
  • Введите логистическую регрессию
  • Удобно, потому что оценки вероятности откалиброваны
    • например, p(дом будет продан) * цена = ожидаемый результат
  • Многие задачи требуют оценки вероятности на выходе.
  • Введите логистическую регрессию
  • Удобно, потому что оценки вероятности откалиброваны
    • например, p(дом будет продан) * цена = ожидаемый результат
  • Также полезно, когда нам нужна бинарная классификация
    • спам или не спам? → p(Спам)

$$ y' = \frac{1}{1 + e^{-(w^Tx+b)}} $$

\(\text{Where:} \)\(x\text{: Provides the familiar linear model}\)\(1+e^{-(...)}\text{: Squish through a sigmoid}\)

График уравнения логистической регрессии

$$ LogLoss = \sum_{(x,y)\in D} -y\,log(y') - (1 - y)\,log(1 - y') $$

Два графика Log Loss по сравнению с прогнозируемым значением: один для целевого значения 0,0 (дуги вверх и вправо) и один для целевого значения 1,0 (дуги вниз и влево)
  • Регуляризация очень важна для логистической регрессии.
    • Помните об асимптотах
    • Он будет продолжать пытаться свести потери к 0 в высоких измерениях.
  • Регуляризация очень важна для логистической регрессии.
    • Помните об асимптотах
    • Он будет продолжать пытаться свести потери к 0 в высоких измерениях.
  • Особенно полезны две стратегии:
    • Регуляризация L 2 ( также известная как уменьшение веса L 2) - наказывает большие веса.
    • Ранняя остановка — ограничение шагов обучения или скорости обучения.
  • Линейная логистическая регрессия чрезвычайно эффективна.
    • Очень быстрое время обучения и прогнозирования.
    • Короткие/широкие модели используют много оперативной памяти.