Логистическая регрессия: потери и регуляризация

Функция потерь для логистической регрессии

Функция потерь для линейной регрессии представляет собой квадрат потери. Функция потерь для логистической регрессии — Log Loss , которая определяется следующим образом:

$$\text{Log Loss} = \sum_{(x,y)\in D} -y\log(y') - (1 - y)\log(1 - y')$$

куда:

  • \((x,y)\in D\) — это набор данных, содержащий множество помеченных примеров, представляющих собой пары \((x,y)\) .
  • \(y\) — это метка в помеченном примере. Поскольку это логистическая регрессия, каждое значение \(y\) должно быть либо 0, либо 1.
  • \(y'\) — это предсказанное значение (где-то между 0 и 1) с учетом набора функций в \(x\).

Регуляризация в логистической регрессии

Регуляризация чрезвычайно важна в моделировании логистической регрессии. Без регуляризации асимптотическая природа логистической регрессии приведет к тому, что потери будут приближаться к 0 в больших размерностях. Следовательно, большинство моделей логистической регрессии используют одну из следующих двух стратегий для уменьшения сложности модели:

  • L 2 регуляризация.
  • Ранняя остановка, то есть ограничение количества шагов обучения или скорости обучения.

(Мы обсудим третью стратегию — регуляризацию L1 — в следующем модуле .)

Представьте, что вы назначаете уникальный идентификатор каждому примеру и сопоставляете каждый идентификатор с его собственной функцией. Если вы не укажете функцию регуляризации, модель станет полностью подходящей. Это связано с тем, что модель будет пытаться свести потери к нулю во всех примерах и никогда не добьется этого, приводя веса для каждой функции индикатора к +бесконечности или -бесконечности. Это может произойти в многомерных данных с пересечениями признаков, когда существует огромная масса редких пересечений, каждое из которых происходит только в одном примере.

К счастью, использование L 2 или ранняя остановка предотвратят эту проблему.