Эта страница переведена с помощью Cloud Translation API.

Логистическая регрессия: потери и регуляризация

Функция потерь для логистической регрессии

Функция потерь для линейной регрессии представляет собой квадрат потери. Функция потерь для логистической регрессии — Log Loss , которая определяется следующим образом:

$$\text{Log Loss} = \sum_{(x,y)\in D} -y\log(y') - (1 - y)\log(1 - y')$$

куда:

$(x,y)\in D$ — это набор данных, содержащий множество помеченных примеров, представляющих собой пары $(x,y)$ .
$y$ — это метка в помеченном примере. Поскольку это логистическая регрессия, каждое значение $y$ должно быть либо 0, либо 1.
$y'$ — это предсказанное значение (где-то между 0 и 1) с учетом набора функций в $x$.

Регуляризация в логистической регрессии

Регуляризация чрезвычайно важна в моделировании логистической регрессии. Без регуляризации асимптотическая природа логистической регрессии приведет к тому, что потери будут приближаться к 0 в больших размерностях. Следовательно, большинство моделей логистической регрессии используют одну из следующих двух стратегий для уменьшения сложности модели:

L ₂ регуляризация.
Ранняя остановка, то есть ограничение количества шагов обучения или скорости обучения.

(Мы обсудим третью стратегию — регуляризацию _L1 — в следующем модуле .)

Представьте, что вы назначаете уникальный идентификатор каждому примеру и сопоставляете каждый идентификатор с его собственной функцией. Если вы не укажете функцию регуляризации, модель станет полностью подходящей. Это связано с тем, что модель будет пытаться свести потери к нулю во всех примерах и никогда не добьется этого, приводя веса для каждой функции индикатора к +бесконечности или -бесконечности. Это может произойти в многомерных данных с пересечениями признаков, когда существует огромная масса редких пересечений, каждое из которых происходит только в одном примере.

К счастью, использование L ₂ или ранняя остановка предотвратят эту проблему.

Центр помощи

Расчет вероятности

Видео лекция

ранняя остановка	журнал потерь
L ₁ регуляризация	L ₂ регуляризация