Перегляньте варіанти нижче.

Уявіть собі лінійну модель із двома ознаками, які сильно взаємопов’язані, тобто є майже ідентичними копіями одна одної, але одна з них містить невелику кількість випадкового шуму. Що станеться з вагами для цих двох ознак, якщо навчати цю модель, використовуючи регуляризацію L2?
Обидві ознаки матимуть приблизно однакові помірні ваги.
Через регуляризацію L2 ознаки отримають майже еквівалентні ваги, що становлять приблизно половину від числа, яке було б присвоєно, якби модель мала лише одну з них.
Вага однієї ознаки буде велика, а вага іншої становитиме майже 0,0.
Регуляризація L2 більше штрафує за великі ваги, ніж за малі. Таким чином, навіть якби одна вага почала знижуватися швидше за інше, через регуляризацію L2 більша, імовірно, знижувалося б швидше, ніж менша.
Вага однієї ознаки буде велика, а вага іншої становитиме рівно 0,0.
Регуляризація L2 рідко спонукає ваги наближатися рівно до 0,0. А регуляризація L1 (про яку йтиметься далі) дійсно спонукає ваги наближатися рівно до 0,0.