Regularização para simplicidade: lambda

Os desenvolvedores de modelos ajustam o impacto geral do termo de regularização multiplicando o valor dele por um escalar conhecido como lambda, também chamado de taxa de regularização (link em inglês). Ou seja, o objetivo dos desenvolvedores de modelos é fazer o seguinte:

$$\text{minimize(Loss(Data|Model)} + \lambda \text{ complexity(Model))}$$

Realizar a regularização L2 tem o seguinte efeito em um modelo:

  • Incentiva valores de peso a 0 (mas não exatamente 0)
  • Incentiva a média dos pesos em direção a 0, com uma distribuição normal (em forma de sino ou gaussiana).

Aumentar o valor de lambda fortalece o efeito de regularização. Por exemplo, o histograma de pesos para um valor alto de lambda pode ficar como mostrado na Figura 2.

Histograma dos pesos de um modelo com média zero e distribuição normal.

Figura 2. Histograma de pesos.

A redução do valor da lambda tende a produzir um histograma mais plano, como mostrado na Figura 3.

Histograma dos pesos de um modelo com média zero, que está entre uma distribuição plana e uma distribuição normal.

Figura 3. Histograma de pesos produzidos por um valor de lambda menor.

Ao escolher um valor de lambda, o objetivo é encontrar o equilíbrio certo entre simplicidade e ajuste dos dados de treinamento:

  • Se o valor da lambda for muito alto, o modelo será simples, mas você corre o risco de subajustar os dados. Seu modelo não aprenderá o suficiente sobre os dados de treinamento para fazer previsões úteis.

  • Se o valor da lambda for muito baixo, o modelo será mais complexo, e você corre o risco de overfitting os dados. Seu modelo aprenderá muito sobre as particularidades dos dados de treinamento e não poderá generalizar para novos dados.

O valor ideal de lambda produz um modelo que generaliza bem para dados novos e ainda não vistos. Infelizmente, esse valor ideal de lambda depende dos dados, então é necessário fazer alguns ajustes de .