Regresión logística: Pérdida y regularización

Función de pérdida para la regresión logística

La función de pérdida para la regresión lineal es la pérdida al cuadrado. La función de pérdida para la regresión logística es la Pérdida logística, que se define de la siguiente manera:

$$\text{Log Loss} = \sum_{(x,y)\in D} -y\log(y') - (1 - y)\log(1 - y')$$

Donde:

  • \((x,y)\in D\) es el conjunto de datos que contiene muchos ejemplos etiquetados, que son \((x,y)\) pares.
  • \(y\) es la etiqueta en un ejemplo etiquetado. Dado que se trata de regresión logística, cada valor de \(y\) debe ser 0 o 1.
  • \(y'\) es el valor predicho (un valor entre 0 y 1), dado el conjunto de atributos en \(x\).

Regularización en la regresión logística

La regularización es muy importante en el modelo de regresión logística. Sin regularización, la naturaleza asintótica de la regresión logística seguiría impulsando la pérdida hacia 0 en grandes dimensiones. En consecuencia, la mayoría de los modelos de regresión logística usan una de las dos estrategias siguientes para disminuir la complejidad del modelo:

  • Regularización L2.
  • Interrupción anticipada, es decir, limitar la cantidad de pasos de entrenamiento o la tasa de aprendizaje

(Analizaremos una tercera estrategia, la regularización L1, en un módulo posterior).

Imagina que asignas un ID único a cada ejemplo y asignas cada ID a su propio atributo. Si no especificas una función de regularización, el modelo se sobreajustará por completo. Eso se debe a que el modelo intentará llevar las pérdidas a cero en todos los ejemplos, pero nunca alcanzará los objetivos, y se aplicarán los pesos de cada atributo indicador a +infinito o -infinito. Esto puede suceder en datos de dimensiones altas con combinaciones de atributos, cuando hay una enorme cantidad de combinaciones poco comunes que ocurren solo en un ejemplo cada una.

Afortunadamente, este problema se evita con el uso de L2 o interrupción anticipada.