Regresión logística: Entrenamiento de modelos

Función de pérdida para la regresión logística

La función de pérdida para la regresión lineal es una pérdida cuadrática. La función de pérdida para la regresión logística es la Pérdida logística, que se define de la siguiente manera:

$$PérdidaLogística = \sum_{(x,y)\in D} -ylog(y') - (1 - y)log(1 - y')$$

donde:

  • (x,y)€ D es el conjunto de datos que contiene muchos ejemplos etiquetados, en pares (x,y).
  • y es la etiqueta en un ejemplo etiquetado. Dado que se trata de regresión logística, cada valor de y debe ser 0 o 1.
  • y' es el valor predicho (un valor entre 0 y 1), dado el conjunto de atributos en x.

La ecuación para la Pérdida logística está íntimamente relacionada con la dimensión de la entropía de Shannon en el ámbito de la teoría de la información. También es el logaritmo negativo de la función de probabilidad, si adoptamos la distribución de Bernoulli de y. De hecho, si minimizamos la función de pérdida, obtenemos un rendimiento estimado máximo de probabilidad.

Regularización en la regresión logística

La regularización es sumamente importante en el modelo de regresión logística. Sin regularización, la naturaleza asintótica de la regresión logística seguiría teniendo una tendencia de pérdida de 0 en grandes dimensiones. En consecuencia, la mayoría de los modelos de regresión logística usan una de las dos estrategias que se describen a continuación para disminuir la complejidad del modelo:

  • Regularización L2.
  • Interrupción anticipada, es decir, limitar el número de pasos de entrenamiento o la tasa de aprendizaje.

(Hablaremos sobre una tercera estrategia —regularización de L1— en un próximo módulo).

Imagina que asignas un ID único a cada ejemplo y los unes a su propio atributo. Si no especificas una función de regularización, el modelo se sobreajustará por completo. El motivo es que el modelo intentará llevar las pérdidas a cero en todos los ejemplos sin conseguirlo, lo que hará que los pesos del atributo de cada indicador lleguen a +infinito o -infinito. Esto puede suceder en datos de grandes dimensiones con combinaciones de atributos, cuando hay una gran cantidad de combinaciones poco comunes que suceden solo en un ejemplo dado.

Afortunadamente, este problema se evita con el uso de L2 o interrupción anticipada.

 

Enviar comentarios sobre…

Curso intensivo de aprendizaje automático