Regresión logística: pérdida y regularización.

Los modelos de regresión logística se entrenan con el mismo proceso que los modelos de regresión lineal, con dos distinciones clave:

En las siguientes secciones, se analizan estas dos consideraciones con más detalle.

Pérdida logística

En el módulo de regresión lineal, usaste la pérdida al cuadrado (también llamada pérdida L2) como la función de pérdida. La pérdida cuadrática funciona bien para un modelo lineal en el que la tasa de cambio de los valores de salida es constante. Por ejemplo, dado el modelo lineal $y' = b + 3x_1$, cada vez que incrementas el valor de entrada $x_1$ en 1, el valor de salida $y'$ aumenta en 3.

Sin embargo, la tasa de cambio de un modelo de regresión logística no es constante. Como viste en Cómo calcular una probabilidad, la curva sigmoid tiene forma de S en lugar de ser lineal. Cuando el valor de log-odds (z) está más cerca de 0, los pequeños aumentos en z generan cambios mucho mayores en y que cuando z es un número positivo o negativo grande. En la siguiente tabla, se muestra el resultado de la función sigmoidea para los valores de entrada de 5 a 10, así como la precisión correspondiente necesaria para captar las diferencias en los resultados.

entrada Salida logística dígitos de precisión requeridos
5 0.993 3
6 0.997 3
7 0.999 3
8 0.9997 4
9 0.9999 4
10 0.99998 5

Si usaste la pérdida cuadrática para calcular los errores de la función sigmoide, a medida que el resultado se acercaba cada vez más a 0 y 1, necesitarías más memoria para conservar la precisión necesaria para hacer un seguimiento de estos valores.

En cambio, la función de pérdida para la regresión logística es la pérdida logística. La ecuación de pérdida logarítmica devuelve el logaritmo de la magnitud del cambio, en lugar de solo la distancia entre los datos y la predicción. La pérdida logística se calcula de la siguiente manera:

$\text{Pérdida Logística} = -\frac{1}{N}\sum_{i=1}^{N} y_i\log(y_i') + (1 - y_i)\log(1 - y_i')$

Donde:

  • \(N\) es la cantidad de ejemplos etiquetados en el conjunto de datos.
  • \(i\) es el índice de un ejemplo en el conjunto de datos (p.ej., \((x_3, y_3)\) es el tercer ejemplo del conjunto de datos)
  • \(y_i\) es la etiqueta del ejemplo número \(i\). Dado que se trata de una regresión logística, \(y_i\) debe ser 0 o 1.
  • \(y_i'\) es la predicción del modelo para el ejemplo \(i\)(un valor entre 0 y 1), dado el conjunto de atributos en \(x_i\).

Regularización en la regresión logística

La regularización, un mecanismo para penalizar la complejidad del modelo durante el entrenamiento, es extremadamente importante en el modelado de regresión logística. Sin regularización, la naturaleza asintótica de la regresión logística seguiría acercando la pérdida a 0 en los casos en que el modelo tiene una gran cantidad de atributos. Por lo tanto, la mayoría de los modelos de regresión logística usan una de las siguientes dos estrategias para disminuir la complejidad del modelo: