Los modelos de regresión logística se entrenan con el mismo proceso que los modelos de regresión lineal, con dos distinciones clave:
- Los modelos de regresión logística usan la pérdida logística como función de pérdida en lugar de la pérdida al cuadrado.
- Aplicar la regularización es fundamental para evitar el sobreajuste.
En las siguientes secciones, se analizan estas dos consideraciones con más detalle.
Pérdida logística
En el módulo de regresión lineal, usaste la pérdida al cuadrado (también llamada pérdida L2) como la función de pérdida. La pérdida cuadrática funciona bien para un modelo lineal en el que la tasa de cambio de los valores de salida es constante. Por ejemplo, dado el modelo lineal $y' = b + 3x_1$, cada vez que incrementas el valor de entrada $x_1$ en 1, el valor de salida $y'$ aumenta en 3.
Sin embargo, la tasa de cambio de un modelo de regresión logística no es constante. Como viste en Cómo calcular una probabilidad, la curva sigmoid tiene forma de S en lugar de ser lineal. Cuando el valor de log-odds (z) está más cerca de 0, los pequeños aumentos en z generan cambios mucho mayores en y que cuando z es un número positivo o negativo grande. En la siguiente tabla, se muestra el resultado de la función sigmoidea para los valores de entrada de 5 a 10, así como la precisión correspondiente necesaria para captar las diferencias en los resultados.
entrada | Salida logística | dígitos de precisión requeridos |
---|---|---|
5 | 0.993 | 3 |
6 | 0.997 | 3 |
7 | 0.999 | 3 |
8 | 0.9997 | 4 |
9 | 0.9999 | 4 |
10 | 0.99998 | 5 |
Si usaste la pérdida cuadrática para calcular los errores de la función sigmoide, a medida que el resultado se acercaba cada vez más a 0
y 1
, necesitarías más memoria para conservar la precisión necesaria para hacer un seguimiento de estos valores.
En cambio, la función de pérdida para la regresión logística es la pérdida logística. La ecuación de pérdida logarítmica devuelve el logaritmo de la magnitud del cambio, en lugar de solo la distancia entre los datos y la predicción. La pérdida logística se calcula de la siguiente manera:
$\text{Pérdida Logística} = -\frac{1}{N}\sum_{i=1}^{N} y_i\log(y_i') + (1 - y_i)\log(1 - y_i')$
Donde:
- \(N\) es la cantidad de ejemplos etiquetados en el conjunto de datos.
- \(i\) es el índice de un ejemplo en el conjunto de datos (p.ej., \((x_3, y_3)\) es el tercer ejemplo del conjunto de datos)
- \(y_i\) es la etiqueta del ejemplo número \(i\). Dado que se trata de una regresión logística, \(y_i\) debe ser 0 o 1.
- \(y_i'\) es la predicción del modelo para el ejemplo \(i\)(un valor entre 0 y 1), dado el conjunto de atributos en \(x_i\).
Regularización en la regresión logística
La regularización, un mecanismo para penalizar la complejidad del modelo durante el entrenamiento, es extremadamente importante en el modelado de regresión logística. Sin regularización, la naturaleza asintótica de la regresión logística seguiría acercando la pérdida a 0 en los casos en que el modelo tiene una gran cantidad de atributos. Por lo tanto, la mayoría de los modelos de regresión logística usan una de las siguientes dos estrategias para disminuir la complejidad del modelo:
- Regularización L2
- Interrupción anticipada: Limita la cantidad de pasos de entrenamiento para detener el entrenamiento mientras la pérdida sigue disminuyendo.