Regresión logística

En lugar de predecir exactamente 0 o 1, la regresión logística genera una probabilidad, con un valor entre 0 y 1, exclusivo. Por ejemplo, supongamos que un modelo de regresión logística para la detección de spam infiere un valor de 0.932 en un mensaje de correo electrónico en particular. Esto quiere decir que la probabilidad de que el correo sea spam es del 93.2%. Más concretamente, significa que, en el límite de ejemplos de entrenamiento infinitos, el conjunto de ejemplos para los que el modelo predice 0.932 será realmente spam el 93.2% de las veces, mientras que el 6.8% restante no lo será.

Regresión logística

  • Imaginemos el problema de predecir la probabilidad de cara y cruz en monedas curvadas.
  • Puedes usar atributos como el ángulo de curva o la masa de la moneda.
  • ¿Cuál es el modelo más simple que podrías usar?
  • ¿Qué podría salir mal?
2 monedas curvadas
  • Muchos problemas exigen como resultado el cálculo de una probabilidad.
  • Utiliza la regresión logística.
  • Muchos problemas exigen como resultado el cálculo de una probabilidad.
  • Utiliza la regresión logística.
  • Es útil, porque los cálculos de probabilidad pueden calibrarse.
    • Por ejemplo, p(casa en venta) * precio = resultado esperado
  • Muchos problemas exigen como resultado el cálculo de una probabilidad.
  • Utiliza la regresión logística.
  • Es útil, porque los cálculos de probabilidad pueden calibrarse.
    • Por ejemplo, p(casa en venta) * precio = resultado esperado
  • También es útil cuando necesitamos una clasificación binaria.
    • ¿Es spam o no es spam? → p(Spam)

$$ y' = \frac{1}{1 + e^{-(w^Tx+b)}} $$

\(\text{donde:} \) \(x\text{: Proporciona el modelo lineal conocido}\) \(1+e^{-(...)}\text{: Fuerza el cálculo a través de una función sigmoide}\)

Gráfico de ecuación logística

$$ Pérdida logística = \sum_{(x,y)\in D} -y\,log(y') - (1 - y)\,log(1 - y') $$

Ecuación de pérdida logística
  • La regularización es muy importante para la regresión logística.
    • Recuerda las asíntotas.
    • Seguirá intentando llevar la pérdida a 0 en grandes dimensiones.
  • La regularización es muy importante para la regresión logística.
    • Recuerda las asíntotas.
    • Seguirá intentando llevar la pérdida a 0 en grandes dimensiones.
  • Hay dos estrategias que son especialmente útiles:
    • Regularización L2 (o reducción de las ponderaciones L2): Penaliza las ponderaciones grandes.
    • Interrupción anticipada: Limita los pasos de entrenamiento o la tasa de aprendizaje.
  • La regresión logística lineal es extremadamente eficiente.
    • Tiene tiempos de predicción y entrenamiento muy rápidos.
    • Los modelos amplios y reducidos consumen mucha memoria RAM.