Regresión logística

En lugar de predecir exactamente 0 o 1, la regresión logística genera una probabilidad, un valor entre 0 y 1, exclusivo. Por ejemplo, considera un modelo de regresión logística para la detección de spam. Si el modelo infiere un valor de 0.932 en un mensaje de correo electrónico en particular, implica una probabilidad del 93.2% de que el mensaje sea spam. Más precisamente, significa que, en el límite de ejemplos de entrenamiento infinitos, el conjunto de ejemplos para los que el modelo predice 0.932 será realmente spam el 93.2% de las veces, y el 6.8% restante no lo será.

Regresión logística

  • Imaginen el problema de predecir la probabilidad de cara y cruz en monedas curvadas.
  • Puede usar atributos como el ángulo de curva o la masa de la moneda.
  • ¿Cuál es el modelo más simple que puedes usar?
  • ¿Qué podría salir mal?
2 monedas dobladas
  • Muchos problemas requieren una estimación de probabilidad como resultado
  • Ingrese regresión logística.
  • Muchos problemas requieren una estimación de probabilidad como resultado
  • Ingrese regresión logística.
  • Es útil porque las estimaciones de probabilidad se calibran
      .
    • por ejemplo, p(casa en venta) * precio = resultado esperado
  • Muchos problemas requieren una estimación de probabilidad como resultado
  • Ingrese regresión logística.
  • Es útil porque las estimaciones de probabilidad se calibran.
    • por ejemplo, p(casa en venta) * precio = resultado esperado
  • También es útil cuando necesitamos una clasificación binaria
    • ¿es spam o no es spam? → p(Spam)

$$ y' = \frac{1}{1 + e^{-(w^Tx+b)}} $$

\(\text{Where:} \) \(x\text{: Provides the familiar linear model}\) \(1+e^{-(...)}\text{: Squish through a sigmoid}\)

Gráfico de la ecuación de regresión logística

$$ LogLoss = \sum_{(x,y)\in D} -y\,log(y') - (1 - y)\,log(1 - y') $$

Dos gráficos de la pérdida logística frente al valor predicho: uno para un valor objetivo de 0.0 (que forma un arco hacia arriba y a la derecha) y otro para un valor objetivo de 1.0 (que forma un arco hacia abajo y a la izquierda)
  • La regularización es muy importante para la regresión logística.
    • Recuerda las asíntotas.
    • Seguirá intentando reducir la pérdida a 0 en dimensiones altas.
  • La regularización es muy importante para la regresión logística.
    • Recuerda las asíntotas.
    • Seguirá intentando reducir la pérdida a 0 en dimensiones altas.
  • Dos estrategias son especialmente útiles:
    • Regularización L2 (también conocida como disminución de peso L2): penaliza enormes.
    • Interrupción anticipada: Limita los pasos de entrenamiento o la tasa de aprendizaje.
  • La regresión logística lineal es extremadamente eficiente.
    • Tiempos de entrenamiento y predicción muy rápidos.
    • Los modelos amplios y cortos usan mucha memoria RAM.