Regularización para lograr simplicidad

Regularización significa penalizar la complejidad de un modelo para reducir el sobreajuste.

Regularización para lograr simplicidad

Curva de generalización

La función de pérdida para el conjunto de entrenamiento se reduce gradualmente. Por el contrario, la función de pérdida para el conjunto de validación se reduce, pero luego comienza a aumentar.

Penalización de la complejidad del modelo

  • Queremos evitar en lo posible la complejidad del modelo.
  • Podemos trabajar esta idea sobre la optimización que hacemos durante el entrenamiento.
  • Minimización del riesgo empírico:
    • El objetivo es reducir el error en el entrenamiento.
    • $$ \text{minimizar: } Loss(Data\;|\;Model) $$

Penalización de la complejidad del modelo

  • Queremos evitar en lo posible la complejidad del modelo.
  • Podemos trabajar esta idea sobre la optimización que hacemos durante el entrenamiento.
  • Minimización del riesgo estructural:
    • El objetivo es reducir el error en el entrenamiento.
    • A su vez, se desea reducir la complejidad.
    • $$ \text{minimizar: } Loss(Data\;|\;Model) + complexity(Model) $$

Regularización

  • ¿Cómo se define la complejidad (modelo)?

Regularización

  • ¿Cómo se define la complejidad (modelo)?
  • Se prefieren ponderaciones más pequeñas.

Regularización

  • ¿Cómo se define la complejidad (modelo)?
  • Se prefieren ponderaciones más pequeñas.
  • Si se hace lo contrario, aumentará el costo.
  • Se puede ejecutar esta idea mediante la regularización L2 (también conocida como de cresta).
    • Complejidad (modelo) = la suma de los cuadrados de las ponderaciones.
    • Penaliza ponderaciones muy grandes.
    • Para modelos lineales: Se prefieren pendientes más planas.
    • Distribuciones previas bayesianas:
      • Las ponderaciones deben estar centradas cerca del cero.
      • Las ponderaciones deben estar distribuidas normalmente.

Función de pérdida con regularización L2

$$ L(\boldsymbol{w}, D)\;+\;\lambda\;||\;\boldsymbol{w}\;||\;_2^2 $$

\(\text{Donde:}\)

\(L\text{: El objetivo es reducir el error en el entrenamiento}\) \(\lambda\text{: Un valor escalar que controla cómo se equilibran las ponderaciones}\) \(\boldsymbol{w}\text{: Reduce la complejidad}\) \(^2_2\text{: El cuadrado de la}\;L_2\;\text{normalización de w}\)

Enviar comentarios sobre…

Curso intensivo de aprendizaje automático