Regularización para lograr simplicidad: Comprueba tu comprensión

Regularización L2

Explora las opciones que aparecen a continuación.

Imagina un modelo lineal con 100 atributos de entrada:
  • 10 son muy informativos.
  • 90 no son informativos.
  • Supón que todos los atributos tienen valores entre -1 y 1. ¿Cuáles de las siguientes afirmaciones son verdaderas?
    La regularización L2 hará que muchos de los pesos no informativos sean casi (pero no exactamente) 0.0.
    Sí, la regularización L2 hace que los pesos sean cercanos a 0.0, pero no exactamente 0.0.
    La regularización L2 hará que la mayoría de los pesos no informativos sean exactamente 0.0.
    La regularización L2 no tiende a forzar los pesos al valor 0.0 exacto. La regularización L2 penaliza más a los pesos más grandes que a los más pequeños. A medida que un peso se acerca 0.0, L2 "presiona" con menos fuerza hacia el valor 0.0.
    La regularización L2 puede hacer que el modelo aprenda un peso moderado para algunos atributos no informativos.
    Sorprendentemente, esto puede ocurrir cuando un atributo no informativo está correlacionado con la etiqueta. En este caso, el modelo les otorga incorrectamente a esos atributos no informativos algo del "crédito" que deberían haber ido a los atributos informativos.

    Regularización L2 y atributos correlacionados

    Explora las opciones que aparecen a continuación.

    Imagina un modelo lineal con dos atributos fuertemente correlacionados, es decir, estos dos atributos son casi idénticos, pero uno contiene una pequeña cantidad de ruido aleatorio. Si entrenamos este modelo con la regularización L2, ¿qué sucederá con los pesos para estos dos atributos?
    Ambos atributos tendrán pesos moderados y casi iguales.
    La regularización L2 forzará los atributos hacia pesos más o menos equivalentes que sean aproximadamente la mitad de lo que habrían sido, si solo hubiera habido uno de los dos atributos en el modelo.
    Un atributo tendrá un peso grande; el otro tendrá un peso de casi 0.0.
    La regularización L2 penaliza más a los pesos grandes que a los pequeños. Entonces, incluso si un peso comenzara a reducirse más rápido que el otro, la regularización L2 tendería a forzar al peso más grande a que se reduzca más rápido que el más pequeño.
    Un atributo tendrá un peso grande; el otro tendrá un peso de exactamente 0.0.
    La regularización L2 rara vez fuerza los pesos a que sean exactamente 0.0. Por el contrario, la regularización L1 (que se analizará más adelante) fuerza los pesos a que sean exactamente 0.0.