Regularización para lograr simplicidad: Comprueba tu comprensión

Regularización L2

Explora las opciones que aparecen a continuación.

Imagina un modelo lineal con 100 atributos de entrada:
  • 10 son muy informativas.
  • 90 no son informativas.
  • Asume que todos los atributos tienen valores entre -1 y 1. ¿Cuáles de las siguientes afirmaciones son verdaderas?
    La regularización L2 hará que muchas de las ponderaciones no informativas sean casi (pero no exactamente) 0.0.
    Sí, la regularización L2 hará que las ponderaciones sean casi 0.0, pero no exactamente 0.0.
    La regularización L2 hará que la mayoría de las ponderaciones no informativas sean exactamente 0.0.
    La regularización L2 no tiende a forzar las ponderaciones al valor 0.0 exacto. La regularización L2 penaliza más a las ponderaciones más grandes que a las más pequeñas. A medida que una ponderación se acerca 0.0, L2 "presiona" con menos fuerza hacia el valor 0.0.
    La regularización L2 puede causar que el modelo aprenda una ponderación moderada para algunos atributos no informativos.
    Sorprendentemente, esto puede ocurrir cuando un atributo no informativo está correlacionado con la etiqueta. En este caso, el modelo les brinda incorrectamente a estos atributos no informativos un poco del "crédito" que les corresponde a los atributos informativos.

    Regularización L2 y atributos correlacionados

    Explora las opciones que aparecen a continuación.

    Imagina un modelo lineal con dos atributos fuertemente correlacionados, es decir, estos dos atributos son casi idénticos, pero uno contiene una inconsistencia aleatoria. Si entrenamos este modelo con la regularización L2, ¿qué sucederá con las ponderaciones para esos dos atributos?
    Ambos atributos tendrán ponderaciones moderadas y casi iguales.
    La regularización L2 forzará los atributos hacia ponderaciones más o menos equivalentes que sean aproximadamente la mitad de lo que habrían sido, si solo hubiera habido uno de los dos atributos en el modelo.
    Un atributo tendrá una ponderación grande; el otro tendrá una ponderación de casi 0.0.
    La regularización L2 penaliza más a las ponderaciones grandes que a las pequeñas. Entonces, incluso si una ponderación comenzara a reducirse más rápido que la otra, la regularización L2 tendería a forzar a la ponderación más grande a que se reduzca más rápido que la más pequeña.
    Un atributo tendrá una ponderación grande; el otro tendrá una ponderación de exactamente 0.0.
    La regularización L2 raramente fuerza las ponderaciones a que sean exactamente 0.0. Como contrapartida, la regularización L1 (que se analizará luego) fuerza las ponderaciones a que sean exactamente 0.0.