Entrenamiento de las redes neuronales: Recomendaciones

En esta sección se explican los casos de falla de la propagación inversa y la forma más común para regularizar una red neuronal.

Casos de falla

Existen muchas formas comunes en las que la propagación inversa puede fallar.

Desaparición de gradientes

Los gradientes de las capas más bajas (cercanas a la entrada) pueden volverse muy pequeños. En las redes profundas, el cómputo de estos gradientes puede implicar que se tome el producto de muchos términos pequeños.

Cuando los gradientes desaparecen hacia el 0 en las capas más bajas, estas capas de entrenan muy lentamente o no se entrenan.

La función de activación ReLU puede ayudar a prevenir que los gradientes desaparezcan.

Gradientes con hipercrecimiento

Si las ponderaciones de una red son muy grandes, los gradientes de las capas más bajas implican productos de muchos términos grandes. En este caso, los gradientes pueden dispararse, es decir, se vuelven demasiado grandes como para la convergencia.

La normalización del lote y la disminución de la tasa de aprendizaje pueden ayudar a prevenir el crecimiento de gradientes.

Unidades ReLU inactivas

Una vez que la suma ponderada de una unidad ReLU disminuye por debajo de 0, la unidad ReLU puede quedar bloqueada. Genera una activación de 0, lo cual no contribuye en nada al resultado de la red, y los gradientes ya no fluyen por ella durante la propagación inversa. Con una fuente de grandientes limitada, es posible que la entrada de ReLU nunca cambie lo suficiente como para volver a establecer la suma ponderada por encima de 0.

La disminución de la tasa de aprendizaje puede ayudar a impedir que las unidades ReLU queden inactivas.

Regularización de retirados

La regularización de retirados es otra forma de regularización que resulta útil para las redes neuronales. Funciona al "extraer" activaciones de unidades al azar en una red para un solo paso de gradiente. Mientras más se extraigan, mejor será la regularización.

  • 0.0 = No hay regularización de retirados.
  • 1.0 = Se extrae todo y no se aprende nada.
  • Los valores entre 0.0 y 1.0 son más útiles.

Enviar comentarios sobre…

Curso intensivo de aprendizaje automático