Entrenamiento de las redes neuronales

La propagación inversa es el algoritmo de entrenamiento más común en las redes neuronales. Permite que el descenso de gradientes sea factible para las redes neuronales de varias capas. TensorFlow realiza la propagación inversa automáticamente, de manera que no necesitas conocimientos específicos del algoritmo. Para tener una idea de cómo funciona, repasa la explicación visual sobre el algoritmo de propagación inversa. A medida que te desplazas por la explicación anterior, ten en cuenta lo siguiente:

  • Cómo fluyen los datos por el gráfico.
  • Cómo la programación dinámica nos permite evitar computar exponencialmente muchas trayectorias en el gráfico. Aquí, "programación dinámica" significa simplemente registrar los resultados intermedios en los movimientos hacia adelante y hacia atrás.

Entrenamiento de las redes neuronales

  • Los gradientes son importantes.
    • Si son diferenciables, es probable que podamos aprender de ellos.
  • Los gradientes son importantes.
    • Si son diferenciables, es probable que podamos aprender de ellos.
  • Los gradientes pueden desaparecer.
    • Cada capa adicional puede reducir sucesivamente la señal frente a inconsistencias.
    • Las ReLU pueden ser útiles aquí.
  • Los gradientes son importantes.
    • Si son diferenciables, es probable que podamos aprender de ellos.
  • Los gradientes pueden desaparecer.
    • Cada capa adicional puede reducir sucesivamente la señal frente a inconsistencias.
    • Las ReLU pueden ser útiles aquí.
  • Los gradientes pueden colapsar.
    • Las tasas de aprendizaje son importantes.
    • La normalización del lote (ajuste útil) puede ayudar.
  • Los gradientes son importantes.
    • Si son diferenciables, es probable que podamos aprender de ellos.
  • Los gradientes pueden desaparecer.
    • Cada capa adicional puede reducir sucesivamente la señal frente a inconsistencias.
    • Las ReLU pueden ser útiles aquí.
  • Los gradientes pueden colapsar.
    • Las tasas de aprendizaje son importantes.
    • La normalización del lote (ajuste útil) puede ayudar.
  • Las capas de ReLU pueden quedar en cero.
    • Se debe mantener la calma y reducir las tasas de aprendizaje.
  • Se busca que los atributos tengan escalas razonables.
    • Un rango aproximadamente centrado con respecto al cero [-1, 1] con frecuencia funciona bien.
    • Acelera la convergencia del descenso de gradientes y previene la trampa de N/A.
    • Evitar los valores atípicos también puede ayudar.
  • Es posible usar algunos métodos estándar:
    • ajuste lineal
    • límite fijo (recorte) en máx., mín.
    • ajuste logístico
  • La regularización de retirados es otra forma de regularización, que resulta útil para las redes neurales.
  • Funciona al "extraer" unidades al azar en una red para un solo paso de gradiente.
    • Hay una conexión para agrupar modelos aquí.
  • Mientras más extraigas, mejor será la regularización.
    • 0.0 = No hay regularización de retirados.
    • 1.0 = Se extrae todo y no se aprende nada.
    • Los valores intermedios son más útiles.