[{
"type": "thumb-down",
"id": "missingTheInformationINeed",
"label":"Missing the information I need"
},{
"type": "thumb-down",
"id": "tooComplicatedTooManySteps",
"label":"Too complicated / too many steps"
},{
"type": "thumb-down",
"id": "outOfDate",
"label":"Out of date"
},{
"type": "thumb-down",
"id": "translationIssue",
"label":"Translation issue"
},{
"type": "thumb-down",
"id": "samplesCodeIssue",
"label":"Samples/Code issue"
},{
"type": "thumb-down",
"id": "otherDown",
"label":"Other"
}]
[{
"type": "thumb-up",
"id": "easyToUnderstand",
"label":"Easy to understand"
},{
"type": "thumb-up",
"id": "solvedMyProblem",
"label":"Solved my problem"
},{
"type": "thumb-up",
"id": "otherUp",
"label":"Other"
}]
Entrenamiento de las redes neuronales
La propagación inversa es el algoritmo de entrenamiento más común en las redes neuronales.
Permite que el descenso de gradientes sea factible para las redes neuronales de varias capas.
TensorFlow realiza la propagación inversa automáticamente, de manera que no necesitas conocimientos específicos del algoritmo. Para tener una idea de cómo funciona, repasa la explicación visual sobre el algoritmo de propagación inversa.
A medida que te desplazas por la explicación anterior, ten en cuenta lo siguiente:
Cómo fluyen los datos por el gráfico.
Cómo la programación dinámica nos permite evitar computar exponencialmente muchas trayectorias en el gráfico. Aquí, "programación dinámica" significa simplemente registrar los resultados intermedios en los movimientos hacia adelante y hacia atrás.
Entrenamiento de las redes neuronales
Información básica sobre la propagación inversa
Los gradientes son importantes.
Si son diferenciables, es probable que podamos aprender de ellos.
Información básica sobre la propagación inversa
Los gradientes son importantes.
Si son diferenciables, es probable que podamos aprender de ellos.
Los gradientes pueden desaparecer.
Cada capa adicional puede reducir sucesivamente la señal frente a inconsistencias.
Las ReLU pueden ser útiles aquí.
Información básica sobre la propagación inversa
Los gradientes son importantes.
Si son diferenciables, es probable que podamos aprender de ellos.
Los gradientes pueden desaparecer.
Cada capa adicional puede reducir sucesivamente la señal frente a inconsistencias.
Las ReLU pueden ser útiles aquí.
Los gradientes pueden colapsar.
Las tasas de aprendizaje son importantes.
La normalización del lote (ajuste útil) puede ayudar.
Información básica sobre la propagación inversa
Los gradientes son importantes.
Si son diferenciables, es probable que podamos aprender de ellos.
Los gradientes pueden desaparecer.
Cada capa adicional puede reducir sucesivamente la señal frente a inconsistencias.
Las ReLU pueden ser útiles aquí.
Los gradientes pueden colapsar.
Las tasas de aprendizaje son importantes.
La normalización del lote (ajuste útil) puede ayudar.
Las capas de ReLU pueden quedar en cero.
Se debe mantener la calma y reducir las tasas de aprendizaje.
Normalización de los valores de los atributos
Se busca que los atributos tengan escalas razonables.
Un rango aproximadamente centrado con respecto al cero [-1, 1] con frecuencia funciona bien.
Acelera la convergencia del descenso de gradientes y previene la trampa de N/A.
Evitar los valores atípicos también puede ayudar.
Es posible usar algunos métodos estándar:
ajuste lineal
límite fijo (recorte) en máx., mín.
ajuste logístico
Regularización de retirados
La regularización de retirados es otra forma de regularización, que resulta útil para las redes neurales.
Funciona al "extraer" unidades al azar en una red para un solo paso de gradiente.
Hay una conexión para agrupar modelos aquí.
Mientras más extraigas, mejor será la regularización.