Reducción de la pérdida: Tasa de aprendizaje

Como se observó, el vector de gradiente tiene una dirección y una magnitud. Los algoritmos de descenso de gradientes multiplican la gradiente por un escalar conocido como tasa de aprendizaje (o tamaño del paso en algunas ocasiones) para determinar el siguiente punto. Por ejemplo, si la magnitud de la gradiente es 2.5 y la tasa de aprendizaje es 0.01, el algoritmo de descenso de gradientes tomará el siguiente punto 0.025 más alejado del punto anterior.

Los hiperparámetros son los controles que los programadores ajustan en los algoritmos de aprendizaje automático. La mayoría de los programadores de aprendizaje automático pasan gran parte de su tiempo ajustando la tasa de aprendizaje. Si eliges una tasa de aprendizaje muy pequeña, el aprendizaje llevará demasiado tiempo:

La misma curva con forma de U. Muchos puntos están muy cerca entre sí y su rastro está progresando muy lentamente hacia la parte inferior de la U.

Figura 6. La tasa de aprendizaje es muy pequeña.

A la inversa, si especificas una tasa de aprendizaje muy grande, el siguiente punto rebotará al azar eternamente en la parte inferior, como un experimento de mecánica cuántica que salió muy mal:

La misma curva con forma de U. Esta contiene muy pocos puntos. El rastro de puntos pasa de forma nítida hacia la parte inferior de la U y luego vuelve a pasar hacia arriba.

Figura 7. La tasa de aprendizaje es muy grande.

Hay una tasa de aprendizaje con valor dorado para cada problema de regresión. El valor dorado está relacionado con qué tan plana es la función de pérdida. Si sabes que el gradiente de la función de pérdida es pequeño, usa una tasa de aprendizaje mayor, que compensará el gradiente pequeño y dará como resultado un tamaño del paso más grande.

La misma curva con forma de U. El rastro de puntos llega al punto mínimo en alrededor de ocho pasos.

Figura 8. La tasa de aprendizaje es la correcta.