Reducción de la pérdida: Tasa de aprendizaje

Como se señaló, el vector de gradiente tiene una dirección y una magnitud. Los algoritmos de descenso de gradientes multiplican la gradiente por un escalar conocido como tasa de aprendizaje (también a veces llamada tamaño del paso) para determinar el siguiente punto. Por ejemplo, si la magnitud del gradiente es 2.5 y la tasa de aprendizaje es 0.01, el algoritmo de descenso de gradientes elegirá el siguiente punto en 0.025 del punto anterior.

Los hiperparámetros son los controles que los programadores ajustan en los algoritmos de aprendizaje automático. La mayoría de los programadores de aprendizaje automático dedican una gran cantidad de tiempo a ajustar la tasa de aprendizaje. Si eliges una tasa de aprendizaje demasiado pequeña, el aprendizaje demorará demasiado:

La misma curva en forma de U. Muchos puntos están muy cerca entre sí y su rastro está progresando muy lentamente hacia la parte inferior de la U.

Figura 6: La tasa de aprendizaje es demasiado baja.

Por el contrario, si especificas una tasa de aprendizaje demasiado grande, el siguiente punto rebotará al azar de forma perpetua en la parte inferior, como un experimento de mecánica cuántica que salió muy mal:

La misma curva en forma de U. Esta contiene muy pocos puntos. El rastro de puntos pasa de forma nítida hacia la parte inferior de la U y luego vuelve a saltar.

Figura 7: La tasa de aprendizaje es demasiado alta.

Hay una tasa de aprendizaje con valor dorado para cada problema de regresión. El valor dorado está relacionado con qué tan plana es la función de pérdida. Si sabes que el gradiente de la función de pérdida es pequeño, puedes probar con seguridad una tasa de aprendizaje más grande, que compensa el gradiente pequeño y da como resultado un tamaño de paso más grande.

La misma curva en forma de U. El rastro de puntos llega al punto mínimo en aproximadamente ocho pasos.

Figura 8: La tasa de aprendizaje es la correcta.