Tasa de aprendizaje

Este apéndice contiene algunos detalles adicionales sobre la tasa de aprendizaje.

Programa de disminución de la tasa de aprendizaje

La mejor familia de programas de decaimiento de la tasa de aprendizaje es un problema abierto; no está claro cómo construir un conjunto de experimentos rigurosos para responder con confianza esta pregunta. Si bien no conocemos la mejor familia de programas, tenemos la certeza de lo siguiente:

  • Es importante tener un horario (no constante).
  • Es importante ajustar ese programa.

Las diferentes tasas de aprendizaje funcionan mejor en diferentes momentos durante el proceso de optimización. Tener algún tipo de programa hace que sea más probable que el modelo alcance una buena tasa de aprendizaje.

Mejor decaimiento de la tasa de aprendizaje predeterminada

Recomendamos cualquiera de las siguientes familias de disminución de la tasa de aprendizaje como predeterminada:

  • Decaimiento lineal
  • Decaimiento del coseno

Muchas otras familias de programas también son buenas.

¿Por qué algunos documentos tienen programas de tasas de aprendizaje complicados?

Muchos artículos académicos usan programas de disminución de la tasa de aprendizaje (LR) complejos por partes. Los lectores suelen preguntarse cómo los autores llegaron a un programa tan complicado. Muchos programas de decaimiento del LR complicados son el resultado de ajustar el programa como una función del rendimiento del conjunto de validación de forma ad hoc. Es decir:

  1. Inicia una sola ejecución de entrenamiento con una disminución simple del LR (o una tasa de aprendizaje constante).
  2. Sigue ejecutando el entrenamiento hasta que el rendimiento parezca estancarse. Si esto sucede, detén el entrenamiento. Luego, reanúdalo con un programa de decaimiento del LR tal vez más pronunciado (o una tasa de aprendizaje constante más pequeña) a partir de este punto. Repite este proceso hasta la fecha límite de la conferencia o el lanzamiento.

Por lo general, no es una buena idea copiar a la ligera el programa resultante, ya que el mejor programa en particular depende de una gran cantidad de otras elecciones de hiperparámetros. Te recomendamos que copies el algoritmo que produjo la programación, aunque esto rara vez es posible cuando la programación se produjo por un juicio humano arbitrario. Este tipo de programa sensible a los errores de validación se puede usar si se puede automatizar por completo, pero los programas con intervención humana que son una función del error de validación son frágiles y no se pueden reproducir fácilmente, por lo que recomendamos evitarlos. Antes de publicar los resultados que usaron ese programa, intenta que sea completamente reproducible.

¿Cómo se deben ajustar los hiperparámetros de Adam?

No todos los hiperparámetros de Adam son igual de importantes. Las siguientes reglas generales corresponden a diferentes "presupuestos" para la cantidad de pruebas en un estudio.

  • Si hay menos de 10 pruebas en un estudio, solo ajusta la tasa de aprendizaje (base).
  • Si hay entre 10 y 25 pruebas en un estudio, ajusta la tasa de aprendizaje y beta_1.
  • Si hay más de 25 pruebas, ajusta la tasa de aprendizaje, beta_1 y epsilon.
  • Si hay muchas más de 25 pruebas, también ajusta beta_2.

Dada la dificultad de proporcionar reglas generales sobre los espacios de búsqueda y la cantidad de puntos que debes muestrear del espacio de búsqueda, considera las reglas generales que se indican en esta sección como lineamientos aproximados".