Taux d'apprentissage

Cette annexe contient quelques informations supplémentaires sur le taux d'apprentissage.

Programme de diminution du taux d'apprentissage

La meilleure famille de programmation de la diminution du taux d'apprentissage est un problème ouvert. Il n'est pas clair comment construire un ensemble d'expériences rigoureuses pour répondre à cette question avec certitude. Bien que nous ne connaissions pas la meilleure famille de plannings, nous sommes certains des points suivants :

  • Il est important d'avoir un programme (non constant).
  • Il est important de régler ce calendrier.

Différents taux d'apprentissage fonctionnent mieux à différents moments du processus d'optimisation. Le fait d'avoir une sorte de programme permet au modèle d'atteindre plus facilement un bon taux d'apprentissage.

Meilleure diminution du taux d'apprentissage par défaut

Nous vous recommandons l'une des familles de décroissance du taux d'apprentissage suivantes par défaut :

  • Décroissance linéaire
  • Décroissance cosinus

De nombreuses autres familles de plannings sont probablement également adaptées.

Pourquoi certains articles présentent-ils des plannings de taux d'apprentissage complexes ?

De nombreux articles universitaires utilisent des programmes de dépréciation du taux d'apprentissage (LR) complexes par morceaux. Les lecteurs se demandent souvent comment les auteurs sont parvenus à un programme aussi complexe. De nombreux programmes de diminution du taux d'apprentissage complexes sont le résultat d'un ajustement ad hoc du programme en fonction des performances de l'ensemble de validation. Par exemple :

  1. Lancez un seul entraînement avec une simple diminution du taux d'apprentissage (ou un taux d'apprentissage constant).
  2. Continuez à exécuter l'entraînement jusqu'à ce que les performances semblent stagner. Si cela se produit, mettez l'entraînement en pause. Reprenez ensuite l'entraînement avec un programme de diminution du taux d'apprentissage peut-être plus rapide (ou un taux d'apprentissage constant plus petit) à partir de ce point. Répétez ce processus (jusqu'à la date limite de la conférence ou du lancement).

Il n'est généralement pas judicieux de copier aveuglément le calendrier obtenu, car le meilleur calendrier particulier est sensible à de nombreux autres choix d'hyperparamètres. Nous vous recommandons de copier l'algorithme qui a produit le programme, bien que cela soit rarement possible lorsque le programme a été produit par un jugement humain arbitraire. Ce type de calendrier sensible aux erreurs de validation peut être utilisé s'il peut être entièrement automatisé, mais les calendriers avec intervention humaine qui dépendent des erreurs de validation sont fragiles et difficiles à reproduire. Nous vous recommandons donc de les éviter. Avant de publier des résultats obtenus à l'aide d'un tel calendrier, veuillez essayer de les rendre entièrement reproductibles.

Comment régler les hyperparamètres d'Adam ?

Tous les hyperparamètres d'Adam n'ont pas la même importance. Les règles empiriques suivantes correspondent à différents "budgets" pour le nombre d'essais dans une étude.

  • Si une étude comporte moins de 10 essais, ne réglez que le taux d'apprentissage (de base).
  • Si une étude comporte entre 10 et 25 essais, ajustez le taux d'apprentissage et beta_1.
  • Si vous avez effectué plus de 25 essais, ajustez le taux d'apprentissage, beta_1 et epsilon.
  • Si le nombre d'essais est nettement supérieur à 25, ajustez également tune beta_2.

Étant donné la difficulté à fournir des règles générales sur les espaces de recherche et le nombre de points à échantillonner à partir de l'espace de recherche, considérez les règles empiriques énoncées dans cette section comme des directives approximatives."