Tempo uczenia się

Ten dodatek zawiera kilka dodatkowych szczegółów dotyczących współczynnika uczenia się.

Harmonogram zmniejszania tempa uczenia się

Najlepszy harmonogram zmniejszania współczynnika uczenia to otwarty problem. Nie wiadomo, jak przeprowadzić zestaw rygorystycznych eksperymentów, aby z pewnością odpowiedzieć na to pytanie. Nie znamy optymalnego harmonogramu, ale jesteśmy pewni, że:

  • Ważne jest, aby mieć jakiś (niekoniecznie stały) harmonogram.
  • Dostosowanie tego harmonogramu jest ważne.

Różne tempa uczenia się sprawdzają się najlepiej na różnych etapach procesu optymalizacji. Harmonogram zwiększa prawdopodobieństwo osiągnięcia przez model dobrego tempa uczenia się.

Najlepszy domyślny spadek współczynnika uczenia się

Jako domyślne zalecamy jedną z tych rodzin spadku współczynnika uczenia:

  • Rozpad liniowy
  • Rozpad kosinusowy

Wiele innych rodzin harmonogramów też prawdopodobnie będzie dobrych.

Dlaczego niektóre artykuły zawierają skomplikowane harmonogramy szybkości uczenia się?

Wielu autorów prac naukowych stosuje skomplikowane harmonogramy osłabiania tempa uczenia się (LR). Czytelnicy często zastanawiają się, jak autorzy doszli do tak skomplikowanego harmonogramu. Wiele skomplikowanych harmonogramów zmniejszania współczynnika uczenia się jest wynikiem dostrajania harmonogramu w sposób doraźny w zależności od wyników w zbiorze weryfikacyjnym. Czyli:

  1. Rozpocznij pojedynczy trening z prostym zanikiem LR (lub stałą szybkością uczenia).
  2. Kontynuuj trenowanie, dopóki skuteczność nie zacznie się stabilizować. W takim przypadku wstrzymaj trenowanie. Następnie wznów trenowanie z bardziej stromym harmonogramem zaniku LR (lub mniejszą stałą szybkością uczenia się). Powtarzaj ten proces (aż do konferencji lub terminu premiery).

Beztroskie kopiowanie wynikowego harmonogramu nie jest dobrym pomysłem, ponieważ najlepszy harmonogram zależy od wielu innych wyborów hiperparametrów. Zalecamy skopiowanie algorytmu, który wygenerował harmonogram, chociaż rzadko jest to możliwe, gdy harmonogram został utworzony na podstawie arbitralnej oceny człowieka. Ten typ harmonogramu wrażliwego na błędy weryfikacji można stosować, jeśli można go w pełni zautomatyzować, ale harmonogramy z udziałem człowieka, które są funkcją błędu weryfikacji, są niestabilne i trudne do odtworzenia, dlatego zalecamy ich unikanie. Zanim opublikujesz wyniki uzyskane przy użyciu takiego harmonogramu, postaraj się, aby były one w pełni powtarzalne.

Jak dostroić hiperparametry algorytmu Adam?

Nie wszystkie hiperparametry w algorytmie Adam są równie ważne. Poniższe ogólne zasady odpowiadają różnym „budżetom” liczby prób w badaniu.

  • Jeśli w badaniu jest mniej niż 10 prób, dostosuj tylko (bazową) szybkość uczenia się.
  • Jeśli w badaniu jest 10–25 prób, dostosuj szybkość uczenia się i beta_1.
  • Jeśli masz ponad 25 prób, dostosuj współczynnik uczenia, beta_1epsilon.
  • Jeśli liczba prób jest znacznie większa niż 25, dodatkowo dostosuj parametr beta_2.

Ze względu na to, jak trudno jest podać ogólne reguły dotyczące przestrzeni wyszukiwania i liczby punktów, które należy z niej pobrać, traktuj podane w tej sekcji ogólne zasady jako przybliżone wytyczne”.