Lernrate

Dieser Anhang enthält einige zusätzliche Details zur Lernrate.

Zeitplan für die Verringerung der Lernrate

Die beste Familie von Lernraten-Verfallsplänen ist ein offenes Problem. Es ist nicht klar, wie eine Reihe von strengen Experimenten durchgeführt werden kann, um diese Frage sicher zu beantworten. Wir wissen zwar nicht, welche Familie am besten für dich geeignet ist, aber wir sind uns sicher, dass Folgendes zutrifft:

  • Es ist wichtig, einen (nicht konstanten) Zeitplan zu haben.
  • Es ist wichtig, diesen Zeitplan anzupassen.

Zu unterschiedlichen Zeiten während des Optimierungsprozesses sind unterschiedliche Lernraten am besten geeignet. Durch einen Zeitplan ist es wahrscheinlicher, dass das Modell eine gute Lernrate erreicht.

Bester Standard-Lernratenabfall

Wir empfehlen standardmäßig eine der folgenden Familien für den Lernratenabfall:

  • Linearer Zerfall
  • Kosinus-Verfall

Viele andere Zeitplanfamilien sind wahrscheinlich auch gut.

Warum haben einige Arbeiten komplizierte Lernratenpläne?

In vielen wissenschaftlichen Arbeiten werden komplizierte stückweise Lernratenverringerungsschemata verwendet. Leser fragen sich oft, wie die Autoren zu einem so komplizierten Zeitplan gekommen sind. Viele komplizierte LR-Verfallspläne sind das Ergebnis einer Ad-hoc-Abstimmung des Plans in Abhängigkeit von der Leistung des Validierungssatzes. Das bedeutet:

  1. Starten Sie einen einzelnen Trainingslauf mit einem einfachen LR-Verfall (oder einer konstanten Lernrate).
  2. Lassen Sie das Training so lange laufen, bis die Leistung stagniert. Wenn das passiert, pausieren Sie das Training. Setzen Sie das Training dann mit einem möglicherweise steileren LR-Verfallsplan (oder einer kleineren konstanten Lernrate) fort. Wiederholen Sie diesen Vorgang bis zur Konferenz oder bis zum Launch-Termin.

Das resultierende Schema einfach zu kopieren, ist in der Regel keine gute Idee, da das beste Schema von einer Vielzahl anderer Hyperparameter abhängt. Wir empfehlen, den Algorithmus zu kopieren, der den Zeitplan erstellt hat. Das ist jedoch selten möglich, wenn der Zeitplan auf einer willkürlichen menschlichen Entscheidung beruht. Diese Art von validierungsfehleranfälligem Zeitplan kann verwendet werden, wenn sie vollständig automatisiert werden kann. Zeitpläne mit menschlicher Interaktion, die eine Funktion des Validierungsfehlers sind, sind jedoch anfällig und nicht leicht reproduzierbar. Wir empfehlen daher, sie zu vermeiden. Bevor Sie Ergebnisse veröffentlichen, die auf einem solchen Zeitplan basieren, sollten Sie versuchen, sie vollständig reproduzierbar zu machen.

Wie sollten die Hyperparameter von Adam optimiert werden?

Nicht alle Hyperparameter in Adam sind gleich wichtig. Die folgenden Faustregeln entsprechen unterschiedlichen „Budgets“ für die Anzahl der Testläufe in einer Studie.

  • Wenn in einer Studie weniger als 10 Testläufe durchgeführt werden, sollte nur die (Basis-)Lernrate optimiert werden.
  • Wenn in einer Studie 10 bis 25 Versuche durchgeführt werden, sollten Sie die Lernrate und beta_1 optimieren.
  • Wenn Sie mehr als 25 Tests durchführen, passen Sie die Lernrate, beta_1 und epsilon an.
  • Wenn es deutlich mehr als 25 Testläufe gibt, optimieren Sie zusätzlich beta_2.

Da es schwierig ist, allgemeine Regeln für Suchräume und die Anzahl der Stichproben aus dem Suchraum zu formulieren, sollten Sie die Faustregeln in diesem Abschnitt als grobe Richtlinien betrachten.“