Verlust reduzieren: Lernrate

Wie bereits erwähnt, hat der Gradientenvektor sowohl eine Richtung als auch eine Größe. Algorithmen für den Gradientenabstieg multiplizieren den Gradienten mit einem Skalar, der als Lernrate bezeichnet wird (manchmal auch als Schrittgröße bezeichnet), um den nächsten Punkt zu bestimmen. Wenn die Gradientengröße beispielsweise 2,5 und die Lernrate 0,01 beträgt, wählt der Algorithmus für den Gradientenabstieg den nächsten Punkt, der 0,025 vom vorherigen Punkt entfernt ist.

Hyperparameter sind die Knöpfe, mit denen Programmierer Algorithmen für maschinelles Lernen optimieren können. Die meisten Programmierer für maschinelles Lernen verbringen ziemlich viel Zeit damit, die Lernrate abzustimmen. Wenn Sie eine zu niedrige Lernrate auswählen, dauert das Lernen zu lange:

Dieselbe U-förmige Kurve. Viele Punkte liegen nah beieinander und der Weg kommt nur sehr langsam in Richtung des Fußes des U vor.

Abbildung 6. Lernrate ist zu gering.

Wenn Sie umgekehrt eine zu hohe Lernrate angeben, springt der nächste Punkt unauffällig über den unteren Teil des Brunnens, wie ein Quantenmechanik-Experiment, das schrecklich schiefgegangen ist:

Dieselbe U-förmige Kurve. Sie enthält nur sehr wenige Punkte. Die Punktespur springt sauber über den unteren Rand des U und springt dann wieder zurück.

Abbildung 7. Lernrate ist zu hoch.

Für jedes Regressionsproblem gibt es eine Goldlöckchen-Lernrate. Der Goldlöckchen-Wert gibt an, wie flach die Verlustfunktion ist. Wenn Sie wissen, dass der Gradient der Verlustfunktion klein ist, können Sie bedenkenlos eine höhere Lernrate ausprobieren, die den kleinen Gradienten ausgleicht und eine größere Schrittgröße zur Folge hat.

Dieselbe U-förmige Kurve. Der Punktepfad erreicht den Mindestpunkt in etwa acht Schritten.

Abbildung 8. Die Lernrate ist genau richtig.