Lineare Regression: Gradientenabstieg

Gradient Descent ist eine mathematische Methode, mit der iterativ die Gewichte und der Bias ermittelt werden, die das Modell mit dem geringsten Verlust erzeugen. Beim Gradientenabstieg werden das optimale Gewicht und der optimale Bias ermittelt, indem der folgende Prozess für eine benutzerdefinierte Anzahl von Iterationen wiederholt wird.

Das Modell wird mit zufälligen Gewichten und Bias-Werten nahe null trainiert und wiederholt dann die folgenden Schritte:

  1. Berechnen Sie den Verlust mit dem aktuellen Gewicht und Bias.

  2. Richtung ermitteln, in die Gewichte und Bias verschoben werden müssen, um den Verlust zu verringern.

  3. Verschieben Sie die Gewichts- und Bias-Werte ein wenig in die Richtung, in der der Verlust geringer wird.

  4. Kehren Sie zu Schritt 1 zurück und wiederholen Sie den Vorgang, bis das Modell den Verlust nicht weiter reduzieren kann.

Das folgende Diagramm zeigt die iterativen Schritte, die beim Gradientenabstieg ausgeführt werden, um die Gewichte und den Bias zu finden, die das Modell mit dem geringsten Verlust erzeugen.

Abbildung 11: Abbildung des Gradientenabstiegs.

Abbildung 11. Der Gradientenabstieg ist ein iterativer Prozess, bei dem die Gewichte und der Bias ermittelt werden, die das Modell mit dem geringsten Verlust erzeugen.

Modellkonvergenz und Verlustkurven

Beim Trainieren eines Modells wird häufig eine Verlustkurve betrachtet, um festzustellen, ob das Modell konvergiert ist. Die Verlustkurve zeigt, wie sich der Verlust während des Trainings des Modells ändert. So sieht eine typische Verlustkurve aus: Der Verlust ist auf der Y-Achse und die Iterationen auf der X-Achse dargestellt:

Abbildung 12: Diagramm der Verlustkurve mit einem steilen und dann einem sanften Rückgang.

Abbildung 12. Verlustkurve, die zeigt, dass das Modell um die 1.000. Iteration herum konvergiert.

Sie sehen, dass der Verlust in den ersten Iterationen drastisch abnimmt,dann allmählich sinkt und sich um die 1.000. Iteration herum stabilisiert. Nach 1.000 Iterationen können wir uns ziemlich sicher sein, dass das Modell konvergiert ist.

In den folgenden Abbildungen wird das Modell an drei Punkten während des Trainingsprozesses dargestellt: am Anfang, in der Mitte und am Ende. Wenn Sie den Zustand des Modells in Momentaufnahmen während des Trainingsprozesses visualisieren, wird die Verbindung zwischen dem Aktualisieren der Gewichte und des Bias, dem Reduzieren des Verlusts und der Modellkonvergenz verdeutlicht.

In den Abbildungen verwenden wir die abgeleiteten Gewichte und den Bias in einer bestimmten Iteration, um das Modell darzustellen. Im Diagramm mit den Datenpunkten und dem Modell-Snapshot zeigen blaue Verlustlinien vom Modell zu den Datenpunkten den Verlust an. Je länger die Leitungen sind, desto höher ist der Verlust.

In der folgenden Abbildung sehen wir, dass das Modell um die zweite Iteration herum aufgrund des hohen Verlusts keine guten Vorhersagen mehr treffen kann.

Abbildung 13. Verlustkurve und entsprechendes Diagramm des Modells, das sich von den Datenpunkten wegbewegt.

Abbildung 13. Verlustkurve und Snapshot des Modells zu Beginn des Trainingsprozesses.

Nach etwa 400 Iterationen hat der Gradientenabstieg das Gewicht und den Bias gefunden, mit denen sich ein besseres Modell erstellen lässt.

Abbildung 14: Verlustkurve und entsprechendes Diagramm des Modells, das die Datenpunkte durchschneidet, aber nicht im optimalen Winkel.

Abbildung 14. Verlustkurve und Momentaufnahme des Modells etwa in der Mitte des Trainings.

Nach etwa 1.000 Iteration ist das Modell konvergiert und hat den niedrigstmöglichen Verlust.

Abbildung 15: Verlustkurve und entsprechendes Diagramm des Modells, das gut zu den Daten passt.

Abbildung 15. Verlustkurve und Momentaufnahme des Modells gegen Ende des Trainingsprozesses.

Übung: Wissen testen

Welche Rolle spielt der Gradientenabstieg bei der linearen Regression?
Der Gradientenabstieg ist ein iterativer Prozess, bei dem die besten Gewichte und der beste Bias ermittelt werden, um den Verlust zu minimieren.
Der Gradientenabstieg hilft dabei, den Typ des Verlusts zu bestimmen, der beim Trainieren eines Modells verwendet werden soll, z. B. L1 oder L2.
Der Gradientenabstieg spielt bei der Auswahl einer Verlustfunktion für das Modelltraining keine Rolle.
Beim Gradientenabstieg werden Ausreißer aus dem Dataset entfernt, damit das Modell bessere Vorhersagen treffen kann.
Durch den Gradientenabstieg wird das Dataset nicht geändert.

Konvergenz und konvexe Funktionen

Die Verlustfunktionen für lineare Modelle ergeben immer eine konvexe Oberfläche. Wenn ein lineares Regressionsmodell konvergiert, wissen wir, dass das Modell die Gewichte und den Bias gefunden hat, die den geringsten Verlust erzeugen.

Wenn wir die Verlustoberfläche für ein Modell mit einem Merkmal grafisch darstellen, sehen wir die konvexe Form. Das folgende Diagramm zeigt die Verlustoberfläche für einen hypothetischen Datensatz mit Meilen pro Gallone. Das Gewicht ist auf der x-Achse, der Bias auf der y-Achse und der Verlust auf der z-Achse:

Abbildung 16: 3D-Diagramm der Verlustoberfläche.

Abbildung 16. Verlustoberfläche mit konvexer Form.

In diesem Beispiel führen ein Gewicht von -5,44 und ein Bias von 35,94 zum niedrigsten Verlust bei 5,54:

Abbildung 17. 3D-Diagramm der Verlustoberfläche mit (-5,44, 35,94, 5,54) unten.

Abbildung 17. Verlustoberfläche mit den Gewichts- und Bias-Werten, die den niedrigsten Verlust ergeben.

Ein lineares Modell konvergiert, wenn der minimale Verlust erreicht ist. Wenn wir die Gewichte und Bias-Punkte während des Gradientenabstiegs grafisch darstellen, würden die Punkte wie ein Ball aussehen, der einen Hügel hinunterrollt und schließlich an dem Punkt anhält, an dem es keine Abwärtsneigung mehr gibt.

Abbildung 18: Konvexe 3D-Verlustoberfläche mit Gradientenabstiegs-Punkten, die sich zum niedrigsten Punkt bewegen.

Abbildung 18. Verlustdiagramm mit Punkten für den Gradientenabstieg, die am niedrigsten Punkt des Diagramms enden.

Die schwarzen Verlustpunkte bilden die genaue Form der Verlustkurve: ein steiler Abfall, bevor sie allmählich abfällt, bis sie den niedrigsten Punkt auf der Verlustoberfläche erreicht hat.

Mithilfe der Gewichts- und Bias-Werte, die den geringsten Verlust ergeben (in diesem Fall ein Gewicht von -5,44 und ein Bias von 35,94), können wir das Modell grafisch darstellen, um zu sehen, wie gut es zu den Daten passt:

Abbildung 19: Diagramm mit Pfund in Tausend gegenüber Meilen pro Gallone, wobei das Modell an die Daten angepasst wird.

Abbildung 19. Modell, das mit den Gewichtungs- und Bias-Werten dargestellt wird, die den niedrigsten Verlust ergeben.

Dies ist das beste Modell für diesen Datensatz, da keine anderen Gewichts- und Bias-Werte ein Modell mit geringerem Verlust ergeben.