Regularisierung für Einfachheit: Lambda

Modellentwickler stimmen die Gesamtauswirkung des Regularisierungsbegriffs ab, indem sie dessen Wert mit einem Skalar namens Lambda (auch als Regularisierungsrate bezeichnet) multiplizieren. Modellentwickler versuchen also, Folgendes zu tun:

$$\text{minimize(Loss(Data|Model)} + \lambda \text{ complexity(Model))}$$

Die L2-Regularisierung hat die folgenden Auswirkungen auf ein Modell

  • Sorgt für Gewichtungswerte in Richtung 0 (aber nicht genau 0)
  • Bestimmt den Mittelwert der Gewichtungen in Richtung 0 mit einer normalen (glockenförmigen oder Gaußschen) Verteilung.

Das Erhöhen des Lambda-Werts verstärkt den Regularisierungseffekt. Das Histogramm der Gewichtungen für einen hohen Lambda-Wert könnte beispielsweise so aussehen, wie es in Abbildung 2 dargestellt ist.

Histogramm der Gewichtungen eines Modells mit einem Mittelwert von null und einer Normalverteilung.

Abbildung 2. Histogramm von Gewichtungen.

Das Senken des Lambda-Werts führt tendenziell zu einem flacheren Histogramm, wie in Abbildung 3 dargestellt.

Histogramm der Gewichtungen eines Modells mit einem Mittelwert von null, der irgendwo zwischen einer flachen und einer Normalverteilung liegt.

Abbildung 3. Histogramm der Gewichtungen, die durch einen niedrigeren Lambda-Wert erzeugt wurden.

Bei der Auswahl eines Lambda-Werts besteht das Ziel darin, die richtige Balance zwischen Einfachheit und Eignung der Trainingsdaten zu finden:

  • Wenn Ihr Lambda-Wert zu hoch ist, wird Ihr Modell einfach sein. Es besteht jedoch das Risiko, dass Ihre Daten unzureichend angepasst werden. Das Modell lernt nicht genug über die Trainingsdaten, um nützliche Vorhersagen zu treffen.

  • Wenn Ihr Lambda-Wert zu niedrig ist, wird das Modell komplexer und es besteht die Gefahr einer Überanpassung Ihrer Daten. Das Modell lernt zu viel über die Besonderheiten der Trainingsdaten und kann nicht auf neue Daten verallgemeinert werden.

Der ideale Wert von Lambda erzeugt ein Modell, das sich gut auf neue, zuvor unbekannte Daten verallgemeinern lässt. Leider ist dieser ideale Wert von Lambda datenabhängig, sodass Sie eine-Abstimmung.