Sehen Sie sich die folgenden Optionen an.
Stellen Sie sich ein lineares Modell mit zwei stark korrelierten Merkmalen vor: also:
Diese beiden Funktionen sind nahezu identische Kopien
-Element ein wenig zufälliges Rauschen enthält. Wenn wir diese
mit der L2-Regularisierung, was passiert mit den Gewichtungen,
für diese beiden Funktionen?
Beide Elemente haben ungefähr die gleiche, mittlere Gewichtung.
Die L2-Regularisierung erzwingt die Funktionen
etwa gleichwertige Gewichtungen,
die ungefähr die Hälfte
nur eine der beiden Funktionen
im Modell enthalten war.
Eine Funktion hat eine große Gewichtung, hat der andere ein
eine Gewichtung von fast 0,0.
Die L2-Regularisierung bestraft große Gewichtungen stärker
als kleine Gewichte. Selbst wenn ein Gewicht plötzlich
ist die L2-Regularisierung
das größere Gewicht tendenziell schneller
das kleinere Gewicht haben.
Eine Funktion hat eine große Gewichtung, hat der andere ein
exakt 0,0.
Die L2-Regularisierung erzwingt selten
auf genau 0,0. Im Gegensatz dazu wird mit der L1-Regularisierung
(wird später erläutert) erzwingt Gewichtungen auf genau 0,0.