Sehen Sie sich die folgenden Optionen an.

Stellen Sie sich ein lineares Modell mit zwei stark korrelierten Merkmalen vor: also: Diese beiden Funktionen sind nahezu identische Kopien -Element ein wenig zufälliges Rauschen enthält. Wenn wir diese mit der L2-Regularisierung, was passiert mit den Gewichtungen, für diese beiden Funktionen?
Beide Elemente haben ungefähr die gleiche, mittlere Gewichtung.
Die L2-Regularisierung erzwingt die Funktionen etwa gleichwertige Gewichtungen, die ungefähr die Hälfte nur eine der beiden Funktionen im Modell enthalten war.
Eine Funktion hat eine große Gewichtung, hat der andere ein eine Gewichtung von fast 0,0.
Die L2-Regularisierung bestraft große Gewichtungen stärker als kleine Gewichte. Selbst wenn ein Gewicht plötzlich ist die L2-Regularisierung das größere Gewicht tendenziell schneller das kleinere Gewicht haben.
Eine Funktion hat eine große Gewichtung, hat der andere ein exakt 0,0.
Die L2-Regularisierung erzwingt selten auf genau 0,0. Im Gegensatz dazu wird mit der L1-Regularisierung (wird später erläutert) erzwingt Gewichtungen auf genau 0,0.