Einfache Regularisierung: Verständnis überprüfen

L2-Regularisierung

Sehen Sie sich die folgenden Optionen an.

Stellen Sie sich ein lineares Modell mit 100 Eingabefeatures vor:
  • 10 sind sehr informativ.
  • sind nicht informativ.
  • Es wird angenommen, dass alle Merkmale Werte zwischen -1 und 1 haben. Welche der folgenden Aussagen sind wahr?
    Bei der L2-Regularisierung werden viele der nicht informativen Gewichtungen nahezu (aber nicht genau) 0,0 betragen.
    Ja, die L2-Regularisierung empfiehlt Gewichtungen nahe 0,0, aber nicht genau 0,0.
    Die L2-Regularisierung empfiehlt, dass die meisten nicht informativen Gewichtungen genau 0,0 betragen.
    Die L2-Regularisierung neigt dazu, Gewichtungen nicht auf genau 0,0 zu erzwingen. Die L2-Regularisierung bestraft größere Gewichtungen stärker als kleinere Gewichtungen. Wenn eine Gewichtung sich dem Wert 0,0 nähert, "drückt" L2 weniger stark in Richtung 0,0.
    Die L2-Regularisierung kann dazu führen, dass das Modell für einige nicht informative Features eine mittlere Gewichtung erlernt.
    Überraschenderweise kann dies passieren, wenn ein nicht informatives Merkmal mit dem Label korreliert. In diesem Fall weist das Modell solchen nicht informativen Merkmalen fälschlicherweise einen Teil der „Quelle“ zu, die zu informativen Features gehört hätten.

    L2 Regularisierung und korrelierte Features

    Sehen Sie sich die folgenden Optionen an.

    Angenommen, ein lineares Modell hat zwei stark korrelierte Merkmale. Das heißt, diese beiden Merkmale sind nahezu identische Kopien voneinander, doch ein Feature enthält ein wenig Zufallsrauschen. Was passiert mit den Gewichtungen dieser beiden Features, wenn wir dieses Modell mit L2-Regularisierung trainieren?
    Beide Features haben ungefähr die gleiche, mittlere Gewichtung.
    Die L2-Regularisierung zwingt die Features zu etwa gleichwertigen Gewichtungen, die ungefähr die Hälfte von dem sind, was sie gewesen wären, wenn nur eines der beiden Features im Modell gewesen wäre.
    Das eine Feature hat eine hohe Gewichtung, das andere eine Gewichtung von fast 0,0.
    Die L2-Regularisierung bestraft große Gewichtungen stärker als kleine. Selbst wenn also eine Gewichtung schneller fällt als die andere, würde die L2-Regularisierung tendenziell dazu führen, dass die größere Gewichtung schneller abfällt als die kleinere.
    Das eine Feature hat eine hohe Gewichtung, das andere eine genau 0,0.
    Die L2-Regularisierung erzwingt Gewichtungen selten bis genau 0,0. Im Gegensatz dazu wird bei der L1-Regularisierung (wird weiter unten erläutert) die Gewichtung auf genau 0, 0 erzwingt.