以下のオプションをご検討ください。

強く相関する 2 つの特徴を持つ線形モデルを想像してください。つまり この 2 つの機能はほぼ同一のものですが、 ランダムノイズが小さくなります。トレーニングする場合、 L2 正則化でモデル化した場合、重みはどうなりますか。 どうすればよいでしょうか
両方の特徴量の重みはほぼ同じで、中程度になります。
L2 正則化では、特徴は およそ半分の重みであり、 2 つの機能のどちらかのみがあれば 渡されます。
1 つの特徴の重みが大きくなります。もう 1 つは 重みはほぼ 0.0 です。
L2 正則化により、大きな重みに対するペナルティが大きくなる 減量されます。たとえ体重が片方だけ下がり始めたとしても L2 正則化のほうが 大きな分量のほうが急に落ちる傾向があり、 重みが小さくなります。
1 つの特徴の重みが大きくなります。もう 1 つは 重みを 0.0 に完全に合わせます。
L2 正則化が強制的に適用されることはめったにない 重みが正確に 0.0 に設定されます。一方、L1 正則化は (後述)重みを強制的に 0.0 にします