以下のオプションをご検討ください。
強く相関する 2 つの特徴を持つ線形モデルを想像してください。つまり
この 2 つの機能はほぼ同一のものですが、
ランダムノイズが小さくなります。トレーニングする場合、
L2 正則化でモデル化した場合、重みはどうなりますか。
どうすればよいでしょうか
両方の特徴量の重みはほぼ同じで、中程度になります。
L2 正則化では、特徴は
およそ半分の重みであり、
2 つの機能のどちらかのみがあれば
渡されます。
1 つの特徴の重みが大きくなります。もう 1 つは
重みはほぼ 0.0 です。
L2 正則化により、大きな重みに対するペナルティが大きくなる
減量されます。たとえ体重が片方だけ下がり始めたとしても
L2 正則化のほうが
大きな分量のほうが急に落ちる傾向があり、
重みが小さくなります。
1 つの特徴の重みが大きくなります。もう 1 つは
重みを 0.0 に完全に合わせます。
L2 正則化が強制的に適用されることはめったにない
重みが正確に 0.0 に設定されます。一方、L1 正則化は
(後述)重みを強制的に 0.0 にします。