シンプルさのための正則化: ラムダ

モデル デベロッパーは、ラムダと呼ばれるスカラー(正則化率とも呼ばれます)をその値に乗算することで、正則化項の全体的な影響を調整します。つまり、モデルのデベロッパーは次のことを目指します。

$$\text{minimize(Loss(Data|Model)} + \lambda \text{ complexity(Model))}$$

L2 正則化を実行すると、モデルに次のような影響があります。

  • 重み値を 0 に近づけます(ただし、厳密な 0 ではない)。
  • 正規(ベル型またはガウス)分布で、重みの平均を 0 にすることを推奨します。

ラムダ値を増やすと、正則化効果が強くなります。たとえば、ラムダの値が高い場合の重みのヒストグラムは、図 2 のようになります。

平均が 0 で正規分布であるモデルの重みのヒストグラム。

図 2. 重みのヒストグラム

ラムダの値を小さくすると、図 3 に示すように、ヒストグラムが平坦になる傾向があります。

平均が 0 で、平坦な分布と正規分布の中間にあるモデルの重みのヒストグラム。

図 3. 低いラムダ値で生成された重みのヒストグラム。

ラムダ値を選択するときの目標は、シンプルさとトレーニング データの適合の適切なバランスを取ることです。

  • ラムダ値が大きすぎると、モデルは単純になりますが、データが過学習されるリスクがあります。モデルは有用な予測を行うのに トレーニングデータを十分に学習できません

  • ラムダ値が低すぎると、モデルが複雑になり、データが過学習されるリスクがあります。モデルはトレーニング データの特異性について学習しすぎ、新しいデータに合わせて一般化できなくなります。

ラムダの理想的な値により、未知の新しいデータに対してうまく一般化されるモデルが生成されます。残念ながら、そのラムダの理想的な値はデータに依存するため、手動または自動でのチューニング。