過度配適:L2 正則化

L2 正則化 是常見的正則化指標,計算公式如下:

$$L_2\text{ regularization } = {w_1^2 + w_2^2 + ... + w_n^2}$$

舉例來說,下表顯示六個權重的模型 L2 正規化計算:

平方值
w1 0.2 0.04
w2 -0.5 0.25
w3 5.0 25.0
w4 -1.2 1.44
w5 0.3 0.09
w6 -0.1 0.01
    26.83 = 總計

請注意,權重接近零時,對 L2 正則化影響不大,但權重較大時,影響可能很大。舉例來說,在上述計算中:

  • 單一權重 (w3) 約占總複雜度的 93%。
  • 其他五個權重加總起來,對整體複雜度的影響僅約 7%。

L2 正則化會促使權重趨近於 0,但不會將權重完全推向零。

練習:確認理解程度

如果您在訓練模型時使用 L2 正規化,模型的整體複雜度通常會發生什麼變化?
系統的整體複雜度可能會降低。
由於 L2 正則化會將權重趨近於 0,因此整體複雜度可能會下降。
模型的整體複雜度可能維持不變。
這種情況不太可能發生。
模型的整體複雜度可能會提高。
這種情況不太可能發生。請注意,L2 正則化會促使權重趨近於 0。
如果您在訓練模型時使用 L2 正規化,模型會移除部分特徵。
雖然 L2 正則化可能會使某些權重變得非常小,但絕不會將任何權重推至零。因此,所有特徵仍會對模型有所貢獻。
L2 正則化絕不會將權重推至零。

正規化率 (lambda)

如前所述,訓練會嘗試盡量減少損失和複雜程度的某種組合:

$$\text{minimize(loss} + \text{ complexity)}$$

模型開發人員會將複雜度的值乘以稱為「正規化率」的純量,藉此調整複雜度對模型訓練的整體影響。希臘字母 lambda 通常代表正規化率。

也就是說,模型開發人員的目標如下:

$$\text{minimize(loss} + \lambda \text{ complexity)}$$

正規化率偏高:

  • 加強正則化的影響力,進而降低過度擬合的機率。
  • 通常會產生具有下列特性的模型權重直方圖:
    • 常態分佈
    • 平均權重為 0。

正規化率偏低:

  • 降低正規化影響,進而增加過度擬合的機率。
  • 傾向於產生模型權重的直方圖,且分布情形平坦。

舉例來說,高正規化率的模型權重直方圖可能如圖 18 所示。

圖 18. 模型權重的直方圖,平均值為零,且呈常態分布。
圖 18。 高正規化率的權重直方圖。 平均值為零。常態分佈。

 

相較之下,低正規化率會產生較平坦的直方圖,如圖 19 所示。

圖 19. 模型權重的直方圖,平均值為零,介於平坦分布和常態分布之間。
圖 19。 低正規化率的權重直方圖。平均值可能為零,也可能不為零。

 

挑選正規化率

理想的正規化率可產生模型,並妥善將新資料 (先前未見過的資料) 一般化。很抱歉,這個理想值取決於資料,因此您必須手動或自動進行一些調整。 調整。

提早中止訓練:複雜度正則化的替代方案

提早中止訓練是一種正規化方法,不涉及複雜度計算。提早中止訓練只是指在模型完全收斂前結束訓練。舉例來說,當驗證集的損失曲線開始上升 (斜率為正值) 時,您就會結束訓練。

雖然提早中止訓練通常會增加訓練損失,但可以減少測試損失。

提早中止訓練是快速但很少最佳化的正則化形式。因此產生的模型不太可能像以理想正規化率徹底訓練的模型一樣優異。

找出學習率和正規化率之間的平衡

學習率和正規化率通常會朝相反方向移動權重。學習率越高,權重就越不會是零; 正規化率越高,權重就越接近零。

如果正規化率相對於學習率偏高,權重較弱的模型往往會做出不準確的預測。反之,如果學習率相對於正規化率較高,強權重往往會產生過度配適的模型。

您的目標是在學習率和正規化率之間找到平衡點。這可能很困難。最糟糕的是,一旦找到難以捉摸的平衡,您可能最終還是得變更學習率。此外,變更學習率時,您也必須再次找出理想的正規化率。