简化正则化

正则化是指降低模型的复杂性以减少过拟合。

简化正则化

训练集的损失函数逐渐递减。相比之下,验证集的损失函数先下降,然后开始上升。
  • 我们希望尽可能降低模型的复杂性。
  • 我们可以将此想法融入到训练时进行的优化中。
  • 经验风险最小化:
    • 旨在降低训练误差
    • $$ \text{minimize: } Loss(Data\;|\;Model) $$

  • 我们希望尽可能降低模型的复杂性。
  • 我们可以将此想法融入到训练时进行的优化中。
  • 结构风险最小化:
    • 旨在降低训练误差
    • 同时平衡复杂性
    • $$ \text{minimize: } Loss(Data\;|\;Model) + complexity(Model) $$

  • 如何定义复杂度(模型)?
  • 如何定义复杂度(模型)?
  • 首选较小的权重
  • 如何定义复杂度(模型)?
  • 首选较小的权重
  • 偏离应该会产生成本
  • 可以通过 L2 正则化(也称为岭正则化)对这种想法进行编码
    • 复杂度(模型)= 权重的平方和
    • 降低非常大的权重
    • 对于线性模型:首选比较平缓的斜率
    • 贝叶斯先验:
      • 权重应该以 0 为中心
      • 权重应该呈正态分布

$$ Loss(Data|Model) + \lambda \left(w_1^2 + \ldots + w_n^2 \right) $$

\(\text{Where:}\)

\(Loss\text{: Aims for low training error}\) \(\lambda\text{: Scalar value that controls how weights are balanced}\) \(w_1^2+\ldots+w_n^2\text{: Square of}\;L_2\;\text{norm}\)