此页面由 Cloud Translation API 翻译。

线性回归：梯度下降

梯度下降法是一种数学方法，可迭代查找可生成损失最低的模型的权重和偏差。梯度下降法会重复以下过程若干次（用户指定的迭代次数），以找到最佳权重和偏差。

模型开始训练时，权重和偏差为接近零的随机值，然后重复以下步骤：

使用当前权重和偏差计算损失。
确定用于减少损失的权重和偏差的移动方向。
将权重和偏差值在可减少损失的方向上稍微移动。
返回第 1 步并重复此过程，直到模型无法进一步降低损失。

下图概述了梯度下降法执行的迭代步骤，以便找到可生成损失最低的模型的权重和偏差。

图 12. 梯度下降过程示意图。

图 12. 梯度下降是一种迭代过程，用于查找可生成损失最低的模型的权重和偏差。

点击加号图标，详细了解梯度下降背后的数学原理。

具体而言，我们可以使用一个包含 7 个示例的小型数据集来演示梯度下降步骤，这些示例分别对应汽车的重量（以磅为单位）和每加仑行驶里程数：

以千计的英镑（功能）	每加仑英里（标签）
3.5	18
3.69	15
3.44	18
3.43	16
4.34	15
4.42	14
2.37	24

模型会先将权重和偏差设为零，然后开始训练：

$$ \small{Weight:\ 0} $$ $$ \small{Bias:\ 0} $$ $$ \small{y = 0 + 0(x_1)} $$

使用当前的模型参数计算 MSE 损失：

$$ \small{Loss = \frac{(18-0)^2 + (15-0)^2 + (18-0)^2 + (16-0)^2 + (15-0)^2 + (14-0)^2 + (24-0)^2}{7}} $$ $$ \small{Loss= 303.71} $$

计算每个权重和偏差处损失函数的切线的斜率：

$$ \small{Weight\ slope: -119.7} $$ $$ \small{Bias\ slope: -34.3} $$

点击加号图标，了解如何计算斜率。

为了获取与权重和偏差相切的线的斜率，我们需要对权重和偏差求出损失函数的导数，然后解方程。

我们将用于进行预测的方程写为：
$ f_{w,b}(x) = (w*x)+b $。

我们将实际值写为：$ y $。

我们将使用以下公式计算 MSE：
$ \frac{1}{M} \sum_{i=1}^{M} (f_{w,b}(x_{(i)}) - y_{(i)})^2 $
其中 $i$ 表示第 $i$ 个训练示例，$M$ 表示示例数量。

权重导数

损失函数相对于权重的导数写作：
$ \frac{\partial }{\partial w} \frac{1}{M} \sum_{i=1}^{M} (f_{w,b}(x_{(i)}) - y_{(i)})^2 $

其计算结果为：
$ \frac{1}{M} \sum_{i=1}^{M} (f_{w,b}(x_{(i)}) - y_{(i)}) * 2x_{(i)} $

首先，我们将每个预测值减去实际值的总和，然后将其乘以特征值的两倍。然后，将总和除以示例数。结果是与权重值相切的线的斜率。

如果我们将权重和偏置设为 0 来求解此方程，则会得到线条的斜率为 -119.7。

偏差导数

损失函数相对于偏差的导数写作：
$ \frac{\partial }{\partial b} \frac{1}{M} \sum_{i=1}^{M} (f_{w,b}(x_{(i)}) - y_{(i)})^2 $

其计算结果为：
$ \frac{1}{M} \sum_{i=1}^{M} (f_{w,b}(x_{(i)}) - y_{(i)}) * 2 $

首先，我们将每个预测值减去实际值的差值求和，然后将其乘以 2。然后，将总和除以示例数。结果是与偏差值相切的线的斜率。

如果我们将权重和偏差设为零来解此方程，则会得到线条的斜率为 -34.3。

向负斜率方向移动一小段距离，即可获得下一个权重和偏差。目前，我们将“小额”定义为 0.01：

$$ \small{New\ weight = old\ weight - (small\ amount * weight\ slope)} $$ $$ \small{New\ bias = old\ bias - (small\ amount * bias\ slope)} $$ $$ \small{New\ weight = 0 - (0.01)*(-119.7)} $$ $$ \small{New\ bias = 0 - (0.01)*(-34.3)} $$ $$ \small{New\ weight = 1.2} $$ $$ \small{New\ bias = 0.34} $$

使用新的权重和偏差计算损失，然后重复上述步骤。完成六次迭代后，我们会得到以下权重、偏差和损失：