このページは Cloud Translation API によって翻訳されました。

損失の低減: 勾配降下法

反復アプローチの図（図 1）には、「Compute parameter updates」というタイトルの緑色の波線付きのボックスがありました。アルゴリズムによるフェアリーダストを、より実質的なものに置き換えます。

$w_1$のすべての値について損失を計算するための時間とコンピューティングリソースがあるとします。これまで検討してきた回帰問題では、損失と $w_1$ のプロットは常に凸になります。つまり、プロットは常に次のようなボウル型になります。

U 字型曲線のプロット。縦軸に「損失」、横軸に重み w i の値が表示されている。

図 2. 回帰問題により、コンベックス損失と重みのプロットが得られます。

凸問題は最小値が 1 つしかありません。つまり、傾きがちょうど 0 になる場所は 1 つだけです。損失関数が収束するのは、この最小値です。

データセット全体で想定される $w_1$の値ごとに損失関数を計算することは、収束点を見つけるのに非効率な方法です。ML で非常に一般的な、勾配降下法という、より優れたメカニズムを見てみましょう。

勾配降下法の最初のステージは、 $w_1$の開始値（始点）を選択します。開始点はそれほど重要ではありません。そのため、多くのアルゴリズムでは、単に $w_1$ を 0 に設定するか、ランダムな値を選択します。次の図は、0 より少し大きい開始点を選択していることを示しています。

U 字型曲線のプロット。曲線の左側の中間点にあるポイントは「開始点」と呼ばれます。

図 3. 勾配降下法の出発点。

勾配降下法アルゴリズムは、開始点における損失曲線の勾配を計算します。この図 3 では、損失の勾配は曲線の導関数（傾き）に等しく、どちらの方向が「暖かい」か「寒い」かを示しています。複数の重みがある場合、勾配は重みに関する偏導関数のベクトルです。

プラスアイコンをクリックすると、偏導関数と勾配の詳細が表示されます。

機械学習に関する数学はおもしろいです。リンクをクリックして詳細をご覧ください。ただし、勾配計算はすべて TensorFlow が処理するので、ここで提供される計算を実際に理解する必要はありません。

偏導関数

マルチ変数関数とは、次のような複数の引数を持つ関数です。

$$f(x,y) = e^{2y}\sin(x)$$

$x$に関する部分微分 $f$ 。以下のように表されます。

$$ \partial f \over \partial x $$

$f$ の導関数で、 $x$のみの関数としてみなされます。次の情報を確認できます。

$$\partial f \over \partial x $$

定数を $y$ 保持し（つまり $f$ は 1 つの変数の関数になりました $x$）、 $x$について $f$の正導関数を取る必要があります。たとえば、 $y$ が 1 に固定されている場合、上記の関数は次のようになります。

$$ f(x) = e^2\sin(x) $$

これは 1 つの変数 $x$の関数で、その導関数は次の式です。

$$ e^2\cos(x) $$

一般に、 $y$ 固定と考えると、 $f$ を基準として $x$ の偏導関数は、次のように計算されます。

$$\frac{\partial f}{\partial x}(x,y) = e^{2y}\cos(x)$$

同様に、代わりに固定 $x$ を求めると、 $y$ に関して $f$ の偏導関数は次のようになります。

$$ \frac{\partial f}{\partial y}(x,y) = 2e^{2y}\sin(x) $$

直観的には、偏導関数は 1 つの変数に少し摂動を加えることで関数がどの程度変化するかを示します。上の例の各要素の内容は次のとおりです。

$$ \frac{\partial f}{\partial x} (0,1) = e^2 \approx 7.4 $$

つまり、開始時に $(0,1)$一定に $y$ 少し動くと、 $x$ 少し動くと$f$ 変化した量の約 7.4 倍の変化になります $x$。

ML では、偏導関数はほとんどの場合、関数の勾配と組み合わせて使用されます。

勾配

以下のように、関数の勾配は、すべての独立変数に関する偏導関数のベクトルです。

$$ \nabla f $$

たとえば、次のような場合です。

$$ f(x,y) = e^{2y}\sin(x) $$

ならば:

$$\nabla f(x,y) = \left(\frac{\partial f}{\partial x}(x,y), \frac{\partial f}{\partial y}(x,y)\right) = (e^{2y}\cos(x), 2e^{2y}\sin(x))$$

次の点に注意してください。

$$\nabla f$$	関数が最も大きく増加する方向にある点。
$$ {-\nabla f} $$	関数が最も減少する方向にある点。

ベクトルの次元数は $f$の式の変数の数と同じです。つまり、ベクトルは関数のドメイン空間に収まります。たとえば、次の関数 $f(x,y)$のグラフがあるとします。

$$ f(x,y) = 4 + (x - 2)^2 + 2y^2 $$

$z = f(x,y)$ で 3 次元で表示すると、 $(2,0,4)$で最小値を持つ谷のように見えます。

$f(x,y)$ のグラデーションは、高さを最大にするには$(x,y)$ のどの方向に移動するかを示す 2 次元のベクトルです。したがって、グラデーションの負の値により、高さが最大減少する方向に移動します。つまり、勾配ベクトルの負の座標が谷を指しています。

ML では、勾配降下法に勾配が使用されます。多くの場合、最小化しようとする多くの変数の損失関数がありますが、関数の勾配の負に従うように損失関数を合わせます。

グラデーションはベクトルなので、次の両方の特性があります。

ルート
桁

勾配は常に損失関数が最も急激に増加する方向を指しています。勾配降下法アルゴリズムは、可能な限り迅速に損失を低減するために、負の勾配の方向にステップを実行します。

U 字型曲線のプロット。曲線の左側にある点は「始点」というラベルが付けられます。「負のグラデーション」とラベル付けされた矢印がこの地点から右を指している。

図 4. 勾配降下法は負の勾配に依存します。

損失関数曲線に沿って次の点を判定するために、勾配降下法アルゴリズムは、次の図に示すように、勾配の大きさの一部を始点に追加します。

U 字型曲線のプロット。曲線の左側にある点は「始点」というラベルが付けられます。「負のグラデーション」とラベル付けされた矢印がこの地点から右を指している。別の矢印は、1 つ目の矢印の先端から曲線上の 2 つ目の点を指しています。2 つ目の地点には「次の地点」というラベルが付きます。

図 5. 勾配のステップにより、損失曲線の次の点に進みます。

勾配降下法はこのプロセスを繰り返し、最小に近づきます。

ヘルプセンター

反復型アプローチ

学習率