損失の削減: 学習率

前述のように、勾配ベクトルには方向と大きさの両方があります。勾配降下アルゴリズムは、勾配に学習率(ステップサイズとも呼ばれます)と呼ばれるスカラーを乗算して、次のポイントを決定します。たとえば、勾配の大きさが 2.5 で学習率が 0.01 の場合、勾配降下法アルゴリズムは前の点から 0.025 離れた次の点を選択します。

ハイパーパラメータは、プログラマーが機械学習アルゴリズムで微調整するためのノブです。ほとんどの ML プログラマーは学習率の調整にかなりの時間を 費やしています小さすぎる学習率を選択すると 学習に時間がかかります

同じ U 字形の曲線。多くのポイントが非常に近く、そのトレイルは U の谷底へと向かってきわめてゆっくりと進んでいます。

図 6: 学習率が小さすぎます。

逆に、大きすぎる学習率を指定すると、次のポイントは量子力学の実験で大きな問題があったように、ウェルの底面を無秩序に跳ね返り続けます。

同じ U 字形の曲線。この点はとても少ない点です。ポイントのトレイルは U の下部をすっきりと跳ね返り、またまたジャンプしている。

図 7. 学習率が大きすぎます。

すべての回帰問題には、ゴルディロックス学習率があります。ゴルディロックス値は損失関数の平坦性に関係します。損失関数の勾配が小さいことがわかっている場合は、小さな勾配を補正してステップサイズを大きくする学習率を大きくしても問題はありません。

同じ U 字形の曲線。ポイントのトレイルは、約 8 歩で最小ポイントに到達します。

図 8. 学習率はちょうどよい。