学習率

この付録では、学習率に関する追加の詳細について説明します。

学習率減衰スケジュール

最適な学習率減衰スケジュールのファミリーは未解決の問題です。この質問に自信を持って答えるための厳密な実験セットを構築する方法は明らかではありません。最適なスケジュール ファミリーは不明ですが、次のことは確信しています。

  • (一定でない)スケジュールを設定することが重要です。
  • このスケジュールを調整することが重要です。

最適化プロセスのさまざまな段階で、異なる学習率が最適な結果をもたらします。スケジュールを設定すると、モデルが適切な学習率に達する可能性が高くなります。

最適なデフォルトの学習率の減衰

デフォルトとして、次のいずれかの学習率減衰ファミリーをおすすめします。

  • 線形減衰
  • コサイン減衰

他の多くのスケジュール ファミリーも同様に有効です。

一部の論文で複雑な学習率スケジュールが使用されているのはなぜですか?

多くの学術論文では、複雑な区分的学習率(LR)減衰スケジュールが使用されています。読者は、著者がどのようにしてこのような複雑なスケジュールを作成したのか疑問に思うことがよくあります。複雑な LR 減衰スケジュールは、検証セットのパフォーマンスの関数としてスケジュールをアドホックに調整した結果であることがよくあります。具体的には、次のことが求められます。

  1. 単純な LR 減衰(または一定の学習率)を使用して、単一のトレーニング実行を開始します。
  2. パフォーマンスが停滞するまでトレーニングを続行します。この場合は、トレーニングを一時停止します。その後、この時点から、より急な LR 減衰スケジュール(またはより小さい定数学習率)で再開します。このプロセスを繰り返します(カンファレンスまたはリリースの期限まで)。

最適なスケジュールは他のハイパーパラメータの選択に大きく影響されるため、結果のスケジュールを安易にコピーすることはおすすめできません。スケジュールを作成したアルゴリズムをコピーすることをおすすめします。ただし、任意の人の判断でスケジュールが作成された場合は、この方法が可能なことはほとんどありません。このタイプの検証エラーに依存するスケジュールは、完全に自動化できる場合は使用しても問題ありませんが、検証エラーの関数である人間が介在するスケジュールは脆弱で再現が難しいため、避けることをおすすめします。このようなスケジュールを使用した結果を公開する前に、完全に再現できるようにしてください。

Adam のハイパーパラメータはどのように調整すればよいですか?

Adam のすべてのハイパーパラメータが同じように重要であるとは限りません。次の経験則は、スタディのトライアル数のさまざまな「予算」に対応しています。

  • 試験の試行回数が 10 回未満の場合は、学習率(ベース)のみを調整します。
  • 1 つの研究で 10 ~ 25 回のトライアルを行う場合は、学習率と beta_1 を調整します。
  • トライアルが 25 回以上の場合、学習率、beta_1epsilon を調整します。
  • トライアル数が 25 を大幅に超える場合は、beta_2 も調整します。

検索スペースに関する一般的なルールや、検索スペースからサンプリングするポイントの数を指定することは困難であるため、このセクションで説明する経験則は概略的なガイドラインとしてご覧ください。」