學習率

本附錄包含學習率的一些額外詳細資料。

學習率衰減時間表

最佳學習率衰減排程系列仍是開放式問題;目前尚不清楚如何建構一套嚴謹的實驗,以自信地回答這個問題。雖然我們不知道最適合家庭的行程表,但我們有信心:

  • 請務必安排一些 (非固定) 時間。
  • 調整時間表非常重要。

在最佳化過程的不同階段,最佳學習率也會有所不同。設定某種時間表,模型就更有可能達到良好的學習率。

最佳預設學習率衰減

建議您預設使用下列任一學習率衰減系列:

  • 線性衰減
  • 餘弦衰減

其他許多排程系列也可能適用。

為什麼有些論文的學習率時間表很複雜?

許多學術論文都使用複雜的分段學習率 (LR) 衰減時間表。讀者經常想知道作者如何制定如此複雜的行程。許多複雜的 LR 衰減時間表,都是根據驗證集效能臨時調整時間表所致。也就是:

  1. 開始執行單一訓練,並使用一些簡單的 LR 衰減 (或常數學習率)。
  2. 持續執行訓練,直到成效似乎停滯不前為止。 如果發生這種情況,請暫停訓練。然後從這個時間點開始,以較陡峭的 LR 衰減時間表 (或較小的常數學習率) 繼續訓練。重複這個程序 (直到會議或發布截止日期)。

一般來說,直接複製產生的時間表並非好主意,因為最佳時間表會受到許多其他超參數選擇的影響。建議您複製產生時間表的演算法,但如果時間表是由任意人為判斷產生,則很少能做到這一點。如果這類對驗證錯誤敏感的時間表可以完全自動化,則可放心使用,但如果是以驗證錯誤為依據的人工參與時間表,則較為脆弱且不易重現,因此建議避免使用。發布使用這類排程的結果前,請盡量確保結果完全可重現。

如何調整 Adam 的超參數?

Adam 中的所有超參數重要性不盡相同。 以下經驗法則是根據研究中試驗次數的不同「預算」而定。

  • 如果研究中的試驗次數少於 10 次,請只調整 (基本) 學習率。
  • 如果研究中有 10 到 25 次試驗,請調整學習率和 beta_1
  • 如果試驗次數超過 25 次,請調整學習率、beta_1epsilon
  • 如果試驗次數遠超過 25 次,請額外調整 beta_2

由於很難提供有關搜尋空間的一般規則,以及您應從搜尋空間取樣多少點,因此請將本節所述的經驗法則視為粗略的指引。