Kaybı Azaltma: Öğrenme Oranı

Belirtildiği gibi, gradyan vektör hem bir yöne hem de bir büyüklüğe sahiptir. Gradyan iniş algoritmaları sonraki noktayı belirlemek için gradyanı öğrenme hızı (bazen adım boyutu olarak da adlandırılır) olarak bilinen skaler bir değerle çarpar. Örneğin, gradyan büyüklüğü 2,5 ve öğrenme hızı 0,01 ise gradyan azalma algoritması, önceki noktadan 0,025 uzaklıktaki bir sonraki noktayı seçer.

Hiperparametreler, programcıların makine öğrenimi algoritmalarında düzenledikleri düğmelerdir. Makine öğrenimi programcılarının çoğu, öğrenim hızını ayarlamak için epey zaman harcar. Çok düşük bir öğrenme hızı seçerseniz öğrenme çok uzun sürer:

Aynı U şeklinde eğri. Birçok nokta birbirine çok yakın ve ABD'nin alt kısmına doğru son derece yavaş ilerliyor.

6. Şekil. Öğrenme hızı çok düşük.

Buna karşılık, çok yüksek bir öğrenme hızı belirtirseniz sonraki nokta, örneğin çok yanlış giden bir kuantum mekaniği deneyinin dibinde sürekli ve rastgele bir şekilde zıplar:

Aynı U şeklinde eğri. Bu soruda çok az nokta var. Noktalar izi, U'nun dibinin boyunca zıplayıp tekrar zıplar.

7. Şekil. Öğrenme hızı çok yüksek.

Her regresyon problemi için bir Goldilocks öğrenme hızı vardır. Goldilocks değeri, kayıp işlevinin ne kadar düz olduğuyla ilgilidir. Kayıp işlevinin gradyanının küçük olduğunu biliyorsanız, küçük gradyanı dengeleyerek daha büyük bir adım boyutunu güvenli bir şekilde deneyebilirsiniz.

Aynı U şeklinde eğri. Noktalar yaklaşık sekiz adımda minimum noktaya ulaşıyor.

Şekil 8. Öğrenme hızı doğru.