Bu ekte, öğrenme oranıyla ilgili birkaç ek ayrıntı yer almaktadır.
Öğrenme oranı azalma planı
En iyi öğrenme oranı azalma planı ailesi açık bir sorundur. Bu soruyu güvenle yanıtlamak için nasıl titiz bir deney seti oluşturulacağı net değildir. En iyi aile programının ne olduğunu bilmesek de aşağıdakilerden eminiz:
- Belirli bir (sabit olmayan) programa sahip olmak önemlidir.
- Bu programı ayarlamak önemlidir.
Farklı öğrenme hızları, optimizasyon sürecinin farklı zamanlarında en iyi sonucu verir. Bir tür programın olması, modelin iyi bir öğrenme hızına ulaşmasını kolaylaştırır.
En iyi varsayılan öğrenme hızı azalması
Varsayılan olarak aşağıdaki öğrenme hızı azalma ailelerinden birini kullanmanızı öneririz:
- Doğrusal bozulma
- Kosinüs azalması
Diğer birçok zamanlama ailesi de muhtemelen iyidir.
Bazı makalelerde neden karmaşık öğrenme hızı planları var?
Birçok akademik makalede, karmaşık parçalı öğrenme oranı (LR) azalma planları kullanılır. Okuyucular genellikle yazarların bu kadar karmaşık bir programa nasıl ulaştığını merak eder. Birçok karmaşık LR azalma planı, planın doğrulama kümesi performansının bir fonksiyonu olarak geçici bir şekilde ayarlanmasının sonucudur. Yani:
- Basit bir LR azalması (veya sabit bir öğrenme oranı) ile tek bir eğitim çalıştırması başlatın.
- Performans duraksayana kadar eğitime devam edin. Bu durumda eğitimi duraklatın. Ardından, bu noktadan itibaren belki daha dik bir LR azalma planıyla (veya daha küçük sabit öğrenme hızıyla) devam edin. Bu işlemi (konferans veya lansman son tarihine kadar) tekrarlayın.
En iyi program, bir dizi başka hiperparametre seçimine duyarlı olduğundan, ortaya çıkan programı olduğu gibi kopyalamak genellikle iyi bir fikir değildir. Programı oluşturan algoritmayı kopyalamanızı öneririz. Ancak bu, programı rastgele insan yargısının oluşturduğu durumlarda nadiren mümkündür. Bu tür doğrulama hatasına duyarlı planlar, tamamen otomatikleştirilebiliyorsa kullanılabilir. Ancak doğrulama hatası işlevi olan insan etkileşimli planlar hassastır ve kolayca yeniden üretilemez. Bu nedenle, bu tür planlardan kaçınmanızı öneririz. Bu tür bir plan kullanılarak elde edilen sonuçları yayınlamadan önce lütfen tamamen yeniden üretilebilir hale getirmeye çalışın.
Adam'ın hiperparametreleri nasıl ayarlanmalıdır?
Adam'daki tüm hiperparametreler eşit derecede önemli değildir. Aşağıdaki genel kurallar, bir çalışmadaki deneme sayısı için farklı "bütçelere" karşılık gelir.
- Bir çalışmada 10'dan az deneme varsa yalnızca (temel) öğrenme hızını ayarlayın.
- Bir çalışmada 10-25 deneme varsa öğrenme hızını ayarlayın ve
beta_1
. - 25'ten fazla deneme varsa öğrenme hızını (
beta_1
) veepsilon
değerini ayarlayın. - 25 denemeden önemli ölçüde daha fazla deneme varsa
beta_2
değerini de ayarlayın.
Arama alanları ve arama alanından kaç nokta örneklemeniz gerektiği hakkında genel kurallar sağlamanın ne kadar zor olduğu göz önüne alındığında, bu bölümde belirtilen genel kuralları kabaca yönergeler olarak değerlendirin."