सीखने की दर

इस अपेंडिक्स में, लर्निंग रेट के बारे में कुछ अतिरिक्त जानकारी दी गई है.

लर्निंग रेट कम होने का शेड्यूल

लर्निंग रेट को कम करने के सबसे सही शेड्यूल के बारे में अब तक कोई फ़ैसला नहीं लिया गया है. इस सवाल का जवाब देने के लिए, यह साफ़ तौर पर नहीं बताया गया है कि एक्सपेरिमेंट का एक ऐसा सेट कैसे बनाया जाए जिससे भरोसे के साथ इस सवाल का जवाब दिया जा सके. हालांकि, हमें परिवार के लिए सबसे सही शेड्यूल के बारे में नहीं पता, लेकिन हमें इन बातों का भरोसा है:

  • कुछ (बदलता रहने वाला) शेड्यूल होना ज़रूरी है.
  • शेड्यूल को ऑप्टिमाइज़ करना ज़रूरी है.

ऑप्टिमाइज़ेशन प्रोसेस के दौरान, अलग-अलग समय पर अलग-अलग लर्निंग रेट सबसे अच्छा काम करते हैं. शेड्यूल होने पर, मॉडल के लिए लर्निंग रेट को बेहतर तरीके से हासिल करना आसान हो जाता है.

लर्निंग रेट कम करने का सबसे अच्छा डिफ़ॉल्ट तरीका

हमारा सुझाव है कि डिफ़ॉल्ट रूप से, लर्निंग रेट डिके के इन दोनों फ़ैमिली में से किसी एक का इस्तेमाल करें:

  • लीनियर डेके
  • कोसाइन डिके

शायद, कई अन्य शेड्यूल फ़ैमिली भी अच्छी हैं.

कुछ पेपर में लर्निंग रेट के शेड्यूल इतने मुश्किल क्यों होते हैं?

कई शिक्षा से जुड़े लेखों में, लर्निंग रेट (एलआर) को कम करने के लिए जटिल शेड्यूल का इस्तेमाल किया जाता है. पढ़ने वालों को अक्सर यह लगता है कि लेखकों ने इतना मुश्किल शेड्यूल कैसे बनाया. कई जटिल एलआर डेके शेड्यूल, ऐड हॉक तरीके से पुष्टि करने वाले सेट की परफ़ॉर्मेंस के आधार पर शेड्यूल को ट्यून करने का नतीजा होते हैं. यानी:

  1. एलआर डेके (या लर्निंग रेट) को कम करके, एक ट्रेनिंग रन शुरू करें.
  2. ट्रेनिंग को तब तक जारी रखें, जब तक परफ़ॉर्मेंस में कोई सुधार न हो. ऐसा होने पर, ट्रेनिंग रोक दें. इसके बाद, इस पॉइंट से एलआर डेके के शेड्यूल (या लर्निंग रेट) को फिर से शुरू करें. इस प्रोसेस को तब तक दोहराएं, जब तक कॉन्फ़्रेंस या लॉन्च की समयसीमा खत्म न हो जाए.

आम तौर पर, नतीजे के तौर पर मिले शेड्यूल को कॉपी करना सही नहीं होता. इसकी वजह यह है कि सबसे अच्छा शेड्यूल, कई अन्य हाइपरपैरामीटर विकल्पों पर निर्भर करता है. हमारा सुझाव है कि शेड्यूल बनाने वाले एल्गोरिदम को कॉपी करें. हालांकि, ऐसा बहुत कम होता है, जब शेड्यूल को किसी व्यक्ति ने बनाया हो. अगर इस तरह के शेड्यूल को पूरी तरह से ऑटोमेट किया जा सकता है, तो इसका इस्तेमाल किया जा सकता है. हालांकि, पुष्टि करने से जुड़ी गड़बड़ी के आधार पर बनाए गए ह्यूमन-इन-द-लूप शेड्यूल, आसानी से नहीं बनाए जा सकते और न ही इन्हें दोहराया जा सकता है. इसलिए, हमारा सुझाव है कि इनका इस्तेमाल न करें. ऐसे शेड्यूल का इस्तेमाल करके जनरेट किए गए नतीजों को पब्लिश करने से पहले, कृपया उन्हें पूरी तरह से दोहराने की कोशिश करें.

एडम के हाइपरपैरामीटर को कैसे ट्यून किया जाना चाहिए?

Adam में सभी हाइपरपैरामीटर की अहमियत बराबर नहीं होती. स्टडी में शामिल किए जाने वाले ट्रायल की संख्या के लिए, यहां कुछ सामान्य नियम दिए गए हैं. ये नियम, अलग-अलग "बजट" के हिसाब से तय किए गए हैं.

  • अगर किसी स्टडी में 10 से कम ट्रायल हैं, तो सिर्फ़ (बेस) लर्निंग रेट को ट्यून करें.
  • अगर किसी स्टडी में 10 से 25 ट्रायल हैं, तो लर्निंग रेट को ट्यून करें और beta_1.
  • अगर 25 से ज़्यादा ट्रायल किए गए हैं, तो लर्निंग रेट, beta_1, और epsilon को ट्यून करें.
  • अगर 25 से ज़्यादा ट्रायल हैं, तो beta_2 को भी ट्यून करें.

सर्च स्पेस और सर्च स्पेस से कितने पॉइंट सैंपल करने चाहिए, इसके बारे में सामान्य नियम देना मुश्किल है. इसलिए, इस सेक्शन में दिए गए नियमों को सामान्य दिशा-निर्देश के तौर पर देखें."