हानि कम करना: सीखने की दर

जैसा कि बताया गया है, ग्रेडिएंट वेक्टर में दिशा और मैग्निट्यूड दोनों होते हैं. अगले पॉइंट का पता लगाने के लिए, ग्रेडिएंट डिसेंट एल्गोरिदम, ग्रेडिएंट को एक स्केलर से गुणा करते हैं. इस स्केलर को लर्निंग रेट (जिसे कभी-कभी स्टेप साइज़ भी कहा जाता है) भी कहा जाता है. उदाहरण के लिए, अगर ग्रेडिएंट मैग्निट्यूड 2.5 और लर्निंग रेट 0.01 है, तो ग्रेडिएंट डीसेंट एल्गोरिदम पिछले पॉइंट से 0.025 दूर मौजूद अगले पॉइंट को चुनेगा.

हाइपर पैरामीटर ऐसे नॉब होते हैं जिन्हें प्रोग्रामर, मशीन लर्निंग एल्गोरिदम में ट्वीक करते हैं. ज़्यादातर मशीन लर्निंग प्रोग्रामर लर्निंग रेट को तय करने में काफ़ी समय लगाते हैं. अगर सीखने की दर बहुत छोटी चुनी जाती है, तो सीखने में बहुत ज़्यादा समय लगेगा:

एक जैसा U के आकार का कर्व. कई प्वाइंट एक-दूसरे के बहुत करीब हैं और उनका रास्ता, U के नीचे की ओर बहुत धीमी गति से चल रहा है.

छठा डायग्राम. सीखने की दर बहुत कम है.

इसके ठीक उलट, अगर लर्निंग रेट बहुत बड़ा है, तो अगला पॉइंट अचानक ही कुवेन्यू के निचले हिस्से पर इस तरह बाउंस करेगा जैसे कि क्वांटम मैकेनिक्स का कोई एक्सपेरिमेंट बहुत ही गलत हो गया हो:

एक जैसा U के आकार का कर्व. इस सवाल में बहुत कम पॉइंट हैं. बिंदुओं का निशान, U के निचले हिस्से में साफ़-साफ़ आता है और फिर वापस आता है.

सातवां डायग्राम. सीखने की दर बहुत ज़्यादा है.

रिग्रेशन से जुड़े हर सवाल के लिए, Goldilocks की सीखने की दर मौजूद है. गोल्डीलॉक्स की वैल्यू इस बात से जुड़ी है कि लॉस फ़ंक्शन कितना सपाट है. अगर आपको पता है कि लॉस फ़ंक्शन का ग्रेडिएंट कम है, तो सुरक्षित तरीके से बड़ी लर्निंग रेट आज़माएं. इससे, कम ग्रेडिएंट की भरपाई होती है और नतीजों का साइज़ बड़ा होता है.

एक जैसा U के आकार का कर्व. आठ चरणों में पॉइंट की पगडंडी, सबसे कम पॉइंट तक पहुंच जाती है.

आठवां इमेज. सीखने की दर बिलकुल सही है.