जैसा कि बताया गया है, ग्रेडिएंट वेक्टर में दिशा और मैग्निट्यूड दोनों होते हैं. अगले पॉइंट का पता लगाने के लिए, ग्रेडिएंट डिसेंट एल्गोरिदम, ग्रेडिएंट को एक स्केलर से गुणा करते हैं. इस स्केलर को लर्निंग रेट (जिसे कभी-कभी स्टेप साइज़ भी कहा जाता है) भी कहा जाता है. उदाहरण के लिए, अगर ग्रेडिएंट मैग्निट्यूड 2.5 और लर्निंग रेट 0.01 है, तो ग्रेडिएंट डीसेंट एल्गोरिदम पिछले पॉइंट से 0.025 दूर मौजूद अगले पॉइंट को चुनेगा.
हाइपर पैरामीटर ऐसे नॉब होते हैं जिन्हें प्रोग्रामर, मशीन लर्निंग एल्गोरिदम में ट्वीक करते हैं. ज़्यादातर मशीन लर्निंग प्रोग्रामर लर्निंग रेट को तय करने में काफ़ी समय लगाते हैं. अगर सीखने की दर बहुत छोटी चुनी जाती है, तो सीखने में बहुत ज़्यादा समय लगेगा:
छठा डायग्राम. सीखने की दर बहुत कम है.
इसके ठीक उलट, अगर लर्निंग रेट बहुत बड़ा है, तो अगला पॉइंट अचानक ही कुवेन्यू के निचले हिस्से पर इस तरह बाउंस करेगा जैसे कि क्वांटम मैकेनिक्स का कोई एक्सपेरिमेंट बहुत ही गलत हो गया हो:
सातवां डायग्राम. सीखने की दर बहुत ज़्यादा है.
रिग्रेशन से जुड़े हर सवाल के लिए, Goldilocks की सीखने की दर मौजूद है. गोल्डीलॉक्स की वैल्यू इस बात से जुड़ी है कि लॉस फ़ंक्शन कितना सपाट है. अगर आपको पता है कि लॉस फ़ंक्शन का ग्रेडिएंट कम है, तो सुरक्षित तरीके से बड़ी लर्निंग रेट आज़माएं. इससे, कम ग्रेडिएंट की भरपाई होती है और नतीजों का साइज़ बड़ा होता है.
आठवां इमेज. सीखने की दर बिलकुल सही है.