همانطور که اشاره شد، بردار گرادیان هم جهت و هم قدر دارد. الگوریتمهای نزولی گرادیان، گرادیان را در یک اسکالر معروف به نرخ یادگیری (که گاهی اوقات اندازه گام نیز نامیده میشود) ضرب میکنند تا نقطه بعدی را تعیین کنند. به عنوان مثال، اگر قدر گرادیان 2.5 و نرخ یادگیری 0.01 باشد، الگوریتم گرادیان نزول نقطه بعدی را با فاصله 0.025 از نقطه قبلی انتخاب می کند.
هایپرپارامترها دستگیره هایی هستند که برنامه نویسان در الگوریتم های یادگیری ماشینی آن ها را تغییر می دهند. اکثر برنامه نویسان یادگیری ماشین زمان مناسبی را صرف تنظیم نرخ یادگیری می کنند. اگر نرخ یادگیری خیلی کم را انتخاب کنید، یادگیری خیلی طول می کشد:
شکل 6. میزان یادگیری خیلی کم است.
برعکس، اگر نرخ یادگیری را مشخص کنید که خیلی زیاد است، نقطه بعدی دائماً به طور تصادفی در کف چاه مانند یک آزمایش مکانیک کوانتومی که به طرز وحشتناکی اشتباه پیش رفته است، منعکس میشود:
شکل 7. میزان یادگیری خیلی زیاد است.
برای هر مشکل رگرسیونی یک نرخ یادگیری Goldilocks وجود دارد. مقدار Goldilocks به میزان مسطح بودن تابع ضرر مربوط می شود. اگر میدانید که گرادیان تابع از دست دادن کوچک است، میتوانید با خیال راحت نرخ یادگیری بزرگتری را امتحان کنید، که گرادیان کوچک را جبران میکند و منجر به اندازه گام بزرگتر میشود.
شکل 8. میزان یادگیری درست است.