کاهش از دست دادن: نرخ یادگیری

همانطور که اشاره شد، بردار گرادیان هم جهت و هم قدر دارد. الگوریتم‌های نزولی گرادیان، گرادیان را در یک اسکالر معروف به نرخ یادگیری (که گاهی اوقات اندازه گام نیز نامیده می‌شود) ضرب می‌کنند تا نقطه بعدی را تعیین کنند. به عنوان مثال، اگر قدر گرادیان 2.5 و نرخ یادگیری 0.01 باشد، الگوریتم گرادیان نزول نقطه بعدی را با فاصله 0.025 از نقطه قبلی انتخاب می کند.

هایپرپارامترها دستگیره هایی هستند که برنامه نویسان در الگوریتم های یادگیری ماشینی آن ها را تغییر می دهند. اکثر برنامه نویسان یادگیری ماشین زمان مناسبی را صرف تنظیم نرخ یادگیری می کنند. اگر نرخ یادگیری خیلی کم را انتخاب کنید، یادگیری خیلی طول می کشد:

همان منحنی U شکل. بسیاری از نقاط بسیار نزدیک به یکدیگر هستند و مسیر آنها در حال پیشرفت بسیار آهسته به سمت پایین U است.

شکل 6. میزان یادگیری خیلی کم است.

برعکس، اگر نرخ یادگیری را مشخص کنید که خیلی زیاد است، نقطه بعدی دائماً به طور تصادفی در کف چاه مانند یک آزمایش مکانیک کوانتومی که به طرز وحشتناکی اشتباه پیش رفته است، منعکس می‌شود:

همان منحنی U شکل. این یکی حاوی نکات بسیار کمی است. دنباله نقاط از پایین U می پرد و دوباره به عقب می پرد.

شکل 7. میزان یادگیری خیلی زیاد است.

برای هر مشکل رگرسیونی یک نرخ یادگیری Goldilocks وجود دارد. مقدار Goldilocks به میزان مسطح بودن تابع ضرر مربوط می شود. اگر می‌دانید که گرادیان تابع از دست دادن کوچک است، می‌توانید با خیال راحت نرخ یادگیری بزرگ‌تری را امتحان کنید، که گرادیان کوچک را جبران می‌کند و منجر به اندازه گام بزرگ‌تر می‌شود.

همان منحنی U شکل. دنباله نقاط در حدود هشت مرحله به حداقل نقطه می رسد.

شکل 8. میزان یادگیری درست است.