צמצום אובדן: שיעור למידה

כפי שצוין, לווקטור ההדרגתי יש גם כיוון וגם גודל. אלגוריתמים בירידה הדרגתית מכפילים את ההדרגתיות בסקלר, שנקרא קצב הלמידה (שנקרא גם step size), כדי לקבוע את הנקודה הבאה. לדוגמה, אם הגודל של ההדרגתיות הוא 2.5 וקצב הלמידה הוא 0.01, האלגוריתם של הירידה ההדרגתית יבחר את הנקודה הבאה במרחק 0.025 מהנקודה הקודמת.

היפר-פרמטרים הם המפתחות שמתכנתים משנים באלגוריתמים של למידת מכונה. רוב המתכנתים של למידת המכונה מקדישים לא מעט זמן לכוונון של קצב הלמידה. אם תבחרו קצב למידה קטן מדי, תהליך הלמידה יימשך יותר מדי זמן:

אותה עקומה בצורת U. נקודות רבות קרובות מאוד זו לזו, והמסלול שלהן מתקדם לאט מאוד לקראת תחתית ארה"ב.

איור 6. קצב הלמידה נמוך מדי.

לעומת זאת, אם מציינים קצב למידה גדול מדי, הנקודה הבאה תופיע בלי הפסקה לאורך החלק התחתון של הבאר, בדומה לניסוי של מכניקה קוונטית שהשתבש בצורה נוראית:

אותה עקומה בצורת U. יש מעט מאוד נקודות. שובל הנקודות קופץ מעל החלק התחתון של U ואז קופץ בחזרה.

איור 7. קצב הלמידה גדול מדי.

לכל בעיית רגרסיה יש קצב למידה של Goldilock. הערך של Goldilocks קשור למידת שטוחה של פונקציית האובדן. אם אתם יודעים שההדרגתיות של פונקציית האובדן קטנה, אתם יכולים לנסות קצב למידה גדול יותר, שמפצה על השיפוע הקטן והתוצאה היא גודל שלבים גדול יותר.

אותה עקומה בצורת U. שובל הנקודות מגיע לנקודה המינימלית בתוך כשמונה שלבים.

איור 8. קצב הלמידה מתאים בדיוק.