סדירה של פשטות: Lambda

מפתחי מודלים משפרים את ההשפעה הכוללת של מונח הרגולטור על ידי הכפלת הערך שלו בסקלרי שנקרא lambda (נקרא גם שיעור הרגולציה). כלומר, מפתחי מודלים נועדו לבצע את הפעולות הבאות:

$$\text{minimize(Loss(Data|Model)} + \lambda \text{ complexity(Model))}$$

לביצוע רגולזציה של L2 יש את ההשפעה הבאה על מודל

  • מעודד את ערכי המשקל להיות 0 (אבל לא בדיוק 0)
  • מעודדת את הממוצע של המשקולות כלפי 0, עם התפלגות נורמלית (בצורת פעמון או גאוס).

הגדלת ערך lambda מחזקת את אפקט הרגולטור. לדוגמה, ההיסטוגרמה של המשקולות עבור ערך גבוה של למבדה עשויה להיראות כפי שמוצג באיור 2.

היסטוגרמה של משקלי המודל עם ממוצע אפס והתפלגות נורמלית.

איור 2. היסטוגרמה של המשקולות.

הפחתת הערך של למבדה נוטה להניב היסטוגרמה שטוחה, כפי שמוצג באיור 3.

היסטוגרמה של משקולות מודל עם ממוצע אפס שנמצא במקום כלשהו בין התפלגות שטוחה להתפלגות נורמלית.

איור 3. היסטוגרמה של משקולות שמיוצרות על ידי ערך למבדה נמוך יותר.

כשבוחרים ערך lambda, המטרה היא למצוא את האיזון הנכון בין פשטות להתאמה של נתוני אימון:

  • אם ערך lambda גבוה מדי, המודל יהיה פשוט, אבל קיים סיכון לצמצם את ההתאמה לנתונים. המודל שלכם לא ילמד מספיק על נתוני האימון כדי ליצור חיזויים שימושיים.

  • אם ערך ה-lambda נמוך מדי, המודל יהיה מורכב יותר, ויהיה סיכון של התאמת הנתונים לנתונים. המודל ילמד יותר מדי על המאפיינים הספציפיים של נתוני האימון, ולא יוכל להכליל אותו בנתונים חדשים.

הערך האידאלי של lambda יוצר מודל שמתייחס היטב לנתונים חדשים שלא נצפו בעבר. לצערנו, הערך האידיאלי של lambda הוא תלוי נתונים, ולכן תצטרכו לבצע כוונון כוונון.