ירידה בשימוש בלמידת מכונה: הדרכה ואובדן

הכנה של מודל היא פשוט ללמוד (לקבוע) ערכים טובים לכל המשקלים וההטיה לפי דוגמאות מתויגות. בלמידה מפוקחת, אלגוריתם של למידה חישובית בונה מודל. הוא מסתמך על דוגמאות רבות ומנסה למצוא מודל שמצמצם את ההפסד. התהליך הזה נקרא צמצום סיכונים אמפירי.

הפסד הוא קנס על חיזוי רע. במילים אחרות, loss הוא מספר שמציין עד כמה גרועה החיזוי של המודל בדוגמה אחת. אם החיזוי של המודל מושלם, ההפסד הוא אפס. אחרת, ההפסד גדול יותר. המטרה של אימון מודל היא למצוא קבוצה של משקולות והטיות שמאבדות, בממוצע, את המשקל בכל המקרים. לדוגמה, איור 3 מציג מודל אובדן גבוה בצד שמאל ומודל אובדן נמוך בצד שמאל. חשוב לשים לב לנקודות הבאות:

  • החיצים מייצגים אובדן.
  • הקווים הכחולים מייצגים חיזויים.

שתי חלקות בסגנון קרטזי, כל אחת מהן מציגה קו וכמה נקודות נתונים. בתרשים הראשון, הקו מתאים מאוד לנתונים, כך שההפסד גבוה. בתרשים השני, הקו מתאים יותר לנתונים, כך שההפסד נמוך.

איור 3. אובדן גבוה במודל השמאלי; אובדן נמוך במודל הנכון.

 

שימו לב לכך שהחצים בתרשים השמאלי ארוך בהרבה מלוח הזמנים שלהם בתרשים השמאלי. ברור שהקו שמופיע בתרשים השמאלי הוא מודל חיזוי הרבה יותר טוב מהקו שמופיע בתרשים השמאלי.

יכול להיות שתהיתם אם אתם יכולים ליצור פונקציה מתמטית – פונקציה של אובדן - שתגרום להפסדים בודדים באופן משמעותי.

מודלים הרגרסיה הלינארית שאנחנו בוחנים כאן משתמשים בפונקציית הפסד שנקראת אובדן ריבועי (שנקראת גם הפסד 2). ההפסד הריבועי בדוגמה אחת הוא:

  = the square of the difference between the label and the prediction
  = (observation - prediction(x))2
  = (y - y')2

שגיאה ממוצעת בריבוע (MSE) היא אובדן ממוצע ריבועי בדוגמה, בכל מערך הנתונים. כדי לחשב את MSE, צריך לסכם את כל ההפסדים הריבועיים בדוגמאות ספציפיות, ואז לחלק אותם במספר הדוגמאות:

$$ MSE = \frac{1}{N} \sum_{(x,y)\in D} (y - prediction(x))^2 $$

כאשר:

  • \((x, y)\) היא דוגמה שבה
    • \(x\) היא קבוצת התכונות (לדוגמה, צלצולים/דקה, גיל, מגדר) שהמודל משתמש בהם כדי ליצור חיזויים.
    • \(y\) היא התווית של &דוגמה לטמפרטורה.
  • \(prediction(x)\) היא פונקציה של המשקלים וההטיה בשילוב עם קבוצת התכונות \(x\).
  • \(D\) היא קבוצת נתונים הכוללת דוגמאות רבות עם תוויות, שהן \((x, y)\) זוגות.
  • \(N\) הוא מספר הדוגמאות ב \(D\).

למרות שה-MSE משמש בדרך כלל ללמידה חישובית, הוא לא יכול להיות הפונקציה היחידה שאבדה בפועל בכל הנסיבות.