בסדר יורד ללמידת מכונה: הבנת ההבנה שלך

שגיאה ריבועית ממוצעת

חשבו על שתי העליות הבאות:

עלילה של 10 נקודות. קו עובר דרך 6 נקודות. 2 נקודות הן 1 <img"units"=""<<=""on="" alt="עלילה של 10 נקודות. קו עובר עד 8 נקודות. נקודה אחת היא 2 " =&"" is="" line."="" line;="" other="" point="" src="/static/machine-learning""""""

כדאי לעיין באפשרויות הבאות.

איזו משתי קבוצות הנתונים המוצגות בחלקות הקודמות כוללת את השגיאה גבוהה בממוצע לריבוע (MSE)?
מערך הנתונים שמימין.
6 הדוגמאות שמופיעות בשורה גורמות לאובדן כולל של 0. ארבע הדוגמאות שעומדות על קו הגבול אינן רחוקות מאוד מהקו, ולכן גם הפרש של ההיסט שלהן עדיין מייצר ערך נמוך: $$ MSE = \frac{0^2 + 1^2 + 0^2 + 1^2 + 0^2 + 1^2 + 0^2 + 1^2 + 0^2 + 0^2} {10} = 0.4$$
מערך הנתונים בצד שמאל.
שמונה הדוגמאות שמופיעות בשורה גורמות לאובדן כולל של 0. עם זאת, אם רק שתי נקודות ממוקמות לאורך הקו, שתי הנקודות האלה גבוהות פי שניים מהקו החיצוני של הנקודה החיצונית. הפסד בריבוע מגביר את ההבדלים האלה, כך שקיזוז של שניהם גורם להפסד גדול פי ארבעה מאשר ירידה של אחד מהם.
$$ MSE = \frac{0^2 + 0^2 + 0^2 + 2^2 + 0^2 + 0^2 + 0^2 + 2^2 + 0^2 + 0^2} {10} = 0.8$$