חישוב של הטיה בתחזית הוא בדיקה מהירה שיכולה להצביע על בעיות במודל או בנתוני האימון בשלב מוקדם.
הטיה בתחזית היא ההבדל בין הממוצע של התחזיות של המודל לבין הממוצע של תוויות האמת הבסיסית בנתונים. מודל שאומן על מערך נתונים שבו 5% מהאימיילים הם ספאם, צריך לחזות בממוצע ש-5% מהאימיילים שהוא מסווג הם ספאם. במילים אחרות, הממוצע של התוויות במערך הנתונים של האמת הבסיסית הוא 0.05, והממוצע של התחזיות של המודל צריך להיות גם 0.05. במקרה כזה, למודל אין הטיה בחיזוי. כמובן, יכול להיות שעדיין יש בעיות אחרות במודל.
אם המודל חוזה ב-50% מהמקרים שאימייל הוא ספאם, סימן שיש בעיה במערך נתוני האימון, במערך הנתונים החדש שהמודל מופעל עליו או במודל עצמו. אם יש הבדל משמעותי בין שני הממוצעים, זה מצביע על הטיה מסוימת בתחזיות של המודל.
הטיות בתחזיות יכולות להיגרם מהסיבות הבאות:
- הטיות או רעשים בנתונים, כולל דגימה מוטה של קבוצת האימון
- רגולריזציה חזקה מדי, כלומר המודל פשוט מדי ואיבד חלק מהמורכבות הנדרשת
- באגים בצינור העיבוד של אימון המודל
- קבוצת התכונות שסופקה למודל לא מספיקה למשימה