محاسبهی سوگیری پیشبینی ، یک بررسی سریع است که میتواند مشکلات مربوط به مدل یا دادههای آموزشی را در مراحل اولیه مشخص کند.
سوگیری پیشبینی، تفاوت بین میانگین پیشبینیهای یک مدل و میانگین برچسبهای واقعیت پایه در دادهها است. مدلی که روی مجموعه دادهای آموزش دیده است که در آن ۵٪ از ایمیلها هرزنامه هستند، باید به طور متوسط پیشبینی کند که ۵٪ از ایمیلهایی که طبقهبندی میکند هرزنامه هستند. به عبارت دیگر، میانگین برچسبها در مجموعه داده واقعیت پایه ۰.۰۵ است و میانگین پیشبینیهای مدل نیز باید ۰.۰۵ باشد. در این صورت، مدل دارای سوگیری پیشبینی صفر است. البته، مدل ممکن است هنوز مشکلات دیگری داشته باشد.
اگر مدل در عوض ۵۰٪ مواقع پیشبینی کند که یک ایمیل هرزنامه است، پس مشکلی در مجموعه دادههای آموزشی، مجموعه دادههای جدیدی که مدل روی آن اعمال میشود، یا در خود مدل وجود دارد. هرگونه تفاوت معنادار بین این دو میانگین نشان میدهد که مدل در پیشبینی دچار سوگیری است.
سوگیری پیشبینی میتواند ناشی از موارد زیر باشد:
- سوگیریها یا نویز در دادهها، از جمله نمونهگیری سوگیرانه برای مجموعه آموزشی
- منظمسازی بیش از حد قوی، به این معنی که مدل بیش از حد ساده شده و برخی از پیچیدگیهای لازم را از دست داده است
- اشکالات در خط لوله آموزش مدل
- مجموعه ویژگیهای ارائه شده به مدل برای انجام وظیفه کافی نیست