طبقه بندی: سوگیری پیش بینی

محاسبه‌ی سوگیری پیش‌بینی ، یک بررسی سریع است که می‌تواند مشکلات مربوط به مدل یا داده‌های آموزشی را در مراحل اولیه مشخص کند.

سوگیری پیش‌بینی، تفاوت بین میانگین پیش‌بینی‌های یک مدل و میانگین برچسب‌های واقعیت پایه در داده‌ها است. مدلی که روی مجموعه داده‌ای آموزش دیده است که در آن ۵٪ از ایمیل‌ها هرزنامه هستند، باید به طور متوسط ​​پیش‌بینی کند که ۵٪ از ایمیل‌هایی که طبقه‌بندی می‌کند هرزنامه هستند. به عبارت دیگر، میانگین برچسب‌ها در مجموعه داده واقعیت پایه ۰.۰۵ است و میانگین پیش‌بینی‌های مدل نیز باید ۰.۰۵ باشد. در این صورت، مدل دارای سوگیری پیش‌بینی صفر است. البته، مدل ممکن است هنوز مشکلات دیگری داشته باشد.

اگر مدل در عوض ۵۰٪ مواقع پیش‌بینی کند که یک ایمیل هرزنامه است، پس مشکلی در مجموعه داده‌های آموزشی، مجموعه داده‌های جدیدی که مدل روی آن اعمال می‌شود، یا در خود مدل وجود دارد. هرگونه تفاوت معنادار بین این دو میانگین نشان می‌دهد که مدل در پیش‌بینی دچار سوگیری است.

سوگیری پیش‌بینی می‌تواند ناشی از موارد زیر باشد:

  • سوگیری‌ها یا نویز در داده‌ها، از جمله نمونه‌گیری سوگیرانه برای مجموعه آموزشی
  • منظم‌سازی بیش از حد قوی، به این معنی که مدل بیش از حد ساده شده و برخی از پیچیدگی‌های لازم را از دست داده است
  • اشکالات در خط لوله آموزش مدل
  • مجموعه ویژگی‌های ارائه شده به مدل برای انجام وظیفه کافی نیست