مشخص کردن تعصب
هنگامی که تیم Jigsaw در ابتدا مدل سمیت API پرسپکتیو را ارزیابی کردند، متوجه شدند که در مجموعه دادههای آزمایش عملکرد خوبی داشت. اما آنها نگران بودند که در صورت وجود هرگونه خطای سیستمیک در داده های آموزشی، همچنان این احتمال وجود دارد که سوگیری در پیش بینی های مدل ظاهر شود. برای اطمینان از کیفیت دادههای آموزشی، آنها گام دیگری را در ممیزی برچسبهای ارائهشده توسط ارزیابهای انسانی برای اطمینان از دقیق بودن آنها برداشتند.
با این حال، علیرغم این اقدامات پیشگیرانه انجام شده برای حذف سوگیری در داده های آموزشی مدل، کاربران هنوز یک مشکل مثبت کاذب را برای نظرات حاوی اصطلاحات هویتی کشف کردند. چگونه این اتفاق افتاد؟
ممیزی دوم از مجموعه آموزشی نشان داد که اکثر نظرات حاوی اصطلاحات هویتی برای نژاد، مذهب و جنسیت برچسب سمی داشتند. این برچسب ها درست بود. اکثر نظرات آنلاین حاوی این اصطلاحات هویتی واقعاً سمی بودند. اما در نتیجه این انحراف، مدل همبستگی بین حضور این اصطلاحات هویتی و سمیت را یاد گرفت، که به طور دقیق معانی خنثی خود اصطلاحات را منعکس نمی کرد.
این تیم یک شکاف مهم را در داده های آموزشی مدل کشف کرده بود: منطقه ای که در آن داده های آموزشی کافی برای نمایش یک جنبه کلیدی از واقعیت وجود نداشت. مجموعه آموزشی حاوی نمونههای کافی از نظرات هویتی غیرسمی نبود تا مدل یاد بگیرد که خود این اصطلاحات خنثی هستند و زمینهای که در آن استفاده میشود مهم است.