مشخص کردن تعصب

هنگامی که تیم Jigsaw در ابتدا مدل سمیت API پرسپکتیو را ارزیابی کردند، متوجه شدند که در مجموعه داده‌های آزمایش عملکرد خوبی داشت. اما آنها نگران بودند که در صورت وجود هرگونه خطای سیستمیک در داده های آموزشی، همچنان این احتمال وجود دارد که سوگیری در پیش بینی های مدل ظاهر شود. برای اطمینان از کیفیت داده‌های آموزشی، آن‌ها گام دیگری را در ممیزی برچسب‌های ارائه‌شده توسط ارزیاب‌های انسانی برای اطمینان از دقیق بودن آن‌ها برداشتند.

با این حال، علیرغم این اقدامات پیشگیرانه انجام شده برای حذف سوگیری در داده های آموزشی مدل، کاربران هنوز یک مشکل مثبت کاذب را برای نظرات حاوی اصطلاحات هویتی کشف کردند. چگونه این اتفاق افتاد؟

ممیزی دوم از مجموعه آموزشی نشان داد که اکثر نظرات حاوی اصطلاحات هویتی برای نژاد، مذهب و جنسیت برچسب سمی داشتند. این برچسب ها درست بود. اکثر نظرات آنلاین حاوی این اصطلاحات هویتی واقعاً سمی بودند. اما در نتیجه این انحراف، مدل همبستگی بین حضور این اصطلاحات هویتی و سمیت را یاد گرفت، که به طور دقیق معانی خنثی خود اصطلاحات را منعکس نمی کرد.

این تیم یک شکاف مهم را در داده های آموزشی مدل کشف کرده بود: منطقه ای که در آن داده های آموزشی کافی برای نمایش یک جنبه کلیدی از واقعیت وجود نداشت. مجموعه آموزشی حاوی نمونه‌های کافی از نظرات هویتی غیرسمی نبود تا مدل یاد بگیرد که خود این اصطلاحات خنثی هستند و زمینه‌ای که در آن استفاده می‌شود مهم است.