ML Practicum: Fairness in Perspective API

درک خود را بررسی کنید: شناسایی و رفع تعصب

شناسایی تعصب

در تمرین شماره 1: مدل را کاوش کنید ، تأیید کردید که مدل به طور نامتناسبی نظرات با اصطلاحات هویتی را به عنوان سمی طبقه بندی می کند. کدام معیارها به توضیح علت این سوگیری کمک می کنند؟ گزینه های زیر را بررسی کنید.
دقت

دقت درصد کل پیش‌بینی‌های درست را اندازه‌گیری می‌کند - درصد پیش‌بینی‌هایی که مثبت یا منفی واقعی هستند. مقایسه دقت برای زیر گروه‌های مختلف (مانند جمعیت‌شناسی جنسیتی مختلف) به ما امکان می‌دهد عملکرد نسبی مدل را برای هر گروه ارزیابی کنیم و می‌تواند به عنوان شاخصی از تأثیر سوگیری بر یک مدل باشد.

با این حال، از آنجایی که دقت، پیش‌بینی‌های صحیح و نادرست را در مجموع در نظر می‌گیرد، بین دو نوع پیش‌بینی صحیح و دو نوع پیش‌بینی نادرست تمایز قائل نمی‌شود. تنها با نگاه کردن به دقت، نمی‌توانیم تفکیک‌های اساسی مثبت‌های واقعی، منفی‌های واقعی، مثبت‌های کاذب و منفی‌های کاذب را تعیین کنیم، که بینش بیشتری در مورد منبع سوگیری ارائه می‌دهد.

نرخ مثبت کاذب

نرخ مثبت کاذب (FPR) درصد نمونه‌های منفی واقعی (نظرات غیر سمی) است که به اشتباه به عنوان مثبت (نظرات سمی) طبقه‌بندی شده‌اند. FPR نشانگر تأثیر سوگیری بر روی مدل است. وقتی FPRها را برای زیرگروه‌های مختلف (مانند جمعیت‌شناسی جنسیتی مختلف) مقایسه می‌کنیم، متوجه می‌شویم که نظرات متنی که حاوی عبارات هویتی مرتبط با جنسیت هستند، به احتمال زیاد به اشتباه به عنوان سمی (مثبت کاذب) طبقه‌بندی می‌شوند تا نظراتی که حاوی این عبارات نیستند. .

با این حال، ما به دنبال اندازه گیری تأثیر سوگیری نیستیم. ما می خواهیم علت آن را پیدا کنیم. برای انجام این کار، باید نگاه دقیق تری به ورودی های فرمول FPR داشته باشیم.

منفی های واقعی و مثبت های واقعی
در مجموعه داده‌های آموزشی و آزمایشی این مدل، موارد مثبت واقعی همه نمونه‌هایی از نظرات سمی هستند و منفی‌های واقعی همه نمونه‌هایی هستند که غیرسمی هستند. با توجه به اینکه اصطلاحات هویتی خود خنثی هستند، ما انتظار داریم تعداد متعادلی از نظرات واقعی-منفی و واقعی-مثبت حاوی یک اصطلاح هویتی معین باشد. اگر تعداد نامتناسب کمی از موارد منفی واقعی را مشاهده کنیم، به ما می‌گوید که مدل نمونه‌های زیادی از اصطلاحات هویتی را که در زمینه‌های مثبت یا خنثی استفاده می‌شوند، ندیده است. در آن صورت، مدل ممکن است ارتباط بین اصطلاحات هویت و سمیت را بیاموزد.
به خاطر آوردن
یادآوری درصدی از پیش بینی های مثبت واقعی است که به درستی به عنوان مثبت طبقه بندی شده اند. درصد نظرات سمی را که مدل با موفقیت دریافت کرده است را به ما می گوید. در اینجا، ما با سوگیری مربوط به موارد مثبت کاذب (نظرات غیر سمی که به عنوان سمی طبقه بندی شده بودند) نگران هستیم و یادآوری هیچ بینشی از این مشکل ارائه نمی دهد.

اصلاح تعصب

کدام یک از اقدامات زیر ممکن است روش های موثری برای اصلاح سوگیری در داده های آموزشی مورد استفاده در تمرین شماره 1 و تمرین شماره 2 باشد؟ گزینه های زیر را بررسی کنید.
نمونه های منفی (غیر سمی) حاوی اصطلاحات هویتی بیشتری را به مجموعه آموزشی اضافه کنید.
افزودن مثال‌های منفی بیشتر (نظراتی که در واقع غیر سمی هستند) که حاوی اصطلاحات هویتی هستند به تعادل مجموعه آموزشی کمک می‌کند. سپس مدل تعادل بهتری از اصطلاحات هویتی را که در زمینه‌های سمی و غیرسمی استفاده می‌شود، مشاهده می‌کند، به طوری که می‌تواند یاد بگیرد که خود اصطلاحات خنثی هستند.
نمونه های مثبت (سمی) حاوی اصطلاحات هویتی بیشتری را به مجموعه آموزشی اضافه کنید.
نمونه‌های سمی قبلاً در زیرمجموعه نمونه‌های حاوی اصطلاحات هویت بیش از حد ارائه شده‌اند. اگر حتی تعداد بیشتری از این مثال ها را به مجموعه آموزشی اضافه کنیم، در واقع به جای اصلاح تعصب موجود، آن را تشدید خواهیم کرد.
نمونه های منفی (غیر سمی) بدون شرایط هویتی را به مجموعه آموزشی اضافه کنید.
اصطلاحات هویت قبلاً در نمونه های منفی کمتر ارائه شده است. افزودن مثال‌های منفی بیشتر بدون عبارات هویتی، این عدم تعادل را افزایش می‌دهد و به اصلاح سوگیری کمکی نمی‌کند.
نمونه های مثبت (سمی) بدون شرایط هویتی را به مجموعه آموزشی اضافه کنید.

این امکان وجود دارد که افزودن مثال‌های مثبت بیشتر بدون عبارات هویت ممکن است به شکستن ارتباط بین اصطلاحات هویت و سمیتی که مدل قبلاً آموخته بود کمک کند.

ارزیابی برای تعصب

شما طبقه‌بندی‌کننده سمیت متن خود را از ابتدا آموزش داده‌اید، که تیم مهندسی شما قصد دارد از آن برای سرکوب خودکار نمایش نظرات طبقه‌بندی‌شده به عنوان سمی استفاده کند. شما نگران این هستید که هرگونه سوگیری نسبت به سمیت نظرات مربوط به جنسیت ممکن است منجر به سرکوب گفتمان غیر سمی در مورد جنسیت شود و می‌خواهید سوگیری مرتبط با جنسیت را در پیش‌بینی‌های طبقه‌بندی‌کننده ارزیابی کنید. برای ارزیابی مدل باید از کدام یک از معیارهای زیر استفاده کنید؟ گزینه های زیر را بررسی کنید.
نرخ مثبت کاذب (FPR)
در تولید، این مدل برای سرکوب خودکار پیش بینی های مثبت (سمی) استفاده خواهد شد. هدف شما این است که اطمینان حاصل کنید که مدل نظرات مثبت کاذب (نظرات غیر سمی که مدل به اشتباه به عنوان سمی طبقه‌بندی شده است) را برای نظرات مرتبط با جنسیت با نرخی بالاتر از نظرات کلی سرکوب نمی‌کند. مقایسه FPR برای زیرگروه های جنسیتی با FPR کلی یک راه عالی برای ارزیابی اصلاح سوگیری برای مورد استفاده شما است.
نرخ منفی کاذب (FNR)
FNR نرخی را اندازه می‌گیرد که مدل کلاس مثبت (در اینجا "سمی") را به عنوان کلاس منفی ("غیر سمی") به اشتباه طبقه‌بندی می‌کند. برای این مورد، سرعتی را به شما می گوید که نظرات سمی از فیلتر عبور می کنند و به کاربران نمایش داده می شوند. در اینجا، نگرانی اصلی شما این است که چگونه سوگیری از نظر سرکوب گفتمان غیر سمی آشکار می شود. FNR هیچ دیدگاهی در مورد این بعد از عملکرد مدل به شما نمی دهد.
دقت
دقت ، درصد پیش‌بینی‌های مدل درست و معکوس، درصد پیش‌بینی‌های اشتباه را اندازه‌گیری می‌کند. برای این مورد استفاده، دقت به شما می گوید که چقدر احتمال دارد که فیلتر گفتمان غیر سمی را سرکوب کند یا گفتمان سمی را نشان دهد. دغدغه اصلی شما مسئله اول است نه دومی. از آنجایی که دقت این دو موضوع را در هم می آمیزد، معیار ارزیابی ایده آلی برای استفاده در اینجا نیست.
AUC
AUC یک اندازه گیری مطلق از توانایی پیش بینی یک مدل ارائه می دهد. این معیار خوبی برای ارزیابی عملکرد کلی است. با این حال، در اینجا شما به طور خاص با نرخ های سرکوب نظرات درگیر هستید و AUC بینش مستقیمی در مورد این موضوع به شما نمی دهد.
یک ناظر محتوا به تیم شما اضافه شده است و مدیر محصول تصمیم گرفته است نحوه استقرار طبقه‌بندی کننده شما را تغییر دهد. به جای سرکوب خودکار نظرات طبقه بندی شده به عنوان سمی، نرم افزار فیلتر این نظرات را برای بازبینی ناظر محتوا پرچم گذاری می کند. از آنجایی که یک انسان در حال بررسی نظراتی است که برچسب سمی دارند، سوگیری دیگر به شکل سرکوب محتوا ظاهر نخواهد شد. اکنون ممکن است بخواهید از کدام یک از معیارهای زیر برای اندازه گیری سوگیری - و اثر اصلاح سوگیری - استفاده کنید؟ گزینه های زیر را بررسی کنید.
نرخ مثبت کاذب (FPR)
نرخ مثبت کاذب درصد نظرات غیر سمی که به اشتباه به عنوان سمی طبقه بندی شده اند را به شما نشان می دهد. از آنجایی که یک ناظر انسانی اکنون تمام نظراتی را که مدل برچسب «سمی» می‌زند، بررسی می‌کند و باید بیشتر موارد مثبت کاذب را دریافت کند، FPR دیگر یک نگرانی اصلی نیست.
نرخ منفی کاذب (FNR)
در حالی که یک ناظر انسانی تمام نظرات با برچسب "سمی" را بررسی می کند و اطمینان حاصل می کند که مثبت کاذب سرکوب نمی شود، آنها نظرات با برچسب "غیر سمی" را بررسی نمی کنند. این امر امکان سوگیری مربوط به منفی های کاذب را باز می گذارد. می‌توانید از FNR (درصد موارد مثبت واقعی که به‌عنوان منفی طبقه‌بندی شده‌اند) استفاده کنید تا به‌طور سیستماتیک ارزیابی کنید که آیا نظرات سمی برای زیرگروه‌های جنسیتی بیشتر از نظرات کلی به عنوان غیرسمی برچسب‌گذاری می‌شوند یا خیر.
دقت، درستی
دقت، درصد پیش‌بینی‌های مثبت را که واقعاً مثبت هستند به شما می‌گوید - در این مورد، درصد پیش‌بینی‌های «سمی» درست هستند. از آنجایی که یک ناظم انسانی تمام پیش‌بینی‌های «سمی» را بررسی می‌کند، نیازی نیست که دقت را یکی از معیارهای ارزیابی اولیه خود قرار دهید.
به خاطر آوردن
Recall درصد موارد مثبت واقعی را که به درستی طبقه بندی شده اند به شما می گوید. از این مقدار، می‌توانید درصد موارد مثبت واقعی را که به اشتباه طبقه‌بندی شده‌اند (1 - یادآوری) استخراج کنید، که معیار مفیدی برای سنجش اینکه آیا نظرات سمی مرتبط با جنسیت در مقایسه با نظرات کلی به‌طور نامتناسب به‌عنوان «غیر سمی» طبقه‌بندی شده‌اند یا خیر.