با مجموعهها، منظم بمانید
ذخیره و دستهبندی محتوا براساس اولویتهای شما.
درک خود را بررسی کنید: شناسایی و رفع تعصب
شناسایی تعصب
در تمرین شماره 1: مدل را کاوش کنید ، تأیید کردید که مدل به طور نامتناسبی نظرات با اصطلاحات هویتی را به عنوان سمی طبقه بندی می کند. کدام معیارها به توضیح علت این سوگیری کمک می کنند؟ گزینه های زیر را بررسی کنید.
دقت
دقت درصد کل پیشبینیهای درست را اندازهگیری میکند - درصد پیشبینیهایی که مثبت یا منفی واقعی هستند. مقایسه دقت برای زیر گروههای مختلف (مانند جمعیتشناسی جنسیتی مختلف) به ما امکان میدهد عملکرد نسبی مدل را برای هر گروه ارزیابی کنیم و میتواند به عنوان شاخصی از تأثیر سوگیری بر یک مدل باشد.
با این حال، از آنجایی که دقت، پیشبینیهای صحیح و نادرست را در مجموع در نظر میگیرد، بین دو نوع پیشبینی صحیح و دو نوع پیشبینی نادرست تمایز قائل نمیشود. تنها با نگاه کردن به دقت، نمیتوانیم تفکیکهای اساسی مثبتهای واقعی، منفیهای واقعی، مثبتهای کاذب و منفیهای کاذب را تعیین کنیم، که بینش بیشتری در مورد منبع سوگیری ارائه میدهد.
نرخ مثبت کاذب
نرخ مثبت کاذب (FPR) درصد نمونههای منفی واقعی (نظرات غیر سمی) است که به اشتباه به عنوان مثبت (نظرات سمی) طبقهبندی شدهاند. FPR نشانگر تأثیر سوگیری بر روی مدل است. وقتی FPRها را برای زیرگروههای مختلف (مانند جمعیتشناسی جنسیتی مختلف) مقایسه میکنیم، متوجه میشویم که نظرات متنی که حاوی عبارات هویتی مرتبط با جنسیت هستند، به احتمال زیاد به اشتباه به عنوان سمی (مثبت کاذب) طبقهبندی میشوند تا نظراتی که حاوی این عبارات نیستند. .
با این حال، ما به دنبال اندازه گیری تأثیر سوگیری نیستیم. ما می خواهیم علت آن را پیدا کنیم. برای انجام این کار، باید نگاه دقیق تری به ورودی های فرمول FPR داشته باشیم.
منفی های واقعی و مثبت های واقعی
در مجموعه دادههای آموزشی و آزمایشی این مدل، موارد مثبت واقعی همه نمونههایی از نظرات سمی هستند و منفیهای واقعی همه نمونههایی هستند که غیرسمی هستند. با توجه به اینکه اصطلاحات هویتی خود خنثی هستند، ما انتظار داریم تعداد متعادلی از نظرات واقعی-منفی و واقعی-مثبت حاوی یک اصطلاح هویتی معین باشد. اگر تعداد نامتناسب کمی از موارد منفی واقعی را مشاهده کنیم، به ما میگوید که مدل نمونههای زیادی از اصطلاحات هویتی را که در زمینههای مثبت یا خنثی استفاده میشوند، ندیده است. در آن صورت، مدل ممکن است ارتباط بین اصطلاحات هویت و سمیت را بیاموزد.
به خاطر آوردن
یادآوری درصدی از پیش بینی های مثبت واقعی است که به درستی به عنوان مثبت طبقه بندی شده اند. درصد نظرات سمی را که مدل با موفقیت دریافت کرده است را به ما می گوید. در اینجا، ما با سوگیری مربوط به موارد مثبت کاذب (نظرات غیر سمی که به عنوان سمی طبقه بندی شده بودند) نگران هستیم و یادآوری هیچ بینشی از این مشکل ارائه نمی دهد.
اصلاح تعصب
کدام یک از اقدامات زیر ممکن است روش های موثری برای اصلاح سوگیری در داده های آموزشی مورد استفاده در تمرین شماره 1 و تمرین شماره 2 باشد؟ گزینه های زیر را بررسی کنید.
نمونه های منفی (غیر سمی) حاوی اصطلاحات هویتی بیشتری را به مجموعه آموزشی اضافه کنید.
افزودن مثالهای منفی بیشتر (نظراتی که در واقع غیر سمی هستند) که حاوی اصطلاحات هویتی هستند به تعادل مجموعه آموزشی کمک میکند. سپس مدل تعادل بهتری از اصطلاحات هویتی را که در زمینههای سمی و غیرسمی استفاده میشود، مشاهده میکند، به طوری که میتواند یاد بگیرد که خود اصطلاحات خنثی هستند.
نمونه های مثبت (سمی) حاوی اصطلاحات هویتی بیشتری را به مجموعه آموزشی اضافه کنید.
نمونههای سمی قبلاً در زیرمجموعه نمونههای حاوی اصطلاحات هویت بیش از حد ارائه شدهاند. اگر حتی تعداد بیشتری از این مثال ها را به مجموعه آموزشی اضافه کنیم، در واقع به جای اصلاح تعصب موجود، آن را تشدید خواهیم کرد.
نمونه های منفی (غیر سمی) بدون شرایط هویتی را به مجموعه آموزشی اضافه کنید.
اصطلاحات هویت قبلاً در نمونه های منفی کمتر ارائه شده است. افزودن مثالهای منفی بیشتر بدون عبارات هویتی، این عدم تعادل را افزایش میدهد و به اصلاح سوگیری کمکی نمیکند.
نمونه های مثبت (سمی) بدون شرایط هویتی را به مجموعه آموزشی اضافه کنید.
این امکان وجود دارد که افزودن مثالهای مثبت بیشتر بدون عبارات هویت ممکن است به شکستن ارتباط بین اصطلاحات هویت و سمیتی که مدل قبلاً آموخته بود کمک کند.
ارزیابی برای تعصب
شما طبقهبندیکننده سمیت متن خود را از ابتدا آموزش دادهاید، که تیم مهندسی شما قصد دارد از آن برای سرکوب خودکار نمایش نظرات طبقهبندیشده به عنوان سمی استفاده کند. شما نگران این هستید که هرگونه سوگیری نسبت به سمیت نظرات مربوط به جنسیت ممکن است منجر به سرکوب گفتمان غیر سمی در مورد جنسیت شود و میخواهید سوگیری مرتبط با جنسیت را در پیشبینیهای طبقهبندیکننده ارزیابی کنید. برای ارزیابی مدل باید از کدام یک از معیارهای زیر استفاده کنید؟ گزینه های زیر را بررسی کنید.
نرخ مثبت کاذب (FPR)
در تولید، این مدل برای سرکوب خودکار پیش بینی های مثبت (سمی) استفاده خواهد شد. هدف شما این است که اطمینان حاصل کنید که مدل نظرات مثبت کاذب (نظرات غیر سمی که مدل به اشتباه به عنوان سمی طبقهبندی شده است) را برای نظرات مرتبط با جنسیت با نرخی بالاتر از نظرات کلی سرکوب نمیکند. مقایسه FPR برای زیرگروه های جنسیتی با FPR کلی یک راه عالی برای ارزیابی اصلاح سوگیری برای مورد استفاده شما است.
نرخ منفی کاذب (FNR)
FNR نرخی را اندازه میگیرد که مدل کلاس مثبت (در اینجا "سمی") را به عنوان کلاس منفی ("غیر سمی") به اشتباه طبقهبندی میکند. برای این مورد، سرعتی را به شما می گوید که نظرات سمی از فیلتر عبور می کنند و به کاربران نمایش داده می شوند. در اینجا، نگرانی اصلی شما این است که چگونه سوگیری از نظر سرکوب گفتمان غیر سمی آشکار می شود. FNR هیچ دیدگاهی در مورد این بعد از عملکرد مدل به شما نمی دهد.
دقت
دقت ، درصد پیشبینیهای مدل درست و معکوس، درصد پیشبینیهای اشتباه را اندازهگیری میکند. برای این مورد استفاده، دقت به شما می گوید که چقدر احتمال دارد که فیلتر گفتمان غیر سمی را سرکوب کند یا گفتمان سمی را نشان دهد. دغدغه اصلی شما مسئله اول است نه دومی. از آنجایی که دقت این دو موضوع را در هم می آمیزد، معیار ارزیابی ایده آلی برای استفاده در اینجا نیست.
AUC
AUC یک اندازه گیری مطلق از توانایی پیش بینی یک مدل ارائه می دهد. این معیار خوبی برای ارزیابی عملکرد کلی است. با این حال، در اینجا شما به طور خاص با نرخ های سرکوب نظرات درگیر هستید و AUC بینش مستقیمی در مورد این موضوع به شما نمی دهد.
یک ناظر محتوا به تیم شما اضافه شده است و مدیر محصول تصمیم گرفته است نحوه استقرار طبقهبندی کننده شما را تغییر دهد. به جای سرکوب خودکار نظرات طبقه بندی شده به عنوان سمی، نرم افزار فیلتر این نظرات را برای بازبینی ناظر محتوا پرچم گذاری می کند. از آنجایی که یک انسان در حال بررسی نظراتی است که برچسب سمی دارند، سوگیری دیگر به شکل سرکوب محتوا ظاهر نخواهد شد. اکنون ممکن است بخواهید از کدام یک از معیارهای زیر برای اندازه گیری سوگیری - و اثر اصلاح سوگیری - استفاده کنید؟ گزینه های زیر را بررسی کنید.
نرخ مثبت کاذب (FPR)
نرخ مثبت کاذب درصد نظرات غیر سمی که به اشتباه به عنوان سمی طبقه بندی شده اند را به شما نشان می دهد. از آنجایی که یک ناظر انسانی اکنون تمام نظراتی را که مدل برچسب «سمی» میزند، بررسی میکند و باید بیشتر موارد مثبت کاذب را دریافت کند، FPR دیگر یک نگرانی اصلی نیست.
نرخ منفی کاذب (FNR)
در حالی که یک ناظر انسانی تمام نظرات با برچسب "سمی" را بررسی می کند و اطمینان حاصل می کند که مثبت کاذب سرکوب نمی شود، آنها نظرات با برچسب "غیر سمی" را بررسی نمی کنند. این امر امکان سوگیری مربوط به منفی های کاذب را باز می گذارد. میتوانید از FNR (درصد موارد مثبت واقعی که بهعنوان منفی طبقهبندی شدهاند) استفاده کنید تا بهطور سیستماتیک ارزیابی کنید که آیا نظرات سمی برای زیرگروههای جنسیتی بیشتر از نظرات کلی به عنوان غیرسمی برچسبگذاری میشوند یا خیر.
دقت، درستی
دقت، درصد پیشبینیهای مثبت را که واقعاً مثبت هستند به شما میگوید - در این مورد، درصد پیشبینیهای «سمی» درست هستند. از آنجایی که یک ناظم انسانی تمام پیشبینیهای «سمی» را بررسی میکند، نیازی نیست که دقت را یکی از معیارهای ارزیابی اولیه خود قرار دهید.
به خاطر آوردن
Recall درصد موارد مثبت واقعی را که به درستی طبقه بندی شده اند به شما می گوید. از این مقدار، میتوانید درصد موارد مثبت واقعی را که به اشتباه طبقهبندی شدهاند (1 - یادآوری) استخراج کنید، که معیار مفیدی برای سنجش اینکه آیا نظرات سمی مرتبط با جنسیت در مقایسه با نظرات کلی بهطور نامتناسب بهعنوان «غیر سمی» طبقهبندی شدهاند یا خیر.