التدريب العملي في مجال تعلّم الآلة: الإنصاف في واجهة برمجة التطبيقات Perspective

تحقق من فهمك: تحديد التحيز ومعالجته

تحديد التحيز

في التمرين رقم 1: استكشاف النموذج، أكّدت أنّ النموذج كان يصنّف بشكل غير متناسب التعليقات التي تتضمّن مصطلحات مرتبطة بالهوية على أنّها غير لائقة. ما المقاييس التي تساعد في شرح سبب هذا التحيز؟ يُرجى الاطّلاع على الخيارات أدناه.
الدقة

يقيس الدقة النسبة المئوية لإجمالي عبارات البحث المقترحة الصحيحة، أي النسبة المئوية لطلبات البحث المقترحة التي تكون نتائج موجبة صحيحة أو نتائج سلبية صحيحة. عند مقارنة الدقة لمجموعات فرعية مختلفة (مثل الخصائص الديموغرافية المختلفة للجنس)، يمكننا تقييم الأداء النسبي للنموذج لكل مجموعة ويمكن أن يكون مؤشرًا على تأثير الانحياز في النموذج.

وبما أنّ الدقة تأخذ في الاعتبار عبارات البحث المقترحة الصحيحة وغير الصحيحة بشكل مجمَّع، فإنّها لا تميّز بين نوعَي عبارات البحث المقترحة الصحيحة والنوعين من عبارات البحث المقترحة غير الصحيحة. وبالنظر إلى الدقة وحدها، لا يمكننا تحديد التقسيمات الأساسية للنتائج الموجبة الصائبة والأرقام السالبة الصائبة والنتائج الموجبة الخاطئة والنتائج السالبة الخاطئة، ما سيوفّر نظرة ثاقبة لمصدر الانحياز.

معدل الموجب الخاطئ

معدّل النتائج الموجبة الخاطئة (FPR) هو النسبة المئوية للأمثلة السلبية الفعلية (التعليقات غير اللائقة) التي تم تصنيفها بشكل غير صحيح على أنّها إيجابية (التعليقات غير اللائقة). أمّا مقياس FPR، فهو مؤشر على تأثير الانحياز على النموذج. عندما نقارن معدّل وصف مرات الظهور (FPR) لمجموعات فرعية مختلفة (مثل الخصائص الديمغرافية المختلفة للجنسَين)، نكتشف أنّ التعليقات النصية التي تحتوي على عبارات متعلقة بالهوية متعلقة بالجنس قد يتم تصنيفها بشكل غير صحيح على أنّها غير لائقة (أي نتائج إيجابية خاطئة) مقارنةً بالتعليقات التي لا تحتوي على هذه العبارات.

ومع ذلك، فإننا لا نتطلع إلى قياس تأثير التحيز؛ لكننا نريد معرفة سببه. للقيام بذلك، نحتاج إلى إلقاء نظرة فاحصة على مدخلات معادلة FPR.

السلبيات الفعلية والإيجابيات الفعلية
ضمن مجموعات بيانات التدريب والاختبار الخاصة بهذا النموذج، تشمل النتائج الإيجابية الفعلية جميع الأمثلة على التعليقات غير اللائقة، و السلبية الفعلية هي الأمثلة غير اللائقة. بما أنّ عبارات الهوية في حد ذاتها محايدة، نتوقّع أن عددًا متوازنًا من التعليقات السلبية الفعلية والإيجابية الفعلية تحتوي على عبارة معيّنة متعلقة بالهوية. وإذا لاحظنا عددًا قليلاً غير متناسب من السلبيات الفعلية، يعني ذلك أنّ النموذج لم يعثر على العديد من الأمثلة لعبارات الهوية المستخدمة في السياقات الإيجابية أو المحايدة. في هذه الحالة، قد يتعلم النموذج علاقة بين مصطلحات الهوية واللغة غير اللائقة.
التذكُّر
التذكُّر هو النسبة المئوية لعبارات البحث المقترحة الإيجابية الفعلية التي تم تصنيفها بشكل صحيح على أنّها نتائج إيجابية. فهي توضح لنا نسبة التعليقات غير اللائقة التي صادفها النموذج بنجاح. ونركّز هنا على الانحياز المرتبط بالنتائج الإيجابية الخاطئة (أي التعليقات غير اللائقة التي تم تصنيفها على أنّها غير لائقة)، ونلاحظ أنّ عملية التذكّر لا تقدّم أي إحصاءات حول هذه المشكلة.

معالجة التحيز

أي من الإجراءات التالية يمكن أن يكون طرقًا فعّالة لمعالجة الانحياز في بيانات التدريب المستخدَمة في التمرين رقم 1 والتمرين رقم 2؟ يُرجى الاطّلاع على الخيارات أدناه.
أضِف إلى مجموعة التدريب المزيد من الأمثلة السلبية (غير المسيئة) التي تحتوي على مصطلحات الهوية.
من خلال إضافة المزيد من الأمثلة السلبية (أي التعليقات التي تتضمّن لغة غير لائقة في الواقع) والتي تتضمّن عبارات مرتبطة بالهوية، ستساعد في تحقيق التوازن بين مجموعة التدريب. بعد ذلك، سيلاحظ النموذج توازنًا أفضل بين العبارات المتعلقة بالهوية المستخدَمة في السياقات غير اللائقة وغير المسيئة، وذلك ليعرف أنّ العبارات بحد ذاتها محايدة.
أضِف إلى مجموعة التدريب المزيد من الأمثلة الإيجابية (غير المسيئة) التي تحتوي على مصطلحات الهوية.
لقد سبق تمثيل الأمثلة غير اللائقة بشكلٍ زائد في المجموعة الفرعية من الأمثلة التي تحتوي على عبارات مرتبطة بالهوية. وإذا أضفنا المزيد من هذه الأمثلة إلى مجموعة التدريب، سنزيد من حدّة الانحياز الحالية بدلاً من معالجتها.
أضِف المزيد من الأمثلة السلبية (غير المسيئة) بدون مصطلحات الهوية إلى مجموعة التدريب.
في الأمثلة السلبية، يتم تمثيل العبارات المتعلقة بالهوية بشكل كافٍ. وفي حال إضافة المزيد من الأمثلة السلبية بدون مصطلحات خاصة بالهوية، قد يؤدي ذلك إلى زيادة هذا الخلل ولن يساعد في معالجة هذا الانحياز.
أضف المزيد من الأمثلة الإيجابية (غير لائقة) إلى مجموعة التدريب بدون مصطلحات الهوية.

ومن الممكن أن تساعد إضافة المزيد من الأمثلة الإيجابية بدون مصطلحات خاصة بالهوية في إلغاء الربط بين العبارات المتعلقة بالهوية واللغة غير اللائقة التي سبق أن تعلّمها النموذج.

تقييم التحيز

لقد درّبت من البداية أداة تصنيف اللغة السامة التي تحتوي على لغة غير لائقة، وهي يخطط فريق المهندسين لاستخدامها لمنع عرض التعليقات المصنَّفة على أنّها غير لائقة تلقائيًا. وتشعر بالقلق من أنّ أي تحيّز تجاه اللغة غير اللائقة في التعليقات المتعلّقة بالجنس قد يؤدي إلى قمع الحديث غير اللائق حول الجنس، وترغب في تقييم الانحياز المرتبط بالجنس في توقّعات المصنِّف. أيّ من المقاييس التالية عليك استخدامها لتقييم النموذج؟ يُرجى الاطّلاع على الخيارات أدناه.
معدل الموجب الخاطئ (FPR)
وفي مرحلة الإنتاج، سيتم استخدام النموذج لقمع عبارات البحث المقترحة الإيجابية (غير لائقة) تلقائيًا. يكمن هدفك في ضمان أنّ النموذج لا يقمع نتائج إيجابية خاطئة (أي التعليقات غير اللائقة التي صنّفها النموذج بشكل خاطئ على أنها غير لائقة) وذلك في ما يتعلق بالتعليقات المرتبطة بنوع الجنس وبمعدل أعلى من التعليقات بشكل عام. وتُعدّ مقارنة FPR للمجموعات الفرعية المستندة إلى الجنس بـ FPR بشكل عام طريقة رائعة لتقييم تأثير الانحياز في حالة الاستخدام.
معدل سالب خاطئ (FNR)
يقيس النموذج FNR معدّل التصنيف الخاطئ للفئة الموجبة (هنا، "لغة غير لائقة") على أنّها الفئة السالبة ("غير لائقة"). وفي حالة الاستخدام هذه، توضّح لك بيانات هذا المقياس معدّل إزالة التعليقات التي تحتوي على لغة غير لائقة أو غير لائقة من خلال الفلتر وسيتم عرضها على المستخدمين. إليكم المسألة الأساسية حول كيفية ظهور الانحياز من خلال قمع الخطابات غير اللائقة. لا توفّر لك ميزة FNR أي إحصاءات حول هذا البُعد الخاص بأداء النموذج.
الدقة
تقيس الدقة النسبة المئوية لعبارات البحث المقترحة التي كانت صحيحة، وبالعكس النسبة المئوية لعبارات البحث المقترحة التي كانت غير صحيحة. في حالة الاستخدام هذه، تشير الدقة إلى مدى احتمالية إظهار فلتر الخطاب غير اللائق أو الذي تم عرضه للخطاب السام. المشكلة الرئيسية هي المشكلة السابقة وليس الثانية. وبما أنّ الدقة تخلط بين المشكلتين، فهي ليست مقياس التقييم المثالي للاستخدام هنا.
AUC
توفّر AUC قياسًا مطلقًا لقدرة النموذج على التوقّعات. وهو مقياس جيد لتقييم الأداء العام. مع ذلك، أنت معنيّ تحديدًا بمعدّلات منع نشر التعليقات، ولا يوفّر لك AUC معلومات مباشرة حول هذه المشكلة.
تمت إضافة مشرف للمحتوى إلى فريقك، وقرر مدير المنتج تغيير طريقة نشر المصنِّف. وبدلاً من أن يتم تلقائيًا منع عرض التعليقات المصنَّفة على أنّها غير لائقة، ستبلّغ برامج الفلترة عن هذه التعليقات لكي يراجعها مشرف المحتوى. بما أنّ أحد المراجعين سيراجع التعليقات المصنّفة على أنها غير لائقة، لن يظهر الانحياز بعد ذلك في شكل قمع المحتوى. أي من المقاييس التالية قد تريد استخدامها الآن لقياس الانحياز وتأثير إصلاح الانحياز؟ يُرجى الاطّلاع على الخيارات أدناه.
معدل الموجب الخاطئ (FPR)
يشير معدّل الموجب الخاطئ إلى النسبة المئوية للتعليقات غير اللائقة التي تم تصنيفها عن طريق الخطأ على أنّها غير لائقة. بما أنّ أحد المشرفين سيراجع الآن جميع التعليقات التي يصنّفها النموذج على أنّها "لغة غير لائقة"، ومن المفترض أن يرصد معظم النتائج الإيجابية الخاطئة، لم تعُد ميزة FPR هي مصدر قلق أساسي.
معدل سالب خاطئ (FNR)
سيراجع أحد المشرفين كل التعليقات المصنّفة على أنها "غير لائقة" والتأكد من عدم منع نشر النتائج الموجبة الخاطئة، ولكنّه لن يراجع التعليقات المصنّفة على أنها "غير لائقة". وهذا يجعل احتمال التحيز مفتوحًا في ما يتعلق بالنتائج السلبية الخاطئة. يمكنك استخدام FNR (النسبة المئوية للنتائج الإيجابية الفعلية التي تم تصنيفها على أنّها سلبية) لإجراء تقييم منهجي لما إذا كان من المرجّح أن يتم تصنيف التعليقات التي تحتوي على لغة غير لائقة في مجموعات فرعية حسب الجنس مقارنةً بالتعليقات بشكل عام.
مسابقة دقة التصويب
الدقة: تبيّن لك النسبة المئوية لطلبات البحث الإيجابية التي كانت إيجابية، وهي في هذه الحالة النسبة المئوية للتنبؤات "غير اللائقة" الصحيحة. وبما أنّ أحد المشرفين سيدقّق في جميع عبارات البحث المقترحة "غير لائقة"، لن تحتاج إلى تحديد الدقة أحد مقاييس التقييم الأساسية.
التذكُّر
يخبرك التذكُّر بالنسبة المئوية للنتائج الإيجابية الفعلية التي تم تصنيفها بشكل صحيح. ومن هذه القيمة، يمكنك استنتاج النسبة المئوية للنتائج الإيجابية الفعلية التي تم تصنيفها بشكل خاطئ (1 – التذكُّر)، وهي مقياس مفيد لقياس ما إذا كان يتم تصنيف التعليقات غير اللائقة والمرتبطة بالجنس بشكل غير متناسب على أنّها "غير لائقة" مقارنةً بالتعليقات بشكل عام.