تعلُّم الآلة: العدالة في واجهة برمجة التطبيقات Perspective

تعرّف على الطريقة التي عالج بها فريق Jigsaw التحرش على الإنترنت بالشراكة مع فريق التكنولوجيا في"إساءة الاستخدام"في Google من خلال تطوير واجهة برمجة التطبيقات Perspective التي تستخدم"تعلُّم الآلة"لتحديد التعليقات المسيئة. بعد ذلك، يمكنك استخدام مؤشرات العدالة لتقييم نماذج تعلُّم الآلة والمساعدة في الحد من الانحياز غير المقصود في بيانات التدريب.

المقدمة

Jigsaw هي وحدة في شركة Alphabet وتعمل على تطوير التكنولوجيا لجعل العالم أكثر أمانًا. في عام 2017، بدأ الفريق لمعالجة التحرش على الإنترنت، وطوّر Perspective API. إنّ الهدف من واجهة برمجة التطبيقات Perspective هو زيادة المشاركة والجودة والتعاطف مع المحادثة على الإنترنت على نطاق واسع. يمكن لمطوّري البرامج والناشرين استخدام Perspective لتحديد وفلترة النص الذي يحجب الحوار البنّاء في المنتديات على الإنترنت، وذلك من خلال تحليل محتوى التعليقات التي تتضمّن نصًا يُحتمل أن يكون مسيئًا، بما في ذلك التهديدات والإهانات واللغة النابية واللغة المسيئة.

وتأخذ واجهة برمجة التطبيقات Perspective نص التعليق كإدخال وتعرض ""score" من 0 إلى 1 للإشارة إلى احتمالية أن يكون التعليق مماثلاً للتعليقات السامة التي تم رصدها في الماضي. تشير القيمة 0 إلى احتمالية أن يكون التعليق سامًا، كما تشير النتيجة 1 إلى احتمالية 100% أن التعليق سام، وأن النتيجة 0.5 تشير إلى احتمالية أن يكون التعليق سامًا (أي أن النموذج غير مؤكد).

بيان المشكلة

بعد الإطلاق الأولي لواجهة برمجة التطبيقات Perspective، اكتشِف المستخدمون الخارجيون أنّ هناك علاقة إيجابية بين عبارات الهوية التي تتضمّن معلومات عن العرق أو التوجّه الجنسي ونتيجة الاستهلاك. على سبيل المثال، جملة "وأنا امرأة مسلم سوداء" حصلت على نتيجة سمية 0.87. في هذه الحالة، لم يتم استخدام عبارات الهوية بشكل تشهيري، لذا تم تصنيف هذا المثال بشكل غير صحيح. أين حدث خطأ؟