اختبار Adversaries للذكاء الاصطناعي

الاختبار العدائي هو طريقة لتقييم نموذج تعلُّم الآلة بشكل منهجي بهدف التعرّف على سلوكه عند تقديمه من خلال مدخلات ضارة أو غير مقصودة. يوضّح هذا الدليل مثالاً عن سير عمل اختباري للذكاء الاصطناعي.

ما هو الاختبار العدائي؟

ويُعدّ الاختبار جزءًا مهمًا من تصميم تطبيقات فعّالة وآمنة للذكاء الاصطناعي. وتتضمّن ميزة الاختبارات محاولة "إيقاف" التطبيق بشكل استباقي من خلال تزويده ببيانات من المرجّح أن تسبب المخرجات التي تسبب مشاكل. من المحتمل أن تؤدّي طلبات البحث المخادعة إلى تعذّر نموذج النموذج بطريقة غير آمنة (أي انتهاكات سياسة الأمان)، وقد تؤدي إلى حدوث أخطاء يَسهُل على المستخدمين التعرّف عليها، ولكن يصعب على الأجهزة التعرّف عليها.

قد تكون طلبات البحث "معارضة" بطرق مختلفة. قد تحتوي طلبات البحث المخادعة بشكل صريح على لغة تنتهك السياسة أو تعبّر عن وجهات النظر التي تنتهك السياسات، أو قد تقترح أو تحاول "خداع" النموذج لقول شيء غير آمن أو مؤذٍ أو مسيء. قد تبدو طلبات البحث المخالفة ضمنية غير مبررة، ولكنها قد تحتوي على مواضيع حساسة أو حساسة من الناحية الثقافية أو قد تكون ضارة. وقد تشمل هذه المعلومات معلومات عن الخصائص الديمغرافية أو الصحة أو الشؤون المالية أو الدين.

بإمكان الاختبارات العدائية مساعدة الفِرق على تحسين النماذج والمنتجات من خلال الكشف عن حالات تعذُّر التوجيه لتوجيه مسارات التخفيف، مثل ضبط الإعدادات بدقة أو إجراءات حماية الطرق أو الفلاتر. بالإضافة إلى ذلك، يمكن أن يساعد ذلك في اتّخاذ قرارات بشأن إطلاق المنتج من خلال قياس المخاطر التي قد لا يُخفّف من آثارها، مثل احتمالية إطلاق نموذج يتضمّن محتوًى ينتهك السياسات.

يوفّر هذا الدليل أفضل الممارسات لالذكاء الاصطناعي المسؤول، ويقدّم مثالاً على سير العمل للنماذج التجريبية والأنظمة الإبداعية.

مثال على سير عمل اختبار الاختبار

يتبع الاختبار العدائي سير العمل الذي يشبه تقييم النموذج العادي.

تحديد مصادر الإدخال وتعريفها

تتمثّل الخطوة الأولى في سير عمل الاختبار الاختباري في تحديد الإدخالات للتعرّف على سلوك النظام عندما يتم الهجوم عليه عن قصد ومنهج. يمكن أن تؤثر الإدخالات المدروسة مباشرةً في فعالية سير عمل الاختبار. يمكن أن تساعد الإدخالات التالية في تحديد نطاق وأهداف الاختبار:

  • سياسة المنتجات، وحالات عدم اكتمال عمليات النقل
  • حالات الاستخدام
  • متطلبات التنوع

سياسة المنتجات، وحالات عدم اكتمال عمليات النقل

يجب أن تحدّد منتجات الذكاء الاصطناعي التي تعمل جيلاً سياسات الأمان التي تصف سلوك المنتج ومخرجات النماذج غير المسموح بها (أي التي تُعتبر "غير آمنة"). يجب أن تعدّل السياسة أوضاع الإيقاف التي تُعتبر انتهاكات للسياسة. يجب استخدام قائمة أوضاع الخطأ هذه كأساس للاختبار الاختباري. قد تشمل بعض الأمثلة على أوضاع تعذّر المحتوى محتوى يحتوي على لغة نابية، أو نصائح مالية أو قانونية أو طبية.

حالات الاستخدام

ومن بين الملاحظات المهمة الأخرى للاختبارات حالات الاستخدام التي يسعى النموذج أو المنتج المنشئ إلى عرضها، بحيث تحتوي بيانات الاختبار على بعض الطرق التي سيتفاعل بها المستخدمون مع المنتج في الواقع. لكل منتج مبتكر حالات استخدام مختلفة قليلاً، ولكن تشمل بعض الحالات الشائعة العثور على الحقائق وتلخيصها وإنشاء الرموز البرمجية لنماذج اللغة، أو إنشاء صور للخلفيات حسب الموقع الجغرافي أو التضاريس أو الأسلوب الفني أو الملابس.

متطلبات التنوع

يجب أن تكون مجموعات بيانات الاختبارات المعارضة متنوعة بشكل كافٍ ونموذجية مع مراعاة جميع أوضاع العطل المستهدفة وحالات الاستخدام. ويساعد قياس تنوّع مجموعات بيانات الاختبار على تحديد الانحياز المحتمل ويضمن اختبار النماذج على نطاق واسع مع أخذ مجموعة متنوعة من المستخدمين في الاعتبار.

إليك ثلاث طُرق للتفكير في ما يتعلّق بالتنوّع:

  • التنوع المنطقي: تأكّد من أنّ طلبات البحث لها مجموعة من قيم الطول المختلفة (مثل عدد الكلمات). استخدِم نطاقًا واسعًا من الكلمات، ولا تحتوي على نُسخ طبق الأصل، كما تمثّل صيغ طلبات بحث مختلفة (مثل الأسئلة الشائعة والطلبات المباشرة وغير المباشرة).
  • التنوّع الدلالي: تأكَّد من أنّ طلبات البحث تغطي مجموعة واسعة من المواضيع المختلفة لكل سياسة (مثل مرض السكري) بما في ذلك السمات الحسّاسة والهوية (مثل الجنس والمجموعة الإثنية) على مستوى حالات الاستخدام والسياقات المختلفة.
  • تنوُّع حالات الاستخدام والسياسات: تأكَّد من أنّ طلبات البحث تغطي جميع انتهاكات السياسة (مثل الكلام الذي يحضّ على الكراهية) وحالات الاستخدام (مثل نصائح الخبراء).

البحث عن مجموعات بيانات تجريبية أو إنشاؤها

يتم إنشاء مجموعات البيانات التجريبية للاختبارات بشكل مختلف عن مجموعات اختبار تقييم النماذج العادية. في تقييمات النماذج العادية، يتم تصميم مجموعات البيانات التجريبية عادةً لتعكس توزيع البيانات التي سيواجهها النموذج في المنتج بدقة. بالنسبة إلى اختبارات التنافسية، يتم اختيار بيانات الاختبار لاستنتاج النتائج التي تسبب مشاكل من النموذج، وذلك عن طريق إثبات سلوك النموذج على أمثلة الخارج عن التوزيع وحالات الحافة ذات الصلة بسياسات السلامة. يجب أن تغطي مجموعة الاختبارات الدعائية العالية الجودة جميع أبعاد سياسات الأمان، وتعمل على توسيع نطاق تغطية حالات الاستخدام التي يهدف إليها النموذج إلى أقصى حد. ويجب أن يكون المحتوى متنوّعًا (على سبيل المثال، يشمل طلبات البحث ذات الأطوال واللغات المختلفة) والدلالية (على سبيل المثال، تتناول مواضيع وخصائص ديمغرافية مختلفة).

تحقّق من مجموعات البيانات التجريبية الحالية لتغطية سياسات السلامة وأوضاع التعذُّر وحالات الاستخدام لكل من إنشاء النصوص وتحويل النص إلى صورة. يمكن للفِرق استخدام مجموعات بيانات حالية لوضع أساس أساسي لأداء منتجاتها، ثم إجراء تحليلات مفصّلة حول أوضاع تعذُّر معيّنة تواجه منتجاتها صعوبة في معالجتها.

إذا لم تكن مجموعات البيانات الحالية كافية، يمكن للفِرق إنشاء بيانات جديدة لاستهداف أوضاع حالات استخدام معيّنة وحالات استخدام معيّنة. تتمثل إحدى طرق إنشاء مجموعات البيانات الجديدة في إنشاء مجموعة بيانات صغيرة لطلبات البحث يدويًا (أي عشرات الأمثلة لكل فئة)، ثم التوسّع في مجموعة البيانات "الأساسية" هذه باستخدام أدوات دمج البيانات.

ويجب أن تحتوي مجموعات البيانات الأولية على أمثلة مشابهة قدر الإمكان لما قد يواجهه النظام في الإنتاج، ويتم إنشاؤه بهدف اتّباع انتهاك السياسة. من المرجّح أن تتعرّف ميزات الأمان على اللغة غير اللائقة، لذا ننصحك بصياغة المُدخلات الإبداعية والعبارات الضمنية المضلّلة.

يمكنك استخدام الإشارات المباشرة أو غير المباشرة إلى السمات الحساسة (مثل العمر والجنس والعِرق والدين) في مجموعة البيانات التجريبية. يُرجى العِلم أنّ استخدام هذه العبارات قد يختلف بين الثقافات. تدرّب درجات الألوان وبنية الجمل واختيارات كلمات والمعنى. إنّ الأمثلة التي يمكن أن تُطبّق عليها تصنيفات متعددة (مثل الكلام الذي يحض على الكراهية مقابل المحتوى الفاحش) قد تؤدي إلى حدوث تشويش وتكرار، وقد لا يتم التعامل معها بشكل صحيح من خلال أنظمة التقييم أو التدريب.

يجب تحليل مجموعات الاختبار المضادة لفهم تركيبها في ما يتعلق بالتنوّع اللغوي والدلالي، والتغطية في جميع انتهاكات السياسات وحالات الاستخدام، والجودة الإجمالية من حيث التفرّد والعداء والضوضاء.

إنشاء مُخرجات النماذج

تتمثّل الخطوة التالية في إنشاء مخرجات نموذج استنادًا إلى مجموعة بيانات الاختبار. تُعلِم النتائج فِرق المنتجات بمستوى الأداء المحتمل لنماذجهم عند عرضها للمستخدمين الضارّين أو المُدخلات الضارة بدون قصد. يمكن أن يؤدي تحديد سلوكيات هذه الأنظمة وأنماط الاستجابة إلى توفير قياسات أساسية يمكن التخفيف من تأثيرها في تطوير النماذج المستقبلية.

إضافة تعليقات توضيحية

بعد إنشاء مخرجات الاختبار، يمكنك إضافة تعليقات توضيحية إليها لتصنيفها إلى أعطال و/أو أضرار. يمكن أن تساعد هذه التصنيفات في توفير إشارات أمان لمحتوى النصوص والصور. بالإضافة إلى ذلك، يمكن أن تساعد الإشارات في قياس الأضرار والحد منها على مستوى النماذج والمنتجات.

يمكن استخدام مصنِّفات السلامة لإضافة تعليقات توضيحية تلقائيًا إلى مخرجات النموذج (أو الإدخالات) لانتهاكات السياسة. وقد تكون الدقة منخفضة للإشارات التي تحاول رصد التركيبات غير المحدَّدة بدقة، مثل الكلام الذي يحضّ على الكراهية. وبالنسبة إلى هذه الإشارات، من المهم استخدام المصنِّفين للتحقّق من التصنيفات التي أنشأها المصنِّف وتصحيحها، والتي تكون نتائجها "غير متأكدة".

بالإضافة إلى ميزة التعليقات التوضيحية التلقائية، يمكنك أيضًا الاستفادة من المصنِّفين التعليق على عيّنة من بياناتك. من المهم التنويه إلى أنّ مخرجات النموذج التوضيحي كجزء من الاختبار المخصص لها تتطلب بالضرورة النظر في النصوص أو الصور التي قد تتسبّب بمشاكل، على غرار الإشراف اليدوي للمحتوى. فضلاً عن ذلك، قد يضيف المصنِّفون المعنيون تعليقات توضيحية إلى المحتوى نفسه بشكل مختلف استنادًا إلى خلفياتهم الشخصية أو معرفتهم أو معتقداتهم. وقد يكون من المفيد وضع إرشادات أو نماذج للمصنِّفين، مع الأخذ في الاعتبار أن تنوّع مجموعات المُصنِّفين قد يؤثر في نتائج التعليقات التوضيحية.

الإبلاغ عن المحتوى والحدّ منه

الخطوة الأخيرة هي تلخيص نتائج الاختبار في التقرير. حساب المقاييس والإبلاغ عن النتائج لتوفير معدلات الأمان والرسوم البيانية وأمثلة حالات تعذُّر تحديد المشاكل يمكن أن تساعد هذه النتائج في تحسين النماذج وتوجيهات الوقاية من النماذج، مثل الفلاتر أو القوائم المحظورة. تعتبر التقارير مهمة أيضًا للتواصل مع الجهات المعنيّة وصانعي القرار.

مراجع إضافية

فريق الذكاء الاصطناعي في Google: المخترقون الأخلاقيون يجعلون الذكاء الاصطناعي أكثر أمانًا

نماذج لغة أحمر للفريق مع نماذج لغة

اختبار عدالة المنتج لمطوّري البرامج في مجال تعلُّم الآلة (فيديو):

اختبار عدالة المنتج لمطوّري البرامج (Codelab)