تقييم النماذج باستخدام المقاييس

ومع أن تصحيح أخطاء نموذج تعلّم الآلة قد يكون شاقًا، فإن مقاييس النموذج توضّح لك من أين تبدأ. تناقش الأقسام التالية كيفية تقييم الأداء باستخدام المقاييس.

تقييم الجودة باستخدام مقاييس النموذج

لتقييم جودة النموذج، تتمثل المقاييس الشائعة الاستخدام في ما يلي:

للحصول على إرشادات حول تفسير هذه المقاييس، يُرجى قراءة المحتوى المرتبط من محتوى "أعطال تعلُّم الآلة". للحصول على إرشادات إضافية حول مشاكل محدّدة، يُرجى الاطّلاع على الجدول التالي.

المشكلة تقييم الجودة
التراجع إلى جانب تقليل خطأ مربّع المتوسط (MSE)، عليك الحد من قيمة MSE مقارنةً بقيم التصنيف. على سبيل المثال، لنفترض أنّك تتوقّع أسعار سلعتَين تكون أسعارهما 5 و100. في كلتا الحالتين، افترض أنّ MSE هي 5. في الحالة الأولى، MSE هي% 100 من السعر المتوسط، وهو خطأ واضح. في الحالة الثانية، تبلغ تكلفة خدمة MSE 5% من السعر المتوسط، وهو خطأ معقول.
التصنيف المتعدد الطبقات إذا كنت تتوقّع عددًا قليلاً من الصفوف، يمكنك الاطّلاع على المقاييس لكل صف على حدة. عند توقّع العديد من الصفوف، يمكنك متوسط مقاييس كل صف لتتبّع مقاييس التصنيف الإجمالية. بدلاً من ذلك، يمكنك تحديد أولويات أهداف جودة معيّنة بناءً على احتياجاتك. على سبيل المثال، إذا كنت تصنّف عناصر في الصور، قد تُعطي الأولوية لجودة التصنيف للمستخدمين مقارنةً بالكائنات الأخرى.

فحص المقاييس لشرائح البيانات المهمة

بعد الاحتفاظ بنموذج عالي الجودة، قد يظل النموذج ضعيفًا في المجموعات الفرعية من بياناتك. على سبيل المثال، يجب أن يتنبأ القائم على أحادي القرن جيدًا في الصحراء الكبرى وفي مدينة نيويورك، وفي جميع الأوقات من اليوم. ومع ذلك، لديك بيانات تدريب أقل عن الصحراء الكبرى. لذا، تحتاج إلى تتبُّع جودة النموذج خصيصًا من أجل الصحراء الكبرى. وتُعرف هذه المجموعات الفرعية من البيانات، مثل المجموعة الفرعية المقابلة للصحراء الكبرى، باسم شرائح البيانات. يجب مراقبة شرائح البيانات بشكل منفصل حيث يكون الأداء مهمًا بشكل خاص أو الأماكن التي قد يكون أداء النموذج فيها ضعيفًا.

يمكنك فهم البيانات من أجل تحديد شرائح البيانات المهمة. بعد ذلك، قارِن مقاييس النموذج لشرائح البيانات مقابل مقاييس مجموعة بياناتك بالكامل. يساعد التحقق من أداء نموذجك في جميع شرائح البيانات على إزالة الانحياز. لمزيد من المعلومات، اطّلِع على مقالة Fairness: تقييم الانحياز.

استخدام مقاييس واقعية

ويُذكر أن مقاييس النموذج لا تقيس بالضرورة تأثير النموذج في الواقع. على سبيل المثال، يمكنك تغيير مَعلمة فائقة في البيانات وزيادة عدد مستخدمي ميزة "انتهاء صلاحية الحصول على التحديثات" (AUC)، ولكن كيف أثّر هذا التغيير في تجربة المستخدم؟ لقياس تأثير العالم الحقيقي، تحتاج إلى تحديد مقاييس منفصلة. على سبيل المثال، يمكنك استطلاع آراء المستخدمين الذين يشاهدون عبارة بحث عن ظهور قرن وحيد القرن للتحقق مما إذا كانوا قد رأوا وحيد القرن. يساعد قياس التأثير في العالم الحقيقي في مقارنة جودة التكرارات المختلفة لنموذجك.