التصنيف: منحنى ROC وAUC

منحنى ROC

منحنى RoC (منحنى خصائص تشغيل المستلِم) هو رسم بياني يوضّح أداء نموذج التصنيف عند جميع حدود التصنيف. يرسم هذا المنحنى معلَمتَين:

  • النسبة الإيجابية الإيجابية
  • نسبة موجبة خاطئة

معدّل الإيجابيات (TPR) هو مرادف للتذكّر وبالتالي يتم تعريفه على النحو التالي:

$$TPR = \frac{TP} {TP + FN}$$

يتم تعريف السعر الموجبة الإيجابية (FPR) على النحو التالي:

$$FPR = \frac{FP} {FP + TN}$$

يرسم منحنى ROC رسم TPR مقابل FPR على حدود تصنيف مختلفة. يؤدي خفض الحدّ الأدنى للتصنيف إلى تصنيف المزيد من العناصر على أنها إيجابية، ما يؤدي إلى زيادة كلٍّ من الإيجابيات الخاطئة والإيجابيات الحقيقية. يُظهر الشكل التالي منحنى نموذجي ROC.

منحنى ROC يعرض معدل TP مقابل معدل FP عند حدود تصنيف مختلفة.

الشكل 4. معدّل النقر إلى الظهور (TP) مقارنةً بمعدّل نقل البيانات (FP) عند حدود تصنيف مختلفة.

ولحساب النقاط في منحنى شهادة التقييم البيئي (ROC)، يمكننا تقييم نموذج الانحدار اللوجستي عدة مرات بحدود تصنيف مختلفة، ولكن سيكون ذلك غير فعال. لحسن الحظ، هناك خوارزمية فعالة تعتمد على الترتيب ويمكنها تقديم هذه المعلومات إلينا باسم "AUC".

AUC: المنطقة تحت منحنى ROC

يشير الاختصار AUC إلى "المنطقة" ضمن "منحنى ROC". هذا يعني أنّ AUC تقيس المنطقة ذات الأبعاد الثنائية أسفل منحنى ROC بالكامل (فكِّر في حساب التناسب الصحيح) من (0,0) إلى (1,1).

AAU (المنطقة تحت منحنى ROC).

الشكل 5. AUC (المنطقة تحت منحنى ROC).

يوفر AUC مقياسًا مجمّعًا للأداء في جميع حدود التصنيف الممكنة. تتمثل إحدى طرق تفسير AUC في احتمالية أن النموذج يرتّب مثالاً موجبًا عشوائيًا أعلى من المثال السلبي العشوائي. على سبيل المثال، وفقًا للأمثلة التالية، التي يتم ترتيبها من اليسار إلى اليمين بترتيب تصاعدي من خلال توقعات التراجع اللوجستي:

أمثلة موجبة وسالبة مرتّبة تصاعديًا حسب نتيجة التراجع اللوجستي

الشكل 6. ويتم ترتيب التوقّعات تصاعديًا حسب نتيجة التراجع اللوجستي.

تمثل AUC احتمال أن يتم وضع مثال موجب (أخضر) عشوائي على يمين مثال سلبي (أحمر) عشوائي.

تتراوح قيمة AUC من 0 إلى 1. والنموذج الذي تشتمل على توقعات خاطئة بنسبة 100% يتضمّن أخطاء AUC بنسبة 0.0، في حين أن النموذج الذي تكون توقعاته صحيحة بنسبة 100% تكون فيه AUC 1.0.

يُفضّل استخدام المحتوى الذي أنشأته من أجل "AUC" للسببَين التاليَين:

  • إنّ AUC هي متغيّرة واسعة النطاق. تقيس هذه الميزة مدى جودة ترتيب التوقعات، بدلاً من قيمها المطلقة.
  • أمّا AUC هي class-threshold-invariant. وهي تقيس جودة توقّعات النموذج بغض النظر عن الحدّ الأدنى الذي يتم اختياره للتصنيف.

مع ذلك، يرجع هذان السببان إلى تنبيهات قد تقلّل من فائدة استخدام تقنية AUC في حالات استخدام معيّنة:

  • التباين في الحجم غير مرغوب فيه دائمًا. على سبيل المثال، في بعض الأحيان نحتاج إلى معايرة مخرجات الاحتمالية بشكل جيد، ولن تخبرنا AUC بذلك.

  • يُفضَّل دائمًا عدم إجراء تغيير في الحدّ الأدنى للتصنيف. في الحالات التي تظهر فيها تناقضات واسعة في التكلفة السالبة الخاطئة في مقابل الحالات الموجبة الخاطئة، قد يكون من المهم الحدّ من نوع واحد من أخطاء التصنيف. على سبيل المثال، عند رصد الرسائل الإلكترونية غير المرغوب فيها، من المحتمل أن تريد إعطاء الأولوية للحدّ من النتائج الموجبة الخاطئة (حتى إذا كان ذلك يؤدي إلى زيادة كبيرة في السلبيات الخاطئة). لا يُعد AUC مقياسًا مفيدًا لهذا النوع من التحسين.