التصنيف: الدقة والاكتمال والدقة والمقاييس ذات الصلة

يتم استخدام الأرقام الموجبة والسالبة الصائبة والخاطئة لاحتساب العديد من المقاييس المفيدة لتقييم النماذج. تعتمد مقاييس التقييم الأكثر أهمية على النموذج والمهمة المحدّدين، وتكلفة التصنيفات الخاطئة المختلفة، وما إذا كانت مجموعة البيانات متوازنة أو غير متوازنة.

يتم احتساب جميع المقاييس في هذا القسم عند حدّ ثابت واحد، وتتغيّر هذه المقاييس عند تغيُّر الحدّ. وفي كثير من الأحيان، يضبط المستخدم الحدّ الأدنى لتحسين أحد هذه المقاييس.

الدقة

الدقة هي نسبة جميع التصنيفات الصحيحة، سواء كانت إيجابية أو سلبية. ويتم تعريفه رياضيًا على النحو التالي:

\[\text{Accuracy} = \frac{\text{correct classifications}}{\text{total classifications}} = \frac{TP+TN}{TP+TN+FP+FN}\]

في مثال تصنيف الرسائل غير المرغوب فيها، تقيس الدقة جزءًا من جميع الرسائل الإلكترونية التي تم تصنيفها بشكل صحيح.

سيحتوي النموذج المثالي على صفر من النتائج الإيجابية الخاطئة وصفر من النتائج السلبية الخاطئة، وبالتالي ستكون دقته 1.0 أو %100.

ولأنّها تتضمّن جميع النتائج الأربع من مصفوفة الالتباس (TP وFP وTN وFN)، يمكن أن تكون الدقة مقياسًا تقريبيًا لجودة النموذج، وذلك في حال توفّر مجموعة بيانات متوازنة تتضمّن أعدادًا متشابهة من الأمثلة في كلتا الفئتين. لهذا السبب، غالبًا ما يكون مقياس التقييم التلقائي المستخدَم للنماذج العامة أو غير المحدّدة التي تنفّذ مهام عامة أو غير محدّدة.

ومع ذلك، عندما تكون مجموعة البيانات غير متوازنة، أو عندما يكون أحد أنواع الأخطاء (FN أو FP) أكثر تكلفة من الآخر، وهو ما يحدث في معظم التطبيقات الواقعية، من الأفضل تحسين أحد المقاييس الأخرى بدلاً من ذلك.

بالنسبة إلى مجموعات البيانات غير المتوازنة بشكل كبير، حيث تظهر إحدى الفئات بشكل نادر جدًا، مثلاً بنسبة% 1 من الوقت، سيحقق النموذج الذي يتوقّع نتائج سلبية بنسبة% 100 درجة% 99 في مقياس الدقة، على الرغم من أنّه غير مفيد.

التذكّر أو معدّل الموجب الصحيح

يُعرف معدّل الموجب الصحيح (TPR)، أو نسبة كل النتائج الموجبة الفعلية التي تم تصنيفها بشكل صحيح على أنّها موجبة، باسم التذكّر.

يتم تعريف الاسترجاع رياضيًا على النحو التالي:

\[\text{Recall (or TPR)} = \frac{\text{correctly classified actual positives}}{\text{all actual positives}} = \frac{TP}{TP+FN}\]

النتائج السلبية الخاطئة هي نتائج إيجابية فعلية تم تصنيفها بشكل خاطئ على أنّها سلبية، ولهذا السبب تظهر في المقام. في مثال تصنيف الرسائل غير المرغوب فيها، يقيس الاسترجاع جزء الرسائل الإلكترونية غير المرغوب فيها التي تم تصنيفها بشكل صحيح كرسائل غير مرغوب فيها. لهذا السبب، يُعرف معدّل الاسترجاع أيضًا باسم احتمالية الرصد، لأنّه يجيب عن السؤال "ما هي نسبة الرسائل الإلكترونية غير المرغوب فيها التي يرصدها هذا النموذج؟".

في النموذج المثالي الافتراضي، لن يكون هناك أي نتائج سلبية خاطئة، وبالتالي ستكون قيمة الاسترجاع (معدّل الإيجابية الحقيقية) 1.0، أي معدّل رصد بنسبة% 100.

في مجموعة بيانات غير متوازنة يكون فيها عدد النتائج الإيجابية الفعلية منخفضًا جدًا، يكون الاسترجاع مقياسًا أكثر أهمية من الدقة لأنّه يقيس قدرة النموذج على تحديد جميع الحالات الإيجابية بشكل صحيح. بالنسبة إلى تطبيقات مثل التنبؤ بالأمراض، من الضروري تحديد الحالات الإيجابية بشكل صحيح. عادةً ما تكون النتائج السلبية الخاطئة أكثر خطورة من النتائج الإيجابية الخاطئة. للحصول على مثال ملموس يقارن بين مقياسَي الاسترجاع والدقة، اطّلِع على الملاحظات في تعريف الاسترجاع.

معدل الموجب الخاطئ

معدّل الموجب الخاطئ هو نسبة كل النتائج السلبية الفعلية التي تم تصنيفها بشكل غير صحيح على أنّها نتائج إيجابية، ويُعرف أيضًا باسم احتمالية الإنذار الخاطئ. ويتم تعريفه رياضيًا على النحو التالي:

\[\text{FPR} = \frac{\text{incorrectly classified actual negatives}} {\text{all actual negatives}} = \frac{FP}{FP+TN}\]

الموجب الخاطئ هو سالب فعلي تم تصنيفه بشكل خاطئ، ولهذا السبب يظهر في المقام. في مثال تصنيف الرسائل غير المرغوب فيها، تقيس معدّل الإيجابية الخاطئة نسبة الرسائل الإلكترونية الصالحة التي تم تصنيفها بشكل خاطئ كرسائل غير مرغوب فيها، أو معدّل الإنذارات الكاذبة للنموذج.

في النموذج المثالي، لن تكون هناك نتائج إيجابية خاطئة، وبالتالي سيكون معدّل النتائج الإيجابية الخاطئة 0.0، أي معدّل إنذارات خاطئة بنسبة% 0.

في مجموعة بيانات غير متوازنة يكون فيها عدد السلبيات الفعلية منخفضًا جدًا، مثلاً 1 أو 2 في المجموع، يكون معدّل الإيجابية الخاطئة أقل أهمية وأقل فائدة كمقياس.

الدقة

الدقة هي نسبة جميع التصنيفات الموجبة التي يقدّمها النموذج والتي تكون موجبة بالفعل. ويتم تعريفها رياضيًا على النحو التالي:

\[\text{Precision} = \frac{\text{correctly classified actual positives}} {\text{everything classified as positive}} = \frac{TP}{TP+FP}\]

في مثال تصنيف الرسائل غير المرغوب فيها، تقيس الدقة جزء الرسائل الإلكترونية المصنَّفة كرسائل غير مرغوب فيها والتي كانت في الواقع رسائل غير مرغوب فيها.

في النموذج المثالي الافتراضي، لن تكون هناك نتائج إيجابية خاطئة، وبالتالي ستكون الدقة 1.0.

في مجموعة بيانات غير متوازنة يكون فيها عدد النتائج الإيجابية الفعلية منخفضًا جدًا، مثلاً 1 أو 2 في المجموع، تكون الدقة أقل أهمية وفائدة كمقياس.

تتحسّن الدقة مع انخفاض النتائج الإيجابية الخاطئة، بينما يتحسّن الاسترجاع مع انخفاض النتائج السلبية الخاطئة. ولكن كما رأينا في القسم السابق، يؤدي رفع حد التصنيف إلى تقليل عدد النتائج الإيجابية الخاطئة وزيادة عدد النتائج السلبية الخاطئة، بينما يؤدي خفض الحد إلى حدوث تأثيرات معاكسة. ونتيجةً لذلك، غالبًا ما يكون هناك علاقة عكسية بين الدقة والاسترجاع، حيث يؤدي تحسين إحداهما إلى تدهور الأخرى.

جرِّب الميزة بنفسك:

ماذا يعني NaN في المقاييس؟

تظهر القيمة NaN، أو "ليس رقمًا"، عند القسمة على 0، وهو ما يمكن أن يحدث مع أيّ من هذه المقاييس. عندما تكون قيمة كل من TP وFP هي 0، على سبيل المثال، تحتوي صيغة الدقة على 0 في المقام، ما يؤدي إلى NaN. في بعض الحالات، يمكن أن يشير NaN إلى أداء مثالي ويمكن استبداله بنتيجة 1.0، ولكن يمكن أن ينتج أيضًا عن نموذج غير مفيد عمليًا. على سبيل المثال، النموذج الذي لا يتنبأ أبدًا بنتيجة إيجابية سيكون لديه 0 نتيجة إيجابية صحيحة و0 نتيجة إيجابية خاطئة، وبالتالي سيؤدي احتساب دقته إلى NaN.

اختيار المقياس والمفاضلات

تعتمد المقاييس التي تختار تحديد أولويتها عند تقييم النموذج واختيار حدّ معيّن على التكاليف والفوائد والمخاطر المرتبطة بالمشكلة المحدّدة. في مثال تصنيف الرسائل غير المرغوب فيها، من المنطقي غالبًا إعطاء الأولوية لمعدّل الاسترجاع، أي رصد جميع الرسائل الإلكترونية غير المرغوب فيها، أو الدقة، أي محاولة التأكّد من أنّ الرسائل الإلكترونية المصنّفة على أنّها غير مرغوب فيها هي في الواقع كذلك، أو تحقيق بعض التوازن بين المعدّل والدقة، وذلك فوق مستوى دقة معيّن.

المقياس الإرشادات
الدقة

استخدِمها كمؤشر تقريبي لمدى تقدّم تدريب النموذج/التقارب لمجموعات البيانات المتوازنة.

بالنسبة إلى أداء النموذج، استخدِم هذا المقياس فقط مع مقاييس أخرى.

تجنَّب استخدامها مع مجموعات البيانات غير المتوازنة. ننصحك باستخدام مقياس آخر.

التذكّر
(معدّل الموجب الصحيح)
يجب استخدامها عندما تكون النتائج السلبية الخاطئة أكثر تكلفة من النتائج الإيجابية الخاطئة.
معدل الموجب الخاطئ يجب استخدامها عندما تكون الحالات الموجبة الخاطئة أكثر تكلفة من الحالات السالبة الخاطئة.
الدقة يجب استخدامها عندما يكون من المهم جدًا أن تكون التوقّعات الإيجابية دقيقة.

(اختياري، متقدّم) مقياس دقة الاختبار

مقياس F1 هو المتوسط التوافقي (نوع من المتوسط) للدقة والتذكّر.

رياضيًا، يتم احتسابها من خلال المعادلة التالية:

\[\text{F1}=2*\frac{\text{precision * recall}}{\text{precision + recall}} = \frac{2\text{TP}}{2\text{TP + FP + FN}}\]

يوازن هذا المقياس بين أهمية الدقة والاسترجاع، وهو أفضل من الدقة لمجموعات البيانات غير المتوازنة بين الفئات. عندما تكون الدقة والتذكّر مثاليين ويساويان 1.0، سيكون مقياس دقة الاختبار مثاليًا أيضًا ويساوي 1.0. بشكل عام، عندما تكون قيمتا الدقة والتذكّر متقاربتين، ستكون قيمة F1 قريبة من قيمتهما. عندما يكون الفرق بين الدقة والتذكّر كبيرًا، سيكون مقياس دقة الاختبار مشابهًا للمقياس الأسوأ.

تمرين: التحقّق من فهمك

يُخرج النموذج 5 نتائج صحيحة إيجابية و6 نتائج صحيحة سلبية و3 نتائج خاطئة إيجابية و2 نتيجة خاطئة سلبية. احتساب مقياس الاسترجاع
0.714
يتم احتساب معدّل الاستدعاء على النحو التالي \(\frac{TP}{TP+FN}=\frac{5}{7}\).
0.455
يأخذ مقياس "الاسترجاع" في الاعتبار جميع النتائج الإيجابية الفعلية، وليس جميع التصنيفات الصحيحة. صيغة الاستدعاء هي \(\frac{TP}{TP+FN}\).
0.625
يأخذ مقياس "التذكّر" في الاعتبار جميع النتائج الإيجابية الفعلية، وليس جميع التصنيفات الإيجابية. صيغة الاستدعاء هي \(\frac{TP}{TP+FN}\)
يُخرج النموذج 3 نتائج صحيحة إيجابية و4 نتائج صحيحة سلبية و2 نتيجة خاطئة إيجابية و1 نتيجة خاطئة سلبية. احسب الدقة.
0.6
يتم احتساب الدقة على النحو التالي \(\frac{TP}{TP+FP}=\frac{3}{5}\).
0.75
تأخذ الدقة في الاعتبار جميع التصنيفات الإيجابية، وليس جميع النتائج الإيجابية الفعلية. صيغة الدقة هي \(\frac{TP}{TP+FP}\).
0.429
تأخذ الدقة في الاعتبار جميع التصنيفات الإيجابية، وليس جميع التصنيفات الصحيحة. صيغة الدقة هي \(\frac{TP}{TP+FP}\)
أنت بصدد إنشاء مصنّف ثنائي يتحقّق من صور مصائد الحشرات لتحديد ما إذا كان هناك نوع غازي خطير. إذا رصد النموذج النوع، يتم إعلام عالم الحشرات المناوب. ويُعدّ الرصد المبكر لهذه الحشرة أمرًا بالغ الأهمية لمنع تفشّيها. من السهل التعامل مع الإنذار الكاذب (النتيجة الإيجابية الخاطئة): يلاحظ عالم الحشرات أنّ الصورة تم تصنيفها بشكل خاطئ ويضع عليها علامة بذلك. بافتراض مستوى دقة مقبول، ما هو المقياس الذي يجب تحسين هذا النموذج من أجله؟
التذكُّر
في هذا السيناريو، تكون الإنذارات الكاذبة (FP) منخفضة التكلفة، بينما تكون النتائج السلبية الخاطئة عالية التكلفة، لذا من المنطقي زيادة الاستدعاء إلى أقصى حد، أو احتمال الاكتشاف.
معدّل الموجب الخاطئ (FPR)
في هذا السيناريو، تكون الإنذارات الكاذبة (FP) منخفضة التكلفة. ولا جدوى من محاولة تقليلها مع احتمال عدم رصد حالات إيجابية فعلية.
الدقة
في هذا السيناريو، لا تكون الإنذارات الكاذبة (FP) ضارة بشكل خاص، لذا لا جدوى من محاولة تحسين صحة التصنيفات الإيجابية.