التصنيف: الدقة والاكتمال والدقة والمقاييس ذات الصلة

يتم استخدام الأرقام الموجبة والسالبة الصائبة والخاطئة لاحتساب العديد من المقاييس المفيدة لتقييم النماذج. تعتمد مقاييس التقييم الأكثر أهمية على النموذج والمهمة المحدّدين، وتكلفة التصنيفات الخاطئة المختلفة، وما إذا كانت مجموعة البيانات متوازنة أو غير متوازنة.

يتم احتساب جميع المقاييس في هذا القسم عند حدّ ثابت واحد، وتتغير هذه المقاييس عند تغيُّر الحدّ. وفي كثير من الأحيان، يضبط المستخدم الحدّ الأدنى لتحسين أحد هذه المقاييس.

الدقة

الدقة هي نسبة جميع التصنيفات الصحيحة، سواء كانت إيجابية أو سلبية. ويتم تعريفه رياضيًا على النحو التالي:

\[\text{Accuracy} = \frac{\text{correct classifications}}{\text{total classifications}} = \frac{TP+TN}{TP+TN+FP+FN}\]

في مثال تصنيف الرسائل غير المرغوب فيها، تقيس الدقة جزءًا من جميع الرسائل الإلكترونية التي تم تصنيفها بشكل صحيح.

سيحتوي النموذج المثالي على صفر من النتائج الإيجابية الخاطئة وصفر من النتائج السلبية الخاطئة، وبالتالي ستكون دقته 1.0 أو %100.

ولأنّها تتضمّن جميع النتائج الأربع من مصفوفة الالتباس (TP وFP وTN وFN)، يمكن أن تكون الدقة مقياسًا دقيقًا لجودة النموذج، وذلك في حال توفّر مجموعة بيانات متوازنة تتضمّن أعدادًا متشابهة من الأمثلة في كلتا الفئتين. لهذا السبب، غالبًا ما يكون مقياس التقييم التلقائي المستخدَم للنماذج العامة أو غير المحدّدة التي تنفّذ مهام عامة أو غير محدّدة.

ومع ذلك، عندما تكون مجموعة البيانات غير متوازنة، أو عندما يكون أحد أنواع الأخطاء (FN أو FP) أكثر تكلفة من الآخر، وهو ما يحدث في معظم التطبيقات الواقعية، من الأفضل تحسين أحد المقاييس الأخرى بدلاً من ذلك.

بالنسبة إلى مجموعات البيانات غير المتوازنة بشكل كبير، حيث يظهر أحد الصفوف بشكل نادر جدًا، مثلاً بنسبة% 1 من الوقت، سيحقق النموذج الذي يتوقّع نتيجة سلبية بنسبة% 100 درجة% 99 في الدقة، على الرغم من أنّه غير مفيد.

التذكّر أو معدّل الموجب الصحيح

يُعرف معدّل الموجب الصحيح (TPR)، أو نسبة جميع النتائج الموجبة الفعلية التي تم تصنيفها بشكل صحيح على أنّها موجبة، أيضًا باسم التذكّر.

يتم تعريف الاسترجاع رياضيًا على النحو التالي:

\[\text{Recall (or TPR)} = \frac{\text{correctly classified actual positives}}{\text{all actual positives}} = \frac{TP}{TP+FN}\]

النتائج السلبية الخاطئة هي نتائج إيجابية فعلية تم تصنيفها بشكل خاطئ على أنّها سلبية، ولهذا السبب تظهر في المقام. في مثال تصنيف الرسائل غير المرغوب فيها، يقيس الاسترجاع جزء الرسائل الإلكترونية غير المرغوب فيها التي تم تصنيفها بشكل صحيح كرسائل غير مرغوب فيها. لهذا السبب، يُعرف معدّل الاسترجاع أيضًا باسم احتمالية الرصد، لأنّه يجيب عن السؤال "ما هي نسبة الرسائل الإلكترونية غير المرغوب فيها التي يرصدها هذا النموذج؟".

في النموذج المثالي الافتراضي، لن يكون هناك أي نتائج سلبية خاطئة، وبالتالي ستكون قيمة الاسترجاع (معدّل الإيجابية الحقيقية) 1.0، أي معدّل رصد بنسبة% 100.

في مجموعة بيانات غير متوازنة يكون فيها عدد النتائج الإيجابية الفعلية منخفضًا جدًا، يكون الاستدعاء مقياسًا أكثر جدوى من الدقة لأنّه يقيس قدرة النموذج على تحديد جميع الحالات الإيجابية بشكل صحيح. في تطبيقات مثل التنبؤ بالأمراض، من الضروري تحديد الحالات الإيجابية بشكل صحيح. عادةً ما تكون النتائج السلبية الخاطئة أكثر خطورة من النتائج الإيجابية الخاطئة. للحصول على مثال ملموس يقارن بين مقياسَي الاسترجاع والدقة، اطّلِع على الملاحظات في تعريف الاسترجاع.

معدل الموجب الخاطئ

معدّل الموجب الخاطئ هو نسبة كل النتائج السلبية الفعلية التي تم تصنيفها بشكل غير صحيح على أنّها نتائج إيجابية، ويُعرف أيضًا باسم احتمالية الإنذار الخاطئ. ويتم تعريفه رياضيًا على النحو التالي:

\[\text{FPR} = \frac{\text{incorrectly classified actual negatives}} {\text{all actual negatives}} = \frac{FP}{FP+TN}\]

الموجب الخاطئ هو سالب فعلي تم تصنيفه بشكل خاطئ، ولهذا السبب يظهر في المقام. في مثال تصنيف الرسائل غير المرغوب فيها، تقيس معدّل الإيجابية الخاطئة نسبة الرسائل الإلكترونية الصالحة التي تم تصنيفها بشكل خاطئ كرسائل غير مرغوب فيها، أو معدّل الإنذارات الكاذبة للنموذج.

في النموذج المثالي، لن تكون هناك أي نتائج إيجابية خاطئة، وبالتالي سيكون معدّل النتائج الإيجابية الخاطئة 0.0، أي معدّل إنذارات خاطئة بنسبة% 0.

بالنسبة إلى مجموعة البيانات غير المتوازنة، يكون معدّل الإيجابية الخاطئة (FPR) بشكل عام مقياسًا أكثر إفادةً من الدقة. ومع ذلك، إذا كان عدد القيم السلبية الفعلية منخفضًا جدًا، قد لا يكون معدّل الإيجابية الخاطئة خيارًا مثاليًا بسبب تقلّبه. على سبيل المثال، إذا كان هناك أربعة نتائج سلبية فعلية فقط في مجموعة البيانات، سيؤدي تصنيف خاطئ واحد إلى معدل إيجابي خاطئ يبلغ %25، بينما سيؤدي تصنيف خاطئ ثانٍ إلى ارتفاع معدل الإيجابي الخاطئ إلى %50. في حالات مثل هذه، قد يكون مقياس الدقة (الموضّح أدناه) أكثر ثباتًا لتقييم تأثيرات الموجب الخاطئ.

الدقة

الدقة هي نسبة جميع التصنيفات الموجبة التي يقدّمها النموذج والتي تكون موجبة بالفعل. ويتم تعريفها رياضيًا على النحو التالي:

\[\text{Precision} = \frac{\text{correctly classified actual positives}} {\text{everything classified as positive}} = \frac{TP}{TP+FP}\]

في مثال تصنيف الرسائل غير المرغوب فيها، تقيس الدقة جزء الرسائل الإلكترونية المصنَّفة كرسائل غير مرغوب فيها والتي كانت في الواقع رسائل غير مرغوب فيها.

في النموذج المثالي الافتراضي، لن تكون هناك نتائج إيجابية خاطئة، وبالتالي ستكون الدقة 1.0.

في مجموعة بيانات غير متوازنة يكون فيها عدد النتائج الإيجابية الفعلية منخفضًا جدًا، مثلاً 1 أو 2 في المجموع، تكون الدقة أقل أهمية وفائدة كمقياس.

تتحسّن الدقة مع انخفاض النتائج الموجبة الخاطئة، بينما يتحسّن الاسترجاع مع انخفاض النتائج السالبة الخاطئة. ولكن كما رأينا في القسم السابق، يؤدي رفع حد التصنيف إلى تقليل عدد النتائج الإيجابية الخاطئة وزيادة عدد النتائج السلبية الخاطئة، بينما يؤدي خفض الحد إلى حدوث تأثيرات معاكسة. ونتيجةً لذلك، غالبًا ما تُظهر الدقة والاسترجاع علاقة عكسية، حيث يؤدي تحسين إحداهما إلى تفاقم الأخرى.

جرِّب الميزة بنفسك:

اختيار المقياس والمفاضلات

تعتمد المقاييس التي تختار تحديد أولويتها عند تقييم النموذج واختيار حدّ معيّن على التكاليف والفوائد والمخاطر المرتبطة بالمشكلة المحدّدة. في مثال تصنيف الرسائل غير المرغوب فيها، من المنطقي غالبًا إعطاء الأولوية لمعدّل الاسترجاع، أي رصد جميع الرسائل الإلكترونية غير المرغوب فيها، أو الدقة، أي محاولة التأكّد من أنّ الرسائل الإلكترونية المصنّفة على أنّها غير مرغوب فيها هي في الواقع كذلك، أو تحقيق بعض التوازن بين المعدّل والدقة، وذلك فوق مستوى دقة معيّن.

المقياس الإرشادات
الدقة

استخدِمها كمؤشر تقريبي لمدى تقدّم تدريب النموذج/التقارب لمجموعات البيانات المتوازنة.

بالنسبة إلى أداء النموذج، استخدِم هذا المقياس فقط مع مقاييس أخرى.

تجنَّب استخدامها مع مجموعات البيانات غير المتوازنة. ننصحك باستخدام مقياس آخر.

التذكّر
(معدّل الموجب الصحيح)
يجب استخدام هذا المقياس عندما تكون الحالات السلبية الخاطئة أكثر تكلفة من الحالات الإيجابية الخاطئة.
معدل الموجب الخاطئ يجب استخدامها عندما تكون الحالات الموجبة الخاطئة أكثر تكلفة من الحالات السالبة الخاطئة.
الدقة يجب استخدامها عندما يكون من المهم جدًا أن تكون التوقّعات الإيجابية دقيقة.

تمرين: التحقّق من فهمك

يُخرج أحد النماذج 5 نتائج صحيحة إيجابية و6 نتائج صحيحة سلبية و3 نتائج خاطئة إيجابية و2 نتيجة خاطئة سلبية. احتساب مقياس الاسترجاع
0.714
يتم احتساب معدّل الاستدعاء على النحو التالي \(\frac{TP}{TP+FN}=\frac{5}{7}\).
0.455
يأخذ مقياس "الاسترجاع" في الاعتبار جميع النتائج الإيجابية الفعلية، وليس جميع التصنيفات الصحيحة. صيغة الاستدعاء هي \(\frac{TP}{TP+FN}\).
0.625
يأخذ مقياس "التذكّر" في الاعتبار جميع النتائج الإيجابية الفعلية، وليس جميع التصنيفات الإيجابية. صيغة الاستدعاء هي \(\frac{TP}{TP+FN}\)
يُخرج النموذج 3 نتائج صحيحة إيجابية و4 نتائج صحيحة سلبية و2 نتيجة خاطئة إيجابية و1 نتيجة خاطئة سلبية. احسب الدقة.
0.6
يتم احتساب الدقة على النحو التالي \(\frac{TP}{TP+FP}=\frac{3}{5}\).
0.75
تأخذ الدقة في الاعتبار جميع التصنيفات الإيجابية، وليس جميع النتائج الإيجابية الفعلية. صيغة الدقة هي \(\frac{TP}{TP+FP}\).
0.429
تأخذ الدقة في الاعتبار جميع التصنيفات الإيجابية، وليس جميع التصنيفات الصحيحة. صيغة الدقة هي \(\frac{TP}{TP+FP}\)
أنت بصدد إنشاء مصنّف ثنائي يتحقّق من صور مصائد الحشرات لتحديد ما إذا كان هناك نوع غازي خطير. إذا رصد النموذج النوع، يتم إعلام عالم الحشرات المناوب. ويُعدّ الرصد المبكر لهذه الحشرة أمرًا بالغ الأهمية لمنع تفشّيها. من السهل التعامل مع الإنذار الكاذب (النتيجة الإيجابية الخاطئة): يلاحظ عالم الحشرات أنّ الصورة تم تصنيفها بشكل خاطئ ويضع عليها علامة تشير إلى ذلك. بافتراض توفّر مستوى دقة مقبول، ما هو المقياس الذي يجب تحسين هذا النموذج من أجله؟
التذكُّر
في هذا السيناريو، تكون الإنذارات الكاذبة (FP) منخفضة التكلفة، بينما تكون النتائج السلبية الخاطئة عالية التكلفة، لذا من المنطقي زيادة الاستدعاء إلى أقصى حد، أو احتمال الرصد.
معدّل الموجب الخاطئ
في هذا السيناريو، تكون الإنذارات الكاذبة (FP) منخفضة التكلفة. ولا جدوى من محاولة تقليلها مع احتمال عدم رصد حالات إيجابية فعلية.
الدقة
في هذا السيناريو، لا تكون الإنذارات الكاذبة (FP) ضارة بشكل خاص، لذا لا جدوى من محاولة تحسين صحة التصنيفات الإيجابية.