التصنيف: الدقة

الدقة هي مقياس واحد لتقييم نماذج التصنيف. بشكل غير رسمي، الدقة هي جزء من التوقعات التي تم رصدها عن طريق الخطأ. رسميًا، تحتوي الدقة على التعريف التالي:

$$\text{Accuracy} = \frac{\text{Number of correct predictions}}{\text{Total number of predictions}}$$

بالنسبة إلى التصنيف الثنائي، يمكن أيضًا حساب الدقة من خلال الإيجابيات والسلبيات على النحو التالي:

$$\text{Accuracy} = \frac{TP+TN}{TP+TN+FP+FN}$$

حيث TP = True Positives، TN = True negatives، FP = Falsesitives، وFN = سالبة.

لنجرّب احتساب الدقة للنموذج التالي الذي صنّف 100 أورام على أنها خبيثة (الفئة الموجبة) أو الحميدة (الفئة السلبية):

صحيح إيجابي (TP):
  • حقيقة: خبيثة
  • نموذج تعلُّم الآلة المتوقّع: مائل
  • عدد نتائج TP: 1
خطأ إيجابي (FP):
  • حقيقة: حميدة
  • نموذج تعلُّم الآلة المتوقّع: مائل
  • عدد نتائج FP: 1
خطأ سلبي (FN):
  • حقيقة: خبيثة
  • نموذج تعلُّم الآلة المتوقّع: حميدة
  • عدد نتائج FN: 8
صحيح سلبي (TN):
  • حقيقة: حميدة
  • نموذج تعلُّم الآلة المتوقّع: حميدة
  • عدد نتائج TN: 90
$$\text{Accuracy} = \frac{TP+TN}{TP+TN+FP+FN} = \frac{1+90}{1+90+1+8} = 0.91$$

ويتم عرض الدقة على 0.91 أو 91% (91 توقعات صحيحة من أصل 100 مثال). ويعني هذا أن مصنِّف الورم يؤدي أداءً رائعًا في تحديد الأمراض الخبيثة، أليس كذلك؟

في الواقع، لنجري تحليلاً دقيقًا للإيجابيات والسلبيات لمعرفة المزيد من المعلومات عن أداء نموذجنا.

ومن بين الأمثلة على الورم البالغ عددها 100، يكون 91 منها حميدة (90 TN و1 FP) و9 منها خبيثة (1 TP و8 FNs).

ومن بين 91 أورامًا حميدة، يحدِّد النموذج بشكل صحيح 90 ورمًا. هذا جيد. ومع ذلك، من بين الأورام الخبيثة التسعة التي يبلغ عددها 9، يحدد النموذج بشكل صحيح واحدًا فقط من الأورام الخبيثة، وهي نتيجة مروّعة، حيث لا يتم تشخيص 8 من أصل 9 ورم خبيث.

على الرغم من أنّ دقة 91% قد تبدو جيدة للوهلة الأولى، فإن نموذجًا آخر لأداة تصنيف الورم الذي يتنبأ دائمًا بأنّه حميد سيحقّق الدقة نفسها (91/100 توقعات صحيحة) في أمثلةنا. وبعبارة أخرى، فإن نموذجنا ليس أفضل من واحد لا يتضمن أي القدرة التنبؤية على التمييز بين الأورام الخبيثة من الأورام الحميدة.

لا تعمل الدقّة وحدها في سرد القصة الكاملة عندما تعمل باستخدام مجموعة بيانات غير متوازنة، مثل هذه البيانات التي تنطوي على تباين كبير بين عدد التصنيفات الإيجابية والسلبية.

في القسم التالي، سنلقي نظرة على مقياسين أفضل لتقييم المشاكل غير المتوازنة، مثل الدقة والتذكُّر.