סיווג: דיוק

מידת הדיוק היא מדד אחד להערכת מודלים של סיווג. במילים פשוטות, רמת הדיוק היא אותו חלק מהחיזוי שהמודל שלנו פעל נכון. בעבר, מידת הדיוק היא ההגדרה הבאה:

$$\text{Accuracy} = \frac{\text{Number of correct predictions}}{\text{Total number of predictions}}$$

עבור סיווג בינארי, ניתן לחשב את הדיוק גם במונחים של חיוביים ושליליים:

$$\text{Accuracy} = \frac{TP+TN}{TP+TN+FP+FN}$$

כאשר TP = True Positives, TN = True שלילית, FP = False Positives, ו-FN = False negatives.

ננסה לחשב את מידת הדיוק של המודל הבא, שסווג כ-100 גידולים כמאומים (הסיווג החיובי) או שפיע (הסיווג השלילי):

True חיובי (TP):
  • מציאות: תוכן ממלך
  • תחזית למידת מכונה: מלנית
  • מספר תוצאות TP: 1
חיובי שגוי (FP):
  • מציאות: שרב
  • תחזית למידת מכונה: מלנית
  • מספר התוצאות של FP: 1
שלילי שלילי (FN):
  • מציאות: תוכן ממלך
  • תחזית למידת מכונה: בשיפוע
  • מספר תוצאות FN: 8
שלילי שלילי (TN):
  • מציאות: שרב
  • תחזית למידת מכונה: בשיפוע
  • מספר תוצאות TN: 90
$$\text{Accuracy} = \frac{TP+TN}{TP+TN+FP+FN} = \frac{1+90}{1+90+1+8} = 0.91$$

רמת הדיוק מגיעה ל-0.91 או 91% (91 חיזויים נכונים מתוך 100 דוגמאות סה"כ). פירוש הדבר הוא שמסווג הגידולים שלנו עושה עבודה טובה בזיהוי מטריות, נכון?

בפועל, נבצע ניתוח מעמיק יותר של חיוביים ושליליים כדי להבין טוב יותר את הביצועים של המודל שלנו.

91 מתוך 100 דוגמאות לגידולים שפירים (90 TN ו-FF אחד) ו-9

מתוך 91 גידולים שפירים, המודל מזהה נכון 90 שבטים. זה טוב. עם זאת, מתוך 9 גידולים מסרטנים, המודל מזהה רק אחד מהם כממאכל - תוצאה גרועה ביותר, כאשר 8 מתוך 9 ממחטים לא עוברים אבחון!

אומנם התמונה עשויה להיראות טובה ב-91% מהמבט הראשון, אבל מודל אחר של סיווג דגימה שצופה תמיד בצורה שקופה יעזור להשיג בדיוק את אותה רמת דיוק (91/100 חיזויים נכונים) בדוגמאות שלנו. כלומר, המודל שלנו לא טוב יותר מזה שיכול להיות בעל יכולת חזויה של הבחנה בין גידולים ממאימים לבין גידולים שפירים.

רמת הדיוק בלבד לא מספרת את הסיפור המלא כשאתם עובדים עם קבוצת נתונים לא מאוזנת לפי מחלקה, כמו זו, שבה יש הבדל משמעותי בין מספר התוויות החיוביות והשליליות.

בסעיף הבא נבחן שני מדדים טובים יותר להערכה של בעיות שאינן מאוזנות בכיתה: דיוק וזכירה.