סיווג: דיוק וזכירת מכשיר

דיוק

הדיוק מנסה לענות על השאלה הבאה:

מה מידת הדיוק של הזיהויים האמיתיים?

הדיוק מוגדר כך:

$$\text{Precision} = \frac{TP}{TP+FP}$$

נשמח לחשב את מידת הדיוק של מודל ה-ML שלנו מהקטע הקודם כדי לנתח את גידולים:

חיוביים אמיתיים (TP): 1 חיובי שקרי (FP): 1
שליליים שגויים (FN): 8 שליליים אמיתיים (TN): 90
$$\text{Precision} = \frac{TP}{TP+FP} = \frac{1}{1+1} = 0.5$$

במודל שלנו, הדיוק הוא 0.5, במילים אחרות, כאשר הוא חוזה שגידול מסוים הוא ממשי, הוא נכון ב-50% מהזמן.

החזרה

זכירות מנסה לענות על השאלה הבאה:

איזה שיעור של תוצאות חיוביות זוהה בפועל?

החישוב המתמטי מוגדר כך:

$$\text{Recall} = \frac{TP}{TP+FN}$$

בוא נתחיל לחשב את הריקול עבור מסווג הצמיחה שלנו:

חיוביים אמיתיים (TP): 1 חיובי שקרי (FP): 1
שליליים שגויים (FN): 8 שליליים אמיתיים (TN): 90
$$\text{Recall} = \frac{TP}{TP+FN} = \frac{1}{1+8} = 0.11$$

במודל שלנו, נתון זה הוא זכירת 0.11 - כלומר, הוא מזהה בצורה נכונה את 11% מכל הגידולים המלניים.

מידת הדיוק והזכירה: מרוץ מלחמה

כדי להעריך בצורה מלאה את היעילות של המודל, עליכם לבדוק את הדיוק וגם את הריקול. לצערנו, מידת הדיוק והזכירה הן לרוב במתח. כלומר, בדרך כלל שיפור הדיוק מפחית את הזכירות ולהפך. כדי לסקור את הרעיון הזה, עיינו בתרשים הבא, שמציג 30 חיזויים שמבוססים על מודל של סיווג אימיילים. אלה שמימין לסף הסיווג מסווגים כ-"ספאם" בעוד שמצד שמאל מסווגים כ-"לא ספאם."

שורת מספר בין 0 ל-1.0 ובה מוקמו 30 דוגמאות.

איור 1. סיווג הודעות אימייל כספאם או לא.

כדי לחשב את מידת הדיוק והזכירה, על סמך התוצאות המוצגות באיור 1:

חיובי אמיתית (TP): 8 חיובי שקרי (FP): 2
שליליים שקריים (FN): 3 שליליים אמיתיים (TN): 17

הדיוק מודד את אחוז הודעות האימייל שסומנו כספאם שסווגו כראוי – כלומר, אחוז הנקודות שמימין לקו הסף בצבע ירוק באיור 1:

$$\text{Precision} = \frac{TP}{TP + FP} = \frac{8}{8+2} = 0.8$$

זכירות מודדת את אחוז האימיילים שמיוחסים לספאם בפועל שסווגו כראוי – כלומר, אחוז הנקודות הירוקות שנמצאות משמאל לקו הסף באיור 1:

$$\text{Recall} = \frac{TP}{TP + FN} = \frac{8}{8 + 3} = 0.73$$

איור 2 ממחיש את ההשפעה של הגדלת סף הסיווג.

אותה קבוצה של דוגמאות מוצגת, אבל רמת הסף עולה מעט. 2 מתוך 30 הדוגמאות סווגו מחדש.

איור 2. הגדלת סף הסיווג.

מספר התגובות החיוביות השקריות יורד, אבל היעדים שליליים שגויים. כתוצאה מכך, רמת הדיוק גוברת, והזכירות יורדת:

חיוביות אמיתית (TP): 7 חיובי שקרי (FP): 1
שליליים שגויים (FN): 4 שליליים אמיתיים (TN): 18
$$\text{Precision} = \frac{TP}{TP + FP} = \frac{7}{7+1} = 0.88$$ $$\text{Recall} = \frac{TP}{TP + FN} = \frac{7}{7 + 4} = 0.64$$

לעומת זאת, איור 3 ממחיש את ההשפעה של הקטנת סף הסיווג (ממיקומו המקורי באיור 1).

אותה קבוצה של דוגמאות מופיעה, אבל סף הסיווג ירד.

איור 3. מתבצעת ירידה בסף הסיווג.

עלייה במספר התגובות החיוביות השקריות, והשליליות השקריות פוחתות. כתוצאה מכך, הדיוק, הזמן והזכירה של עלייה פוחתים:

חיובי נכון (TP): 9 חיוביים שגויים (FP): 3
שליליים שגויים (FN): 2 שליליים אמיתיים (TN): 16
$$\text{Precision} = \frac{TP}{TP + FP} = \frac{9}{9+3} = 0.75$$ $$\text{Recall} = \frac{TP}{TP + FN} = \frac{9}{9 + 2} = 0.82$$

פותחו מדדים שונים שמסתמכים על דיוק וזכירה. לדוגמה, עיינו בציון F1.