סיווג: דיוק, ריקול, דיוק ומדדים קשורים

הערכים True positive,‏ False positive,‏ True negative ו-False negative משמשים לחישוב של כמה מדדים שימושיים להערכת מודלים. המדדים הרלוונטיים ביותר להערכה משתנים בהתאם למודל ולמשימה הספציפיים, לעלות של סיווגים שגויים שונים ולשאלה אם מערך הנתונים מאוזן או לא מאוזן.

כל המדדים בקטע הזה מחושבים לפי סף קבוע יחיד, ומשתנים כשהסף משתנה. במקרים רבים, המשתמש משנה את ערך הסף כדי לבצע אופטימיזציה של אחד מהמדדים האלה.

דיוק

הדיוק הוא החלק היחסי של כל הסיווגים שהיו נכונים, חיוביים או שליליים. ההגדרה המתמטית היא:

\[\text{Accuracy} = \frac{\text{correct classifications}}{\text{total classifications}} = \frac{TP+TN}{TP+TN+FP+FN}\]

בדוגמה של סיווג ספאם, הדיוק נמדד לפי החלק היחסי של כל האימיילים שסווגו בצורה נכונה.

למודל מושלם יהיו אפס תוצאות חיוביות שגויות ואפס תוצאות שליליות שגויות, ולכן רמת דיוק של 1.0 או 100%.

המדד הזה משלב את כל ארבע התוצאות ממטריצת הטעות (TP,‏ FP,‏ TN,‏ FN). אם מערך הנתונים מאוזן, כלומר יש מספר דומה של דוגמאות בשתי המחלקות, אפשר להשתמש במדד הדיוק כדי לקבל הערכה גסה של איכות המודל. לכן, זהו מדד ההערכה שמשמש כברירת מחדל למודלים כלליים או לא מוגדרים שמבצעים משימות כלליות או לא מוגדרות.

עם זאת, אם מערך הנתונים לא מאוזן, או אם סוג אחד של טעות (FN או FP) יקר יותר מהסוג השני, כמו במרבית היישומים בעולם האמיתי, עדיף לבצע אופטימיזציה לאחד מהמדדים האחרים.

במערכי נתונים לא מאוזנים מאוד, שבהם מחלקה אחת מופיעה לעיתים רחוקות מאוד, למשל ב-1% מהמקרים, מודל שמנבא תוצאה שלילית ב-100% מהמקרים יקבל ציון של 99% בדיוק, למרות שהוא חסר תועלת.

מדד זכירת המודעה, או שיעור החיוביים האמיתיים

שיעור החיוביים האמיתיים (TPR), או הפרופורציה של כל החיוביים בפועל שסווגו נכון כחיוביים, נקרא גם recall.

ההגדרה המתמטית של Recall היא:

\[\text{Recall (or TPR)} = \frac{\text{correctly classified actual positives}}{\text{all actual positives}} = \frac{TP}{TP+FN}\]

תוצאות שליליות מטעות הן תוצאות חיוביות אמיתיות שסווגו בטעות כתוצאות שליליות, ולכן הן מופיעות במכנה. בדוגמה של סיווג ספאם, ערך הזיכרון מודד את החלק של הודעות הספאם שסווגו בצורה נכונה כספאם. לכן שם נוסף ל-recall הוא probability of detection (הסתברות הזיהוי): הוא עונה על השאלה 'איזה חלק מהאימיילים מספאם מזוהה על ידי המודל הזה?'

למודל היפותטי מושלם לא יהיו תוצאות שליליות שגויות, ולכן ערך ה-recall (TPR) שלו יהיה 1.0, כלומר שיעור הזיהוי יהיה 100%.

במערך נתונים לא מאוזן שבו מספר התוצאות החיוביות בפועל נמוך מאוד, מדד ההחזרה (recall) הוא מדד משמעותי יותר ממדד הדיוק, כי הוא מודד את היכולת של המודל לזהות נכון את כל המקרים החיוביים. ביישומים כמו חיזוי מחלות, חשוב לזהות נכון את המקרים החיוביים. בדרך כלל, לתוצאה שלילית כוזבת יש השלכות חמורות יותר מאשר לתוצאה חיובית כוזבת. דוגמה קונקרטית להשוואה בין מדדי הריקול והדיוק מופיעה בהערות בהגדרה של ריקול.

שיעור התוצאות החיוביות השגויות

שיעור התוצאות החיוביות המטעות (FPR) הוא היחס בין כל התוצאות השליליות בפועל שסווגו בטעות כתוצאות חיוביות, והוא נקרא גם ההסתברות לאזעקת שווא. ההגדרה המתמטית היא:

\[\text{FPR} = \frac{\text{incorrectly classified actual negatives}} {\text{all actual negatives}} = \frac{FP}{FP+TN}\]

תוצאות חיוביות מטעות הן תוצאות שליליות בפועל שסווגו בצורה שגויה, ולכן הן מופיעות במכנה. בדוגמה של סיווג ספאם, שיעור החיוביים הכוזבים מודד את החלק של הודעות אימייל לגיטימיות שסווגו בטעות כספאם,או את שיעור האזעקות הכוזבות של המודל.

במודל מושלם לא יהיו תוצאות חיוביות שגויות, ולכן שיעור התוצאות החיוביות השגויות יהיה 0.0, כלומר, שיעור האזעקות הכוזבות יהיה 0%.

במערך נתונים לא מאוזן, שיעור התוצאות החיוביות השגויות (FPR) הוא בדרך כלל מדד אינפורמטיבי יותר מאשר דיוק. עם זאת, אם מספר השליליים בפועל נמוך מאוד, יכול להיות ש-FPR לא יהיה בחירה אידיאלית בגלל התנודתיות שלו. לדוגמה, אם יש רק ארבעה ערכים שליליים אמיתיים במערך נתונים, סיווג שגוי אחד יגרום ל-FPR של 25%, בעוד שסיווג שגוי שני יגרום ל-FPR של 50%. במקרים כאלה, הדיוק (שמתואר בהמשך) עשוי להיות מדד יציב יותר להערכת ההשפעות של תוצאות חיוביות כוזבות.

דיוק

דיוק הוא היחס בין כל הסיווגים החיוביים של המודל לבין הסיווגים שהם חיוביים בפועל. ההגדרה המתמטית היא:

\[\text{Precision} = \frac{\text{correctly classified actual positives}} {\text{everything classified as positive}} = \frac{TP}{TP+FP}\]

בדוגמה של סיווג ספאם, המדד 'דיוק' מודד את החלק היחסי של אימיילים שסווגו כספאם שהיו ספאם בפועל.

למודל היפותטי מושלם לא יהיו תוצאות חיוביות כוזבות, ולכן הדיוק שלו יהיה 1.0.

במערך נתונים לא מאוזן שבו מספר התוצאות החיוביות בפועל נמוך מאוד, למשל 1-2 דוגמאות בסך הכול, המדד 'דיוק' פחות משמעותי ופחות שימושי.

הדיוק משתפר ככל שמספר התוצאות החיוביות הכוזבות קטן יותר, וההחזרה משתפרת ככל שמספר התוצאות השליליות הכוזבות קטן יותר. אבל כמו שראינו בקטע הקודם, הגדלת סף הסיווג בדרך כלל מקטינה את מספר התוצאות החיוביות הכוזבות ומגדילה את מספר התוצאות השליליות הכוזבות, בעוד שהקטנת הסף גורמת להשפעות הפוכות. כתוצאה מכך, לרוב יש קשר הפוך בין הדיוק לבין ההחזרה, כך ששיפור של אחד מהם מחמיר את השני.

רוצים לנסות בעצמכם?

בחירה של מדד ופשרות

המדדים שבוחרים לתת להם עדיפות כשמעריכים את המודל ובוחרים סף תלויים בעלויות, ביתרונות ובסיכונים של הבעיה הספציפית. בדוגמה של סיווג ספאם, לעיתים קרובות כדאי לתת עדיפות לאחזור, כלומר לסימון כל הודעות הספאם, או לדיוק, כלומר לנסות לוודא שהודעות אימייל שסומנו כספאם הן אכן ספאם, או לשלב בין שתי האפשרויות, מעל רמת דיוק מינימלית מסוימת.

מדד הדרכה
דיוק

אפשר להשתמש בו כאינדיקטור גס להתקדמות באימון המודל או להתכנסות שלו במערכי נתונים מאוזנים.

לגבי ביצועי המודל, מומלץ להשתמש במדד הזה רק בשילוב עם מדדים אחרים.

לא מומלץ להשתמש בשיטה הזו במערכי נתונים לא מאוזנים. אפשר להשתמש במדד אחר.

זכירת המודעה
(שיעור החיוביים האמיתיים)
השימוש מתאים למקרים שבהם תוצאות שליליות שגויות יקרות יותר מתוצאות חיוביות שגויות.
שיעור התוצאות החיוביות השגויות השתמשו באפשרות הזו אם תוצאות חיוביות שגויות יקרות יותר מתוצאות שליליות שגויות.
דיוק כדאי להשתמש בהגדרה הזו אם חשוב מאוד שהתחזיות החיוביות יהיו מדויקות.

תרגיל: בדיקת ההבנה

מודל מסוים מפיק 5 ערכים של TP,‏ 6 ערכים של TN,‏ 3 ערכים של FP ו-2 ערכים של FN. מחשבים את ההחזרה.
0.714
ההחזרה מחושבת כך \(\frac{TP}{TP+FN}=\frac{5}{7}\).
0.455
המדד Recall מתייחס לכל התוצאות החיוביות בפועל, ולא לכל הסיווגים הנכונים. הנוסחה לחישוב היזכרות היא \(\frac{TP}{TP+FN}\).
0.625
המדד Recall מתייחס לכל התוצאות החיוביות בפועל, ולא לכל הסיווגים החיוביים. הנוסחה לחישוב ההיזכרות היא \(\frac{TP}{TP+FN}\)
מודל מספק את הפלט הבא: 3 TP,‏ 4 TN,‏ 2 FP ו-1 FN. מחשבים את הדיוק.
0.6
הדיוק מחושב לפי הנוסחה \(\frac{TP}{TP+FP}=\frac{3}{5}\).
0.75
המדד 'דיוק' מתייחס לכל הסיווגים החיוביים, ולא לכל הערכים החיוביים בפועל. הנוסחה לחישוב הדיוק היא \(\frac{TP}{TP+FP}\).
0.429
המדד 'דיוק' מתייחס לכל הסיווגים החיוביים, ולא לכל הסיווגים הנכונים. הנוסחה לחישוב הדיוק היא \(\frac{TP}{TP+FP}\)
אתם בונים מסווג בינארי שבודק תמונות של מלכודות חרקים כדי לראות אם יש מין פולש מסוכן. אם המודל מזהה את המינים, האנטומולוג (מדען חרקים) שנמצא במשמרת מקבל על כך הודעה. גילוי מוקדם של החרק הזה הוא קריטי למניעת התפשטות שלו. A קל לטפל באזעקת שווא (תוצאה חיובית כוזבת): האנטומולוג רואה שהתמונה סווגה בצורה שגויה ומסמן אותה ככזו. בהנחה שרמת הדיוק מקובלת, לאיזה מדד צריך לבצע אופטימיזציה של המודל הזה?
זכירות
בתרחיש הזה, אזעקות שווא (FP) הן זולות, ותוצאות שליליות שגויות (FN) הן יקרות מאוד, ולכן כדאי למקסם את ההחזרה (recall), או את הסבירות לזיהוי.
שיעור התוצאות החיוביות השגויות (FPR)
במקרה כזה, אזעקות שווא (FP) הן בעלות נמוכה. ניסיון למזער את התוצאות השליליות עלול לגרום לפספוס של תוצאות חיוביות אמיתיות, ולכן אין בכך היגיון.
דיוק
במקרה כזה, אזעקות שווא (FP) לא מזיקות במיוחד, ולכן אין טעם לנסות לשפר את הדיוק של סיווגים חיוביים.