ROC ו-AUC
כדאי לעיין באפשרויות הבאות.
אילו מהעקומות הבאות של ROC מייצרות ערכי AUC גדולים מ-0.5?
זו העקומת ROC הטובה ביותר, כי היא מדרגת את כל החיוביות מעל כל מילות המפתח השליליות. גרסת ה-AUC שלו היא 1.0.
בפועל, אם יש לך סיווג כמו "perPer" עם סיווג של AUC של 1.0, עליך להיות חשוד, מכיוון שהדבר כנראה מראה באג במודל שלך. לדוגמה, יכול להיות שיש לך כמות גדולה מדי של נתוני הדרכה, או שנתוני התוויות משוכפלים באחת מהתכונות.
זו העקומת ROC הגרועה ביותר. היא מדרגת את כל מילות המפתח השליליות מעל כל חיובי, ויש לה
מדד AUC של 0.0. אם הייתם מבטלים את כל החיזויים (היפוך ערכים שליליים וחיובי
ושליליים לשליליים), למעשה יש לכם סיווג ייחודי.
לעקומה של ROC זה יש ערך AUC של 0.5, כלומר הוא מדרג דוגמה חיובית אקראית
גבוהה יותר מדוגמה אקראית שלילית ב-50% מהפעמים. כתוצאה מכך, מודל הסיווג המתאים היה חסר משמעות, כי יכולת החיזוי שלו לא טובה מניחושים אקראיים.
העיסוק ב-ROC הזה כולל דירוג AUC בין 0.5 ל-1.0, כלומר הוא מדרג דוגמה חיובית אקראית גבוהה יותר מדוגמה אקראית שלילית יותר מ-50% מהפעמים. הערכים הבינאריים של
סיווג בינארי בעולם האמיתי שייכים בדרך כלל לטווח הזה.
העיסוק ב-ROC הזה כולל דירוג AUC בין 0 ל-0.5, כלומר הוא מדרג דוגמה חיובית אקראית
גבוהה יותר מדוגמה שלילית אקראית בפחות מ-50% מהזמן.
המודל המתאים מניב ביצועים גרועים יותר מניחושים אקראיים! אם מופיעה
עקומת ROC כזו, סביר להניח שיש באג בנתונים שלכם.
AUC וחיזוי היקפים
כדאי לעיין באפשרויות הבאות.
איך מכפילים את כל החיזויים ממודל נתון ב-2.0 (למשל, אם המודל חוזה את 0.4, אנחנו מכפילים ב-2.0 כדי לקבל חיזוי
של 0.8) משנים את ביצועי המודל' כפי שנמדד על ידי AUC?
ללא שינוי. ל-AUC חשובה רק ציוני חיזוי יחסיים.
כן, AUC מבוסס על החיזויים היחסיים, כך שכל שינוי
של החיזויים ששומרים את הדירוג היחסי לא משפיע על AUC.
זה לא נכון לגבי מדדים אחרים, כמו שגיאה בריבוע, אובדן יומן או הטיה (הדיון בהמשך).
זה יגביל את AUC, כי ערכי החיזוי מושבתים עכשיו.
מעניין מספיק. למרות שערכי החיזוי שונים (וסביר להניח שהם רחוקים יותר מהאמת), הכפלת כל הערכים ב-2.0 תשאיר את הסדר היחסי
של ערכי החיזוי. מאחר שמדד AUC חשוב רק לדירוגים יחסיים,
הוא לא מושפע מהתאמה פשוטה של החיזויים.
זה ישפר את UC, כי ערכי החיזוי רחוקים יותר זה מזה.
נפח הפיזור בין החיזויים לא משפיע בפועל על AUC. גם
ציון חיזוי לגבי תוצאה חיובית חיובית אקראית הוא רק אפסון קטן יותר מאשר
תוצאה אקראית שצולמה באופן אקראי, זה ייחשב כהצלחה שתורמים לציון הכולל של AUC.