הוגנות: הערכת הטיה

כשמעריכים מודל, מדדים שמחושבים ביחס לקבוצת בדיקה או לקבוצת אימות שלמה לא תמיד מספקים תמונה מדויקת לגבי מידת הוגנות של המודל.

נראה שיש מודל חדש שפותח כדי לחזות את נוכחות הגידולים המוערכים בהשוואה לקבוצת אימות של 1,000 מטופלים. 500 רשומות מטופלים מנשים, ו-500 רשומות מטופלים מגברים. מטריצת הכנסייה הבאה מסכמת את התוצאות של כל 1,000 הדוגמאות:

חיובי אמיתית (TP): 16 חיוביים שגויים: 4
שליליים שגויים (FN): 6 שליליים אמיתיים (TN): 974
$$\text{Precision} = \frac{TP}{TP+FP} = \frac{16}{16+4} = 0.800$$
$$\text{Recall} = \frac{TP}{TP+FN} = \frac{16}{16+6} = 0.727$$

התוצאות האלה מבטיחות: דיוק של 80% וזכירה של 72.7%. אבל מה קורה אם אנחנו מחשבים את התוצאה בנפרד לכל קבוצת מטופלים? בואו נחלק את התוצאות לשתי מטריצות מבלבלות: אחת למטופלי נקבה ואחת למטופלים.

תוצאות למטופלות

חיובי אמיתית (TP): 10 חיובי שקרי (FP): 1
שליליים שגויים (FN): 1 שליליים אמיתיים (TN): 488
$$\text{Precision} = \frac{TP}{TP+FP} = \frac{10}{10+1} = 0.909$$
$$\text{Recall} = \frac{TP}{TP+FN} = \frac{10}{10+1} = 0.909$$

תוצאות של מטופלים לגברים

חיוביים אמיתיים (TP): 6 חיוביים שגויים (FP): 3
שליליים שגויים (FN): 5 שליליים אמיתיים (TN): 486
$$\text{Precision} = \frac{TP}{TP+FP} = \frac{6}{6+3} = 0.667$$
$$\text{Recall} = \frac{TP}{TP+FN} = \frac{6}{6+5} = 0.545$$

כשאנחנו מחשבים מדדים בנפרד עבור מטופלים הן גברים וגברים, אנחנו רואים הבדלים חדים בביצועי המודלים של כל קבוצה.

מטופלים:

  • מתוך 11 הנשים החולות שיש להן גידולים כלשהם, המודל חוזה בצורה נכונה עד 10 מטופלים (שיעור זכירה: 90.9%). במילים אחרות, במודל חסרה אבחון ב-9.1% מהמקרים.

  • כמו כן, כאשר המודל מחזיר חיובי לגידול מטופלים בנשים, זה נכון ב-10 מתוך 11 מקרים (שיעור הדיוק: 90.9%). במילים אחרות, המודל חוזה באופן שגוי את הצמיחה ב-9.1% מהמקרים לנשים.

מטופלים:

  • עם זאת, מתוך 11 המטופלים שהם גברים עם גידולים, המודל חוזה בצורה נכונה רק ל-6 מטופלים (שיעור זכירה: 54.5%). פירוש הדבר הוא שהמודל מפספס את האבחון לגידול של 45.5% מהגברים'.

  • כמו כן, כאשר המודל מחזיר חיובי לגידולים בקרב זכרים, הוא נכון ב-6 מתוך 9 מקרים בלבד (שיעור הדיוק: 66.7%). במילים אחרות, המודל חוזה בצורה שגויה את הצמיחה ב-33.3% מהגברים.

עכשיו אנחנו מבינים טוב יותר את ההטיות מהותיות בתחזיות של המודל, ואת הסיכונים לכל קבוצת משנה אם המודל ישוחרר לשימוש רפואי באוכלוסייה הכללית.

מקורות נוספים בנושא הגינות

הוגן הוא תחום משנה חדש יחסית בתחום הלמידת מכונה. באתר דף המשאבים ללמידה חישובית של Google&#39.