הגינות: בדיקת ההבנה שלכם

סוגי הטיה

כדאי לעיין באפשרויות הבאות.

אילו מהחיזויים הבאים של המודל הושפעו מההטיה שנבחרה?
אפליקציה לסמארטפון לזיהוי כתב יד משתמשת במודל שמסווג באופן שגוי s (Eszett) תווים כ- תווים, כי היא הוכנה.
המודל הזה הושפע מהטיה מסוימת שנבחרת בשם הטיות בכיסוי: נתוני האימון (כתב יד באנגלית אמריקאי) לא ייצגו את סוג הנתונים שסופקו על ידי קהל היעד של המודל (כתב יד בגרמנית).
מהנדסי תוכנה פיתחו מודל כדי לחזות את הסבירות של אדם לפתח סוכרת על סמך צריכת המזון היומית שלו. המודלים הוכשרו ל-10,000 &ציטוטים; יומני אוכל" נאספו מקבוצה אקראית של אנשים ברחבי העולם שמייצגים מגוון קבוצות גיל, רקעים אתניים ומגדרים שונים. עם זאת, בעת הפעלת המודל, הוא היה ברמת דיוק נמוכה מאוד. לאחר מכן, המהנדסים גילו שמשתתפים ביומן האוכל סירבו לאשר את הכמות האמיתית של האוכל התזונתי, והסבירות שהם יתעדו צריכת מזון מזין נמוכה יותר מהחטיפים פחות בריאים.
אין הטיה לבחירה במודל הזה; המשתתפים שסיפקו נתוני הדרכה היו מדגם מייצג של משתמשים ונבחרו באופן אקראי. במקום זאת, המודל הזה הושפע מהטיה בדיווח. דווח על הטמעת נתונים של מזון לא בריא בתדירות נמוכה בהרבה מהשיעור של אירועים בעולם האמיתי.
מהנדסי חברה פיתחו מודל לחיזוי שיעורי החלפה של עובדים (אחוז העובדים שמפסיקים את עבודתם בכל שנה) על סמך נתונים שנאספו מסקר שנשלח לכל העובדים. לאחר מספר שנות שימוש, המהנדסים קבעו שהמודל עבר הערכה נמוכה ב-20%. כשעורכים ראיונות יציאה עם עובדים שעזבו את החברה, הם למדו כי יותר מ-80% מהאנשים שלא היו מרוצים מהמשרות שלהם בחרו שלא להשלים את הסקר, בהשוואה לשיעור ביטול ההסכמה של 15% לחברה.
המודל הזה הושפע מהטיה מסוימת של בחירה שנקראת הטיה שאינה תגובה. אנשים שלא היו מרוצים מהמשרות שלהם לא קיבלו מספיק ייצוג בקבוצת ההדרכות, מפני שהם ביטלו את הסכמתם להשתתף בסקר לסקר ברמת החברה בשיעורים גבוהים בהרבה מאשר כל אוכלוסיית העובדים.
מהנדסים שפיתחו מערכת להמלצות על סרטים העלו השערה שאנשים שאוהבים סרטי אימה יאהבו גם סרטים בדיוניים. כשהוא אימן מודל של 50,000 משתמשים' עם זאת, רשימות הצפייה לא הראו קשר כזה בין העדפות לאימה ולסרטי מדע בדיוני. במקום זאת, היה קשר הדוק בין העדפות האימה לבין סרטים תיעודיים. זה נראה להם מוזר, ולכן אימן מחדש את המודל חמש פעמים נוספות באמצעות היפר-פרמטרים שונים. במודל הסופי של ההדרכה אפשר היה לראות התאמה של 70% בין ההעדפות בנושא אימה לבין סרטי מדע בדיוני, ולכן הם הושקו בבטחה בנוגע לסביבת הייצור.
אין כל ראיות להטיה שנבחרת, אבל ייתכן שהמודל הושפע מהטיה של הניסוי, מפני שהמהנדסים חזרו על מודל המודל עד שהוא אישר את ההשערה הקיימת.

הערכת ההטיות

מודל זיהוי סרקזם הוכשר ל-80,000 הודעות טקסט: 40,000 הודעות שנשלחו על ידי מבוגרים (גיל 18 ומעלה) ו-40,000 הודעות שנשלחו על ידי קטינים (מתחת לגיל 18). בשלב הבא, האומדן הוערך בקבוצה של 20,000 הודעות: 10,000 ממבוגרים ו-10,000 מקטינים. מטריצות הבלבול הבאות מציגות את התוצאות עבור כל קבוצה (חיזוי חיובי פירושו סיווג של "sarcastic"; חיזוי שלילי פירושו סיווג של "לא sarcastic"):

מבוגרים

חיוב חיובי (TPS): 512 חיובי שקרי (FP): 51
שליליים שגויים (FN): 36 שליליים אמיתיים (TN): 9401
$$\text{Precision} = \frac{TP}{TP+FP} = 0.909$$
$$\text{Recall} = \frac{TP}{TP+FN} = 0.934$$

קטינים

חיוב חיובי (TPS): 2147 אזהרות שווא (FP): 96
שליליים שקריים (FN): 2177 שליליים אמיתיים (TN): 5580
$$\text{Precision} = \frac{TP}{TP+FP} = 0.957$$
$$\text{Recall} = \frac{TP}{TP+FN} = 0.497$$

כדאי לעיין באפשרויות הבאות.

אילו מההצהרות הבאות לגבי ביצועי קבוצת הבדיקה של המודל נכונות?
באופן כללי, המודל מניב ביצועים טובים יותר מאשר דוגמאות למבוגרים מאשר דוגמאות לקטינים.

במודל ניתן להשיג גם שיעורי דיוק וגם שיעור זכירה של יותר מ-90% מזיהוי סרקזציית הודעות טקסט למבוגרים.

שיעור הזכירות של קטינים נמוך יותר לעומת המודל, אבל שיעור הזכירות שלהם נמוך יותר באופן משמעותי אצל קטינים. התוצאה היא חיזויים פחות מהימנים לגבי הקבוצה הזו.

המודל לא יכול לסווג כ-50% מהקטינים' הודעות סרקסטיות בתור "sarcastic."
שיעור הריקול 0.497 לקטינים מציין שהמודל מנבא &ציטוט; לא סרקסטי&מירכאות; עבור כ-50% מטקסטים סרקסטיים'
כ-50% מההודעות שנשלחו על ידי קטינים מסווגות כ- "sarcastic" באופן שגוי.
שיעור הדיוק של 0.957 מציין כי יותר מ-95% מהקטינים' הודעות המסווגות כ-"sarcastic" הן סרקסטיות.
10,000 ההודעות שנשלחות על ידי מבוגרים הן מערך נתונים לא מאוזן בכיתה.
אם אנחנו משווים את מספר ההודעות ממבוגרים שהם סרקסטיים (TP+FN = 548) עם מספר ההודעות שאינן סרקסטיות (TN + FP = 9452), אנחנו רואים כי "not sarcastic" תוויות חלקיות כ-sarcastic1 &
10,000 ההודעות שנשלחות על ידי קטינים הן מערך נתונים של חוסר איזון בכיתה.
אם אנחנו משווים את מספר ההודעות מקטינים שהם בפועל סרקסטיים (TP+FN = 4324) עם מספר ההודעות שהם לא סרקסטיים (TN + FP = 5676), אנחנו רואים שיש יחס של 1.3:1 ביחס ל-"sarcastic" תוויות ל-"s.cast. מכיוון שהחלוקה של תוויות בין שני הכיתות היא כמעט 50/50, לא מדובר במערך נתונים לא מאוזן.

כדאי לעיין באפשרויות הבאות.

מהנדסי תוכנה עובדים על אימון מחדש של המודל כדי לטפל בחוסר עקביות בדיוק של זיהוי סרקזם בכל הקבוצה הדמוגרפית של הגילאים, אבל המודל כבר שוחרר לייצור. איזו מהאסטרטגיות הבאות כדי לעצור את השגיאות בתחזיות של המודל?
הגבל את שימוש המודל להודעות טקסט שנשלחות על ידי מבוגרים.

המודל מספק ביצועים טובים בהודעות טקסט של מבוגרים (עם דיוק ושיעורי זכירה של יותר מ-90%), לכן הגבלת השימוש בקבוצה הזו תגרום לביטול שגיאות שיטתיות בסיווג ההודעות לקטינים.

כאשר המודל חוזה את "not sarcastic" עבור הודעות טקסט שנשלחות על ידי קטינים, יש לשנות את הפלט כך שהמודל יחזיר ערך של "unsur"

שיעור הדיוק של הודעות הטקסט שנשלחו על ידי קטינים גבוה. כלומר, כשהמודל חוזה את "sarcastic" עבור הקבוצה, הוא כמעט תמיד נכון.

הבעיה היא שזכירת הקטינים נמוכה מאוד. המודל לא מזהה סרקזציית כ-50% מהדוגמאות. מכיוון שהחיזויים השליליים של המודל לקטינים אינם טובים יותר מניחושים אקראיים, אנחנו יכולים להימנע משגיאות אלה על ידי מתן חיזוי במקרים כאלה.

הגבל את שימוש המודל בהודעות טקסט שנשלחות על ידי קטינים.

שגיאות שיטתיות במודל הזה הן ספציפיות להודעות טקסט שנשלחות על ידי קטינים. הגבלת השימוש במודל למודל החשוף יותר לשגיאה לא תעזור.

יש לשנות את פלט המודל כך שיחזיר "sarcastic" לכל הודעות הטקסט שנשלחו על ידי קטינים, ללא קשר למה שהמודל חזו במקור.

יש לחזות תמיד &"sarcastic" לקטינים' הודעות טקסט יגדילו את שיעור הריקול מ-0.497 ל-1.0, מפני שהמודל כבר לא יזהה הודעות סארקטיות. עם זאת, עלייה במדד הריקול תבוא על חשבון הדיוק. כל המונחים השליליים האמיתיים ישתנו לשליליים שגויים:

חיוב חיובי (TPS): 4324 אזהרות שווא (FP): 5676
שליליים שקריים (FN): 0 שליליים אמיתיים (TN): 0

מה שיפחית את שיעור הדיוק מ-0.957 ל-0.432. לכן, הוספת הכיול הזה תשנה את סוג השגיאה, אבל לא תקטין את גודל השגיאה.