מודלים של למידה חישובית לא אובייקטיים מטבעם. מהנדסי התוכנה מאמנים מודלים על ידי הזנת קבוצת נתונים של דוגמאות ומעורבות אנושית במהלך ההקצאה והאיסוף של הנתונים האלה עלולה להפוך את החיזויים של המודל לרגישים.
בעת בניית מודלים, חשוב להיות מודעים להטיות האנושיות הנפוצות שיכולות להשפיע על הנתונים שלכם, כדי שתוכלו לנקוט צעדים יזומים כדי לצמצם את ההשפעות שלהם.
אזהרה : המלאי ההטיה הבא הוא רק אוסף קטן של דעות קדומות שגלויות לעיתים קרובות בקבוצות נתונים של למידת מכונה. הרשימה הזו לא נועדה למצות את . הפלגות בוויקיפדיה הקוגניטיבית
מסמנות יותר מ-100 סוגים שונים של הטיה אנושית
שיכולות להשפיע על שיקול הדעת שלנו. בעת בדיקת הנתונים, מומלץ לחפש את כל מקורות ההטיה שעלולים להטות את המודל.
הטיה בדיווח
הטיה בדוחות מתרחשת כאשר התדירות של אירועים, מאפיינים ו/או תוצאות שמתועדים בקבוצת נתונים לא משקפת באופן מדויק את התדירות בפועל. ההטיה הזו עשויה להתרחש
כי אנשים נוטים להתמקד בתיעוד נסיבות יוצאות דופן או בלתי נשכחות במיוחד, בהנחה שהמצב הרגיל יכול "להגיע מבלי לומר."
דוגמה : מודל של ניתוח סנטימנט מאורגן כדי לחזות אם ביקורות על ספרים הן חיוביות או שליליות, על סמך אוסף של תגובות שמשתמשים שלחו לאתר פופולרי. רוב הביקורות בקבוצת האימון משקפות דעות קיצוניות
(מבקרים שאהבו או שנאו ספר), כי סביר יותר שאנשים לא ישלחו ביקורת על ספר
אם הם לא הגיבו לו מאוד. כתוצאה מכך, המודל פחות יכול לחזות בצורה נכונה ביקורות עם שפה עדינה יותר לתיאור ספר.
הטיה אוטומטית
הטיה אוטומטית נוטה להעדיף תוצאות שנוצרו על ידי מערכות אוטומטיות על פני אלה שנוצרו על ידי מערכות לא אוטומטיות, ללא קשר לשיעורי השגיאות של כל אחת מהן.
דוגמה : מהנדסי תוכנה שעובדים עם יצרן גלגלי שיניים רצו לפרוס את המודל החדש "Groundbreaking&ציטוט;
הטיה שנבחר
הטיה של בחירה מתרחשת אם הדוגמאות של מערך נתונים נבחרות באופן שאינו משקף את ההתפלגות שלהן בעולם האמיתי. ההטיה לבחירת קהל יכולה להופיע
בצורות שונות:
הטיה בכיסוי : הנתונים לא נבחרו באופן מייצג.
דוגמה : מודל נערך לחיזוי מכירות עתידיות של מוצר חדש על סמך סקרי טלפון עם דגימה של צרכנים שקנו את המוצר.
במקום זאת, צרכנים שהביעו הסכמה לקנות מוצר מתחרה לא נבדקו, ולכן קבוצת האנשים הזו לא הייתה מיוצגת בנתוני האימון.
הטיה ללא תגובה (או הטיות בהשתתפות ): הנתונים בסופו של דבר אינם מייצגים עקב פערי השתתפות בתהליך איסוף הנתונים.
דוגמה : מודל מאומן לחזות תחזיות מכירות עתידיות של מוצר חדש על סמך סקרי טלפון המבוצעים עם דגימה של צרכנים שקנו את המוצר, וכן עם דגימה מהצרכנים שקנו מוצר מתחרה. הסבירות שצרכנים שרכשו את המוצר המתחרה יסרבו להשלים את הסקר היא גבוהה ב-80%, והנתונים שלהם קיבלו ייצוג נמוך במדגם.
הטיה של דגימה : לא נעשה שימוש ברנדומיזציה תקינה במהלך איסוף הנתונים.
דוגמה : מודל מאומן לחזות תחזיות מכירות עתידיות של מוצר חדש על סמך סקרי טלפון המבוצעים עם דגימה של צרכנים שקנו את המוצר, וכן עם דגימה מהצרכנים שקנו מוצר מתחרה. במקום לטרגט באופן אקראי לצרכנים,
הסקר בחר את 200 הצרכנים הראשונים שהגיבו לאימייל, שאולי התלהב יותר מהמוצר מאשר מהרוכשים הממוצעים.
הטיה של שיוך קבוצתי
הטיות בשיוך (Attribution) לקבוצות היא נטייה כללית להבליט מה אמת אנשים מסוימים לכל הקבוצה שאליה הם שייכים. שני מופעים עיקריים של הטיה זו:
הטיה בקבוצה : העדפה לחברי קבוצה שאליהם גם אתם שייכים , או למאפיינים שאתם משתפים גם הם.
דוגמה : שני מהנדסי תוכנה שמתמחים במודל של סינון קורות חיים למפתחי תוכנה נוטים להאמין שמועמדים שהשתתפו באותו אקדמיה למדעי המחשב שניהם מתאימים יותר לתפקיד.
הטיה הומוגנית מחוץ לקבוצה : נטייה ליצור סטריאוטיפיות בין אנשים בקבוצה שלא שייכים אליה , או כדי לראות מאפיינים של אחידות יותר.
דוגמה : שני מהנדסי תוכנה שמתמחים במודל של סינון קורות חיים למפתחי תוכנה נוטים להאמין שלכל מי שלא השתתף באקדמיה למדעי המחשב אין מספיק מומחיות בתפקיד הזה.
הטיה משתמעת
הטיה מרומזת מתרחשת כאשר ההנחות מתבצעות בהתאם למודל הנפשי ולחוויות האישיות שלו, שלא בהכרח חלות באופן כללי.
דוגמה : מהנדס שמאמן מודל לזיהוי תנועות משתמש בשיפוץ ראש בתור תכונה כדי לציין שהמשתמש מתקשר עם המילה "no." עם זאת, באזורים מסוימים בעולם, רעידת ראש מציינת בפועל "yes."
סוג נפוץ של הטיה מרומזת הוא הטיה באישור , שיוצרי המודלים מעבדים נתונים באופן לא מודע בדרכים שמאשרות אמונות קיימות והשערות קיימות. במקרים מסוימים, כלי לבניית מודלים עשוי להמשיך לאמן
מודל עד שיתקבל תוצאה שתואמת להשערה המקורית שלו. שיטה זו נקראת הטיה וניסוי .
EXAMPLE : מהנדס בונה מודל שמנבא אגרסיביות בכלבים על סמך מגוון תכונות (גובה, משקל, גזע, סביבה).
למהנדס הייתה מפגש לא נעים עם פודל צעצוע היפר-פעיל כילד, ומאז הקשר שלו לגזע הוא אגרסיבי. כשהמודל המיומן חזה שרוב צעצועי הצעצוע הם
טובים יחסית, המהנדס מבצע אימון נוסף כמה פעמים עד שהוא השיג תוצאה שממחישה פודל קטן יותר ואלים יותר.