הוגנות: זיהוי הטיה

כשאתם בוחנים את הנתונים כדי לקבוע מהי הדרך הטובה ביותר לייצג אותם במודל שלכם, חשוב לזכור גם בעיות בהוגנות ובדיקה יזומה של מקורות הטיות פוטנציאליים.

איפה ההטיה עשויה לנוע? הנה שלושה נורות אדומות שכדאי לבדוק בקבוצת הנתונים שלכם.

חסרים ערכים של תכונות

אם בקבוצת הנתונים שלכם יש תכונה אחת או יותר שחסרים להן ערכים עבור מספר גדול של דוגמאות, זה יכול להיות סימן לכך שמאפייני מפתח מסוימים של מערך הנתונים לא זוכים לייצוג הולם.

לדוגמה, בטבלה הבאה מוצג סיכום של נתונים סטטיסטיים עיקריים לקבוצת משנה של תכונות במערך הנתונים של הדיור בקליפורניה, ששמור בפנדות DataFrame ומופק באמצעות DataFrame.describe. שימו לב שלכל התכונות יש count עם ערך של 17,000, מה שמציין שאין ערכים חסרים:

longitude latitude total_rooms אוכלוסייה בתי אב חציון ערך_חציוני
ספירה 17,000.0 17,000.0 17,000.0 17,000.0 17,000.0 17,000.0 17,000.0
ממוצע -119.6 35.6 2,643.7 1429.6 501.2 3.9 207.3
Std 2.0 2.1 2,179.9 1147.9 384.5 1.9 116.0
דק' -124.3 32.5 2.0 3.0 1.0 0.5 15.0
25% -121.8 33.9 1,462.0 790.0 282.0 2.6 119.4
50% -118.5 34.2 2,127.0 1,167.0 409.0 3.5 180.4
75% -118.0 37.7י 3,151.2 1721.0 605.2 4.8 265.0
מקסימלי -114.3 42.0 37937.0 35682.0 6082.0 15.0 500.0

נניח שלשלוש תכונות (population, households ו-median_income) היה רק ספירה של 3000 — כלומר, היו 14,000 ערכים חסרים עבור כל תכונה:

longitude latitude total_rooms אוכלוסייה בתי אב חציון ערך_חציוני
ספירה 17,000.0 17,000.0 17,000.0 3,000.0 3,000.0 3,000.0 17,000.0
ממוצע -119.6 35.6 2,643.7 1429.6 501.2 3.9 207.3
Std 2.0 2.1 2,179.9 1147.9 384.5 1.9 116.0
דק' -124.3 32.5 2.0 3.0 1.0 0.5 15.0
25% -121.8 33.9 1,462.0 790.0 282.0 2.6 119.4
50% -118.5 34.2 2,127.0 1,167.0 409.0 3.5 180.4
75% -118.0 37.7י 3,151.2 1721.0 605.2 4.8 265.0
מקסימלי -114.3 42.0 37937.0 35682.0 6082.0 15.0 500.0

בזכות 14,000 הערכים החסרים האלה, יהיה קשה יותר להשוות באופן מדויק את ההכנסה החציונית של משקי הבית למחירים החציוניים של בתים. לפני אימון מודל על סמך הנתונים האלה, יש לחקור את הגורמים לערכים החסרים כדי לוודא שאין הטיות נסתרות שאחראיות לנתוני ההכנסה והאוכלוסייה החסרים.

ערכי תכונות בלתי צפויים

כשאתם מעיינים בנתונים, כדאי גם לחפש דוגמאות שכוללות ערכי תכונות שמתבלטים באופן חריג או לא טיפוסי. ערכי המאפיינים הבלתי צפויים האלו עשויים להצביע על בעיות שהתרחשו במהלך איסוף הנתונים או על אי-דיוקים אחרים שעשויים להוביל להטיה.

לדוגמה, תוכלו לראות את הדוגמאות הבאות מתוך קבוצת הנתונים של דיור בקליפורניה:

longitude latitude total_rooms אוכלוסייה בתי אב חציון ערך_חציוני
1 -121.7 38.0 7,105.0 3,523.0 1088.0 5.0 0.2
2 -122.4 37.8 2,479.0 1816.0 496.0 3.1 0.3
3 -122.0 37.0 2,813.0 1337.0 477.0 17.7 0.3
4 -103.5 43.8 2,212.0 803.0 144.0 5.3 0.2
5 -117.1 32.8 2963.0 1,162.0 556.0 3.6 0.2
6 -118.0 33.7 3396.0 1,542.0 472.0 7.4 0.4

האם תוכלו לזהות ערכי תכונה לא צפויים?

הטיה

כל סוג של הטיה בנתונים, כאשר קבוצות או מאפיינים מסוימים עשויים לקבל ייצוג גרוע מדי או חוסר ייצוג הולם ביחס לשכיחות שלהם בעולם האמיתי, עלול להטות את המודל שלך.

אם השלמתם את תרגיל אימות האימות, ייתכן שתיזכרו איך הרצה אקראית של מערך הדיור בקליפורניה לפני חלוקתו לקבוצות הדרכה ואימות הניבה הטיות בנתונים. איור 1 מציג באופן חזותי קבוצת משנה של נתונים שנאספו ממערך הנתונים המלא שמייצג באופן בלעדי את האזור הצפון-מערבי של קליפורניה.

מפה של מדינת קליפורניה בשכבת-על של נתונים ממערך הנתונים של קליפורניה.
          כל נקודה מייצגת גוש דיור. הנקודות מקובצות בצפון-מערב כל קליפורניה, ללא נקודות בדרום קליפורניה, וכך ניתן לראות את השיפוע הגיאוגרפי של הנתונים

איור 1. מפה של מדינת קליפורניה בשכבת-על של נתונים ממערך הנתונים של קליפורניה. כל נקודה מייצגת גוש דיור, בצבעים שבין כחול לאדום במחיר חציוני לבית, החל מנמוך ועד גבוה, בהתאמה.

אם נשתמש בדגימה שאינה מייצגת כדי לאמן מודל לחזות את מחירי הדיור בקליפורניה, היעדר נתוני הדיור מחלקי דרום קליפורניה יהיה בעייתי. ההטיה הגיאוגרפית המקודדת במודל עלולה להשפיע לרעה על קונים לבית בקהילות לא מיוצגות.