מילון מונחים ללמידה חישובית: הגינות

הדף הזה מכיל מונחים של מילון מונחים הוגן. לעיון בכל המונחים של מילון המונחים, לחצו כאן.

א'

מאפיין

#fairness

מילה נרדפת לתכונה.

בהגינות בלמידה חישובית, מאפיינים מתייחסים בדרך כלל למאפיינים הקשורים לאנשים פרטיים.

הטיה אוטומטית

#fairness

כשאנשים שמקבלים החלטות מקבלים עדיפות על ידי מערכת אוטומטית לקבלת החלטות, על פני מידע שנוצר ללא אוטומציה, גם כשמערכת קבלת ההחלטות האוטומטית טועה.

B

הטיה (אתיקה/הוגנות)

#fairness
#fundamentals

1. סטריאוטיפים, דעות קדומות או העדפה כלפי דברים מסוימים, אנשים או קבוצות על פני אחרים. ההטיה הזו יכולה להשפיע על איסוף ופרשנות של נתונים, על עיצוב המערכת ועל האינטראקציה של המשתמשים עם המערכת. בין סוגי ההטיה הזו:

2. שגיאה שיטתית שהובעה על ידי הליך דגימה או דיווח. בין סוגי ההטיה הזו:

אין לבלבל בין מונח ההטיה במודלים של למידת מכונה או בהטיה חיזוי.

ג'

הטיה לאישור

#fairness

נטייה לחפש מידע, לפרש אותו, לתעדף אותו ולהזכיר אותו בדרך שמאשרת את האמונות או ההשערות הקיימות שלכם. המפתחים של למידת המכונה עשויים לאסוף או לתייג בטעות נתונים בצורה שמשפיעה על התוצאות של האמונות הקיימות שלהם. הטיה לאישור היא סוג של הטיה משתמעת.

ההטיה של הניסוי היא סוג של הטיה אישור שבה ניסיוני ממשיך ליישם מודלים של האימון עד לקבלת השערה קיימת.

הוגנות נגדיות

#fairness
מדד הוגנות שבודק אם למסווג יש תוצאה זהה לזו של אדם פרטי הזהה לזו של אדם אחר שזהה לראשון, למעט לגבי מאפיינים רגישים. אחת השיטות לסיווג סיווג של הוגנות נגדיות היא באמצעות מודל להמחשה של מקורות פוטנציאליים של הטיה במודל.

לדיון מפורט יותר על הוגנות נגדיות, כדאי לקרוא את המאמר "Worlds Collide: Integration שונות Counterf עובדתיים בהגינות".

הטיה על הכיסוי

#fairness

הטיות בבחירות

D

שוויון דמוגרפי

#fairness

מדד הוגנות שמתקיים אם תוצאות הסיווג של המודל לא תלויות במאפיין רגיש.

לדוגמה, אם גם Lillputputians ו-Blubdingnagians מגישים בקשה לאוניברסיטת Glubdubdrib, שוויון דמוגרפי נוצר אם אחוז הליליפויאניים שהתקבלו זהה לאחוז ה-Blubdingnagians שהתקבל, ללא קשר לשאלה אם קבוצה אחת מתאימה יותר מהקבוצה השנייה.

בניגוד לסיכויים שווים ולשוויון הזדמנות, שמאפשרים לסיווג הצטברות תלויים במאפיינים רגישים, אבל לא מגבילים את תוצאות הסיווג של תוויות אמת מסוימות מסוימות בהתאם למאפיינים רגישים. ראו "אפליה באמצעות למידת מכונה חכמה יותר" כדי לראות תצוגה חזותית של היתרונות והחסרונות של אופטימיזציה תוך התמקדות בדמיון דמוגרפי.

השפעה שונה

#fairness

לא פשוט לקבל החלטות לגבי אנשים שמשפיעים על קבוצות משנה של אוכלוסיה. בדרך כלל מדובר על מצבים שבהם תהליך קבלת החלטות אלגוריתמי פוגע בקבוצות משנה מסוימות או מניב להן תועלת.

לדוגמה, נניח שאלגוריתם שקובע את הזכאות של ליליפוטון להלוואה מיניאטורית לבית, יסווג אותם כ"לא כשירים" אם כתובת הדואר שלהם מכילה מיקוד. אם קיימת סיכון גבוה ליליפוטיאנים גדולים (Lilliputians) שיש להם כתובות דואר עם המיקוד הזה מאשר ליליפוטים קטנים, ייתכן שהאלגוריתם הזה ישפיע באופן שונה.

בניגוד לטיפול שונה, שמתמקד בהבדלים הנובעים ממאפיינים של קבוצות משנה כקלט מפורש של תהליך אלגוריתמי לקבלת החלטות.

טיפול שונה

#fairness

פירוק לגורמים של המאפיינים הרגישים בתהליך קבלת ההחלטות באמצעות אלגוריתמים, כך שקבוצות משנה שונות של אנשים יקבלו יחס שונה.

לדוגמה, נניח אלגוריתם שקובע את הכשירות של ליליפוטין להלוואה לבית מיניאטורי על סמך הנתונים שהוא מספק בבקשת ההלוואה. אם האלגוריתם משתמש בשיוך של ליליפוטיאן בתור Big-Endian או Litly-Endian כקלט, הוא מיישם טיפול שונה בסגנון הזה.

בניגוד להשפעה שונה, שמתמקדת בהבדלים בהשפעות החברתיות של החלטות אלגוריתמיות על קבוצות משנה, בין אם קבוצות המשנה האלה הן קלט של המודל.

E

לשוויון הזדמנויות

#fairness
מדד הוגנות שבודק אם תווית מועדפת (כזו שמעניקה יתרון או תועלת לאדם) ומאפיין נתון, מסווג חוזה את אותה תווית מועדפת באופן שווה לכל הערכים של אותו מאפיין. במילים אחרות, שוויון ההזדמנות מודד את הסבירות שאנשים שאמורים להיות זכאים לעשות זאת, באותה מידה, ללא קשר למינוי שלהם בקבוצה.

לדוגמה, נניח שאוניברסיטת גלובבורדי מודה בתוכנית המתמטיקה המחמירה של ליליפוטיאן וברובדינגיאן. בתי הספר המשניים של ליליפוטס מציעים תוכנית לימודים חזקה לשיעורי מתמטיקה, ורוב הסטודנטים הכשירים עומדים בדרישות להשתתפות באוניברסיטה. בחטיבות הביניים של ברודנאגינז לא מציעים בכלל קורסים במתמטיקה, וכתוצאה מכך הרבה פחות מהתלמידים שלהם מוסמכים. שוויון הזדמנויות מתקיים רק במקרים של תווית קבילה של 'קבילות', שמתייחסת ללאום (ליליפוטיאן או ברודינגנגיאן), במידה שבה סביר שתלמידים יקבלו אישור בין אם הם ליליפוטיאניים או תושבי ברודנאגיאן.

לדוגמה, נניח ש-100 ליליפוטים ו-100 ברודנדינגים חלים על אוניברסיטת גלובבודריב, והחלטות לגבי קבלת החלטות מתקבלות באופן הבא:

טבלה 1. מועמדי ליליפוט (90% מוסמכים)

  כשיר לא מתאים
התקבל 45 3
נדחה 45 7
סה"כ 90 10
אחוז הסטודנטים המורשים: 45/90 = 50%
אחוז התלמידים הלא מוסמכים שנדחו: 7/10 = 70%
האחוז הכולל של תלמידי ליליפוט שהתקבלו: (45+3)/100 = 48%

 

טבלה 2. מגישי בקשות ל-Brudingnagian (10% מוסמכים):

  כשיר לא מתאים
התקבל 5 9
נדחה 5 81
סה"כ 10 90
אחוז הסטודנטים המורשים: 50% / 10 = 50%
אחוז התלמידים הלא מוסמכים שנדחו: 81/90 = 90%
האחוז הכולל של התלמידים שהצליחו להשלים את הלמידה: (5+9)/100 = 14%

בדוגמאות הבאות יש שוויון הזדמנויות לקבלת הסטודנטים, כי לליליפוטיאניים מוסמכים ולברודנדיאנים יש סיכוי של 50% להתקבל.

למידע נוסף על שוויון הזדמנויות, ראו שוויון הזדמנויות בלמידה מבוקרת. ראו גם "אפליה באמצעות אפליה באמצעות למידת מכונה חכמה יותר" כדי לראות תצוגה חזותית של היתרונות והחסרונות של כשמבצעים אופטימיזציה כדי לאזן בין הזדמנויות.

סיכויים שווים

#fairness
מדד הוגנות שבודק אם עבור תווית ומאפיין מסוימים, החיזוי חוזה שהתווית הזו פועלת באופן שווה לכל הערכים של אותו מאפיין.

לדוגמה, נניח שאוניברסיטת גלובבורדי מודה בתוכנית המתמטיקה הקפדנית של ליליפוטיאן וגם של ברודגונגיאן. בתי הספר המשניים של ליליפוטיאן מציעים תוכנית לימודים חזקה לשיעורי מתמטיקה, והרוב המכריע של התלמידים עומדים בדרישות להשתתפות בתוכנית האוניברסיטאית. בחטיבות הביניים של ברודנאגינז לא מציעים בכלל קורסים במתמטיקה, וכתוצאה מכך הרבה פחות מהתלמידים שלהם מוסמכים. סיכויים שווים מתקיימים, בתנאי שלא משנה אם מגיש הבקשה הוא ליליפוטיאן או ברודדינגיאן, ואם הוא כשיר, הסבירות שהוא להתקבל לתוכנית היא גבוהה באותה המידה, ואם הוא לא מוסמך, הסבירות שהוא ידחה אותה היא זהה.

נניח ש-100 ליליפוטים ו-100 בּוֹרְבּוֹדנָיוֹנגָה חלים על אוניברסיטת גלובּוֹדֶריבּ, והחלטות קבלה מתקבלות כך:

טבלה 3. מועמדי ליליפוט (90% מוסמכים)

  כשיר לא מתאים
התקבל 45 2
נדחה 45 8
סה"כ 90 10
אחוז הסטודנטים המורשים שהתקבלו: 45/90 = 50%
אחוז הסטודנטים שלא קיבלו את ההסמכה: 8/10 = 80%
האחוז הכולל של תלמידי ליליפוט שהתקבלו: (45+2)/100 = 47%

 

טבלה 4. מגישי בקשות ל-Brudingnagian (10% מוסמכים):

  כשיר לא מתאים
התקבל 5 18
נדחה 5 72
סה"כ 10 90
אחוז הסטודנטים המורשים: 50% / 10 = 50%
אחוז התלמידות שלא קיבלו את ההסמכה: 72/90 = 80%
האחוז הכולל של סטודנטים מקרב הסטודנטים שהתקבלו: (5+18)/100 = 23%

הסיכוי שניתן לאחוז שווה לשווי הוא שווה: מכיוון שלתלמידים ולילינדביאניים מתאימים יש סיכוי של 50% להתקבל, ולליביפוטיאן ולברודנדינג יש סיכוי של 80% להידחות.

סיכויים שווים נקבעים בנוסחה הרשמית של הפונקציה "שווה להזדמנות בלמידה בפיקוח": "החיזוי ëii מספק סיכויים שווים ביחס למאפיין מוגן A ותוצאה Y אם ë ו-A עצמאיים, מותנים ב-Y".

הטיה של כלי הניסוי

#fairness

עיינו בהטיית אישור.

F

מגבלת הוגנות

#fairness
החלת אילוץ על אלגוריתם כדי להבטיח הגדרה אחת או יותר של הוגנות. דוגמאות של מגבלות הוגנות:

מדד הוגנות

#fairness

הגדרה מתמטית של 'הוגנות' שניתנת למדידה. הנה כמה ממדדי ההגינות הנפוצים:

מדדי הוגנות רבים יכולים להיות בלעדיים זה לזה; חוסר התאמה למדדי הוגנות.

G

הטיה קבוצתית

#fairness

בהנחה שנכון לגבי אדם מסוים גם הוא נכון לכל אחד מהקבוצה הזו. אפשר להחמיר את ההשפעות של הטיית השיוך לקבוצות אם מתבצעת דגימת נוחות לאיסוף נתונים. בדוגמה שאינה מייצגת, יכול להיות שהשיוך יתבצע באופן שלא משקף את המציאות.

יש לעיין גם בהטיה הומוגנית של קבוצה והטיה קיצונית בתוך הקבוצה

I

הטיה משתמעת

#fairness

יוצרים אוטומטית שיוך או הנחה על סמך המודלים הנפשיים והזיכרונות שלהם. הטיה משתמעת יכולה להשפיע על הגורמים הבאים:

  • איך הנתונים נאספים ומסווגים.
  • אופן התכנון והפיתוח של מערכות למידת מכונה.

לדוגמה, כשמעצב מסווג לזיהוי חתונות, מהנדס יכול להשתמש בשמלה לבנה בתמונה. עם זאת, שמלות לבנות היו מקובלות רק בתקופות מסוימות ובתרבויות מסוימות.

יש לעיין גם בהטיה לאישור.

חוסר התאמה למדדי הוגנות

#fairness

הרעיון כי הוגנות מסוימת אינה תואמת הדדית ולא ניתן למלא אותה בו-זמנית. כתוצאה מכך, אין מדד אוניברסלי אחד לכימות הוגנות שאפשר להחיל על כל הבעיות בלמידת מכונה.

על אף שזה נראה לא נעים, אי-התאמה למדדי הגינות לא מרמזת על כך שמאמצי הגינות מניבים פירות. במקום זאת, צריך לקבוע שהוגנות צריכה להיות מוגדרת לפי הקשר לבעיה מסוימת של למידת מכונה, במטרה למנוע נזקים ספציפיים לתרחישי השימוש.

לדיון מפורט יותר בנושא הזה, ראו "על האפשרות (ההוגנות)".

הוגנות אישית

#fairness

מדד הוגנות שבודק אם אנשים דומים מסווגים באופן דומה. לדוגמה, ייתכן שבבית הספר בברונדינגיאן ינסו לתת מענה הוגן, ולהבטיח ששני סטודנטים עם ציונים זהים וציוני בחינה סטנדרטיים יקבלו באותה הזדמנות קבלה.

שימו לב: הגינות מסוימת תלויה לחלוטין בהגדרה של "דמיון" (במקרה הזה, ציונים וציוני בחינות), ואתם עלולים לגרום לבעיות חדשות הקשורות להוגנות אם במדד הדמיון שלכם חסר מידע חשוב (למשל, על סמך המידע הרב שהתקבל בתוכנית הלימודים של התלמיד).

למידע נוסף על הוגנות, אפשר לקרוא את המאמר בנושא "הוגנות באמצעות מוּדעוּת".

הטיה בקבוצה

#fairness

הצגה חלקית של הקבוצה או של המאפיינים שלה. אם בודקים או מדרגים כוללים חברים, בני משפחה או קולגות של מפתח הלמידה החישובית, ההטיה בתוך הקבוצה עלולה לבטל את בדיקת המוצרים או את מערך הנתונים.

הטיה בתוך קבוצה היא סוג של הטיה לקבוצות שיוך. יש לעיין גם בהטיה הומוגנית כלפי קבוצות חוץ.

צ'

הטיה ללא תגובה

#fairness

הטיות בבחירות

O

הטיה הומוגנית כלפי קבוצות חוץ

#fairness

נטייה לראות שחברי קבוצה דומים יותר לחברים בקבוצה בהשוואה לגישות, ערכים, תכונות אישיות ומאפיינים אחרים. קבוצה בתוך קבוצה מתייחסת לאנשים שיש לך אינטראקציה איתם באופן קבוע. קבוצה מחוץ לקבוצה מתייחסת לאנשים שאין לך אינטראקציה איתם באופן קבוע. אם אתם יוצרים מערך נתונים ומבקשים מאנשים לספק מאפיינים לגבי קבוצות מחוץ לארגון, ייתכן שהמאפיינים האלה יהיו פחות ייחודיים וסטריאוטיפיים יותר מאשר המאפיינים שהמשתתפים מפרטים לאנשים בקבוצה.

לדוגמה: ליליפוטיאן עשוי לתאר בפירוט את הבתים של פסלי ליליפוטים אחרים, שמראים הבדלים קטנים בסגנונות אדריכליים, בחלונות, בדלתות ובגדלים. עם זאת, אותם ליליפוטים יכולים רק להצהיר שברודבורדנים מתגוררים בבתים זהים.

הטיה הומוגנית של קבוצה היא סוג של הטיה במודל שיוך (Attribution) קבוצתי.

עיינו גם בהטיה בקבוצה.

P

הטיה השתתפות

#fairness

מילה נרדפת להטיה שאינה תגובה. הטיות בבחירות

עיבוד לאחר העיבוד

#fairness
#fundamentals

התאמת הפלט של מודל אחרי שהמודל הופעל. לאחר העיבוד, אתם יכולים לאכוף אילוצים של הוגנות בלי לשנות מודלים בעצמם.

לדוגמה, כדי שהמערכת תחיל אחרי העיבוד על סיווג בינארי על ידי הגדרת סף סיווג, כך ששוויון ההזדמנות יישמר לגבי מאפיין מסוים, צריך לוודא שהשיעור החיובי האמיתי זהה בכל הערכים של אותו מאפיין.

חיזוי שוויון

#fairness

מדד הוגנות שבודק אם לפי סיווג מסווג, שיעורי הדיוק מקבילים לקבוצות משנה מסוימות.

לדוגמה, מודל שחיזוי קבלת מכללות יספק שוויון חזוי ללאום, אם שיעור הדיוק שלו זהה עבור ליליפוטים וברודנדינגים.

לפעמים, שוויון חזוי נקרא גם שלמות החיזוי החזויה.

לקבלת מידע מפורט יותר על שוויון חזוי, ראו "הגדרות שימוש הוגן" (סעיף 3.2.1).

השווה לשיעור החיזוי

#fairness

שם נוסף של התאמה לחיזוי.

עיבוד מראש

#fairness
מעבד נתונים לפני השימוש בהם לאימון מודל. העיבוד מראש יכול להיות פשוט כמו להסיר מילים מאוסף טקסט באנגלית שלא מופיע במילון באנגלית, או להיות מורכב כמו הדגשה מחדש של נקודות נתונים, כך שמאפיינים רבים ככל האפשר יתאמו למאפיינים רגישים. העיבוד מראש יכול לעזור לכם לעמוד במגבלות על הוגנות.

שרת proxy (מאפיינים רגישים)

#fairness
מאפיין שמשמש כחשבון עמידה עבור מאפיין רגיש. לדוגמה, מיקוד של אדם פרטי עשוי לשמש כשרת proxy של הכנסה, גזע או מוצא אתני.

ימין

הטיה בדיווח

#fairness

העובדה שהתדירות שבה אנשים כותבים על פעולות, תוצאות או נכסים, לא משקפת את התדירויות שלהם בעולם האמיתי, או את מידת האפיון של נכס מסוים מסוג מסוים. הטיה בדיווח יכולה להשפיע על ההרכב של הנתונים שמהם לומדות מערכות הלמידה החישובית.

לדוגמה, בספרים יש יותר מילה צחוק מאשר נשימה. מודל הלמידה החישובית שמעריך את התדירות היחסית של צחוק ונשימה מאוסף של ספרים, יקבע בדרך כלל שהצחוק נפוץ יותר מהנשימה.

S

הטיה בדגימה

#fairness

הטיות בבחירות

הטיה לבחירה

#fairness

שגיאות במסקנות שנלקחו מנתונים שנדגמו בגלל תהליך בחירה שיוצר הבדלים שיטתיים בין הדגימות שנדגמו בנתונים לבין אלה שלא תועדו. קיימות הטיה מהסוגים הבאים:

  • הטיות בכיסוי: האוכלוסייה המיוצגת במערך הנתונים לא תואמת לאוכלוסייה שעליה מבוסס מודל הלמידה החישובית.
  • הטיות בדגימה: הנתונים לא נאספים באופן אקראי מקבוצת היעד.
  • הטיית אי-תגובה (נקראת גם הטיית השתתפות): משתמשים מקבוצות מסוימות מפסיקים להשתמש בסקרים בשיעורים שונים מאלה של משתמשים מקבוצות אחרות.

לדוגמה, נניח שאתם יוצרים מודל למידת מכונה שצופה בהנאה של אנשים מסרט. כדי לאסוף נתוני הדרכה, אתם מחלקים את הסקר לכל מי שנמצא בשורה הראשונה של בית הקולנוע שבו הסרט מוצג. באופן מעשי, זה עשוי להישמע כדרך סבירה לאסוף מערך נתונים, אבל צורת האיסוף הזו עשויה ליצור את הדעות הבאות:

  • הטיה בסיקור: על ידי דגימה מאוכלוסייה שבחרו לראות את הסרט, ייתכן שהתחזיות של המודל לא יחרגו בקטגוריה הכללית של אנשים שעדיין לא הביעו את רמת העניין הזו בסרט.
  • דגימה לפי דגימה: במקום לדגום באופן אקראי את האוכלוסייה המתאימה (כל האנשים בסרט), נדגמת רק את האנשים שנמצאים בחזית. ייתכן שהאנשים היושבים בשורה הראשונה הביעו עניין רב יותר בסרט מאשר אנשים בשורות אחרות.
  • הטיה שאינה קשורה לתגובה: באופן כללי, אנשים עם דעות חזקות נוטים להגיב לסקרים אופציונליים בתדירות גבוהה יותר מאשר אנשים עם דעות מתונות. מכיוון שהסקר של הסרט הוא אופציונלי, יש יותר סיכוי שהתשובות ייצרו הפצה דו-אופנית מאשר התפלגות רגילה.

מאפיין רגיש

#fairness
מאפיין אנושי שעשוי לקבל התייחסות מיוחדת מסיבות משפטיות, אתיות, חברתיות או אישיות.

U

חוסר מודעות (למאפיין רגיש)

#fairness

מצב שבו מאפיינים רגישים קיימים, אבל לא נכללים בנתוני האימון. מאפיינים רגישים קשורים לעיתים קרובות למאפיינים אחרים של נתונים, ולכן למודל שמאופיין חוסר ודאות לגבי מאפיין רגיש עשויה עדיין להיות השפעה שונה על המאפיין הזה, או הפרה של מגבלות אחרות של הוגנות.