מילון מונחים ללמידה חישובית: הגינות

קל לארגן דפים בעזרת אוספים אפשר לשמור ולסווג תוכן על סמך ההעדפות שלך.

הדף הזה מכיל מונחים של מילון מונחים הוגנים. לכל המונחים הקשורים למילון המונחים, יש ללחוץ כאן.

A

מאפיין

#fairness

מילה נרדפת לתכונה.

בהוגנות של למידה חישובית, המאפיינים מתייחסים בדרך כלל למאפיינים שקשורים לאנשים פרטיים.

הטיה אוטומטית

#fairness

כאשר מקבלי החלטות אנושיים מעדיפים המלצות שמתקבלות על ידי מערכת אוטומטית לקבלת החלטות, על פני מידע שנוצר ללא אוטומציה, גם כשהמערכת מקבלת החלטות באופן אוטומטי.

B

דעה קדומה (אתיקה/הוגנות)

#fairness
#fundamentals

1. סטריאוטיפים, דעות קדומות או העדפה כלפי דברים מסוימים, אנשים או קבוצות על פני אחרים. ההטיות האלה עשויות להשפיע על איסוף ופרשנות של נתונים, על העיצוב של המערכת ועל האינטראקציה של משתמשים עם המערכת. סוג הטיה זה כולל:

2. אירעה שגיאה שיטתית על ידי דגימת נתונים או הליך דיווח. סוג הטיה זה כולל:

חשוב להבדיל בין מונח ההטיה למודלים של למידת מכונה או הטיות בחיזוי.

C

הטיה לאישור

#fairness

הנטייה לחפש, לפרש, להעדיף ולזכור מידע בדרך שמאשרת אמונות קיימות או השערות קיימות. מפתחים של למידת מכונה עשויים לאסוף בטעות נתונים או לתייג אותם בדרכים שמשפיעות על תוצאות שתומכות באמונות קיימות. הטיה לאישור היא סוג של הטיה משתמעת.

הטיה של כלי הניסוי היא סוג של הטיה לאישור שבה ניסוי ממשיך להמשיך במודלים עד לאישור ההשערה הקיימת.

הוגנות הפוכה

#fairness
מדד הוגנות שבודק אם למסווג/ת יש תוצאה זהה לזו של אדם אחר ש עבור אדם אחר זהה לראשון, מלבד בכל הנוגע למאפיין אחד או יותר של מאפיינים רגישים. אחת השיטות להערכת סיווג של הטיות במודל היא הוגנות הדדית.

קראו את המאמר &ציטוט; כשעולמות כוללים: שילוב טענות שונות נגד הוגנות וציטוטים, לדיון מפורט יותר על הוגנות נגדית.

הטיה בכיסוי

#fairness

עיינו בהטיה בנושא בחירות.

D

שוויון דמוגרפי

#fairness

מדד הוגנות אם קבלת התוצאות של סיווג המודל אינה תלויה במאפיין רגיש נתון.

לדוגמה, אם אוניברסיטת ליליבודיין והרובלדינגס חלה על אוניברסיטת גלובדוגריב, הדמיון הדמוגרפי מתקבל אם אחוז הלקוחות שהגיעו למסקנה הוא זהה לאחוז הברונדינגטים, גם אם ההרכב של קבוצה אחת הוא ממוצע יותר מאשר האוכלוסייה השנייה.

בניגוד ל סיכויים במידה שווה ולשוויון הזדמנות, שמאפשרים לסיווג להשיג תוצאות במצטבר על סמך מאפיינים רגישים, אבל לא מאפשרים לתוצאות סיווג של תוויות מהימנות מסוימות מסוימות בהתאם למאפיינים רגישים. מומלץ לעיין "מתקפה במתקפה עם למידה חישובית חכמה יותר" כדי להמחיש באופן חזותי את היתרונות של אופטימיזציה לפי דמוגרפיה.

השפעה שונה

#fairness

קבלת החלטות לגבי אנשים שמשפיעים על קבוצות משנה שונות של אוכלוסייה, אינה פרופורציונלית. זה בדרך כלל מתייחס למצבים שבהם תהליך קבלת החלטות אלגוריתמי מזיק או מניב תועלת לקבוצות משנה אחרות.

לדוגמה, נניח שאלגוריתם שקובע את הזכאות של הלוואה מליליפוטיאנית להשאלה של בית מיניאטורי, צפוי יותר לסווג אותן כ'לא כשירות' אם כתובת הדואר שלהן מכילה מיקוד מסוים. אם ליליאטורים אנד-אנדים יש יותר סיכויים לקבל כתובות דואר עם המיקוד הזה מאשר ליליוטיאן הקטנה, המשמעות של האלגוריתם הזה עלולה להיות השפעה שונה.

בניגוד לטיפול שאינו שונה, שמתייחס להבדלים שנובעים ממאפיינים של קבוצות משנה, הם קלט מפורש של תהליך קבלת החלטות אלגוריתמי.

טיפול שונה

#fairness

לשקלל נושאים' מאפיינים רגישים לתהליך קבלת החלטות אלגוריתמי, כך שקבוצות משנה שונות של אנשים מטופלות באופן שונה.

לדוגמה, נניח שאלגוריתם שקובע את הזכאות של הלוואה מליליפוטס להלוואה מיניאטורית לבית על סמך הנתונים שהוא מספק בבקשת ההלוואה. אם האלגוריתם משתמש בשיוך של ליליפוטיאן בתור Big-Endian או Little Endian כקלט, הוא מטמיע שיטות שונות של טיפול בהקשר הזה.

בניגוד להשפעה שונה, שמתמקדת בהבדלים בהשפעות החברתיות של החלטות אלגוריתמיות על קבוצות משנה, גם אם קבוצות המשנה האלה הן קלט של המודל.

ה'

שוויון הזדמנויות

#fairness
מדד הוגנות שבודק אם עבור תווית מועדפים (שמעניק יתרון או יתרון לאדם) ומאפיין נתון, כלי הסיווג חוזה את התווית המועדפת באופן שווה לכל הערכים של אותו מאפיין. במילים אחרות, שוויון הזדמנות מודד אם האנשים שאמורים לקבל הזדמנות כדאי לעשות זאת באופן שווה, ללא קשר לחברות שלהם בקבוצה.

לדוגמה, נניח שאוניברסיטת גלובדורב מכבדת גם את ליליפוטיסטים וגם את ברודינגנגיאן, במסגרת תוכנית מתמטיקה קפדנית. בתי הספר המשניים בליליפופוטרים מציעים תוכנית לימודים חזקה למתמטיקה, ורוב הסטודנטים מתאימים לתוכנית האוניברסיטאית. בתי הספר המשניים של ברונדינגס לא מציעים כלל קורסים במתמטיקה, וכתוצאה מכך הרבה פחות מתלמידיהם הם מוסמכים. ערך שוויון הוא הזדמנות ביחס לתווית המועדפת של "admit" עם כבוד לאום (Lilliputian או Brabdingnagian) אם סביר להניח שתלמידים יתקבלו, גם אם הם ליליפוטיאני או ברודינגנגיאן.

לדוגמה, נניח ש-100 ליליפוטינים ו-100 ברונדינגים חלים באוניברסיטת גלובדובאד, והחלטות לגבי קבלת ההחלטות מתקבלות באופן הבא:

טבלה 1. מגישי בקשות ללילופוטיים (90% מהם עומדים בדרישות)

  כשיר לא מתאים
התקבל 45 3
נדחה 45 7
סה"כ 90 10
אחוז הסטודנטים שקיבלו הסמכה: 45/90 = 50%
אחוז הסטודנטים שלא קיבלו הסמכה: 7/10 = 70%
האחוז הכולל של תלמידים ליליפויאניים: (45+3)/100 = 48%

 

טבלה 2. מגישי בקשות הצטרפות (10% מוסמכים):

  כשיר לא מתאים
התקבל 5 9
נדחה 5 81
סה"כ 10 90
אחוז הסטודנטים שקיבלו הסמכה: 5/10 = 50%
אחוז הסטודנטים שלא עמדו בדרישות: 81/90 = 90%
האחוז הכולל של סטודנטים בברודנגינג: (5+9)/100 = 14%

הדוגמאות הבאות ממחישות שוויון של הזדמנות לקבלת תלמידים מוסמכים, כי ליליפוטיסטים מוסמכים וברודינגיאנים יש סיכוי של 50% להתקבל.

ראו "שווה להזדמנות בלמידה מבוקרת" כדי לקבל דיון מפורט יותר על שוויון ההזדמנות. כמו כן, ניתן לעיין ב "התקפת אפליה עם למידה חישובית חכמה יותר" כדי להמחיש את האיזון בין אופטימיזציה של הזדמנויות לשוויון הזדמנויות.

סיכויים שווים

#fairness
מדד הוגנות שבודק אם עבור תווית מסוימת ומאפיין מסוים, החיזוי חוזה את אותה תווית באופן תקין לכל הערכים של אותו מאפיין.

לדוגמה, נניח שאוניברסיטת גלובדורב מכבדת גם את ליליפוטיאני וגם את ברובדינגיאן לתוכנית מתמטית קפדנית. בתי הספר היסודיים ליליפוטיאניים' מהווים תוכנית לימודים חזקה לשיעורי מתמטיקה, והרוב המכריע של התלמידים כשירים לתוכנית האוניברסיטה. בתי ספר יסודיים' בתי ספר על-יסודיים לא מציעים שיעורים מתמטיים בכלל, וכתוצאה מכך הרבה פחות מתלמידיהם. סיכויים לשוויון עומדים בקריטריונים, בתנאי שלא משנה אם המבקש הוא ליליפוטיאני או ברודינגנאי, אם הוא מוסמך, יש לו סיכוי סביר להתקבל לתוכנית, ואם הוא אינו מוסמך, סביר להניח שהוא ידחה את הבקשה.

נניח ש-100 חובבי ליליפוטים ו-100 אומנים ברובודינג'יים מגישים בקשת הצטרפות לאוניברסיטה של גלבדובדריב, והחלטות לגבי קבלת ההחלטות מתקבלות כך:

טבלה 3. מגישי בקשות ללילופוטיים (90% מהם עומדים בדרישות)

  כשיר לא מתאים
התקבל 45 2
נדחה 45 8
סה"כ 90 10
אחוז הסטודנטים שקיבלו הסמכה: 45/90 = 50%
אחוז הסטודנטים שלא עומדים בדרישות: 8/10 = 80%
האחוז הכולל של תלמידים בליליפויאני: (45+2)/100 = 47%

 

טבלה 4. מגישי בקשות הצטרפות (10% מוסמכים):

  כשיר לא מתאים
התקבל 5 18
נדחה 5 72
סה"כ 10 90
אחוז הסטודנטים שקיבלו הסמכה: 5/10 = 50%
אחוז הסטודנטים שלא קיבלו הסמכה: 72/90 = 80%
השיעור הכולל של התלמידים שקיבלו הסמכה בברונדינגה: (5+18)/100 = 23%

סיכויים לשוויון הם סבירים מאחר שתלמידים מפורסמים בסגנון ליליפוטיאני וברובדינגאן קיבלו סיכוי של 50% להתקבל, ולליליפוטיאני ובליגפוטינג לא מתאימים, יש סיכוי של 80% להידחות.

סיכויים שוויוניים מוגדרים באופן רשמי ב- "Equal ofOpportunity in Monitoring בפיקוח:

הטיה של הניסוי

#fairness

הטיה לאישור.

ו'

מגבלה על הוגנות

#fairness
החלת אילוץ על אלגוריתם נועדה להבטיח לפחות הגדרה אחת הוגנת. דוגמאות למגבלות הוגנות:

מדד הוגנות

#fairness

הגדרה מתמטית של "הוגנות" שניתנת למדידה. דוגמאות למדדי הוגנות נפוצים:

מדדי הוגנות רבים קיימים באופן הדדי. אפשר לעיין בחוסר תאימות בין מדדי הגינות.

G

הטיה של שיוך קבוצתי

#fairness

בהנחה שהמצב הנכון לגבי אדם פרטי נכון גם לגבי כל הקבוצה. אם דגימת נוחות משמשת לאיסוף נתונים, ההשפעה על ההטיה של השיוך (Attribution) תהיה גבוהה יותר. בדוגמה שאינה מייצגת, ניתן לשייך קרדיטים שלא משקפים את המציאות.

יש לעיין גם בהטיה הומוגנית מתוך קבוצה ובהטיה בקבוצה.

I

הטיה מרומזת

#fairness

יצירת שיוך או השערה באופן אוטומטי לפי המודלים הנפשיים והזיכרונות. הטיה משתמעת יכולה להשפיע על הדברים הבאים:

  • איך הנתונים נאספים ומסווגים.
  • אופן התכנון והפיתוח של מערכות למידה חישובית.

לדוגמה, בפיתוח מסווגים לזיהוי תמונות בחתונה, מהנדס יכול להשתמש בשמלה לבנה בתמונה. עם זאת, שמלות לבנות היו נהוגות רק בתקופות מסוימות ובתרבויות מסוימות.

בודקים גם את ההטיה לאישור.

חוסר התאמה במדדי הוגנות

#fairness

הרעיון הוא שעקרונות מסוימים בנושא הוגנות אינם תואמים באופן הדדי ולא ניתן לספק אותם בו-זמנית. כתוצאה מכך, לא קיים מדד אוניברסלי אחד לקביעת הכמות הוגנת שניתן להחיל על כל הבעיות הקשורות ללמידת מכונה.

זה נראה מרגיע, אבל אי-התאמה של מדדי הגינות לא מרמזת על כך שמאמצי הוגנות מניבים פירות. במקום זאת, צריך לציין שהוגנות צריכה להיות מוגדרת לפי הקשר לבעיה נתונה של למידת מכונה, במטרה למנוע פגיעה ספציפית בתרחישים לדוגמה.

אפשר לעיין "ב (im)ability of Fairness" כדי לקבל דיון מפורט יותר בנושא הזה.

הגינות אישית

#fairness

מדד הוגנות שבודק אם אנשים דומים מסווגים באופן דומה. לדוגמה, יכול להיות שבאקדמיה של ברודינגנג תקפידו על הוגנות אישית, בזכות כך ששני סטודנטים עם ציונים זהים וציוני בחינות סטנדרטיים צפויים לקבל כניסה באופן שווה.

שימו לב שמידת היושר בפרט תלויה באופן שבו אתם מגדירים &מירכאות;דמיון וציטוט; (במקרה הזה, ציונים וציוני בחינות), ואתם עלולים להסתכן בכך שתיתקלו בבעיות הוגנות חדשות אם מדד הדמיון שלכם יפספס מידע חשוב (כגון המאמץ הרב של תוכנית הלימודים של תלמיד).

לפרטים נוספים על הוגנות בנפרד, אפשר לעיין במאמר "Ffairs THROUGH Awareness"

הטיה בקבוצה

#fairness

מוצג חלק מהקבוצה או מאפיינים משלו. אם הבודקים או המדרגים כוללים את החברים, בני המשפחה או העמיתים של מפתח הלמידה החישובית, ההטיה בקבוצה עשויה לבטל את בדיקת המוצרים או את מערך הנתונים.

הטיה בקבוצה היא סוג של הטיה לקבוצות שיוך. ראו גם מחוץ לקבוצה הומוגנית הטיה.

לא

הטיה שאינה תגובה

#fairness

עיינו בהטיה בנושא בחירות.

O

הטיה הומוגנית מחוץ לקבוצה

#fairness

נטייה לראות את חברי הקבוצה כדומים לחברים בקבוצה בהשוואה בין גישות, ערכים, תכונות אישיות ומאפיינים אחרים. בקבוצה: אנשים שאתם מקיימים איתם אינטראקציה באופן קבוע. נתונים מחוץ לקבוצה מתייחסים לאנשים שאתם לא יוצרים איתם אינטראקציה באופן קבוע. אם אתם יוצרים מערך נתונים ומבקשים מאנשים לספק מאפיינים לגבי קבוצות שונות, ייתכן שהמאפיינים האלה יהיו פחות מודגשים וסטריאוטיפים מאשר מאפיינים של המשתתפים בקבוצה.

לדוגמה, ליליפוטים עשויים לתאר את הבתים של ליליפוטים אחרים באופן מפורט, ולצטט הבדלים קטנים בסגנונות אדריכליים, בחלונות, בדלתות ובגדלים. עם זאת, אותם חובבי ליליפוט עשויים להצהיר שכולם מתגוררים בבתים זהים.

הטיה הומוגנית מתוך קבוצה היא הטיה של שיוך קבוצתי.

עיינו גם בהטיה בתוך קבוצה.

נק'

הטיה להשתתפות

#fairness

מילה נרדפת להטיה שאינה תגובה. עיינו בהטיה בנושא בחירות.

עיבוד לאחר העיבוד

#fairness
#fundamentals

התאמת הפלט של המודל אחרי הפעלת המודל. לאחר העיבוד, ניתן להשתמש בו כדי לאכוף מגבלות על הוגנות מבלי לשנות את המודלים בעצמם.

לדוגמה, אפשר להחיל עיבוד אחרי עיבוד על סיווג בינארי כלשהו על ידי הגדרת סף של סיווג כך ששווה להזדמנות יישמר עבור מאפיין מסוים על ידי בדיקת השיעור החיובי האמיתי זהה לכל הערכים של המאפיין הזה.

שוויון לחיזוי

#fairness

מדד הוגנות שבודק אם עבור סיווג מסוים של תוכן, שיעורי הדיוק מחושבים מקבילים לקבוצות משנה בבדיקה.

לדוגמה, מודל שיכול לחזות קבלה של מכללות יהיה תואם לחיזוי הדמיון של לאום אם שיעור הדיוק שלו זהה לליליפוטיאני ובברונדינגס.

שוויון חזוי נקרא גם 'שיעור חיזוי'.

לקבלת דיון מפורט יותר על שוויון חזוי, אפשר לעיין בקטע "הגדרות של הוגנות הסבר והסבר; (סעיף 3.2.1).

שלמות שיעור חזוי

#fairness

שם אחר לסטטוס חזוי.

עיבוד מראש

#fairness
עיבוד נתונים לפני אימון המודל. העיבוד מראש יכול להיות פשוט כמו הסרת מילים ממקורות טקסט באנגלית שאינם שייכים למילון האנגלי, או שהם מורכבים כמו הדגשה מחדש של נקודות נתונים, וכך מסירים כמה שיותר מאפיינים שתואמים למאפיינים רגישים. עיבוד מראש יכול לעזור לעמוד במגבלות ההוגנות.

שרת proxy (מאפיינים רגישים)

#fairness
מאפיין המשמש כסטנדרט למאפיין רגיש. לדוגמה, מיקוד של אדם מסוים עשוי לשמש כשרת proxy של ההכנסה, הגזע או המוצא האתני שלו.

R

הטיה בדוחות

#fairness

התדירות שבה אנשים כותבים על פעולות, ממצאים או מאפיינים אינה משקפת את התדירות שבה הם חוזרים, או את מידת האפיון של הנכס עבורם. ההטיה בדיווח יכולה להשפיע על ההרכב של הנתונים שמערכות הלמידה החישובית לומדות.

לדוגמה, בספרים המילה צחוק נפוצה יותר מאשר נשימה. סביר להניח שמודל של למידת מכונה הוא אומדן של התדירות היחסית של צחוק ונשימה ממאגר הנתונים של ספר, והוא כנראה יקבע שהצחוק נפוץ יותר מהנשימה.

ש'

הטיה בדגימה

#fairness

עיינו בהטיה בנושא בחירות.

הטיה לבחירה

#fairness

שגיאות במסקנות שנלקחו מנתונים שנדגמו עקב תהליך בחירה שיוצר הבדלים שיטתיים בין הדגימות שנצפו בנתונים לבין אלה שלא נצפו. קיימות הטיה מהסוגים הבאים:

  • הטיות בכיסוי: האוכלוסייה המיוצגת במערך הנתונים לא תואמת לאוכלוסייה שעליה מבוסס מודל הלמידה החישובית.
  • הטיה בדגימה: הנתונים לא נאספים באופן אקראי מקבוצת היעד.
  • הטיה נגד תגובה (נקראת גם הטיה להשתתפות): משתמשים מקבוצות מסוימות מבטלים את ההסכמה להשתתפות בסקרים בשיעורים שונים מאלה של משתמשים מקבוצות אחרות.

לדוגמה, נניח שאתם יוצרים מודל של למידת מכונה לחזות את ההנאה של אנשים מסרט. כדי לאסוף נתוני הדרכה, אתם מחלקים סקר לכל מי שנמצא בשורה הראשונה של אולם קולנוע שמציג את הסרט. גם אם זה נשמע לכם סביר, אפשר לאסוף מערך נתונים. עם זאת, הצורה הזו של איסוף נתונים עשויה להוביל להטיה הבאה של הבחירה:

  • הטיות של כיסוי: על ידי דגימה מאוכלוסייה שבחרה לראות את הסרט, ייתכן שהחיזוי של המודל שלך לא ייכלל באופן כללי בפני אנשים שעדיין לא הביעו את רמת העניין בסרט.
  • דגימת דגימה: במקום לדגום באופן אקראי את האנשים באוכלוסייה (כל האנשים בסרט), נדגמת רק את האנשים בשורה הראשונה. ייתכן שהאנשים שיושבים בשורה הראשונה התעניינו בסרט יותר מאשר האנשים בשורות אחרות.
  • הטיה שאינה תגובה: באופן כללי, אנשים עם דעות חזקות נוטים להגיב לסקרים אופציונליים בתדירות גבוהה יותר מאשר אנשים עם דעות מתונות. מאחר שהסקר בנושא סרטים הוא אופציונלי, יש סיכוי גבוה יותר שהתשובות ייצרו התפלגות ביומטרית מאשר הפצה רגילה (פעמון).

מאפיין רגיש

#fairness
מאפיין אנושי שעשוי לקבל שיקול מיוחד מסיבות משפטיות, אתיות, חברתיות או אישיות.

U

חוסר מוּדעוּת (למאפיין רגיש)

#fairness

מצב שבו מאפיינים רגישים קיימים, אבל לא כלולים בנתוני האימון. מכיוון שלעיתים קרובות המאפיינים הרגישים מקושרים למאפיינים אחרים של הנתונים, למודל שאימן חוסר מוּדעוּת לגבי מאפיין רגיש עדיין תהיה השפעה שונה ביחס למאפיין הזה, או הפרה של מגבלות אחרות על הוגנות.