این صفحه شامل اصطلاحات واژهنامه هوش مصنوعی مسئولیتپذیر است. برای مشاهده همه اصطلاحات واژهنامه، اینجا کلیک کنید .
الف
ویژگی
مترادف ویژگی .
در انصاف یادگیری ماشین، ویژگیها اغلب به ویژگیهای مربوط به افراد اشاره دارند.
سوگیری اتوماسیون
وقتی یک تصمیمگیرنده انسانی، توصیههای ارائه شده توسط یک سیستم تصمیمگیری خودکار را به اطلاعات ارائه شده بدون اتوماسیون ترجیح میدهد، حتی زمانی که سیستم تصمیمگیری خودکار اشتباه کند.
برای اطلاعات بیشتر به انصاف: انواع سوگیری در دوره فشرده یادگیری ماشین مراجعه کنید.
ب
جانبداری (اخلاق/انصاف)
۱. کلیشهسازی، تعصب یا جانبداری نسبت به برخی چیزها، افراد یا گروهها نسبت به برخی دیگر. این سوگیریها میتوانند بر جمعآوری و تفسیر دادهها، طراحی سیستم و نحوه تعامل کاربران با سیستم تأثیر بگذارند. انواع این نوع سوگیری عبارتند از:
- سوگیری اتوماسیون
- سوگیری تأییدی
- سوگیری آزمایشگر
- سوگیری انتساب گروهی
- سوگیری ضمنی
- سوگیری درون گروهی
- سوگیری همگنی برونگروهی
۲. خطای سیستماتیک ناشی از یک روش نمونهگیری یا گزارشدهی. انواع این نوع سوگیری عبارتند از:
نباید با اصطلاح سوگیری در مدلهای یادگیری ماشین یا سوگیری پیشبینی اشتباه گرفته شود.
برای اطلاعات بیشتر به انصاف: انواع سوگیری در دوره فشرده یادگیری ماشین مراجعه کنید.
سی
سوگیری تأییدی
تمایل به جستجو، تفسیر، طرفداری و یادآوری اطلاعات به روشی که باورها یا فرضیههای از پیش موجود فرد را تأیید کند. توسعهدهندگان یادگیری ماشین ممکن است سهواً دادهها را به روشهایی جمعآوری یا برچسبگذاری کنند که بر نتیجهای که از باورهای موجود آنها پشتیبانی میکند، تأثیر بگذارد. سوگیری تأییدی نوعی سوگیری ضمنی است.
سوگیری آزمایشگر نوعی سوگیری تأییدی است که در آن یک آزمایشگر آموزش مدلها را تا زمانی که یک فرضیه از پیش موجود تأیید شود، ادامه میدهد.
انصاف خلاف واقع
یک معیار انصاف که بررسی میکند آیا یک مدل طبقهبندی برای یک فرد، همان نتیجهای را تولید میکند که برای فرد دیگری که با فرد اول یکسان است، تولید میکند یا خیر، مگر در مورد یک یا چند ویژگی حساس . ارزیابی یک مدل طبقهبندی برای انصاف خلاف واقع، روشی برای آشکارسازی منابع بالقوه سوگیری در یک مدل است.
برای اطلاعات بیشتر به یکی از دو روش زیر مراجعه کنید:
- انصاف: انصاف خلاف واقع در دوره فشرده یادگیری ماشین.
- وقتی جهانها با هم برخورد میکنند: ادغام فرضیات خلاف واقع مختلف در انصاف
سوگیری پوشش
دی
برابری جمعیتی
یک معیار انصاف که اگر نتایج طبقهبندی یک مدل به یک ویژگی حساس معین وابسته نباشد، برآورده میشود.
برای مثال، اگر هم لیلیپوتیها و هم برابدینگناگیها برای دانشگاه گلوبدابدریب درخواست دهند، برابری جمعیتی در صورتی حاصل میشود که درصد لیلیپوتیهای پذیرفتهشده با درصد برابدینگناگیهای پذیرفتهشده برابر باشد، صرف نظر از اینکه آیا یک گروه به طور متوسط واجد شرایطتر از گروه دیگر است یا خیر.
در مقابل، شانسهای برابر و برابری فرصتها قرار دارند که اجازه میدهند نتایج طبقهبندی در مجموع به ویژگیهای حساس وابسته باشند، اما اجازه نمیدهند نتایج طبقهبندی برای برچسبهای حقیقت پایه مشخصشده به ویژگیهای حساس وابسته باشند. برای تجسمی که به بررسی بدهبستانها هنگام بهینهسازی برابری جمعیتی میپردازد، به «حمله به تبعیض با یادگیری ماشینی هوشمندتر» مراجعه کنید.
برای اطلاعات بیشتر به بخش «انصاف: برابری جمعیتی» در دوره فشرده یادگیری ماشین مراجعه کنید.
تأثیر متفاوت
تصمیمگیری در مورد افرادی که به طور نامتناسبی بر زیرگروههای جمعیتی مختلف تأثیر میگذارند. این معمولاً به موقعیتهایی اشاره دارد که یک فرآیند تصمیمگیری الگوریتمی به برخی از زیرگروهها بیشتر از سایرین آسیب میرساند یا به آنها سود میرساند.
برای مثال، فرض کنید الگوریتمی که واجد شرایط بودن یک لیلیپوتی را برای وام خانه مینیاتوری تعیین میکند، اگر آدرس پستی آنها حاوی یک کد پستی خاص باشد، احتمال بیشتری دارد که آنها را به عنوان "فاقد شرایط لازم" طبقهبندی کند. اگر لیلیپوتیهای بیگ-اندیایی احتمال بیشتری دارد که آدرسهای پستی با این کد پستی نسبت به لیلیپوتیهای لیتل-اندیایی داشته باشند، آنگاه این الگوریتم ممکن است منجر به تأثیر متفاوتی شود.
در مقابل، رویکرد ناهمگون (dispared treatment ) بر نابرابریهایی تمرکز دارد که زمانی ایجاد میشوند که ویژگیهای زیرگروهها ورودیهای صریح یک فرآیند تصمیمگیری الگوریتمی باشند.
درمان متفاوت
فاکتورگیری ویژگیهای حساس افراد در یک فرآیند تصمیمگیری الگوریتمی به گونهای که با زیرگروههای مختلف افراد به طور متفاوتی رفتار شود.
برای مثال، الگوریتمی را در نظر بگیرید که بر اساس دادههایی که لیلیپوتیها در درخواست وام خود ارائه میدهند، واجد شرایط بودن آنها برای وام خانههای مینیاتوری را تعیین میکند. اگر الگوریتم از وابستگی یک لیلیپوتی به عنوان بیگ-اندی یا لیتل-اندی به عنوان ورودی استفاده کند، در آن بُعد، رفتار متفاوتی را اعمال میکند.
در مقابل، مفهوم تأثیر نامتجانس (disparate impact ) بر تفاوتها در تأثیرات اجتماعی تصمیمات الگوریتمی بر زیرگروهها تمرکز دارد، صرف نظر از اینکه آیا آن زیرگروهها ورودی مدل هستند یا خیر.
ای
برابری فرصتها
یک معیار انصاف برای ارزیابی اینکه آیا یک مدل، نتیجه مطلوب را برای همه مقادیر یک ویژگی حساس به طور یکسان پیشبینی میکند یا خیر. به عبارت دیگر، اگر نتیجه مطلوب برای یک مدل، کلاس مثبت باشد، هدف این است که نرخ مثبت واقعی برای همه گروهها یکسان باشد.
برابری فرصتها با شانسهای برابر مرتبط است، که مستلزم آن است که هم نرخهای مثبت واقعی و هم نرخهای مثبت کاذب برای همه گروهها یکسان باشند.
فرض کنید دانشگاه گلوبدابدریب هم لیلیپوتیها و هم برابدینگناگیها را در یک برنامه ریاضی دقیق پذیرش میکند. مدارس متوسطه لیلیپوتیها برنامه درسی قوی از کلاسهای ریاضی ارائه میدهند و اکثریت قریب به اتفاق دانشآموزان برای برنامه دانشگاهی واجد شرایط هستند. مدارس متوسطه برابدینگناگیها اصلاً کلاس ریاضی ارائه نمیدهند و در نتیجه، تعداد بسیار کمتری از دانشآموزان آنها واجد شرایط هستند. برابری فرصت برای برچسب ترجیحی «پذیرفته شده» با توجه به ملیت (لیلیپوتی یا برابدینگناگی) در صورتی برآورده میشود که دانشآموزان واجد شرایط صرف نظر از اینکه لیلیپوتی هستند یا برابدینگناگی، احتمال پذیرش یکسانی داشته باشند.
برای مثال، فرض کنید ۱۰۰ نفر از اهالی لیلیپوت و ۱۰۰ نفر از اهالی برابدینگ ناگیا برای دانشگاه گلوبدابدریب درخواست دادهاند و تصمیمات پذیرش به شرح زیر گرفته شده است:
جدول ۱. متقاضیان لیلیپوتی (۹۰٪ واجد شرایط هستند)
| واجد شرایط | فاقد صلاحیت | |
|---|---|---|
| پذیرفته شده | ۴۵ | ۳ |
| رد شد | ۴۵ | ۷ |
| مجموع | ۹۰ | ۱۰ |
| درصد دانشجویان واجد شرایط پذیرفته شده: ۴۵/۹۰ = ۵۰٪ درصد دانشجویان فاقد صلاحیت رد شده: 7/10 = 70% درصد کل دانشجویان لیلیپوتی پذیرفته شده: (45 + 3) / 100 = 48٪ | ||
جدول ۲. متقاضیان Brobdingnagian (۱۰٪ واجد شرایط هستند):
| واجد شرایط | فاقد صلاحیت | |
|---|---|---|
| پذیرفته شده | ۵ | ۹ |
| رد شد | ۵ | ۸۱ |
| مجموع | ۱۰ | ۹۰ |
| درصد دانشجویان واجد شرایط پذیرفته شده: ۵/۱۰ = ۵۰٪ درصد دانشجویان فاقد صلاحیت رد شده: ۸۱/۹۰ = ۹۰٪ درصد کل دانشجویان بروبدینگ ناگی پذیرفته شده: (5+9)/100 = 14% | ||
مثالهای قبلی برابری فرصت برای پذیرش دانشجویان واجد شرایط را برآورده میکنند، زیرا لیلیپوتیها و برابدینگناگیهای واجد شرایط هر دو 50٪ شانس پذیرش دارند.
در حالی که برابری فرصتها برقرار است، دو معیار انصاف زیر برقرار نیستند:
- برابری جمعیتی : لیلیپوتیها و برابدینگناگیها با نرخهای متفاوتی در دانشگاه پذیرفته میشوند؛ ۴۸٪ از دانشجویان لیلیپوتی پذیرفته میشوند، اما تنها ۱۴٪ از دانشجویان برابدینگناگی پذیرفته میشوند.
- شانسهای برابر : در حالی که دانشجویان لیلیپوتی واجد شرایط و برابدینگناگی هر دو شانس یکسانی برای پذیرش دارند، محدودیت اضافی مبنی بر اینکه دانشجویان لیلیپوتی و برابدینگناگی فاقد صلاحیت هر دو شانس یکسانی برای رد شدن دارند، برآورده نمیشود. نرخ رد شدن دانشجویان لیلیپوتی فاقد صلاحیت ۷۰٪ و نرخ رد شدن دانشجویان برابدینگناگی فاقد صلاحیت ۹۰٪ است.
برای اطلاعات بیشتر به دوره فشرده انصاف: برابری فرصتها در یادگیری ماشین مراجعه کنید.
ضرایب مساوی
یک معیار انصاف برای ارزیابی اینکه آیا یک مدل، نتایج را برای همه مقادیر یک ویژگی حساس ، با توجه به هر دو دسته مثبت و منفی، به طور یکسان پیشبینی میکند یا خیر - نه فقط یک دسته یا دسته دیگر به طور انحصاری. به عبارت دیگر، هم نرخ مثبت واقعی و هم نرخ منفی کاذب باید برای همه گروهها یکسان باشد.
شانسهای برابر با برابری فرصت مرتبط است، که فقط بر نرخ خطا برای یک کلاس واحد (مثبت یا منفی) تمرکز دارد.
برای مثال، فرض کنید دانشگاه گلوبدابدریب هم لیلیپوتیها و هم برابدینگناگیها را در یک برنامه ریاضی دقیق پذیرش میکند. مدارس متوسطه لیلیپوتیها برنامه درسی قوی از کلاسهای ریاضی ارائه میدهند و اکثریت قریب به اتفاق دانشآموزان برای برنامه دانشگاهی واجد شرایط هستند. مدارس متوسطه برابدینگناگیها اصلاً کلاس ریاضی ارائه نمیدهند و در نتیجه، تعداد بسیار کمتری از دانشآموزان آنها واجد شرایط هستند. شانس برابر در صورتی برقرار است که صرف نظر از اینکه متقاضی لیلیپوتی است یا برابدینگناگی، اگر واجد شرایط باشد، احتمال پذیرش در برنامه به یک اندازه باشد و اگر واجد شرایط نباشد، احتمال رد شدن او به یک اندازه باشد.
فرض کنید ۱۰۰ نفر از اهالی لیلیپوت و ۱۰۰ نفر از اهالی برابدینگ ناگی برای دانشگاه گلوبدابدریب درخواست میدهند و تصمیمات پذیرش به شرح زیر است:
جدول ۳. متقاضیان لیلیپوتی (۹۰٪ واجد شرایط هستند)
| واجد شرایط | فاقد صلاحیت | |
|---|---|---|
| پذیرفته شده | ۴۵ | ۲ |
| رد شد | ۴۵ | ۸ |
| مجموع | ۹۰ | ۱۰ |
| درصد دانشجویان واجد شرایط پذیرفته شده: ۴۵/۹۰ = ۵۰٪ درصد دانشجویان فاقد صلاحیت رد شده: ۸/۱۰ = ۸۰٪ درصد کل دانشجویان لیلیپوتی پذیرفته شده: (45+2)/100 = 47% | ||
جدول ۴. متقاضیان Brobdingnagian (۱۰٪ واجد شرایط هستند):
| واجد شرایط | فاقد صلاحیت | |
|---|---|---|
| پذیرفته شده | ۵ | ۱۸ |
| رد شد | ۵ | ۷۲ |
| مجموع | ۱۰ | ۹۰ |
| درصد دانشجویان واجد شرایط پذیرفته شده: ۵/۱۰ = ۵۰٪ درصد دانشجویان فاقد صلاحیت رد شده: ۷۲/۹۰ = ۸۰٪ درصد کل دانشجویان بروبدینگ ناگی پذیرفته شده: (5+18)/100 = 23% | ||
شانس برابر برآورده میشود، زیرا دانشجویان لیلیپوتی و برابدینگناگی واجد شرایط هر دو ۵۰٪ شانس پذیرش دارند و دانشجویان لیلیپوتی و برابدینگناگی فاقد صلاحیت ۸۰٪ احتمال رد شدن دارند.
شانسهای برابر شده به طور رسمی در «برابری فرصت در یادگیری نظارت شده» به صورت زیر تعریف شده است: «پیشبین Ŷ شانسهای برابر شده را با توجه به ویژگی محافظت شده A و نتیجه Y برآورده میکند اگر Ŷ و A مستقل و مشروط به Y باشند.»
سوگیری آزمایشگر
رجوع شود به سوگیری تأییدی .
ف
قید انصاف
اعمال یک قید بر روی یک الگوریتم برای اطمینان از برآورده شدن یک یا چند تعریف از انصاف. نمونههایی از قیدهای انصاف عبارتند از:- پسپردازش خروجی مدل شما.
- تغییر تابع زیان برای گنجاندن جریمهای برای نقض معیار انصاف .
- اضافه کردن مستقیم یک قید ریاضی به یک مسئله بهینهسازی.
معیار انصاف
تعریف ریاضی «انصاف» که قابل اندازهگیری باشد. برخی از معیارهای رایج برای سنجش انصاف عبارتند از:
بسیاری از معیارهای انصاف، ناسازگاری متقابل دارند؛ به ناسازگاری معیارهای انصاف مراجعه کنید.
جی
سوگیری انتساب گروهی
با فرض اینکه آنچه برای یک فرد صادق است، برای همه افراد آن گروه نیز صادق است. اگر از نمونهگیری در دسترس برای جمعآوری دادهها استفاده شود، اثرات سوگیری نسبت دادن گروه میتواند تشدید شود. در یک نمونه غیرنماینده، ممکن است نسبتهایی داده شود که منعکسکننده واقعیت نباشند.
همچنین به سوگیری همگنی برونگروهی و سوگیری درونگروهی مراجعه کنید. همچنین، برای اطلاعات بیشتر به انصاف: انواع سوگیری در دوره فشرده یادگیری ماشینی مراجعه کنید.
ح
سوگیری تاریخی
نوعی سوگیری که از قبل در جهان وجود داشته و به مجموعه دادهها نیز راه پیدا کرده است. این سوگیریها تمایل دارند کلیشههای فرهنگی موجود، نابرابریهای جمعیتی و تعصبات علیه گروههای اجتماعی خاص را منعکس کنند.
برای مثال، یک مدل طبقهبندی را در نظر بگیرید که پیشبینی میکند آیا یک متقاضی وام، وام خود را نکول خواهد کرد یا خیر، که بر اساس دادههای تاریخی نکول وام از دهه ۱۹۸۰ از بانکهای محلی در دو جامعه مختلف آموزش دیده است. اگر متقاضیان گذشته از جامعه A شش برابر بیشتر از متقاضیان جامعه B احتمال نکول وامهای خود را داشته باشند، مدل ممکن است یک سوگیری تاریخی را بیاموزد که منجر به احتمال کمتر تأیید وامها در جامعه A شود، حتی اگر شرایط تاریخی که منجر به نرخهای نکول بالاتر آن جامعه شده است، دیگر مرتبط نباشد.
برای اطلاعات بیشتر به انصاف: انواع سوگیری در دوره فشرده یادگیری ماشین مراجعه کنید.
من
سوگیری ضمنی
ایجاد خودکار یک ارتباط یا فرض بر اساس مدلها و خاطرات ذهنی فرد. سوگیری ضمنی میتواند موارد زیر را تحت تأثیر قرار دهد:
- نحوه جمعآوری و طبقهبندی دادهها.
- چگونه سیستمهای یادگیری ماشینی طراحی و توسعه داده میشوند.
برای مثال، هنگام ساخت یک مدل طبقهبندی برای شناسایی عکسهای عروسی، یک مهندس ممکن است از وجود لباس سفید در عکس به عنوان یک ویژگی استفاده کند. با این حال، لباس سفید فقط در دورههای خاص و در فرهنگهای خاص مرسوم بوده است.
همچنین به سوگیری تأییدی مراجعه کنید.
ناسازگاری معیارهای انصاف
این ایده که برخی از مفاهیم عدالت با هم ناسازگارند و نمیتوانند همزمان برآورده شوند. در نتیجه، هیچ معیار جهانی واحدی برای سنجش عدالت وجود ندارد که بتوان آن را برای همه مسائل یادگیری ماشینی به کار برد.
اگرچه این ممکن است دلسردکننده به نظر برسد، اما ناسازگاری معیارهای انصاف به این معنی نیست که تلاشهای انصاف بیثمر هستند. در عوض، نشان میدهد که انصاف باید برای یک مسئله یادگیری ماشینی مشخص، با هدف جلوگیری از آسیبهای خاص موارد استفاده آن، به صورت زمینهای تعریف شود.
برای بحث مفصلتر در مورد ناسازگاری معیارهای انصاف، به «درباره (عدم)امکان انصاف» مراجعه کنید.
انصاف فردی
یک معیار انصاف که بررسی میکند آیا افراد مشابه به طور مشابه طبقهبندی شدهاند یا خیر. به عنوان مثال، آکادمی بروبدینگناگیان ممکن است بخواهد با اطمینان از اینکه دو دانشآموز با نمرات و نتایج آزمون استاندارد یکسان، احتمال پذیرش یکسانی دارند، انصاف فردی را رعایت کند.
توجه داشته باشید که عدالت فردی کاملاً به نحوه تعریف شما از «شباهت» (در این مورد، نمرات و نتایج آزمون) بستگی دارد و اگر معیار شباهت شما اطلاعات مهمی (مانند دقت برنامه درسی دانشآموز) را از قلم بیندازد، میتوانید خطر بروز مشکلات جدید عدالت را به جان بخرید.
برای بحث مفصلتر در مورد انصاف فردی، به «انصاف از طریق آگاهی» مراجعه کنید.
سوگیری درون گروهی
جانبداری از گروه یا ویژگیهای خود. اگر آزمایشکنندگان یا ارزیابان از دوستان، خانواده یا همکاران توسعهدهنده یادگیری ماشین باشند، سوگیری درونگروهی ممکن است آزمایش محصول یا مجموعه دادهها را بیاعتبار کند.
سوگیری درونگروهی نوعی سوگیری نسبت دادن گروه است. همچنین به سوگیری همگنی برونگروهی مراجعه کنید.
برای اطلاعات بیشتر به انصاف: انواع سوگیری در دوره فشرده یادگیری ماشین مراجعه کنید.
ن
سوگیری عدم پاسخ
ای
سوگیری همگنی برونگروهی
تمایل به اینکه اعضای گروه بیرونی را در مقایسه با اعضای گروه درونی، بیشتر شبیه به هم ببینیم، هنگام مقایسه نگرشها، ارزشها، ویژگیهای شخصیتی و سایر ویژگیها. گروه درونی به افرادی اشاره دارد که مرتباً با آنها تعامل دارید؛ گروه بیرونی به افرادی اشاره دارد که مرتباً با آنها تعامل ندارید. اگر با درخواست از افراد برای ارائه ویژگیهایی در مورد گروههای بیرونی، یک مجموعه داده ایجاد کنید، این ویژگیها ممکن است نسبت به ویژگیهایی که شرکتکنندگان برای افراد گروه درونی خود فهرست میکنند، ظرافت کمتری داشته باشند و کلیشهایتر باشند.
برای مثال، لیلیپوتیها ممکن است خانههای لیلیپوتیهای دیگر را با جزئیات کامل توصیف کنند و به تفاوتهای کوچک در سبکهای معماری، پنجرهها، درها و اندازهها اشاره کنند. با این حال، همان لیلیپوتیها ممکن است به سادگی اعلام کنند که برابدینگناگیها همه در خانههای یکسانی زندگی میکنند.
سوگیری همگنی برونگروهی نوعی سوگیری انتساب گروهی است.
همچنین به سوگیری درون گروهی مراجعه کنید.
پ
سوگیری مشارکت
مترادف با سوگیری عدم پاسخ. به سوگیری انتخاب مراجعه کنید.
پس پردازش
تنظیم خروجی یک مدل پس از اجرای مدل. پس پردازش میتواند برای اعمال محدودیتهای انصاف بدون اصلاح خود مدلها مورد استفاده قرار گیرد.
برای مثال، میتوان با تنظیم یک آستانه طبقهبندی به گونهای که برابری فرصت برای برخی ویژگیها با بررسی اینکه نرخ مثبت واقعی برای همه مقادیر آن ویژگی یکسان است، حفظ شود، پسپردازش را بر روی یک مدل طبقهبندی دودویی اعمال کرد.
برابری پیشبینیکننده
یک معیار انصاف که بررسی میکند آیا برای یک مدل طبقهبندی معین، نرخهای دقت برای زیرگروههای مورد بررسی معادل هستند یا خیر.
برای مثال، مدلی که پذیرش دانشگاه را پیشبینی میکند، اگر نرخ دقت آن برای لیلیپوتیها و برابدینگناگیها یکسان باشد، برابری پیشبینی را برای ملیت برآورده میکند.
برابری پیشبینیکننده گاهی اوقات برابری نرخ پیشبینیکننده نیز نامیده میشود.
برای بحث مفصلتر در مورد برابری پیشبینی، به «توضیح تعاریف انصاف» (بخش 3.2.1) مراجعه کنید.
برابری نرخ پیشبینیکننده
نام دیگری برای برابری پیشبینیکننده .
پیشپردازش
پردازش دادهها قبل از استفاده برای آموزش مدل. پیشپردازش میتواند به سادگی حذف کلماتی از یک مجموعه متن انگلیسی باشد که در فرهنگ لغت انگلیسی وجود ندارند، یا میتواند به پیچیدگی بیان مجدد نقاط داده به روشی باشد که تا حد امکان ویژگیهای مرتبط با ویژگیهای حساس را حذف کند. پیشپردازش میتواند به برآورده کردن محدودیتهای انصاف کمک کند.پروکسی (ویژگیهای حساس)
ویژگیای که به عنوان جایگزین یک ویژگی حساس استفاده میشود. برای مثال، کد پستی یک فرد ممکن است به عنوان نمایندهای برای درآمد، نژاد یا قومیت او استفاده شود.ر
سوگیری گزارشدهی
این واقعیت که فراوانی نوشتن افراد در مورد اقدامات، نتایج یا ویژگیها، بازتابی از فراوانی آنها در دنیای واقعی یا میزان ویژگی یک طبقه از افراد نیست. سوگیری در گزارشدهی میتواند بر ترکیب دادههایی که سیستمهای یادگیری ماشین از آنها یاد میگیرند، تأثیر بگذارد.
برای مثال، در کتابها، کلمه «خندید» (daughed) رایجتر از «نفس کشید» (breathed) است. یک مدل یادگیری ماشینی که فراوانی نسبی خندیدن و نفس کشیدن را از یک مجموعه کتاب تخمین میزند، احتمالاً مشخص خواهد کرد که خندیدن رایجتر از نفس کشیدن است.
برای اطلاعات بیشتر به انصاف: انواع سوگیری در دوره فشرده یادگیری ماشین مراجعه کنید.
س
سوگیری نمونهگیری
سوگیری انتخاب
خطاهایی در نتیجهگیریهای حاصل از دادههای نمونهبرداری شده به دلیل فرآیند انتخابی که تفاوتهای سیستماتیکی بین نمونههای مشاهده شده در دادهها و نمونههای مشاهده نشده ایجاد میکند. اشکال زیر از سوگیری انتخاب وجود دارد:
- سوگیری پوشش : جمعیت نمایش داده شده در مجموعه دادهها با جمعیتی که مدل یادگیری ماشین در مورد آنها پیشبینی میکند، مطابقت ندارد.
- سوگیری نمونهگیری : دادهها به طور تصادفی از گروه هدف جمعآوری نمیشوند.
- سوگیری عدم پاسخ ( که سوگیری مشارکت نیز نامیده میشود): کاربران گروههای خاص با نرخهای متفاوتی نسبت به کاربران گروههای دیگر از نظرسنجیها انصراف میدهند.
برای مثال، فرض کنید در حال ایجاد یک مدل یادگیری ماشینی هستید که میزان لذت بردن افراد از یک فیلم را پیشبینی میکند. برای جمعآوری دادههای آموزشی، یک نظرسنجی را بین همه افراد حاضر در ردیف اول سینما که فیلم را نمایش میدهد، پخش میکنید. در نگاه اول، این ممکن است روشی معقول برای جمعآوری مجموعه دادهها به نظر برسد؛ با این حال، این شکل از جمعآوری دادهها ممکن است اشکال زیر از سوگیری انتخاب را ایجاد کند:
- سوگیری پوشش: با نمونهگیری از جمعیتی که تصمیم به دیدن فیلم گرفتهاند، پیشبینیهای مدل شما ممکن است به افرادی که قبلاً آن سطح از علاقه را به فیلم ابراز نکردهاند، تعمیم داده نشود.
- سوگیری نمونهگیری: به جای نمونهگیری تصادفی از جمعیت مورد نظر (همه افراد حاضر در سینما)، شما فقط از افراد ردیف جلو نمونهگیری کردید. این امکان وجود دارد که افرادی که در ردیف جلو نشسته بودند، نسبت به افراد ردیفهای دیگر به فیلم علاقهمندتر بودند.
- سوگیری عدم پاسخ: به طور کلی، افرادی که نظرات قوی دارند، بیشتر از افرادی که نظرات ملایمی دارند، به نظرسنجیهای اختیاری پاسخ میدهند. از آنجایی که نظرسنجی فیلم اختیاری است، احتمال اینکه پاسخها توزیع دووجهی داشته باشند بیشتر از توزیع نرمال (زنگشکل) است.
ویژگی حساس
یک ویژگی انسانی که ممکن است به دلایل قانونی، اخلاقی، اجتماعی یا شخصی مورد توجه ویژه قرار گیرد.یو
unawareness (to a sensitive attribute)
A situation in which sensitive attributes are present, but not included in the training data. Because sensitive attributes are often correlated with other attributes of one's data, a model trained with unawareness about a sensitive attribute could still have disparate impact with respect to that attribute, or violate other fairness constraints .