انصاف: ارزیابی برای تعصب

هنگام ارزیابی یک مدل، معیارهای محاسبه شده در برابر کل تست یا مجموعه اعتبارسنجی، همیشه تصویر دقیقی از منصفانه بودن مدل ارائه نمی دهد.

مدل جدیدی را در نظر بگیرید که برای پیش‌بینی وجود تومورها توسعه یافته است که بر اساس مجموعه اعتبارسنجی 1000 پرونده پزشکی بیمار ارزیابی می‌شود. 500 پرونده مربوط به بیماران زن و 500 پرونده مربوط به بیماران مرد است. ماتریس سردرگمی زیر نتایج همه 1000 مثال را خلاصه می کند:

مثبت واقعی (TPs): 16 مثبت کاذب (FPs): 4
منفی های کاذب (FNs): 6 منفی واقعی (TNs): 974
$$\text{Precision} = \frac{TP}{TP+FP} = \frac{16}{16+4} = 0.800$$
$$\text{Recall} = \frac{TP}{TP+FN} = \frac{16}{16+6} = 0.727$$

این نتایج امیدوارکننده به نظر می رسند: دقت 80% و فراخوانی 72.7%. اما اگر نتیجه را برای هر مجموعه از بیماران جداگانه محاسبه کنیم چه اتفاقی می افتد؟ بیایید نتایج را به دو ماتریس سردرگمی جداگانه تقسیم کنیم: یکی برای بیماران زن و دیگری برای بیماران مرد.

نتایج بیماران زن

مثبت واقعی (TPs): 10 مثبت کاذب (FPs): 1
منفی های کاذب (FN): 1 منفی واقعی (TNs): 488
$$\text{Precision} = \frac{TP}{TP+FP} = \frac{10}{10+1} = 0.909$$
$$\text{Recall} = \frac{TP}{TP+FN} = \frac{10}{10+1} = 0.909$$

نتایج بیماران مرد

مثبت واقعی (TPs): 6 مثبت کاذب (FPs): 3
منفی های کاذب (FNs): 5 منفی واقعی (TNs): 486
$$\text{Precision} = \frac{TP}{TP+FP} = \frac{6}{6+3} = 0.667$$
$$\text{Recall} = \frac{TP}{TP+FN} = \frac{6}{6+5} = 0.545$$

هنگامی که معیارها را به طور جداگانه برای بیماران زن و مرد محاسبه می کنیم، تفاوت های فاحشی را در عملکرد مدل برای هر گروه مشاهده می کنیم.

بیماران زن:

  • از 11 بیمار زن که واقعاً تومور دارند، مدل به درستی برای 10 بیمار مثبت پیش بینی می کند (نرخ یادآوری: 90.9٪). به عبارت دیگر، مدل تشخیص تومور را در 9.1 درصد موارد زن از دست می دهد.

  • به طور مشابه، هنگامی که مدل برای تومور در بیماران زن مثبت است، در 10 مورد از 11 مورد صحیح است (نرخ دقت: 90.9٪). به عبارت دیگر، مدل به اشتباه تومور را در 9.1 درصد از موارد زنان پیش بینی می کند .

بیماران مرد:

  • با این حال، از 11 بیمار مردی که واقعاً تومور دارند، مدل به درستی تنها برای 6 بیمار مثبت را پیش‌بینی می‌کند (نرخ یادآوری: 54.5٪). این بدان معناست که این مدل تشخیص تومور را در 45.5 درصد موارد مرد از دست می دهد.

  • و هنگامی که مدل برای تومور در بیماران مرد مثبت شد، تنها در 6 مورد از 9 مورد صحیح است (نرخ دقت: 66.7٪). به عبارت دیگر، مدل به اشتباه تومور را در 33.3 درصد از موارد مرد پیش بینی می کند .

ما اکنون درک بسیار بهتری از سوگیری‌های ذاتی پیش‌بینی‌های مدل و همچنین خطرات هر زیرگروه در صورت انتشار مدل برای استفاده پزشکی در جمعیت عمومی داریم.

منابع اضافی انصاف

انصاف یک زیرشاخه نسبتاً جدید در رشته یادگیری ماشینی است. برای کسب اطلاعات بیشتر در مورد تحقیقات و ابتکارات اختصاص داده شده به توسعه ابزارها و تکنیک های جدید برای شناسایی و کاهش تعصب در مدل های یادگیری ماشین،صفحه منابع منصفانه یادگیری ماشین Google .