طبقه بندی: دقت و یادآوری

دقت، درستی

Precision تلاش می کند به سؤال زیر پاسخ دهد:

چه نسبتی از شناسایی های مثبت واقعا درست بود؟

دقت به صورت زیر تعریف می شود:

$$\text{Precision} = \frac{TP}{TP+FP}$$

بیایید دقت را برای مدل ML خود از بخش قبلی که تومورها را تجزیه و تحلیل می‌کند محاسبه کنیم:

مثبت واقعی (TPs): 1 مثبت کاذب (FPs): 1
منفی های کاذب (FNs): 8 منفی واقعی (TNs): 90
$$\text{Precision} = \frac{TP}{TP+FP} = \frac{1}{1+1} = 0.5$$

دقت مدل ما 0.5 است - به عبارت دیگر، وقتی تومور بدخیم را پیش‌بینی می‌کند، در 50 درصد مواقع درست است.

به خاطر آوردن

تلاش برای پاسخ به سوال زیر را به یاد بیاورید :

چه نسبتی از موارد مثبت واقعی به درستی شناسایی شد؟

از نظر ریاضی، یادآوری به صورت زیر تعریف می شود:

$$\text{Recall} = \frac{TP}{TP+FN}$$

بیایید یادآوری را برای طبقه‌بندی‌کننده تومور خود محاسبه کنیم:

مثبت واقعی (TPs): 1 مثبت کاذب (FPs): 1
منفی های کاذب (FNs): 8 منفی واقعی (TNs): 90
$$\text{Recall} = \frac{TP}{TP+FN} = \frac{1}{1+8} = 0.11$$

مدل ما فراخوانی 0.11 دارد - به عبارت دیگر، 11٪ از تمام تومورهای بدخیم را به درستی شناسایی می کند.

دقت و یادآوری: طناب کشی

برای ارزیابی کامل اثربخشی یک مدل، باید دقت و یادآوری را بررسی کنید. متأسفانه، دقت و یادآوری اغلب در تنش هستند. یعنی بهبود دقت معمولاً یادآوری را کاهش می دهد و بالعکس. این مفهوم را با نگاه کردن به شکل زیر که 30 پیش‌بینی انجام شده توسط یک مدل طبقه‌بندی ایمیل را نشان می‌دهد، بررسی کنید. مواردی که در سمت راست آستانه طبقه بندی قرار دارند به عنوان "هرزنامه" طبقه بندی می شوند، در حالی که آنهایی که در سمت چپ قرار دارند به عنوان "غیر هرزنامه" طبقه بندی می شوند.

یک خط اعداد از 0 تا 1.0 که 30 نمونه روی آن قرار داده شده است.

شکل 1. طبقه بندی پیام های ایمیل به عنوان هرزنامه یا غیر هرزنامه.

بیایید دقت و یادآوری را بر اساس نتایج نشان داده شده در شکل 1 محاسبه کنیم:

مثبت واقعی (TP): 8 مثبت کاذب (FP): 2
منفی های کاذب (FN): 3 منفی واقعی (TN): 17

دقت، درصد ایمیل‌هایی را که به‌عنوان هرزنامه پرچم‌گذاری شده‌اند و به درستی طبقه‌بندی شده‌اند، اندازه‌گیری می‌کند - یعنی درصد نقاط سمت راست خط آستانه که در شکل 1 سبز هستند:

$$\text{Precision} = \frac{TP}{TP + FP} = \frac{8}{8+2} = 0.8$$

Recall درصد ایمیل‌های هرزنامه واقعی را که به درستی طبقه‌بندی شده‌اند، اندازه‌گیری می‌کند - یعنی درصد نقاط سبز رنگی که در سمت راست خط آستانه در شکل 1 قرار دارند:

$$\text{Recall} = \frac{TP}{TP + FN} = \frac{8}{8 + 3} = 0.73$$

شکل 2 اثر افزایش آستانه طبقه بندی را نشان می دهد.

مجموعه‌ای از نمونه‌ها، اما با آستانه طبقه‌بندی کمی افزایش یافت. 2 نمونه از 30 نمونه مجدداً طبقه بندی شده اند.

شکل 2. افزایش آستانه طبقه بندی.

تعداد موارد مثبت کاذب کاهش می یابد، اما منفی کاذب افزایش می یابد. در نتیجه، دقت افزایش می یابد، در حالی که یادآوری کاهش می یابد:

مثبت واقعی (TP): 7 مثبت کاذب (FP): 1
منفی های کاذب (FN): 4 منفی های واقعی (TN): 18
$$\text{Precision} = \frac{TP}{TP + FP} = \frac{7}{7+1} = 0.88$$$$\text{Recall} = \frac{TP}{TP + FN} = \frac{7}{7 + 4} = 0.64$$

برعکس، شکل 3 اثر کاهش آستانه طبقه بندی (از موقعیت اصلی آن در شکل 1) را نشان می دهد.

مجموعه ای از نمونه ها، اما با کاهش آستانه طبقه بندی.

شکل 3. کاهش آستانه طبقه بندی.

مثبت کاذب افزایش می یابد و منفی کاذب کاهش می یابد. در نتیجه، این بار، دقت کاهش می یابد و یادآوری افزایش می یابد:

مثبت واقعی (TP): 9 مثبت کاذب (FP): 3
منفی های کاذب (FN): 2 منفی های واقعی (TN): 16
$$\text{Precision} = \frac{TP}{TP + FP} = \frac{9}{9+3} = 0.75$$$$\text{Recall} = \frac{TP}{TP + FN} = \frac{9}{9 + 2} = 0.82$$

معیارهای مختلفی توسعه یافته اند که هم بر دقت و هم به یادآوری تکیه دارند. برای مثال، امتیاز F1 را ببینید.