طبقه بندی: درک خود را بررسی کنید (دقت، دقت، یادآوری)

دقت

گزینه های زیر را بررسی کنید.

در کدام یک از سناریوهای زیر یک مقدار دقت بالا نشان می دهد که مدل ML کار خوبی انجام می دهد؟
یک وضعیت پزشکی کشنده، اما قابل درمان، 0.01٪ از جمعیت را مبتلا می کند. یک مدل ML از علائم به عنوان ویژگی استفاده می کند و این بیماری را با دقت 99.99% پیش بینی می کند.
دقت در اینجا یک معیار ضعیف است. از این گذشته، حتی یک مدل "گنگ" که همیشه "بیمار نیست" را پیش بینی می کند، باز هم 99.99٪ دقیق است. پیش‌بینی اشتباه «بیمار نیست» برای فردی که واقعاً بیمار است می‌تواند کشنده باشد.
یک جوجه رباتیک گران قیمت روزی هزار بار از یک جاده بسیار شلوغ عبور می کند. یک مدل ML الگوهای ترافیکی را ارزیابی می‌کند و پیش‌بینی می‌کند که این مرغ چه زمانی می‌تواند با دقت 99.99 درصد از خیابان عبور کند.
مقدار دقت 99.99 درصد در جاده های بسیار شلوغ به شدت نشان می دهد که مدل ML به مراتب بهتر از شانس است. با این حال، در برخی تنظیمات، هزینه مرتکب شدن حتی تعداد کمی از اشتباهات همچنان بسیار بالاست. دقت 99.99 درصد به این معنی است که مرغ گران قیمت به طور متوسط ​​هر 10 روز یکبار باید تعویض شود. (مرغ همچنین ممکن است به ماشین هایی که برخورد می کند آسیب زیادی وارد کند.)
در بازی رولت، یک توپ روی یک چرخ چرخان رها می شود و در نهایت در یکی از 38 اسلات فرود می آید. با استفاده از ویژگی‌های بصری (چرخش توپ، موقعیت چرخ هنگام انداختن توپ، ارتفاع توپ روی چرخ)، یک مدل ML می‌تواند شکافی که توپ در آن فرود می‌آید را با دقت 4% پیش‌بینی کند. .
این مدل ML به مراتب بهتر از شانس پیش بینی می کند. یک حدس تصادفی در 1/38 مواقع درست خواهد بود - با دقت 2.6٪. اگرچه دقت این مدل «تنها» 4 درصد است، مزایای موفقیت بسیار بیشتر از مضرات شکست است.

دقت، درستی

گزینه های زیر را بررسی کنید.

یک مدل طبقه بندی را در نظر بگیرید که ایمیل را به دو دسته تقسیم می کند: "هرزنامه" یا "غیر هرزنامه". اگر آستانه طبقه بندی را افزایش دهید، چه اتفاقی برای دقت می افتد؟
قطعا افزایش می یابد.
افزایش آستانه طبقه بندی معمولاً دقت را افزایش می دهد. با این حال، با افزایش آستانه، دقت تضمین نمی شود که به طور یکنواخت افزایش یابد.
احتمالا افزایش یابد.
به طور کلی، بالا بردن آستانه طبقه بندی، مثبت کاذب را کاهش می دهد و در نتیجه دقت را افزایش می دهد.
احتمالا کاهش یافته است.
به طور کلی، بالا بردن آستانه طبقه بندی، مثبت کاذب را کاهش می دهد و در نتیجه دقت را افزایش می دهد.
قطعا کاهش می یابد.
به طور کلی، بالا بردن آستانه طبقه بندی، مثبت کاذب را کاهش می دهد و در نتیجه دقت را افزایش می دهد.

به خاطر آوردن

گزینه های زیر را بررسی کنید.

یک مدل طبقه بندی را در نظر بگیرید که ایمیل را به دو دسته تقسیم می کند: "هرزنامه" یا "غیر هرزنامه". اگر آستانه طبقه بندی را افزایش دهید، برای یادآوری چه اتفاقی می افتد؟
همیشه افزایش دهید.
افزایش آستانه طبقه بندی باعث هر دو مورد زیر می شود:
  • تعداد موارد مثبت واقعی کاهش می یابد یا ثابت می ماند.
  • تعداد منفی های کاذب افزایش می یابد یا ثابت می ماند.
بنابراین، یادآوری هرگز افزایش نخواهد یافت.
همیشه کم کنید یا ثابت بمانید.
بالا بردن آستانه طبقه بندی ما باعث می شود تعداد مثبت های واقعی کاهش یا ثابت بماند و باعث افزایش یا ثابت ماندن تعداد منفی های کاذب می شود. بنابراین، یادآوری یا ثابت می ماند یا کاهش می یابد.
همیشه ثابت بمان.
بالا بردن آستانه طبقه بندی ما باعث می شود تعداد مثبت های واقعی کاهش یا ثابت بماند و باعث افزایش یا ثابت ماندن تعداد منفی های کاذب می شود. بنابراین، یادآوری یا ثابت می ماند یا کاهش می یابد.

دقت و یادآوری

گزینه های زیر را بررسی کنید.

دو مدل A و B را در نظر بگیرید که هر کدام یک مجموعه داده را ارزیابی می کنند. کدام یک از عبارات زیر صحیح است؟
اگر دقت مدل A بهتر از مدل B باشد، مدل A بهتر است.
در حالی که دقت بهتر خوب است، ممکن است به قیمت کاهش قابل توجه در یادآوری باشد. به طور کلی، باید دقت و یادآوری را با هم بررسی کنیم، یا معیارهای خلاصه مانند AUC که در ادامه در مورد آن صحبت خواهیم کرد.
اگر مدل A فراخوان بهتری نسبت به مدل B داشته باشد، مدل A بهتر است.
در حالی که یادآوری بهتر خوب است، ممکن است به قیمت کاهش زیاد دقت تمام شود. به طور کلی، باید دقت و یادآوری را با هم بررسی کنیم یا معیارهای خلاصه مانند AUC که در ادامه در مورد آن صحبت خواهیم کرد.
اگر مدل A دقت و یادآوری بهتری نسبت به مدل B داشته باشد، احتمالاً مدل A بهتر است.
به طور کلی، مدلی که هم از نظر دقت و هم از نظر فراخوانی از مدل دیگری بهتر عمل می کند، احتمالاً مدل بهتری است. بدیهی است که ما باید مطمئن شویم که مقایسه در نقطه ای دقیق / یادآوری انجام می شود که در عمل برای معنی دار بودن آن مفید است. به عنوان مثال، فرض کنید مدل تشخیص هرزنامه ما باید حداقل 90 درصد دقت داشته باشد تا مفید باشد و از هشدارهای نادرست غیر ضروری جلوگیری کند. در این مورد، مقایسه یک مدل با دقت {20%، فراخوانی 99%} با مدل دیگر با دقت {15%، فراخوانی 98%} بسیار آموزنده نیست، زیرا هیچ یک از مدل‌ها الزامات دقت 90% را برآورده نمی‌کنند. اما با در نظر گرفتن این اخطار، این راه خوبی برای فکر کردن به مقایسه مدل ها هنگام استفاده از دقت و یادآوری است.