دقت
گزینه های زیر را بررسی کنید.
در کدام یک از سناریوهای زیر یک مقدار دقت بالا نشان می دهد که مدل ML کار خوبی انجام می دهد؟
یک وضعیت پزشکی کشنده، اما قابل درمان، 0.01٪ از جمعیت را مبتلا می کند. یک مدل ML از علائم به عنوان ویژگی استفاده می کند و این بیماری را با دقت 99.99% پیش بینی می کند.
دقت در اینجا یک معیار ضعیف است. از این گذشته، حتی یک مدل "گنگ" که همیشه "بیمار نیست" را پیش بینی می کند، باز هم 99.99٪ دقیق است. پیشبینی اشتباه «بیمار نیست» برای فردی که واقعاً بیمار است میتواند کشنده باشد.
یک جوجه رباتیک گران قیمت روزی هزار بار از یک جاده بسیار شلوغ عبور می کند. یک مدل ML الگوهای ترافیکی را ارزیابی میکند و پیشبینی میکند که این مرغ چه زمانی میتواند با دقت 99.99 درصد از خیابان عبور کند.
مقدار دقت 99.99 درصد در جاده های بسیار شلوغ به شدت نشان می دهد که مدل ML به مراتب بهتر از شانس است. با این حال، در برخی تنظیمات، هزینه مرتکب شدن حتی تعداد کمی از اشتباهات همچنان بسیار بالاست. دقت 99.99 درصد به این معنی است که مرغ گران قیمت به طور متوسط هر 10 روز یکبار باید تعویض شود. (مرغ همچنین ممکن است به ماشین هایی که برخورد می کند آسیب زیادی وارد کند.)
در بازی رولت، یک توپ روی یک چرخ چرخان رها می شود و در نهایت در یکی از 38 اسلات فرود می آید. با استفاده از ویژگیهای بصری (چرخش توپ، موقعیت چرخ هنگام انداختن توپ، ارتفاع توپ روی چرخ)، یک مدل ML میتواند شکافی که توپ در آن فرود میآید را با دقت 4% پیشبینی کند. .
این مدل ML به مراتب بهتر از شانس پیش بینی می کند. یک حدس تصادفی در 1/38 مواقع درست خواهد بود - با دقت 2.6٪. اگرچه دقت این مدل «تنها» 4 درصد است، مزایای موفقیت بسیار بیشتر از مضرات شکست است.
دقت، درستی
گزینه های زیر را بررسی کنید.
یک مدل طبقه بندی را در نظر بگیرید که ایمیل را به دو دسته تقسیم می کند: "هرزنامه" یا "غیر هرزنامه". اگر آستانه طبقه بندی را افزایش دهید، چه اتفاقی برای دقت می افتد؟
قطعا افزایش می یابد.
افزایش آستانه طبقه بندی معمولاً دقت را افزایش می دهد. با این حال، با افزایش آستانه، دقت تضمین نمی شود که به طور یکنواخت افزایش یابد.
احتمالا افزایش یابد.
به طور کلی، بالا بردن آستانه طبقه بندی، مثبت کاذب را کاهش می دهد و در نتیجه دقت را افزایش می دهد.
احتمالا کاهش یافته است.
به طور کلی، بالا بردن آستانه طبقه بندی، مثبت کاذب را کاهش می دهد و در نتیجه دقت را افزایش می دهد.
قطعا کاهش می یابد.
به طور کلی، بالا بردن آستانه طبقه بندی، مثبت کاذب را کاهش می دهد و در نتیجه دقت را افزایش می دهد.
به خاطر آوردن
گزینه های زیر را بررسی کنید.
یک مدل طبقه بندی را در نظر بگیرید که ایمیل را به دو دسته تقسیم می کند: "هرزنامه" یا "غیر هرزنامه". اگر آستانه طبقه بندی را افزایش دهید، برای یادآوری چه اتفاقی می افتد؟
همیشه افزایش دهید.
افزایش آستانه طبقه بندی باعث هر دو مورد زیر می شود:
- تعداد موارد مثبت واقعی کاهش می یابد یا ثابت می ماند.
- تعداد منفی های کاذب افزایش می یابد یا ثابت می ماند.
همیشه کم کنید یا ثابت بمانید.
بالا بردن آستانه طبقه بندی ما باعث می شود تعداد مثبت های واقعی کاهش یا ثابت بماند و باعث افزایش یا ثابت ماندن تعداد منفی های کاذب می شود. بنابراین، یادآوری یا ثابت می ماند یا کاهش می یابد.
همیشه ثابت بمان.
بالا بردن آستانه طبقه بندی ما باعث می شود تعداد مثبت های واقعی کاهش یا ثابت بماند و باعث افزایش یا ثابت ماندن تعداد منفی های کاذب می شود. بنابراین، یادآوری یا ثابت می ماند یا کاهش می یابد.
دقت و یادآوری
گزینه های زیر را بررسی کنید.
دو مدل A و B را در نظر بگیرید که هر کدام یک مجموعه داده را ارزیابی می کنند. کدام یک از عبارات زیر صحیح است؟
اگر دقت مدل A بهتر از مدل B باشد، مدل A بهتر است.
در حالی که دقت بهتر خوب است، ممکن است به قیمت کاهش قابل توجه در یادآوری باشد. به طور کلی، باید دقت و یادآوری را با هم بررسی کنیم، یا معیارهای خلاصه مانند AUC که در ادامه در مورد آن صحبت خواهیم کرد.
اگر مدل A فراخوان بهتری نسبت به مدل B داشته باشد، مدل A بهتر است.
در حالی که یادآوری بهتر خوب است، ممکن است به قیمت کاهش زیاد دقت تمام شود. به طور کلی، باید دقت و یادآوری را با هم بررسی کنیم یا معیارهای خلاصه مانند AUC که در ادامه در مورد آن صحبت خواهیم کرد.
اگر مدل A دقت و یادآوری بهتری نسبت به مدل B داشته باشد، احتمالاً مدل A بهتر است.
به طور کلی، مدلی که هم از نظر دقت و هم از نظر فراخوانی از مدل دیگری بهتر عمل می کند، احتمالاً مدل بهتری است. بدیهی است که ما باید مطمئن شویم که مقایسه در نقطه ای دقیق / یادآوری انجام می شود که در عمل برای معنی دار بودن آن مفید است. به عنوان مثال، فرض کنید مدل تشخیص هرزنامه ما باید حداقل 90 درصد دقت داشته باشد تا مفید باشد و از هشدارهای نادرست غیر ضروری جلوگیری کند. در این مورد، مقایسه یک مدل با دقت {20%، فراخوانی 99%} با مدل دیگر با دقت {15%، فراخوانی 98%} بسیار آموزنده نیست، زیرا هیچ یک از مدلها الزامات دقت 90% را برآورده نمیکنند. اما با در نظر گرفتن این اخطار، این راه خوبی برای فکر کردن به مقایسه مدل ها هنگام استفاده از دقت و یادآوری است.