طبقه بندی

این ماژول نشان می‌دهد که چگونه می‌توان از رگرسیون لجستیک برای کارهای طبقه‌بندی استفاده کرد، و چگونگی ارزیابی اثربخشی مدل‌های طبقه‌بندی را بررسی می‌کند.

طبقه بندی

  • گاهی اوقات، ما از رگرسیون لجستیک برای خروجی های احتمال استفاده می کنیم - این یک رگرسیون در (0، 1) است.
  • در زمان‌های دیگر، مقدار یک طبقه‌بندی باینری گسسته را در آستانه تعیین می‌کنیم
  • انتخاب آستانه انتخاب مهمی است و می توان آن را تنظیم کرد
  • چگونه مدل های طبقه بندی را ارزیابی می کنیم؟
  • چگونه مدل های طبقه بندی را ارزیابی می کنیم؟
  • یک معیار ممکن: دقت
    • کسری از پیش بینی های ما درست بود
  • در بسیاری از موارد، دقت یک معیار ضعیف یا گمراه کننده است
    • اغلب زمانی که انواع اشتباهات هزینه های متفاوتی دارند
    • مورد معمولی شامل عدم تعادل طبقاتی است، زمانی که موارد مثبت یا منفی بسیار نادر هستند
  • برای مشکلات کلاس نامتعادل، برای تفکیک انواع مختلف خطاها مفید است
نکات مثبت واقعی
ما به درستی به نام گرگ!
ما شهر را نجات دادیم.

مثبت های کاذب
خطا: ما به دروغ به گرگ زنگ زدیم.
همه از ما عصبانی هستند.

منفی های کاذب
یک گرگ بود، اما ما متوجه نشدیم. همه جوجه های ما را خورد.
منفی های واقعی
نه گرگ، نه زنگ خطر.
همه خوبن

  • دقت: (مثبت های واقعی) / (همه پیش بینی های مثبت)
    • وقتی مدل گفت کلاس "مثبت" درست بود؟
    • شهود: آیا مدل خیلی اوقات گریه "گرگ" می کرد؟
  • دقت: (مثبت های واقعی) / (همه پیش بینی های مثبت)
    • وقتی مدل گفت کلاس "مثبت" درست بود؟
    • شهود: آیا مدل خیلی اوقات گریه "گرگ" می کرد؟
  • یادآوری : (مثبت واقعی) / (همه موارد مثبت واقعی)
    • از بین تمام نکات مثبت ممکن، مدل چند مورد را به درستی شناسایی کرد؟
    • شهود: آیا هیچ گرگ را از دست داده است؟

گزینه های زیر را بررسی کنید.

یک مدل طبقه بندی را در نظر بگیرید که ایمیل را به دو دسته تقسیم می کند: "هرزنامه" یا "غیر هرزنامه". اگر آستانه طبقه بندی را افزایش دهید، چه اتفاقی برای دقت می افتد؟
قطعا افزایش می یابد.
افزایش آستانه طبقه بندی معمولاً دقت را افزایش می دهد. با این حال، با افزایش آستانه، دقت تضمین نمی شود که به طور یکنواخت افزایش یابد.
احتمالا افزایش یابد.
به طور کلی، بالا بردن آستانه طبقه بندی، مثبت کاذب را کاهش می دهد و در نتیجه دقت را افزایش می دهد.
احتمالا کاهش یافته است.
به طور کلی، بالا بردن آستانه طبقه بندی، مثبت کاذب را کاهش می دهد و در نتیجه دقت را افزایش می دهد.
قطعا کاهش می یابد.
به طور کلی، بالا بردن آستانه طبقه بندی، مثبت کاذب را کاهش می دهد و در نتیجه دقت را افزایش می دهد.

هر نقطه نرخ TP و FP در یک آستانه تصمیم گیری است.

منحنی ROC که نرخ TP در مقابل نرخ FP را در آستانه های طبقه بندی مختلف نشان می دهد.
  • AUC: "ناحیه زیر منحنی ROC"
  • AUC: "ناحیه زیر منحنی ROC"
  • تفسیر:
    • اگر یک مثبت تصادفی و یک منفی تصادفی انتخاب کنیم، احتمال اینکه مدل من آنها را به ترتیب صحیح رتبه بندی کند چقدر است؟
  • AUC: "ناحیه زیر منحنی ROC"
  • تفسیر:
    • اگر یک مثبت تصادفی و یک منفی تصادفی انتخاب کنیم، احتمال اینکه مدل من آنها را به ترتیب صحیح رتبه بندی کند چقدر است؟
  • شهود: یک معیار کلی از عملکرد جمع آوری شده در تمام آستانه های طبقه بندی ممکن را ارائه می دهد.
  • پیش‌بینی‌های رگرسیون لجستیک باید بی‌طرفانه باشد.
    • میانگین پیش بینی ها == میانگین مشاهدات
  • پیش‌بینی‌های رگرسیون لجستیک باید بی‌طرفانه باشد.
    • میانگین پیش بینی ها == میانگین مشاهدات
  • تعصب قناری است.
    • سوگیری صفر به تنهایی به این معنی نیست که همه چیز در سیستم شما کامل است.
    • اما این یک بررسی سلامت عقل عالی است.
  • اگر تعصب دارید، مشکل دارید.
    • مجموعه ویژگی های ناقص؟
    • خط لوله باگ؟
    • نمونه آموزش مغرضانه؟
  • بایاس را با لایه کالیبراسیون رفع نکنید، آن را در مدل ثابت کنید.
  • به دنبال سوگیری در تکه‌های داده بگردید - این می‌تواند به بهبودها کمک کند.
طرح کالیبراسیون