مدل ها را با استفاده از متریک ارزیابی کنید

در حالی که اشکال زدایی یک مدل ML می تواند دلهره آور به نظر برسد، معیارهای مدل به شما نشان می دهند که از کجا شروع کنید. در بخش‌های زیر نحوه ارزیابی عملکرد با استفاده از معیارها بحث می‌شود.

کیفیت را با استفاده از معیارهای مدل ارزیابی کنید

برای ارزیابی کیفیت مدل خود، معیارهای رایج مورد استفاده عبارتند از:

برای راهنمایی در مورد تفسیر این معیارها، محتوای پیوندی را از «محتوای خرابی یادگیری ماشین» بخوانید. برای راهنمایی بیشتر در مورد مشکلات خاص، جدول زیر را ببینید.

مسئله ارزیابی کیفیت
پسرفت علاوه بر کاهش میانگین مربع خطای مطلق (MSE)، MSE خود را نسبت به مقادیر برچسب خود کاهش دهید. به عنوان مثال، فرض کنید که قیمت دو مورد را پیش‌بینی می‌کنید که قیمت‌های میانگین آنها 5 و 100 است. در هر دو مورد، MSE شما 5 است. در حالت اول، MSE 100٪ میانگین قیمت شما است، که به وضوح یک خطای بزرگ در حالت دوم، MSE 5 درصد از میانگین قیمت شما است که یک خطای منطقی است.
طبقه بندی چند طبقه اگر تعداد کمی از کلاس ها را پیش بینی می کنید، به معیارهای هر کلاس به صورت جداگانه نگاه کنید. هنگام پیش‌بینی در بسیاری از کلاس‌ها، می‌توانید معیارهای هر کلاس را برای ردیابی معیارهای طبقه‌بندی کلی میانگین بگیرید. از طرف دیگر، می توانید بسته به نیاز خود اهداف کیفیت خاصی را اولویت بندی کنید. برای مثال، اگر در حال طبقه‌بندی اشیاء در تصاویر هستید، ممکن است کیفیت طبقه‌بندی افراد را بر سایر اشیاء اولویت دهید.

معیارها را برای برش های داده مهم بررسی کنید

بعد از اینکه مدلی با کیفیت بالا داشتید، ممکن است مدل شما همچنان در زیرمجموعه های داده های شما ضعیف عمل کند. به عنوان مثال، پیش بینی کننده تکشاخ شما باید هم در صحرای صحرا و هم در شهر نیویورک و در تمام اوقات روز به خوبی پیش بینی کند. با این حال، شما داده های آموزشی کمتری برای صحرای صحرا دارید. بنابراین، شما می خواهید کیفیت مدل را به طور خاص برای صحرای صحرا ردیابی کنید. چنین زیرمجموعه‌ای از داده‌ها، مانند زیرمجموعه مربوط به صحرای صحرا، برش داده نامیده می‌شوند. شما باید به طور جداگانه برش های داده را در جایی که عملکرد مهم است یا مدل شما ممکن است ضعیف عمل کند نظارت کنید.

از درک خود از داده ها برای شناسایی برش های داده مورد علاقه استفاده کنید. سپس معیارهای مدل برای برش های داده را با معیارهای کل مجموعه داده خود مقایسه کنید. بررسی عملکرد مدل شما در تمام برش های داده به حذف سوگیری کمک می کند. برای اطلاعات بیشتر، به Fairness: Evaluating for Bias مراجعه کنید.

از معیارهای دنیای واقعی استفاده کنید

معیارهای مدل لزوماً تأثیر مدل شما را در دنیای واقعی اندازه گیری نمی کنند. به عنوان مثال، ممکن است یک هایپرپارامتر را تغییر دهید و AUC خود را افزایش دهید، اما این تغییر چه تاثیری بر تجربه کاربر داشت؟ برای اندازه‌گیری تأثیر دنیای واقعی، باید معیارهای جداگانه‌ای تعریف کنید. به عنوان مثال، می‌توانید از کاربرانی که پیش‌بینی ظاهر اسب شاخدار را می‌بینند، نظرسنجی کنید تا بررسی کنید که آیا یک تکشاخ دیده‌اند یا نه. اندازه گیری تاثیر دنیای واقعی به مقایسه کیفیت تکرارهای مختلف مدل شما کمک می کند.