در حالی که اشکال زدایی یک مدل ML می تواند دلهره آور به نظر برسد، معیارهای مدل به شما نشان می دهند که از کجا شروع کنید. در بخشهای زیر نحوه ارزیابی عملکرد با استفاده از معیارها بحث میشود.
کیفیت را با استفاده از معیارهای مدل ارزیابی کنید
برای ارزیابی کیفیت مدل خود، معیارهای رایج مورد استفاده عبارتند از:
برای راهنمایی در مورد تفسیر این معیارها، محتوای پیوندی را از «محتوای خرابی یادگیری ماشین» بخوانید. برای راهنمایی بیشتر در مورد مشکلات خاص، جدول زیر را ببینید.
مسئله | ارزیابی کیفیت |
---|---|
پسرفت | علاوه بر کاهش میانگین مربع خطای مطلق (MSE)، MSE خود را نسبت به مقادیر برچسب خود کاهش دهید. به عنوان مثال، فرض کنید که قیمت دو مورد را پیشبینی میکنید که قیمتهای میانگین آنها 5 و 100 است. در هر دو مورد، MSE شما 5 است. در حالت اول، MSE 100٪ میانگین قیمت شما است، که به وضوح یک خطای بزرگ در حالت دوم، MSE 5 درصد از میانگین قیمت شما است که یک خطای منطقی است. |
طبقه بندی چند طبقه | اگر تعداد کمی از کلاس ها را پیش بینی می کنید، به معیارهای هر کلاس به صورت جداگانه نگاه کنید. هنگام پیشبینی در بسیاری از کلاسها، میتوانید معیارهای هر کلاس را برای ردیابی معیارهای طبقهبندی کلی میانگین بگیرید. از طرف دیگر، می توانید بسته به نیاز خود اهداف کیفیت خاصی را اولویت بندی کنید. برای مثال، اگر در حال طبقهبندی اشیاء در تصاویر هستید، ممکن است کیفیت طبقهبندی افراد را بر سایر اشیاء اولویت دهید. |
معیارها را برای برش های داده مهم بررسی کنید
بعد از اینکه مدلی با کیفیت بالا داشتید، ممکن است مدل شما همچنان در زیرمجموعه های داده های شما ضعیف عمل کند. به عنوان مثال، پیش بینی کننده تکشاخ شما باید هم در صحرای صحرا و هم در شهر نیویورک و در تمام اوقات روز به خوبی پیش بینی کند. با این حال، شما داده های آموزشی کمتری برای صحرای صحرا دارید. بنابراین، شما می خواهید کیفیت مدل را به طور خاص برای صحرای صحرا ردیابی کنید. چنین زیرمجموعهای از دادهها، مانند زیرمجموعه مربوط به صحرای صحرا، برش داده نامیده میشوند. شما باید به طور جداگانه برش های داده را در جایی که عملکرد مهم است یا مدل شما ممکن است ضعیف عمل کند نظارت کنید.
از درک خود از داده ها برای شناسایی برش های داده مورد علاقه استفاده کنید. سپس معیارهای مدل برای برش های داده را با معیارهای کل مجموعه داده خود مقایسه کنید. بررسی عملکرد مدل شما در تمام برش های داده به حذف سوگیری کمک می کند. برای اطلاعات بیشتر، به Fairness: Evaluating for Bias مراجعه کنید.
از معیارهای دنیای واقعی استفاده کنید
معیارهای مدل لزوماً تأثیر مدل شما را در دنیای واقعی اندازه گیری نمی کنند. به عنوان مثال، ممکن است یک هایپرپارامتر را تغییر دهید و AUC خود را افزایش دهید، اما این تغییر چه تاثیری بر تجربه کاربر داشت؟ برای اندازهگیری تأثیر دنیای واقعی، باید معیارهای جداگانهای تعریف کنید. به عنوان مثال، میتوانید از کاربرانی که پیشبینی ظاهر اسب شاخدار را میبینند، نظرسنجی کنید تا بررسی کنید که آیا یک تکشاخ دیدهاند یا نه. اندازه گیری تاثیر دنیای واقعی به مقایسه کیفیت تکرارهای مختلف مدل شما کمک می کند.