اشکال زدایی داده ها و ویژگی ها

داده های با کیفیت پایین به طور قابل توجهی بر عملکرد مدل شما تأثیر می گذارد. تشخیص داده های با کیفیت پایین در ورودی به جای حدس زدن وجود آن ها پس از اینکه مدل شما بد پیش بینی کرد، بسیار آسان تر است. با پیروی از توصیه های این بخش، داده های خود را نظارت کنید.

اعتبارسنجی داده های ورودی با استفاده از طرحواره داده

برای نظارت بر داده های خود، باید به طور مداوم داده های خود را در برابر مقادیر آماری مورد انتظار با نوشتن قوانینی که داده ها باید مطابقت داشته باشند، بررسی کنید. به این مجموعه قوانین، طرح واره داده می گویند . با دنبال کردن مراحل زیر یک طرح داده را تعریف کنید:

  1. برای داده های ویژگی خود، محدوده و توزیع را درک کنید. برای ویژگی های طبقه بندی شده، مجموعه مقادیر ممکن را درک کنید.
  2. درک خود را در قوانین تعریف شده در طرح رمزگذاری کنید. نمونه هایی از قوانین عبارتند از:

    • اطمینان حاصل کنید که رتبه‌بندی‌های ارسالی توسط کاربر همیشه بین ۱ تا ۵ باشد.
    • بررسی کنید که "the" بیشتر اتفاق می افتد (برای یک ویژگی متن انگلیسی).
    • بررسی کنید که ویژگی‌های دسته‌بندی دارای مقادیری از یک مجموعه ثابت هستند.
  3. داده های خود را در برابر طرح داده آزمایش کنید. طرح شما باید خطاهای داده ای مانند:

    • ناهنجاری ها
    • مقادیر غیرمنتظره متغیرهای طبقه بندی شده
    • توزیع داده های غیرمنتظره

از کیفیت خوب اسپلیت ها اطمینان حاصل کنید

تقسیمات آزمون و آموزشی شما باید به طور مساوی معرف داده های ورودی شما باشد. اگر تقسیم بندی آزمون و آموزش از نظر آماری متفاوت باشد، داده های آموزشی به پیش بینی داده های آزمون کمکی نمی کند. برای آشنایی با نحوه نمونه برداری و تقسیم داده ها، قسمت Sampling and Splitting Data را در دوره آموزشی Data Preparation and Feature Engineering in ML ببینید.

ویژگی های آماری تقسیم های خود را نظارت کنید. اگر خواص متفاوت است، یک پرچم بلند کنید. علاوه بر این، آزمایش کنید که نسبت مثال ها در هر تقسیم ثابت بماند. به عنوان مثال، اگر داده های شما 80:20 تقسیم شود، این نسبت نباید تغییر کند.

داده های مهندسی شده را آزمایش کنید

اگرچه داده‌های خام شما ممکن است معتبر باشد، مدل شما فقط داده‌های ویژگی مهندسی شده را می‌بیند. از آنجایی که داده های مهندسی شده بسیار متفاوت از داده های ورودی خام به نظر می رسند، باید داده های مهندسی شده را جداگانه بررسی کنید. بر اساس درک شما از داده های مهندسی شده، تست های واحد بنویسید. به عنوان مثال، می توانید تست های واحد را برای بررسی شرایط زیر بنویسید:

  • همه ویژگی‌های عددی، به عنوان مثال، بین 0 و 1 مقیاس‌بندی می‌شوند.
  • بردارهای کدگذاری شده یک داغ فقط حاوی صفرهای 1 و N-1 هستند.
  • داده های از دست رفته با مقادیر میانگین یا پیش فرض جایگزین می شوند.
  • توزیع داده ها پس از تبدیل با انتظارات مطابقت دارد. به عنوان مثال، اگر با استفاده از z-scores نرمال سازی کرده اید، میانگین امتیاز z-score 0 است.
  • موارد دورافتاده مانند پوسته پوسته شدن یا برش داده می شوند.