نمونه برداری و تقسیم داده ها

مقدمه ای بر نمونه گیری

جمع‌آوری داده‌های کافی برای یک پروژه یادگیری ماشینی اغلب با مشکل مواجه است. با این حال، گاهی اوقات داده های زیادی وجود دارد و شما باید زیر مجموعه ای از نمونه ها را برای آموزش انتخاب کنید.

چگونه آن زیر مجموعه را انتخاب می کنید؟ به عنوان مثال، جستجوی گوگل را در نظر بگیرید. با چه جزئیاتی از حجم عظیم داده های آن نمونه برداری می کنید؟ آیا از پرس و جوهای تصادفی استفاده می کنید؟ جلسات تصادفی؟ کاربران تصادفی؟

در نهایت، پاسخ به مشکل بستگی دارد: چه چیزی را می خواهیم پیش بینی کنیم و چه ویژگی هایی را می خواهیم؟

  • برای استفاده از ویژگی جستجوی قبلی ، باید در سطح جلسه نمونه برداری کنید، زیرا جلسات شامل دنباله ای از پرس و جو هستند.
  • برای استفاده از رفتار کاربر ویژگی از روزهای قبل ، باید در سطح کاربر نمونه برداری کنید.

فیلتر کردن PII (اطلاعات شناسایی شخصی)

اگر داده‌های شما شامل PII (اطلاعات قابل شناسایی شخصی) باشد، ممکن است لازم باشد آن‌ها را از داده‌های خود فیلتر کنید. برای مثال ممکن است یک خط‌مشی از شما بخواهد که ویژگی‌های نادر را حذف کنید.

این فیلتر توزیع شما را منحرف می کند. اطلاعات را در دم (بخشی از توزیع با مقادیر بسیار پایین، دور از میانگین) از دست خواهید داد.

این فیلتر کردن مفید است زیرا یادگیری ویژگی های بسیار نادر دشوار است. اما مهم است که بدانیم مجموعه داده شما نسبت به پرس و جوهای سر تعصب دارد. در زمان خدمت، می‌توانید انتظار داشته باشید که در ارائه نمونه‌های دم بدتر عمل کنید، زیرا این نمونه‌هایی بودند که از داده‌های آموزشی شما فیلتر شدند. اگرچه نمی توان از این کج شدن اجتناب کرد، اما در طول تجزیه و تحلیل خود از آن آگاه باشید.