مقدمه ای بر نمونه گیری
جمعآوری دادههای کافی برای یک پروژه یادگیری ماشینی اغلب با مشکل مواجه است. با این حال، گاهی اوقات داده های زیادی وجود دارد و شما باید زیر مجموعه ای از نمونه ها را برای آموزش انتخاب کنید.
چگونه آن زیر مجموعه را انتخاب می کنید؟ به عنوان مثال، جستجوی گوگل را در نظر بگیرید. با چه جزئیاتی از حجم عظیم داده های آن نمونه برداری می کنید؟ آیا از پرس و جوهای تصادفی استفاده می کنید؟ جلسات تصادفی؟ کاربران تصادفی؟
در نهایت، پاسخ به مشکل بستگی دارد: چه چیزی را می خواهیم پیش بینی کنیم و چه ویژگی هایی را می خواهیم؟
- برای استفاده از ویژگی جستجوی قبلی ، باید در سطح جلسه نمونه برداری کنید، زیرا جلسات شامل دنباله ای از پرس و جو هستند.
- برای استفاده از رفتار کاربر ویژگی از روزهای قبل ، باید در سطح کاربر نمونه برداری کنید.
فیلتر کردن PII (اطلاعات شناسایی شخصی)
اگر دادههای شما شامل PII (اطلاعات قابل شناسایی شخصی) باشد، ممکن است لازم باشد آنها را از دادههای خود فیلتر کنید. برای مثال ممکن است یک خطمشی از شما بخواهد که ویژگیهای نادر را حذف کنید.این فیلتر توزیع شما را منحرف می کند. اطلاعات را در دم (بخشی از توزیع با مقادیر بسیار پایین، دور از میانگین) از دست خواهید داد.
این فیلتر کردن مفید است زیرا یادگیری ویژگی های بسیار نادر دشوار است. اما مهم است که بدانیم مجموعه داده شما نسبت به پرس و جوهای سر تعصب دارد. در زمان خدمت، میتوانید انتظار داشته باشید که در ارائه نمونههای دم بدتر عمل کنید، زیرا این نمونههایی بودند که از دادههای آموزشی شما فیلتر شدند. اگرچه نمی توان از این کج شدن اجتناب کرد، اما در طول تجزیه و تحلیل خود از آن آگاه باشید.