جمع آوری داده ها: درک خود را بررسی کنید

برای سوالات زیر، روی فلش مورد نظر کلیک کنید تا پاسخ خود را بررسی کنید:

فرض کنید روی یک مدل یادگیری ماشینی مرتبط با تبلیغات کار می‌کنید و می‌خواهید هزینه‌های تبلیغ‌کننده را برای ژانویه پیش‌بینی کنید. شما محدودیت هایی در میزان داده ای که می توانید روی دیسک ذخیره کنید دارید، بنابراین باید فقط از زیر مجموعه ای از داده های موجود استفاده کنید. می توانید از تمام داده های اخیر استفاده کنید که مربوط به ماه قبل از دسامبر است. شخص دیگری به شما پیشنهاد می کند داده های سال گذشته را نمونه برداری کنید. کدام بهتر است و چرا؟
داده های ماه قبل (دسامبر)
در حالی که این داده‌ها جدیدتر هستند، ممکن است تحت تأثیر تأثیرات فصلی هزینه‌های تبلیغ‌کننده قبل از تعطیلات دسامبر باشد.
داده های نمونه گیری در طول سال
در حالی که این داده ها قدیمی هستند، کمتر تحت تأثیر تأثیرات فصلی هزینه های تبلیغ کننده قبل از تعطیلات دسامبر قرار می گیرند.
شما می خواهید ویدیوهایی را که کاربران می خواهند تماشا کنند نشان دهید. شما از ویدیوهایی که آنها در YouTube مشاهده کرده اند به عنوان برچسب استفاده می کنید. آیا این برچسب مستقیم است یا مشتق شده است؟
نشات گرفته
این برچسب به این دلیل مشتق شده است که پیش‌بینی دقیقی نیست که می‌خواهید انجام دهید. شاید کاربر ویدیو را باز کرده اما مدت کوتاهی بعد آن را بسته است. این رویداد به‌عنوان یک بازدید محسوب می‌شود، حتی اگر کاربر ویدیو را تماشا نکرده باشد. در برخی موارد، اکتشافی مانند این ممکن است تنها گزینه شما باشد، اما از نوع برچسب خود (مستقیم یا مشتق شده) و اینکه چگونه پیش بینی های شما را محدود می کند آگاه باشید.
مستقیم
در حالی که این برچسب ممکن است در بیشتر مواقع منجر به پیش‌بینی دقیق شود، پیش‌بینی دقیقی نیست که می‌خواهید انجام دهید.