شناسایی برچسب ها و منابع

مستقیم در مقابل برچسب های مشتق شده

وقتی برچسب‌های شما به خوبی تعریف شده باشند، یادگیری ماشینی آسان‌تر است. بهترین برچسب یک برچسب مستقیم از آنچه می خواهید پیش بینی کنید است. به عنوان مثال، اگر می خواهید پیش بینی کنید که آیا یک کاربر طرفدار تیلور سویفت است یا خیر، یک برچسب مستقیم می تواند "کاربر طرفدار تیلور سویفت است".

یک آزمایش ساده‌تر برای علاقه‌مندی ممکن است این باشد که آیا کاربر ویدیوی تیلور سویفت را در YouTube تماشا کرده است یا خیر. برچسب "کاربر ویدیوی تیلور سویفت را در یوتیوب تماشا کرده است" یک برچسب مشتق شده است زیرا مستقیماً آنچه را که می خواهید پیش بینی کنید اندازه گیری نمی کند. آیا این برچسب مشتق شده نشانگر قابل اعتمادی است که کاربر تیلور سویفت را دوست دارد؟ مدل شما فقط به اندازه ارتباط بین برچسب مشتق شده و پیش بینی مورد نظر شما خوب خواهد بود.

به عنوان مثال،

منابع برچسب

خروجی مدل شما می تواند یک رویداد یا یک ویژگی باشد. این منجر به دو نوع برچسب زیر می شود:

  • برچسب مستقیم برای رویدادها ، مانند "آیا کاربر روی نتیجه جستجوی برتر کلیک کرد؟"
  • برچسب مستقیم برای ویژگی‌ها ، مانند «آیا تبلیغ‌کننده در هفته آینده بیش از X دلار هزینه خواهد کرد؟»

برچسب های مستقیم برای رویدادها

برای رویدادها، برچسب‌های مستقیم معمولاً ساده هستند، زیرا می‌توانید رفتار کاربر در طول رویداد را برای استفاده به عنوان برچسب ثبت کنید. هنگام برچسب گذاری رویدادها، سوالات زیر را از خود بپرسید:

  • لاگ های شما چگونه ساختار یافته اند؟
  • چه چیزی در گزارش های شما به عنوان "رویداد" در نظر گرفته می شود؟

به عنوان مثال، آیا سیستم کاربر را با کلیک روی یک نتیجه جستجو ثبت می کند یا زمانی که کاربر جستجو می کند؟ اگر گزارش‌های کلیک دارید، بدانید که هیچ‌وقت یک نمایش بدون کلیک نخواهید دید. شما به گزارش‌هایی نیاز دارید که رویدادها در آن برداشت هستند، بنابراین همه مواردی را که در آن کاربر یک نتیجه جستجوی برتر را می‌بیند، پوشش می‌دهید.

برچسب های مستقیم برای ویژگی ها

فرض کنید برچسب شما این است: "تبلیغ کننده بیش از X دلار در هفته آینده خرج خواهد کرد." به طور معمول، از داده‌های روزهای قبل برای پیش‌بینی آنچه در روزهای بعد اتفاق می‌افتد استفاده می‌کنید. به عنوان مثال، تصویر زیر داده های ده روز آموزش را نشان می دهد که هفت روز بعدی را پیش بینی می کند:

تقویم یک بلوک 10 روزه را برجسته می کند و بلافاصله یک بلوک 7 روزه را مشخص می کند. این مدل از داده های بلوک 10 روزه برای پیش بینی بلوک 7 روزه استفاده می کند.

به یاد داشته باشید که اثرات فصلی یا دوره ای را در نظر بگیرید. برای مثال، تبلیغ‌کنندگان ممکن است در تعطیلات آخر هفته بیشتر هزینه کنند. به همین دلیل، ممکن است ترجیح دهید به جای آن از یک پنجره 14 روزه استفاده کنید یا از تاریخ به عنوان یک ویژگی استفاده کنید تا مدل بتواند جلوه های سالانه را یاد بگیرد.

برچسب های مستقیم به گزارش های رفتار گذشته نیاز دارند

در موارد قبلی، توجه داشته باشید که ما به اطلاعاتی در مورد نتیجه واقعی نیاز داشتیم. چه مبلغی که تبلیغ‌کنندگان هزینه کرده‌اند یا چه کاربرانی ویدیوهای تیلور سویفت را تماشا کرده‌اند، برای استفاده از یادگیری ماشینی نظارت‌شده به داده‌های تاریخی نیاز داشتیم. یادگیری ماشینی بر اساس آنچه در گذشته اتفاق افتاده است پیش‌بینی می‌کند، بنابراین اگر گزارش‌هایی برای گذشته ندارید، باید آنها را دریافت کنید.

اگر داده ای برای ورود به سیستم نداشته باشید چه می شود؟

شاید محصول شما هنوز وجود نداشته باشد، بنابراین شما هیچ داده ای برای ورود به سیستم ندارید. در این صورت، می توانید یک یا چند مورد از اقدامات زیر را انجام دهید:

  • برای اولین راه اندازی از یک اکتشافی استفاده کنید، سپس یک سیستم را بر اساس داده های ثبت شده آموزش دهید.
  • از گزارش های مربوط به یک مشکل مشابه برای بوت استرپ سیستم خود استفاده کنید.
  • از ارزیاب های انسانی برای تولید داده با تکمیل وظایف استفاده کنید.

چرا از داده های برچسب انسانی استفاده کنیم؟

مزایا و معایبی برای استفاده از داده های برچسب گذاری شده توسط انسان وجود دارد.

طرفداران

  • ارزیاب های انسانی می توانند طیف وسیعی از وظایف را انجام دهند.
  • داده ها شما را مجبور می کند که یک تعریف واضح از مشکل داشته باشید.

منفی

  • داده ها برای دامنه های خاص گران است.
  • داده های خوب معمولاً به تکرارهای متعدد نیاز دارند.

بهبود کیفیت

همیشه کار رتبه‌دهندگان انسانی خود را بررسی کنید . به عنوان مثال، خودتان 1000 نمونه را برچسب بزنید و ببینید که چگونه نتایج شما با امتیازدهندگان مطابقت دارد. (برچسب زدن به داده‌ها نیز تمرینی عالی برای شناخت داده‌هایتان است.) اگر اختلافات ظاهر شد، رتبه‌بندی‌های شما را درست فرض نکنید، به‌ویژه اگر قضاوت ارزشی در میان باشد. اگر ارزیابی‌کننده‌های انسانی خطاهایی را معرفی کرده‌اند، دستورالعمل‌هایی را برای کمک به آنها اضافه کنید و دوباره امتحان کنید.

نگاه کردن به داده های خود با دست صرف نظر از اینکه چگونه داده های خود را به دست آورده اید تمرین خوبی است. آندری کارپاتی این کار را در ImageNet انجام داد و در مورد این تجربه نوشت .