پیوستن به گزارش های داده

هنگام مونتاژ یک مجموعه آموزشی، گاهی اوقات باید به چندین منبع داده بپیوندید.

انواع لاگ

ممکن است با هر یک از انواع داده های ورودی زیر کار کنید:

  • سیاهههای مربوط به معاملات
  • داده های ویژگی
  • آمار کل

گزارش های تراکنش یک رویداد خاص را ثبت می کنند. به عنوان مثال، یک گزارش تراکنش ممکن است یک آدرس IP را که یک پرس و جو می کند و تاریخ و ساعتی که در آن پرس و جو انجام شده است را ثبت کند. رویدادهای معاملاتی با یک رویداد خاص مطابقت دارند.

داده های ویژگی حاوی عکس های فوری از اطلاعات است. مثلا:

  • جمعیت شناسی کاربر
  • تاریخچه جستجو در زمان پرس و جو

داده‌های ویژگی مختص یک رویداد یا لحظه‌ای از زمان نیستند، اما همچنان می‌توانند برای پیش‌بینی مفید باشند. برای کارهای پیش‌بینی که به یک رویداد خاص مرتبط نیستند (به عنوان مثال، پیش‌بینی ریزش کاربر، که به جای یک لحظه جداگانه شامل محدوده زمانی می‌شود)، داده‌های ویژگی ممکن است تنها نوع داده باشد.

داده های ویژگی و گزارش های تراکنش با هم مرتبط هستند. به عنوان مثال، شما می توانید با جمع آوری چندین گزارش تراکنش، ایجاد آمار انبوه، یک نوع داده ویژگی ایجاد کنید. در این مورد، می توانید به بسیاری از گزارش های تراکنش نگاه کنید تا یک ویژگی واحد برای یک کاربر ایجاد کنید.

آمار انبوه یک ویژگی از چندین گزارش تراکنش ایجاد می کند. مثلا:

  • فراوانی پرس و جوهای کاربر
  • میانگین نرخ کلیک روی یک تبلیغ خاص

پیوستن به منابع گزارش

هر نوع لاگ معمولاً در مکان متفاوتی قرار دارد. هنگام جمع‌آوری داده‌ها برای مدل یادگیری ماشین خود، باید منابع مختلف را برای ایجاد مجموعه داده‌های خود به هم بپیوندید. چند نمونه:

  • از شناسه و مهر زمانی کاربر در گزارش‌های تراکنش استفاده کنید تا ویژگی‌های کاربر را در زمان رویداد جستجو کنید.
  • از مهر زمانی تراکنش برای انتخاب سابقه جستجو در زمان درخواست استفاده کنید.

منابع داده پیش بینی — آنلاین در مقابل آفلاین

در دوره آموزشی خرابی یادگیری ماشین ، درباره سرویس دهی آنلاین و آفلاین یاد گرفتید. این انتخاب بر نحوه جمع آوری داده ها از طریق سیستم شما تأثیر می گذارد:

  • آنلاین—تأخیر یک نگرانی است، بنابراین سیستم شما باید به سرعت ورودی تولید کند.
  • آفلاین - احتمالاً هیچ محدودیت محاسباتی ندارید، بنابراین می توانید عملیات پیچیده مشابهی را مانند تولید داده های آموزشی انجام دهید.

به عنوان مثال، داده های ویژگی اغلب باید از برخی سیستم های دیگر جستجو شوند، که می تواند نگرانی هایی را برای تأخیر ایجاد کند. به طور مشابه، محاسبه آمار انباشته می تواند گران باشد. اگر تأخیر یک مسدود کننده است، یکی از احتمالات این است که این آمار را از پیش محاسبه کنید.