Присоединение к журналам данных

При сборке обучающей выборки иногда приходится объединять несколько источников данных.

Типы журналов

Вы можете работать с любым из следующих типов входных данных:

  • журналы транзакций
  • атрибутивные данные
  • совокупная статистика

Журналы транзакций записывают определенное событие. Например, журнал транзакций может записывать IP-адрес, по которому был сделан запрос, а также дату и время, когда был сделан запрос. Транзакционные события соответствуют определенному событию.

Данные атрибутов содержат моментальные снимки информации. Например:

  • демографические данные пользователей
  • история поиска на момент запроса

Данные атрибутов не привязаны к событию или моменту времени, но могут быть полезны для прогнозирования. Для задач прогнозирования, не привязанных к конкретному событию (например, прогнозирование оттока пользователей, которое включает в себя диапазон времени, а не отдельный момент), атрибутивные данные могут быть единственным типом данных.

Данные атрибутов и журналы транзакций связаны между собой. Например, вы можете создать тип данных атрибута, объединив несколько журналов транзакций, создав сводную статистику. В этом случае вы можете просмотреть множество журналов транзакций, чтобы создать один атрибут для пользователя.

Агрегированная статистика создает атрибут из нескольких журналов транзакций. Например:

  • частота запросов пользователей
  • средний рейтинг кликов по определенному объявлению

Присоединение к источникам журналов

Каждый тип журнала, как правило, находится в другом месте. При сборе данных для вашей модели машинного обучения вы должны объединить разные источники, чтобы создать свой набор данных. Некоторые примеры:

  • Используйте идентификатор пользователя и метку времени в журналах транзакций для поиска атрибутов пользователя во время события .
  • Используйте отметку времени транзакции, чтобы выбрать историю поиска на момент запроса .

Источники прогнозных данных — онлайн или офлайн

В ускоренном курсе по машинному обучению вы узнали об онлайн- и офлайн-обслуживании. Выбор влияет на то, как ваша система собирает данные, следующим образом:

  • онлайн — задержка вызывает беспокойство, поэтому ваша система должна быстро генерировать ввод.
  • автономный режим — скорее всего, у вас нет ограничений на вычислительные ресурсы, поэтому вы можете выполнять такие же сложные операции, как и генерация обучающих данных.

Например, данные атрибутов часто необходимо искать в какой-либо другой системе, что может привести к проблемам с задержкой. Точно так же агрегированные статистические данные могут быть дорогими для вычисления на лету. Если задержка является препятствием, одна из возможностей состоит в том, чтобы предварительно вычислить эту статистику.