Joindre des journaux de données

Lorsque vous assemblez un ensemble d'entraînement, vous devez parfois joindre plusieurs sources de données.

Types de journaux

Vous pouvez utiliser les types de données d'entrée suivants:

  • journaux transactionnels
  • données d'attribut
  • statistiques globales

Les journaux de transactions enregistrent un événement spécifique. Par exemple, un journal transactionnel peut enregistrer une adresse IP effectuant une requête, ainsi que la date et l'heure auxquelles la requête a été effectuée. Les événements transactionnels correspondent à un événement spécifique.

Les données d'attribut contiennent des instantanés des informations. Exemple :

  • données démographiques sur les utilisateurs
  • historique des recherches au moment de la requête

Les données d'attribut ne sont pas spécifiques à un événement ou à un moment précis, mais peuvent toujours être utiles pour effectuer des prédictions. Pour les tâches de prédiction qui ne sont pas liées à un événement spécifique (par exemple, prédire la perte d'utilisateurs, qui implique une plage de temps plutôt qu'un moment individuel), les données d'attribut peuvent être le seul type de données.

Les données d'attribut et les journaux transactionnels sont liés. Par exemple, vous pouvez créer un type de données d'attribut en regroupant plusieurs journaux transactionnels et en créant des statistiques globales. Dans ce cas, vous pouvez consulter de nombreux journaux transactionnels afin de créer un seul attribut pour un utilisateur.

Les statistiques globales créent un attribut à partir de plusieurs journaux transactionnels. Exemple :

  • fréquence des requêtes des utilisateurs
  • taux de clics moyen d'une annonce spécifique

Associer des sources de journal

Chaque type de journal a tendance à se trouver à un emplacement différent. Lorsque vous collectez des données pour votre modèle de machine learning, vous devez associer différentes sources pour créer votre ensemble de données. Voici quelques exemples :

  • Utilisez l'ID et l'horodatage de l'utilisateur dans les journaux transactionnels pour rechercher les attributs utilisateur au moment de l'événement.
  • Utilisez l'horodatage de la transaction pour sélectionner l'historique des recherches au moment de la requête.

Sources de données de prédiction : en ligne ou hors connexion

Dans le Cours d'initiation au Machine Learning, vous avez appris à comparer la diffusion en ligne et hors connexion. Ce choix influence la façon dont votre système collecte les données comme suit:

  • en ligne : la latence est un problème, votre système doit donc générer rapidement des entrées.
  • hors connexion : vous n'avez probablement pas de restrictions de calcul. Vous pouvez donc effectuer des opérations aussi complexes que générer des données d'entraînement.

Par exemple, les données d'attribut doivent souvent être recherchées à partir d'un autre système, ce qui peut entraîner des problèmes de latence. De même, les calculs agrégés peuvent être coûteux à calculer à la volée. Si la latence est bloquante, vous pouvez précalculer ces statistiques.