Unire i log di dati

Quando assembli un set di addestramento, a volte devi unire diverse fonti di dati.

Tipi di log

Puoi lavorare con i seguenti tipi di dati di input:

  • log transazionali
  • dati degli attributi
  • statistiche aggregate

I log delle transazioni registrano un evento specifico. Ad esempio, un log transazionale potrebbe registrare un indirizzo IP che esegue una query e la data e l'ora in cui è stata effettuata. Gli eventi transazionali corrispondono a un evento specifico.

I dati degli attributi contengono istantanee delle informazioni. Ad esempio:

  • dati demografici utente
  • cronologia delle ricerche al momento della query

I dati degli attributi non sono specifici di un evento o di un momento specifico, ma possono comunque essere utili per effettuare previsioni. Per le attività di previsione non collegate a un evento specifico (ad esempio, la previsione del tasso di abbandono degli utenti, che prevede un intervallo di tempo anziché un singolo momento), i dati degli attributi potrebbero essere l'unico tipo di dati.

I dati degli attributi e i log transazionali sono correlati. Ad esempio, puoi creare un tipo di dati degli attributi aggregando diversi log transazionali, creando statistiche aggregate. In questo caso, puoi guardare molti log transazionali per creare un singolo attributo per un utente.

Le statistiche aggregate creano un attributo da più log transazionali. Ad esempio:

  • frequenza delle query degli utenti
  • percentuale di clic media su un determinato annuncio

Unire le origini log

Ogni tipo di log tende a trovarsi in una località diversa. Quando raccogli i dati per il tuo modello di machine learning, devi unire origini diverse per creare il tuo set di dati. Ecco alcuni esempi:

  • Sfrutta l'ID e il timestamp dell'utente nei log transazionali per cercare gli attributi utente al momento dell'evento.
  • Utilizza il timestamp della transazione per selezionare la cronologia delle ricerche al momento della query.

Origini dati di previsione: online e offline

Nel corso di arresto anomalo del machine learning abbiamo scoperto la pubblicazione online e offline. La scelta influisce sul modo in cui il sistema raccoglie i dati nel seguente modo:

  • online: la latenza è un problema, quindi il tuo sistema deve generare velocemente l'input.
  • offline: probabilmente non hai restrizioni di calcolo, quindi puoi eseguire operazioni analoghe complesse come l'addestramento dei dati.

Ad esempio, i dati degli attributi spesso devono essere cercati in un altro sistema, il che potrebbe introdurre problemi di latenza. Analogamente, le statistiche aggregate possono essere costose da calcolare al momento. Se la latenza è un blocco, una possibilità è precalcolare queste statistiche.