データログの結合

トレーニング セットを組み立てるときに、複数のデータソースを結合しなければならない場合があります。

ログの種類

次の種類の入力データを使用できます。

  • トランザクション ログ
  • 属性データ
  • 集計データ

トランザクション ログは、特定のイベントを記録します。たとえば、トランザクション ログに、クエリを発行した IP アドレスとクエリが実行された日時が記録されます。トランザクション イベントは、特定のイベントに対応します。

属性データには情報のスナップショットが含まれます。例:

  • ユーザー属性
  • 検索時の検索履歴

属性データは、イベントや特定の瞬間に固有のものではありませんが、予測を行う際に役立ちます。特定のイベントに関連付けられない予測タスク(例: 個別の瞬間ではなく、広範囲にわたるユーザーのチャーンの予測など)の場合、属性データが唯一のデータタイプである可能性があります。

属性データとトランザクション ログは関連しています。たとえば、複数のトランザクション ログを集約し、集計統計を作成することで、特定のタイプの属性データを作成できます。この場合、多数のトランザクション ログを調べて、ユーザーの単一の属性を作成できます。

集計統計は、複数のトランザクション ログから属性を作成します。例:

  • ユーザークエリの頻度
  • 特定の広告の平均クリック率

ログソースの結合

ログのタイプは場所によって異なる傾向があります。機械学習モデルのデータを収集する場合は、異なるソースを結合してデータセットを作成する必要があります。たとえば次のような例が考えられます。

  • トランザクション ログでユーザーの ID とタイムスタンプを利用して、イベントの発生時にユーザー属性を検索します。
  • 取引のタイムスタンプを使用して、クエリの実行時に検索履歴を選択します。

予測データソース - オンラインとオフラインの比較

機械学習集中講座で、オンラインとオフラインの処理について学習しました。この選択は、システムがデータを収集する方法に次のように影響します。

  • online - レイテンシが懸念事項であるため、入力を素早く生成する必要があります。
  • offline - コンピューティングの制限はない可能性が高いため、トレーニング データの生成と同様の複雑なオペレーションを行うことができます。

たとえば、属性データを他のシステムから検索することが多く、レイテンシに関する懸念が発生する場合があります。同様に、集計された統計情報をその場で計算するにはコストがかかる可能性があります。レイテンシが阻害要因である場合、これらの統計を事前計算できます。