ラベルとソースを特定する

直接ラベルと派生ラベル

ラベルが明確に定義されていると、機械学習が容易になります。最適なラベルは、予測する対象に対する直接ラベルです。たとえば、ユーザーが Taylor Swift のファンかどうかを予測したい場合、直接ラベルは「Taylor Swift のファン」とします。

ファンの簡単なテストとしては、ユーザーが YouTube でテイラー スウィフトの動画を視聴したかどうかなどがあります。ラベル「を使用するユーザーが YouTube でテイラー スウィフトの動画を視聴」は、予測する内容を直接測定しないため、派生ラベルです。この派生ラベルは、ユーザーが Taylor Swift を好んでいるという信頼できる目安になりますか?生成されるモデルは、派生ラベルと目的の予測の間の関係のみによって決まります。

ラベルのソース

モデルの出力はイベントまたは属性のいずれかになります。このため、次の 2 種類のラベルが使用されます。

  • イベントの直接ラベル: 「ユーザーが上位の検索結果をクリックしましたか?」など。
  • 属性の直接ラベル(「来週の広告主は、X 円以上を費やすか?」など)

イベントの直接ラベル

イベントの場合、通常はユーザーによる操作を記録して直接ラベルとして使用できるため、直接ラベルは単純です。イベントにラベルを付ける場合は、以下の点を確認してください。

  • ログの構成
  • ログの「イベント」とは何ですか?

たとえば、ユーザーが検索結果をクリックしたときや、ユーザーが検索を実行したときに、ログに記録されますか?クリックログがある場合は、クリックしないとインプレッションが表示されないことに注意してください。イベントがインプレッションであるログが必要なので、ユーザーに上位の検索結果が表示されるすべてのケースをカバーします。

属性のダイレクト ラベル

「ラベルは来週に X ドル以上を費やす」というラベルだとします。通常、広告主は前の日のデータを使用して、次の日の結果を予測します。たとえば、次の図は 10 日間のトレーニング データで、以降の 7 日間を予測しています。

10 日間のブロックの直後に 7 日間のブロックが続くカレンダー。このモデルは、10 日間のブロックのデータを使用して、7 日間のブロックで予測を行います。

季節性や周期的な影響を考慮する必要があります。たとえば、広告主は週末により多くの費用をかける可能性があります。こうした理由から、代わりに 14 日間の期間を使用することも、日付として機能を使用し、モデルが年次効果を学習しられるようにすることもできます。

直接ラベルには過去の行動のログが必要です

前述のケースでは、実際の結果に関するデータが必要であることに注目してください。広告主が使った金額や、テイラー スウィフトの動画を視聴したユーザーなど、いずれにせよ、管理対象の機械学習を使用するには過去のデータが必要でした。機械学習では過去の状況に基づいて予測が行われるため、過去のログがない場合は取得する必要があります。

記録するデータがない場合

プロダクトがまだ存在しない可能性があります。そのため、ログに記録するデータがありません。その場合は、次のいずれかの操作を行うことができます。

  • 初回起動でヒューリスティックを使用してから、ログに記録されたデータに基づいてシステムをトレーニングする。
  • 同様の問題に関するログを使用して、システムをブートストラップします。
  • 評価担当者は、タスクを完了してデータを生成します。

ヒューマン ラベリング データを使用する理由

ヒューマンラベリングされたデータの使用には、メリットとデメリットがあります。

長所

  • 評価担当者はさまざまなタスクを実行できます。
  • データを使って、問題を明確な定義で定義する必要があります。

短所

  • ドメインのコストが高くなる。
  • 一般に、良質なデータを作成するには、何度か繰り返すことが必要です。

品質の向上

必ず評価担当者による作業をご確認ください。たとえば、1,000 の例に手動でラベルを付けて、結果が評価者とどのように一致したかを確認できます。(データへのラベル付けも、データを把握するのに最適な演習です)。差異がある場合、特に値の判断が関係している場合は、評価が正しいと仮定しないでください。評価担当者がエラーを導入した場合は、手順の説明を追加してもう一度お試しください。

データの入手方法にかかわらず、手作業でデータを確認することは良い運動です。Andrej Karpathy は ImageNet でこの機能について書きました