データセット作成の概要

データセットの作成手順

データセットを構築する(およびデータ変換を実行する前に)には、次のことを行う必要があります。

  1. 元データを収集する。
  2. 特徴とラベルのソースを特定する。
  3. サンプリング戦略を選択します。
  4. データを分割する。

これらの手順は、ML の問題をどのように捉えたかに大きく依存します。下のセルフチェックを使用して、問題のフレームに関するメモリを更新し、データ収集に関する前提条件を確認します。

問題のフレーミングとデータ収集の概念のセルフチェック

次の質問については、目的の矢印をクリックして答えを確認してください。

まったく新しい機械学習プロジェクトに参加中で、最初の特徴を選択しようとしているところです。選択できる機能を選択してください。
予測力が優れていると思われる特徴を 1 ~ 3 個選択してください。
データ収集のパイプラインは、1 つまたは 2 つの特徴量だけで開始することをおすすめします。これにより、ML モデルが意図したとおりに機能するかどうかを確認できます。また、いくつかの特徴からベースラインを構築すると、順調に進んでいると感じることができます。
予測力が優れていると思われる特徴を 4 ~ 6 個選択してください。
最終的には多くの機能を使用する可能性がありますが、少ない機能から始めることをおすすめします。通常、特徴が少ないほど、不要な複雑さが少なくなります。
特徴をできるだけ多く選択して、予測力が最も強い特徴の観測を開始します。
小さな規模で始めてください。新しい機能が追加されるたびに、トレーニング データセットに新しいディメンションが追加されます。次元数が増えると、空間のボリュームが急速に増加し、使用可能なトレーニング データがスパースになります。データがスパースであるほど、モデルが重要な特徴とラベルの関係を理解するのが難しくなります。このような現象を「次元の悪し」と呼びます。
友人の Sam は、彼の統計分析の初期結果に興奮しています。アプリのダウンロード数とアプリ レビューのインプレッション数にはプラスの相関関係があると彼は言います。しかし、この人はレビューを見ずにダウンロードしていたかどうかわかりません。Sam にとって最も役立つ回答はどれですか。
テストを実施して、レビューを見たユーザーの行動を、他の類似ユーザーと比較できます。
そのとおりです。Sam は、肯定的なレビューを目にしたユーザーはそうでないユーザーよりもアプリをダウンロードする傾向があることに気づいた場合、妥当なエビデンスにより、肯定的なレビューがユーザーのアプリ利用を後押ししているという妥当な証拠を示しています。
データの信頼性、ユーザーがレビューをダウンロードした理由が、良質なレビューであることは明らかです。
不正解です。この対応は、Sam を正しい方向に導くものではありません。 因果関係は、観測データからのみ判断することはできません。Sam は相関関係(つまり、数値間の統計的依存関係)を見ていますが、これは因果関係を示す場合もあれば、そうでない場合もあります。分析が不正な相関のランクに結合しないようにしてください。