データ準備と特徴量エンジニアリングのプロセス

そのプロセスはどのようなものですか?

前述のように、このコースではデータセットの作成とデータの変換に焦点を当てています。

データセットの構成は、次のタスクで構成されます。1. 元データを収集します。2. 特徴とラベルのソースを特定する。3. サンプリング戦略を選択します。
4. データを分割する。データの変換は次のタスクで構成されます。
1. データを探索してクリーニングします。2. 特徴量エンジニアリングを実行します。

次の点に注意してください。

  • この図は典型的なプロセスを示しています。すべてのプロジェクトに最適とは限りません。このコースは主に線形回帰とニューラル ネットに適用されます。
  • 表示されるプロセスは、必ずしも連続したプロセスではありません。たとえば、変換後にデータを分割できます。さらにデータを収集する必要がある場合があります。何が機能し、何が機能しないかを経験的に学習するため、トレーニング開始後も機能セットの変更が必要になることがあります。

所要時間

次の質問については、目的の矢印をクリックして答えを確認してください。

推測: 機械学習プロジェクトでは、データの準備と変換に通常どのくらいの時間を費やしますか。
プロジェクト時間の半分以上
正解: データセットの構築とデータの変換に、機械学習プロジェクトの大半が費やされます。
プロジェクト時間の半分未満
もっと計画を立てましょう。通常、機械学習プロジェクトでは、80% の時間がデータセットの構築とデータの変換に費やされます。