ML でのデータの準備と特徴量エンジニアリング

機械学習はデータのパターンを見つけるのに役立ちます。このパターンを使用して、新しいデータポイントを予測します。これらの予測を正しく行うには、データセット構築し、データを正しく変換する必要があります。このコースでは、次の 2 つの主要なステップについて説明します。また、これらのステップでトレーニングやサービングの考慮事項がどのように機能するかについても説明します。

5 つのステージで構成される機械学習プロジェクト。1. ML の問題を定義してソリューションを提案します。2. データセットを作成します。3. データを変換します。4. モデルをトレーニングします。5. モデルを使用して予測を行う。このコースでは、データセットの作成とデータの変換について説明します。

Prerequisites

このコースは、以下を備えたことを前提としています。

データ準備と特徴量エンジニアリングについて学ぶ理由

特徴量エンジニアリングは、モデルと同じ方法でモデルをデータセットで理解するのに役立つと考えることができます。学習者は多くの場合、モデルの構築に重点を置いた機械学習のコースを受講しますが、最終的にはデータの作成により多くの時間を費やすことになります。

次の質問については、目的の矢印をクリックして回答を確認してください。

機械学習プロジェクトで下記の項目のいずれかを優先することが必要になった場合、最も大きな影響があるのはどれですか。
データの品質とサイズ
データがすべてに勝る確かに、学習アルゴリズムやモデル アーキテクチャを更新することで、さまざまなタイプのパターンを学習できますが、データが悪いと、間違ったものに適合する関数を構築することになってしまいます。データセットの品質とサイズは、効果的なアルゴリズムよりもはるかに重要です。
最新の最適化アルゴリズムを使用する
オプティマイザーをプッシュすると多少の向上があるのは確かにわかりますが、このモデルの別の項目ほどモデルに大きな影響を与えることはありません。
より深いネットワーク
より深いネットワークではモデルを改善できますが、このリストに含まれる他の項目ほどの影響は大きくありません。
より巧みな損失関数
ファンの身近な存在になりましょう。損失関数の改善は大きな利点となりますが、それでも 2 番目に重要な問題です。

優れたデータセットの収集が重要である理由

Google 翻訳

「ニューラル機械翻訳が、使用するトレーニング データの最適なサブセットの特定以来、当社にとって最も品質の高い品質向上の 1 つです」

- Google 翻訳ソフトウェア エンジニア

Google 翻訳チームには、利用可能なよりも多くのトレーニング データがあります。 チームは、モデルを調整するのではなく、データ内の最適な特徴を使用してより大きな成果をあげています。

 

 

 

「...見かけたエラーを手動でデバッグしようとすると、多くの場合、トレーニング データの問題まで遡って対処できました。」 - Google 翻訳ソフトウェア エンジニア

「興味深い」エラーは通常、データが原因です。欠陥のあるデータを使用すると、どのようなモデリング手法を試しても、モデルが誤ったパターンを学習する可能性があります。

 

 

脳糖尿病性網膜症プロジェクト

Google Brain の糖尿病性網膜症プロジェクトでは、Inception と呼ばれるニューラル ネットワーク アーキテクチャを採用し、画像を分類して病気を検出しました。チームはモデルを微調整しませんでした。そこで、眼科医がラベルを付けた 120,000 のサンプルからなるデータセットを作成することに成功しました。(詳しくは https://research.google.com/pubs/pub43022.html をご覧ください)。