理解度を確認する

以下の問題は、ML の中核的なコンセプトの理解を深めるのに役立ちます。

予測力

教師あり ML モデルは、ラベル付きのサンプルを含むデータセットを使用してトレーニングされます。このモデルは、特徴からラベルを予測する方法を学習します。ただし、データセット内のすべての特徴に予測力があるわけではありません。場合によっては、少数の特徴のみがラベルの予測子として機能します。以下のデータセットでは、価格をラベルとして使用し、残りの列を特徴として使用します。

ラベル付けされた自動車属性の例。

自動車の価格に最も影響すると思われる特徴を 3 つ挙げてください。
Make_model、year、miles。
車のメーカー、モデル、年、走行距離は、価格に最も強く予測する要素である可能性が高いです。
色、高さ、make_model。
車の高さと色は価格の有力な予測因子ではありません。
Miles、gearbox、make_model。
ギアボックスは価格の主な予測因子ではありません。
Tire_size、wheel_base、year。
タイヤのサイズとホイールベースは、自動車価格の有力な予測因子ではありません。

教師ありの学習と教師なし学習

問題に応じて、教師ありアプローチまたは教師なしアプローチのいずれかを使用します。たとえば、予測する値やカテゴリが事前にわかっている場合は、教師あり学習を使用します。ただし、データセットに関連例のセグメントまたはグループが含まれているかどうかを知りたい場合は、教師なし学習を使用します。

オンライン ショッピング ウェブサイトのユーザーのデータセットに、次の列が含まれているとします。

顧客属性の行の画像。

サイトにアクセスするユーザーのタイプを把握するために、教師あり学習と教師なし学習のどちらを使用するか?
教師なし学習。
関連する顧客のグループをモデルでクラスタ化するため、教師なし学習を使用します。モデルによってユーザーをクラスタ化したら、クラスタごとに独自の名前を作成します(「割引を求めるユーザー」、「ディール ハンター」、「サーファー」、「ロイヤル」、「ワンダラー」など)。
ユーザーが属するクラスを予測しようとしているため、教師あり学習。
教師あり学習では、予測対象のラベルがデータセットに含まれている必要があります。データセットには、ユーザーのカテゴリを参照するラベルがありません。

次のような列がある住宅のエネルギー使用量データセットがあるとします。

家の属性の行の画像。

新築住宅の 1 年あたりの使用量(キロワット時)を予測するには、どのタイプの ML を使用しますか。
教師あり学習。
教師あり学習がラベル付きサンプルでトレーニングを行う。このデータセットでは、モデルに予測させる値である「年間使用キロワット時間」がラベルになります。特徴は、「面積(平方フィート)」、「場所」、「建築年」です。
教師なし学習。
教師なし学習では、ラベルなしのサンプルが使用されます。この例では、モデルに予測させる値である「年間使用キロワット時間」がラベルになります。

次の列を持つフライト データセットがあるとします。

フライトデータの行の画像。

コーチ チケットの費用を予測する場合、回帰と分類のどちらを使用しますか。
回帰
回帰モデルの出力は数値です。
分類
分類モデルの出力は離散値(通常は単語)です。この場合、コーチ チケットの価格は数値です。
このデータセットに基づいて、コーチ チケットのコストを「高」、「平均」、「低」に分類する分類モデルをトレーニングできますか。
はい。ただし、最初に coach_ticket_cost 列の数値をカテゴリ値に変換する必要があります。
データセットから分類モデルを作成できます。次のように指定します。
  1. 出発空港から目的地の空港までのチケットの平均運賃を確認する。
  2. 「高」、「標準」、「低」を構成するしきい値を決定します。
  3. 予測費用をしきい値と比較し、値が該当するカテゴリを出力します。
いいえ。分類モデルを作成することはできません。coach_ticket_cost 値はカテゴリではなく数値です。
少しの作業で分類モデルを作成できます。
いいえ。分類モデルは、spamnot_spam のように、2 つのカテゴリのみを予測します。このモデルでは、3 つのカテゴリを予測する必要があります。
分類モデルは、複数のカテゴリを予測できます。これはマルチクラス分類モデルと呼ばれます。

トレーニングと評価

モデルをトレーニングした後、ラベル付けされたサンプルを含むデータセットを使用してモデルを評価し、モデルの予測値をラベルの実際の値と比較します。

質問に最も適切なものを 2 つ選択してください。

モデルの予測がかけ離れている場合、どうすれば予測を改善できるでしょうか。
モデルを再トレーニングするが、ラベルに対する予測力が最も高いと思われる特徴のみを使用する。
特徴は少なく、予測力は高いモデルを再トレーニングすることで、予測精度の高いモデルを生成できます。
予測がかけ離れているモデルは修正できません。
予測がオフになっているモデルを修正することは可能です。ほとんどのモデルでは、有用な予測を行うまで、トレーニングを複数回行う必要があります。
より大きく多様なデータセットを使用してモデルを再トレーニングする。
より多くの例と幅広い値を含むデータセットでトレーニングされたモデルは、特徴とラベルの関係をより適切に一般化したソリューションを持つため、より優れた予測を生成できます。
別のトレーニング アプローチを試してください。たとえば、教師ありアプローチを使用した場合は、教師なしアプローチをお試しください。
別のトレーニング アプローチでは、より良い予測は生成されません。

これで、ML の取り組みの次のステップに進む準備が整いました。

  • People + AI Guidebook。ML の使用に関する Google 社員、業界の専門家、学術研究による一連の方法、ベスト プラクティス、例をお探しの場合、

  • 問題のフレーミング。ML モデルを作成し、その過程でよくある落とし穴を回避するための、現場でテストされたアプローチをお探しの場合です。

  • 機械学習集中講座ML についてより詳しく実践する準備ができている方は、