フレーム処理: 主要な ML 用語

(教師あり)機械学習とは簡潔に説明すると、次のようになります。

  • ML システムでは、入力を組み合わせることで、これまで経験したことのないデータについて有用な予測を生成する方法を学びます。

機械学習に関する基本的な用語を見ていきましょう。

ラベル

ラベルは、私たちが予測しているもので、単純な線形回帰における y 変数です。ラベルには、将来の小麦の価格、写真に表示される動物の種類、音声クリップの意味など、さまざまなものがあります。

機能

特徴は、入力変数(単純な線形回帰の x 変数)です。単純な機械学習プロジェクトでは 1 つの特徴を使用できますが、より高度な機械学習プロジェクトでは、次のような数百万の特徴を使用できます。

\[\\{x_1, x_2, ... x_N\\}\]

スパム検出の例では、特徴には次のものが含まれます。

  • メール テキスト内の単語
  • 送信者のアドレス
  • メールが送信された時刻
  • email に、1 つの奇妙なトリックを含むフレーズが含まれています。

は、データの特定のインスタンス、つまり x です。(太字の x は、それがベクトルであることを示します。)例は次の 2 つのカテゴリに分類されます。

  • ラベル付き例
  • ラベルのない例

ラベル付きサンプルには、特徴とラベルの両方が含まれます。これは次のことを意味します。

  labeled examples: {features, label}: (x, y)

ラベル付けされた例を使用して、モデルをトレーニングします。スパム検出の例では、ラベル付けされた例は、ユーザーが「スパム」または「スパムではない」と明示的にマークした個々のメールです。

たとえば、次の表は、カリフォルニア州の住宅価格に関する情報を含むデータセットからラベル付けされた 5 つの例を示しています。

手持ちメディア
年齢(機能)
totalRooms
(機能)
totalBedrooms
(機能)
medianHouseValue
(ラベル)
15 5612 1283 66900
19 7650 1901 80100
17 720 174 85700
14 1501 337 73400
20 1454 326 65500

ラベルのないサンプルには特徴が含まれますが、ラベルは含まれません。これは次のことを意味します。

  unlabeled examples: {features, ?}: (x, ?)

同じ住宅用データセットからラベルのない 3 つの例を次に示します。medianHouseValue は除きます。

手持ちメディア
年齢(機能)
totalRooms
(機能)
totalBedrooms
(機能)
42 1686 361
34 1226 180
33 1077 271

ラベル付けされた例を使用してモデルをトレーニングしたら、そのモデルを使用して、ラベルのないサンプルでラベルを予測します。迷惑メール検出ツールにおけるラベル未設定の例は、人間がまだラベルを付けていない新しいメールです。

モデル

モデルでは、特徴とラベルの関係を定義します。たとえば、スパム検出モデルでは、特定の特徴を「スパム」と強く関連付けることがあります。モデルのライフサイクルの 2 つのフェーズを取り上げます。

  • トレーニングとは、モデルを作成または学習することを意味します。つまり、サンプルにラベルが付けられたモデルを表示し、モデルが特徴とラベルの関係を徐々に学習できるようにします。

  • 推論とは、ラベルなしの例にトレーニング済みモデルを適用することを意味します。つまり、トレーニング済みのモデルを使用して有用な予測を行います(y')。たとえば、推論中に、新しいラベルのないサンプルについて medianHouseValue を予測できます。

回帰と分類

回帰モデルは連続値を予測します。たとえば、回帰モデルは次のような疑問に答える予測をします。

  • カリフォルニア州の住宅の価値はいくらですか?

  • ユーザーが広告をクリックする可能性はどのくらいですか。

分類モデルは、個別の値を予測します。たとえば、分類モデルは、次のような質問に答える予測を行います。

  • 特定のメールが迷惑メールかどうか。

  • これは、犬、猫、ハムスターの画像ですか?