機械学習用語集: 画像モデル

このページでは、画像モデルに関する用語集について説明します。すべての用語集の用語については、こちらをクリックしてください。

A

拡張現実

#image

コンピュータで生成された画像をユーザーの現実の視点に重ねて合成する技術。

オートエンコーダ

#language
#image

入力から最も重要な情報を抽出することを学習するシステム。オートエンコーダは、エンコーダデコーダを組み合わせたものです。オートエンコーダは、次の 2 段階のプロセスに依存します。

  1. エンコーダは、入力を(通常は)ロッシーな低次元(中間)形式にマッピングします。
  2. デコーダは、低次元形式を元の高次元入力形式にマッピングして、元の入力のロッシー バージョンを作成します。

オートエンコーダはエンドツーエンドでトレーニングされますが、デコーダはエンコーダの中間形式から元の入力を可能な限り近く復元するようにします。中間形式が元の形式よりも小さい(低次元)ため、オートエンコーダは入力にどの情報が必要かを学習し、出力は入力と完全には同一になりません。

次に例を示します。

  • 入力データがグラフィックの場合、不正確でないコピーは元のグラフィックに似ていますが、若干修正されています。たとえば、完全一致でないコピーから元のグラフィックのノイズを除去したり、欠けていたピクセルを埋めたりする場合があります。
  • 入力データがテキストの場合、オートエンコーダは、元のテキストを模倣した新しいテキストを生成しますが、まったく同じではありません。

変分オートエンコーダもご覧ください。

自動回帰モデル

#language
#image
#generativeAI

以前の予測に基づいて予測を推定するモデル。たとえば、自動回帰言語モデルは、以前に予測されたトークンに基づいて次のトークンを予測します。Transformer ベースの大規模な言語モデルはすべて自動的に回帰します。

これとは対照的に、GAN ベースの画像モデルは、単一の反復処理で画像を生成し、段階的に反復的に生成しないため、通常は自動回帰ではありません。ただし、一部の画像生成モデルはステップで画像を生成するため、自動回帰となります。

B

境界ボックス

#image

画像では、下の画像にある犬のように、関心領域を囲む長方形の(xy)座標が必要です。

ソファに座っている犬の写真。左上隅の座標(275、1271)と右下座標(2954、2761)を持つ緑色の境界ボックスが犬の体を囲んでいます。

C

畳み込み

#image

数学では、ざっくばらんに言うと 2 つの役割が混在します。機械学習では、畳み込みは畳み込みフィルタと入力行列を組み合わせて重みをトレーニングします。

機械学習における「畳み込み」という用語は、多くの場合、畳み込み演算または畳み込みレイヤを簡略化したものです。

畳み込みがない場合、機械学習アルゴリズムは大きなテンソル内のセルごとに個別の重みを学習する必要があります。たとえば、2K x 2K の画像でトレーニングする機械学習アルゴリズムでは、4M の個別の重みを求めることになります。畳み込みのおかげで、機械学習アルゴリズムは畳み込みフィルタ内のすべてのセルの重みを見つけるだけでよく、モデルのトレーニングに必要なメモリを大幅に削減します。畳み込みフィルタを適用すると、各セルにフィルタが乗算されるように単純にセル間で複製されます。

畳み込みフィルタ

#image

畳み込み演算の 2 つのアクターのいずれか。(もう 1 つのアクターは入力行列のスライスです)。畳み込みフィルタは、入力行列と同じランクの小さな行列です。たとえば、28x28 の入力行列の場合、フィルタは 28x28 より小さい任意の 2D 行列になります。

写真操作では、畳み込みフィルタ内のすべてのセルは通常 1 と 0 の定数パターンに設定されます。機械学習では、一般的に畳み込みフィルタは乱数でシードされ、ネットワークが理想的な値をトレーニングします。

畳み込みレイヤ

#image

レイヤ間のディープ ニューラル ネットワーク畳み込みフィルタたとえば、次の 3x3 の畳み込みフィルタについて考えてみましょう。

次の値を含む 3x3 行列: [0,1,0]、[1,0,1]、[0,1,0]

次のアニメーションは、5x5 入力行列を含む 9 つの畳み込み演算からなる畳み込みレイヤを示しています。各畳み込み演算は、入力マトリックスの異なる 3x3 スライスで動作します。結果の 3x3 行列は、9 つの畳み込み演算の結果で構成されます。

2 つの行列を示すアニメーション。最初の行列は 5x5 の行列で、[128,97,53,201,198]、[35,22,25,200,195]、[37,24,28,197,182]、[33,28,92,195,179]、[21,31,47] です。2 番目の行列は [181,303,618]、[115,338,605]、[169,351,560] の行列です。2 番目の行列は、5x5 行列の異なる 3x3 サブセットに畳み込みフィルタ [0, 1, 0]、[1, 0, 1]、[0, 1, 0] を適用して計算されます。

畳み込みニューラル ネットワーク

#image

ニューラル ネットワーク。少なくとも 1 つのレイヤが畳み込みレイヤです。一般的な畳み込みニューラル ネットワークは、次のレイヤの組み合わせで構成されます。

畳み込みニューラル ネットワークは、画像認識など、特定の種類の問題に対して大きな成功をもたらしてきました。

畳み込み演算

#image

次の 2 段階の数学演算

  1. 畳み込みフィルタと入力行列のスライスの要素ごとの乗算。(入力行列のスライスの大きさとサイズは畳み込みフィルタと同じになります)。
  2. 結果のプロダクト マトリックス内のすべての値の合計。

次の 5x5 入力マトリックスについて考えてみましょう。

5x5 行列: [128,97,53,201,198]、[35,22,25,200,195]、[37,24,28,197,182]、[33,28,92,195,179]、[31,40,100,100]

ここで、次の 2x2 の畳み込みフィルタを想像してください。

2x2 行列: [[1, 0], [0, 1]]

各畳み込み演算には、入力行列の単一の 2x2 スライスが含まれます。たとえば、入力マトリックスの左上にある 2x2 スライスを使用するとします。このスライスの畳み込み演算は次のようになります。

[[1, 0], [0, 1]] を入力行列の左上の 2x2 セクション [[128,97], [35,22]] に畳み込みフィルタを適用する。
畳み込みフィルタでは 128 と 22 はそのまま残りますが、97 と 35 はゼロになります。したがって、畳み込み演算の結果は 150(128 + 22)になります。

畳み込みレイヤは、一連の畳み込み演算から構成され、それぞれが入力行列の異なるスライスに作用します。

D.

データの拡張

#image

既存のサンプルを変換して追加の例を作成し、トレーニングのサンプルの範囲と数を人為的に増やす。たとえば、画像は特徴の一つですが、データセットに有用な関連付けを学習するのに十分な画像サンプルがありません。モデルを適切にトレーニングできるように、ラベル付き画像を画像に追加すると理想的です。それができない場合は、データの拡張により各画像の回転、伸縮、反射が行われ、元の画像の多くのバリアントが生成され、優れたトレーニングを可能にするために十分なラベル付きデータが作成される可能性があります。

深度分離可能畳み込みニューラル ネットワーク(sepCNN)

#image

畳み込みニューラル ネットワーク Inception に基づくアーキテクチャ(Inception モジュールが深度分離可能な畳み込みに置き換えられている)別名 Xception

深度分離可能な畳み込み(分離可能な畳み込みとも呼ばれます)は、標準の 3 次元畳み込みを 2 つの別々の畳み込み演算に分解します。これらは、より計算効率が高い 2 つの畳み込み演算です。1 つ目は深度 1(n ✕ n ✕ 1)、2 つ目はポイント 1 の畳み込みの畳み込みです。

詳細については、Xception: 深度分離可能畳み込みによるディープ ラーニングをご覧ください。

ダウンサンプリング

#image

過負荷の用語は、次のいずれかを意味します。

  • モデルのトレーニングをより効率的に行うために、特徴の情報量を減らす。たとえば、画像認識モデルをトレーニングする前に、高解像度画像を低解像度形式にダウンサンプリングします。
  • 過小評価されているクラスに対するモデル トレーニングを改善するための、過小評価されているクラスの例が不均衡な割合。たとえば、クラスの不均衡なデータセットでは、モデルは大半のクラスについて多くの学習を行う傾向がありますが、マイノリティ クラスについては十分ではありません。ダウンサンプリングは、大半のクラスとマイノリティ クラスのトレーニング量のバランスをとるのに役立ちます。

F

微調整

#language
#image
#generativeAI

2 番目のタスク固有のトレーニング パス。事前トレーニング済みモデルで実行され、特定のユースケースに合わせてパラメータを絞り込みます。たとえば、一部の大規模な言語モデルの完全なトレーニング シーケンスは次のとおりです。

  1. 事前トレーニング: 英語の Wikipedia ページなど、汎用の大規模なデータセットで大規模な言語モデルをトレーニングします。
  2. 微調整: 医療クエリへの応答など、特定のタスクを実行するように事前トレーニング済みモデルをトレーニングします。微調整には、通常、特定のタスクに焦点を当てた数百または数千の例が含まれます。

別の例として、大きな画像モデルの完全なトレーニング シーケンスは次のとおりです。

  1. 事前トレーニング: 大規模な汎用画像データセット(Wikimedia 共通点のすべての画像など)で、大きな画像モデルをトレーニングします。
  2. 微調整: プリトレーニングされたモデルをトレーニングして、orca の画像の生成など、特定のタスクを実行します。

微調整では、次の戦略を自由に組み合わせることができます。

  • 事前トレーニング済みモデルの既存のすべてパラメータを変更する。これを「微調整」と呼びます。
  • 事前トレーニング済みモデルの既存のパラメータの一部(通常は出力レイヤに最も近いレイヤ)のみを変更し、他のパラメータは変更せずにそのままにする(通常は入力レイヤに最も近いレイヤ)。
  • レイヤの追加(通常は、出力レイヤに最も近い既存のレイヤの上)。

微調整は、転移学習の一形態です。そのため、微調整では、事前トレーニング済みモデルのトレーニングとは異なる損失関数やモデルタイプが使用される場合があります。たとえば、事前トレーニング済みの大規模画像モデルを微調整して、入力画像内の鳥の数を返す回帰モデルを作成できます。

以下の用語で、微調整を行い、調整してください。

G

創出

#language
#image
#generativeAI

正式な定義のない新たな変革の場。 それでも、ほとんどの専門家は、ジェネレーティブ AI モデルでは以下のすべてのコンテンツを作成(生成)できることに同意しています。

  • 複雑
  • コヒーレント
  • オリジナル

たとえば、AI 生成モデルでは高度なエッセイや画像を作成できます。

LSTMRNN など、以前の技術の中には、独自のコンテンツや一貫性のあるコンテンツを生成するものもあります。一部の専門家は、このような以前の技術を生成生成 AI として捉えている一方で、真の AI 生成技術は従来の技術よりも複雑な出力が必要であると感じている場合もあります。

予測 ML とは対照的です。

I

画像認識

#image

画像内のオブジェクト、パターン、またはコンセプトを分類するプロセス。画像認識は画像分類とも呼ばれます。

詳細については、ML の演習: 画像分類をご覧ください。

union over union(IoU)

#image

2 つのセットの交差を和集合で割った値。機械学習画像検出タスクでは、IoU を使用して、グラウンド トゥルース境界ボックスに対するモデルの予測境界ボックスの精度を測定します。この場合、2 つのボックスの IoU は重複領域と総領域の比率であり、値の範囲は 0(予測境界ボックスとグラウンド トゥルース境界ボックスの重複なし)から 1(予測境界ボックスとグラウンド トゥルース境界ボックスの座標は同じです)です。

たとえば、以下の画像をご覧ください。

  • 予測された境界ボックス(モデルがペイント内の夜間テーブルが配置される場所を区切る座標)が紫色で囲まれます。
  • 正解バー(ペイント内のナイトテーブルが実際に配置されている場所を示す座標)が緑で囲まれています。

ゴッホが「ヴィルセントの寝室(ヴィンセントの寝室)」を描いた画像。ベッドの横に夜のテーブルを囲む 2 つの異なる境界ボックスがある。正解(緑)境界ボックスはナイトテーブルを完全に囲んでいます。予測された境界ボックス(紫色)は、50% 下とグラウンド トゥルースの境界ボックスの右のオフセットです。夜間テーブルの右下 4 分の 1 を囲み、テーブルの残りの部分は見逃します。

この例では、予測と正解(境界ボックス)の交点が 1 で、予測と正解(境界ボックス)の境界ボックスの和が 7 であるため、IoU は \(\frac{1}{7}\)になります。

上記と同じですが、各境界ボックスが 4 つの象限に分割されています。グラウンド トゥルース境界ボックスの右下の象限と予測された境界ボックスの左上の象限が重なり合っているため、合計 7 つの象限になります。交差するセクション(緑色でハイライト表示されています)は交差を表し、その領域の面積は 1 です。 上記と同じですが、各境界ボックスが 4 つの象限に分割されています。グラウンド トゥルース境界ボックスの右下の象限と予測された境界ボックスの左上と 4 分の 1 の部分は互いに重なり合っているため、合計 7 象限になります。
両方の境界ボックス(緑でハイライト表示)で囲まれた内部全体がユニオンを表し、領域は 7 です。

K

キーポイント

#image

画像内の特定の特徴の座標。たとえば、花の種を識別する画像認識モデルでは、キーポイントが各花びら、ステム、ステームなどの中心になります。

L

landmarks

#image

キーポイントと同義。

M

MNIST

#image

LeCun、Cortes、Burges でコンパイルされた 60,000 枚の画像を含む一般公開ドメインのデータセット。各画像に、人間が 0 ~ 9 の特定の数字を手動で書き込んだ方法が示されている。各画像は 28x28 の整数の配列として格納され、各整数は 0 ~ 255 のグレースケール値です。

MNIST は機械学習の正規のデータセットで、多くの場合、新しい機械学習アプローチのテストに使用されます。詳しくは、 手書き数字の MNIST データベースをご覧ください。

P

プール

#image

以前の畳み込みレイヤによって作成された行列をより小さな行列に減らす。プーリングは通常、プールされた領域の最大値または平均値のいずれかを取ります。たとえば、次の 3x3 行列があるとします。

3x3 行列 [[5,3,1]、[8,2,5]、[9,4,3]]。

プーリング演算は、畳み込み演算と同様に、そのマトリックスをスライスに分割し、その畳み込み演算をストライドしてスライドします。たとえば、プーリング演算が畳み込み行列を 1x1 のストライドを持つ 2x2 スライスに分割するとします。次の図に示すように、4 つのプーリング オペレーションが発生します。各プーリング演算が、スライス内の 4 つの最大値を選択するとします。

入力行列は 3x3 の値で、[5,3,1]、[8,2,5]、[9,4,3] です。入力行列の左上の 2x2 サブ行列は [[5,3], [8,2]] であるため、左上のプーリング演算は値 8(最大値は 5、3、8、2)になります。入力行列の右上にある 2x2 サブ行列は [[3,1], [2,5]] であるため、右上のプーリング演算は値 5 を生成します。入力行列の左下の 2x2 サブ行列は [8,2], [9,4] であるため、左下のプーリング演算の値は 9 になります。入力行列の右下の 2x2 サブ行列は [2,5], [4,3] であるため、右下のプーリング演算の値は 5 になります。要約すると、プーリング演算により、2x2 行列 [[8,5], [9,5]] が生成されます。

プーリングは、入力行列における翻訳不変の適用に役立ちます。

ビジョン アプリケーションのプーリングは、空間的には空間プーリングと呼ばれます。 時系列アプリケーションでは、通常、プーリングを「一時的なプーリング」と呼びます。ふさわしくないプーリングは、サブサンプリングまたはダウンサンプリングと呼ばれます。

事前トレーニング済みモデル

#language
#image
#generativeAI

すでにトレーニングされているモデルまたはモデル コンポーネント(エンベディング ベクトルなど)。事前トレーニング済みのエンベディング ベクトルをニューラル ネットワークに入力することもあります。また、モデルは事前トレーニング済みのエンベディングに依存せずに、エンベディング ベクトル自体をトレーニングします。

事前トレーニング済み言語モデルという用語は、事前トレーニングを通過した大規模な言語モデルを指します。

事前トレーニング

#language
#image
#generativeAI

大規模なデータセットに対するモデルの初期トレーニング。事前トレーニング済みのモデルの一部は巨大であり、通常、追加のトレーニングで改善する必要があります。たとえば、ML エキスパートは、Wikipedia のすべての英語ページなど、膨大なテキスト データセットに大規模な言語モデルを事前にトレーニングできます。事前トレーニング後、次のいずれかの方法で、作成したモデルをさらに絞り込むことができます。

(右)

回転不変

#image

画像分類問題では、画像の向きが変化しても画像を適切に分類するアルゴリズムの能力が重要です。たとえば、テニスラケットが上、横、または下を指している場合でも、アルゴリズムは識別できます。回転不変量は常に望ましいとは限りません。たとえば、逆さまの 9 が 9 として分類されることはありません。

翻訳不変サイズ不変もご覧ください。

S

サイズ分散

#image

画像分類問題では、画像のサイズが変更された場合でも、画像を適切に分類するアルゴリズムが利用できます。たとえば、アルゴリズムが 200 万ピクセルと 20 万ピクセルのどちらを消費しているかを同定できます。なお、最適な画像分類アルゴリズムでさえも、サイズ不変に対する実用的な制限もあります。 たとえば、アルゴリズム(または人間)は、20 ピクセルしか消費していない猫の画像を正しく分類する可能性は低くなります。

翻訳不変不変分散もご覧ください。

空間プーリング

#image

プーリングをご覧ください。

ストライド

#image

畳み込み演算またはプーリングでは、次の一連の入力スライスの各次元の差分。たとえば、次のアニメーションは、畳み込み演算中の(1,1)ストライドを示しています。したがって、次の入力スライスは、前の入力スライスの 1 つ右の位置から開始します。オペレーションが右端に達すると、次のスライスは左端まで、ただし 1 つ下の位置まで、移動します。

入力 5x5 行列と 3x3 畳み込みフィルタ。ストライドは(1,1)であるため、畳み込みフィルタは 9 回適用されます。最初の畳み込みスライスでは、入力行列の左上の 3x3 サブ行列が評価されます。2 番目のスライスは、上部中央の 3x3 サブマトリックスを評価します。3 番目の畳み込みスライスは、右上の 3x3 サブマトリックスを評価します。4 番目のスライスでは、左中央の 3x3 サブマトリックスを評価します。5 番目のスライスは、中央の 3x3 サブマトリックスを評価します。6 番目のスライスは、中央の 3x3 サブマトリックスを評価します。7 番目のスライスは、左下の 3x3 サブマトリックスを評価します。8 番目のスライスは、下部の中央の 3x3 サブマトリックスを評価します。9 番目のスライスは、右下の 3x3 サブマトリックスを評価します。

上記の例は、2 次元の歩みを示しています。入力行列が 3 次元の場合、ストライドも 3 次元になります。

サブサンプリング

#image

プーリングをご覧ください。

温度

#language
#image
#generativeAI

モデルの出力のランダム性を制御するハイパーパラメータ。温度が高いほどランダムな出力は増えますが、温度が低いとランダムな出力は少なくなります。

最適な温度の選択は、特定のアプリケーションとモデル出力の望ましい特性によって異なります。たとえば、クリエイティブ出力を生成するアプリケーションを作成する際に、おそらく温度が上昇するでしょう。逆に、モデルの精度と一貫性を向上させるために、画像またはテキストを分類するモデルを作成する場合は、おそらく温度を下げます。

多くの場合、softmax で温度が使用されます。

翻訳不変

#image

画像分類問題では、画像内のオブジェクトの位置が変更された場合でも、画像を適切に分類するアルゴリズムの能力があります。たとえば、アルゴリズムは犬をフレームの中央に置いても、フレームの左端に置いても、識別できます。

サイズ分散回転不変もご覧ください。