この用語集では、機械学習の用語を定義します。
A
アブレーション
特徴またはコンポーネントの重要度を評価する手法。モデルから一時的に削除します。次に、その特徴またはコンポーネントなしでモデルを再トレーニングします。再トレーニングされたモデルのパフォーマンスが大幅に低下した場合は、削除された特徴またはコンポーネントが重要であった可能性が高いです。
たとえば、10 個の特徴で分類モデルをトレーニングし、テストセットで 88% の精度を達成したとします。最初の特徴量の重要度を確認するには、他の 9 つの特徴量のみを使用してモデルを再トレーニングします。再トレーニングされたモデルのパフォーマンスが大幅に低下した場合(精度が 55% など)、削除された特徴量は重要だった可能性があります。逆に、再トレーニングされたモデルのパフォーマンスが同程度であれば、その特徴はそれほど重要ではなかった可能性があります。
アブレーションは、次の重要性を判断するうえでも役立ちます。
- 大規模な ML システムのサブシステム全体など、大規模なコンポーネント
- データ前処理ステップなどのプロセスまたは手法
どちらの場合も、コンポーネントを削除した後にシステムのパフォーマンスがどのように変化するか(または変化しないか)を確認します。
A/B テスト
2 つ(またはそれ以上)の手法(A と B)を比較する統計的な方法。通常、A は既存の手法であり、B は新しい手法です。A/B テストでは、どの手法のパフォーマンスが優れているかだけでなく、その差が統計的に有意であるかどうかも判断できます。
A/B テストでは通常、2 つの手法で 1 つの指標を比較します。たとえば、2 つの手法でモデルの精度を比較します。ただし、A/B テストでは、有限数の指標を比較することもできます。
アクセラレータ チップ
ディープ ラーニング アルゴリズムに必要な主要な計算を実行するように設計された特殊なハードウェア コンポーネントのカテゴリ。
アクセラレータ チップ(または単にアクセラレータ)は、汎用 CPU と比較して、トレーニング タスクと推論タスクの速度と効率を大幅に向上させることができます。ニューラル ネットワークのトレーニングや、同様の計算負荷の高いタスクに最適です。
アクセラレータ チップの例:
- ディープ ラーニング専用のハードウェアを備えた Google の Tensor Processing Unit(TPU)。
- NVIDIA の GPU。当初はグラフィック処理用に設計されましたが、並列処理を可能にするように設計されており、処理速度を大幅に向上させることができます。
accuracy
分類予測の正解の数を予測の総数で割った数。具体的には、次のことが求められます。
たとえば、40 個の正しい予測と 10 個の誤った予測を行ったモデルの精度は次のようになります。
バイナリ分類では、正しい予測と誤った予測のさまざまなカテゴリに固有の名前が付けられます。したがって、二項分類の精度の式は次のようになります。
ここで
詳細については、ML 集中講座の分類: 精度、再現率、適合率、関連指標をご覧ください。
アクション
強化学習では、エージェントが環境の状態間を遷移するメカニズム。エージェントはポリシーを使用してアクションを選択します。
活性化関数
ニューラル ネットワークが特徴とラベルの間の非線形(複雑な)関係を学習できるようにする関数。
一般的な活性化関数には次のようなものがあります。
活性化関数のプロットは、単一の直線になることはありません。たとえば、ReLU 活性化関数のプロットは 2 つの直線で構成されます。
シグモイド活性化関数のプロットは次のようになります。
詳細については、ML 集中講座のニューラル ネットワーク: 活性化関数をご覧ください。
能動的学習
アルゴリズムが学習するデータの一部を選択するトレーニング アプローチ。アクティブ ラーニングは、ラベル付きの例が不足している場合や、取得に費用がかかる場合に特に有効です。能動的学習アルゴリズムは、さまざまなラベル付きの例を盲目的に探すのではなく、学習に必要な特定の範囲の例を選択的に探します。
AdaGrad
各パラメータの勾配をリスケールする高度な勾配降下アルゴリズム。各パラメータに独立した学習率を効果的に付与します。詳細については、オンライン学習と確率的最適化のための適応型サブグラディエント法をご覧ください。
適応
チューニングまたはファインチューニングと同義。
エージェント
ユーザーの代わりにアクションを計画して実行するために、マルチモーダル ユーザー入力について推論できるソフトウェア。
強化学習では、エージェントは ポリシーを使用して、環境の状態間の遷移から得られる期待収益を最大化するエンティティです。
凝集型クラスタリング
階層型クラスタリングをご覧ください。
異常検出
外れ値を特定するプロセス。たとえば、特定の特徴の平均が 100 で標準偏差が 10 の場合、異常検出では値 200 が疑わしいと判断されます。
AR
拡張現実の略。
PR 曲線下面積
PR AUC(PR 曲線の下の面積)をご覧ください。
ROC 曲線下面積
AUC(ROC 曲線の下の面積)をご覧ください。
汎用人工知能
幅広い問題解決能力、創造性、適応性を示す非人間的なメカニズム。たとえば、汎用人工知能を実証するプログラムは、テキストの翻訳、交響曲の作曲、まだ発明されていないゲームでの優れたパフォーマンスを実現できます。
AI
複雑なタスクを解決できる人間以外のプログラムまたはモデル。たとえば、テキストを翻訳するプログラムやモデル、放射線画像から病気を特定するプログラムやモデルは、どちらも人工知能を示しています。
正式には、ML は AI の一分野です。しかし、近年では、人工知能と機械学習という用語が同じ意味で使用されることもあります。
Attention、
ニューラル ネットワークで使用されるメカニズムで、特定の単語または単語の一部がどの程度重要かを示します。アテンションは、次のトークン/単語を予測するためにモデルが必要とする情報量を圧縮します。一般的なアテンション メカニズムは、一連の入力に対する加重和で構成されます。各入力の重みは、ニューラル ネットワークの別の部分で計算されます。
Transformer の構成要素である セルフ アテンションとマルチヘッド セルフ アテンションもご覧ください。
セルフ アテンションの詳細については、ML 集中講座の LLM: 大規模言語モデルとはをご覧ください。
属性
feature と同義。
ML の公平性において、属性は個人に関連する特性を指すことがよくあります。
属性サンプリング
各ディシジョン ツリーが条件を学習するときに、可能な特徴のランダムなサブセットのみを考慮するディシジョン フォレストをトレーニングする戦術。通常、各ノードに対して、特徴量の異なるサブセットがサンプリングされます。一方、属性サンプリングなしで決定木をトレーニングする場合、各ノードですべての可能な特徴が考慮されます。
AUC(ROC 曲線の下の面積)
バイナリ分類モデルが陽性クラスと陰性クラスを分離する能力を表す 0.0 ~ 1.0 の数値。AUC が 1.0 に近いほど、クラスを互いに分離するモデルの能力が優れています。
たとえば、次の図は、陽性クラス(緑色の楕円)と陰性クラス(紫色の長方形)を完全に分離する分類モデルを示しています。この非現実的な完全なモデルの AUC は 1.0 です。
一方、次の図は、ランダムな結果を生成した分類モデルの結果を示しています。このモデルの AUC は 0.5 です。
はい。上記のモデルの AUC は 0.0 ではなく 0.5 です。
ほとんどのモデルは、この 2 つの極端なモデルの中間に位置します。たとえば、次のモデルは陽性と陰性をある程度分離しているため、AUC は 0.5 ~ 1.0 の範囲になります。
AUC は、分類しきい値に設定した値を無視します。AUC は、可能なすべての分類しきい値を考慮します。
詳細については、ML 集中講座の分類: ROC と AUC をご覧ください。
拡張現実
コンピュータで生成された画像をユーザーの現実世界の視界に重ね合わせ、合成された視界を提供するテクノロジー。
オートエンコーダ
入力から最も重要な情報を抽出することを学習するシステム。オートエンコーダは、エンコーダとデコーダの組み合わせです。オートエンコーダは、次の 2 段階のプロセスに依存しています。
- エンコーダは、入力を(通常は)損失のある低次元の(中間)形式にマッピングします。
- デコーダは、低次元形式を元の高次元入力形式にマッピングすることで、元の入力の損失バージョンを構築します。
オートエンコーダは、デコーダがエンコーダの中間形式から元の入力をできるだけ正確に再構成しようとすることで、エンドツーエンドでトレーニングされます。中間形式は元の形式よりも小さいため(低次元)、オートエンコーダは入力内のどの情報が不可欠かを学習する必要があり、出力は入力と完全に同じにはなりません。
次に例を示します。
- 入力データがグラフィックの場合、非完全一致のコピーは元のグラフィックと似ていますが、多少変更されています。完全なコピーではないため、元のグラフィックからノイズが除去されたり、欠落したピクセルが補完されたりする可能性があります。
- 入力データがテキストの場合、オートエンコーダは元のテキストを模倣した(ただし、同一ではない)新しいテキストを生成します。
変分オートエンコーダもご覧ください。
自動評価
ソフトウェアを使用してモデルの出力の品質を判断する。
モデルの出力が比較的単純な場合は、スクリプトまたはプログラムでモデルの出力をゴールデン レスポンスと比較できます。このタイプの自動評価は、プログラマティック評価と呼ばれることもあります。ROUGE や BLEU などの指標は、プログラムによる評価に役立つことがよくあります。
モデルの出力が複雑な場合や、正解が 1 つではない場合は、自動採点者と呼ばれる別の ML プログラムが自動評価を行うことがあります。
人間による評価と比較してください。
自動化バイアス
自動意思決定システムが誤りを犯した場合でも、人間による意思決定者が自動意思決定システムによる推奨事項を自動化なしで作成された情報よりも優先する場合。
詳細については、ML 集中講座の公平性: 偏りの種類をご覧ください。
AutoML
機械学習 モデルを構築するための自動化されたプロセス。AutoML では、次のようなタスクを自動的に実行できます。
- 最適なモデルを検索します。
- ハイパーパラメータを調整します。
- データ(特徴量エンジニアリングの実行を含む)を準備します。
- 結果のモデルをデプロイします。
AutoML は、ML パイプラインの開発にかかる時間と労力を節約し、予測精度を向上させることができるため、データ サイエンティストにとって有用です。また、複雑な ML タスクをより簡単に実行できるようにすることで、専門家以外のユーザーにも役立ちます。
詳細については、ML 集中講座の自動機械学習(AutoML)をご覧ください。
自動評価
人間による評価と自動評価を組み合わせた、生成 AI モデルの出力の品質を判断するためのハイブリッド メカニズム。自動評価ツールは、人間の評価によって作成されたデータでトレーニングされた ML モデルです。理想的には、自動評価ツールは人間の評価者を模倣することを学習します。事前構築された自動評価ツールを使用できますが、最適な自動評価ツールは、評価するタスクに合わせて特別にファインチューニングされています。
自己回帰モデル
独自の以前の予測に基づいて予測を推論するモデル。たとえば、自己回帰言語モデルは、以前に予測されたトークンに基づいて次のトークンを予測します。Transformer ベースの大規模言語モデルはすべて自動回帰です。
一方、GAN ベースの画像モデルは、通常、自己回帰ではありません。これは、画像をステップごとに反復的に生成するのではなく、単一のフォワード パスで生成するためです。ただし、一部の画像生成モデルは、画像を段階的に生成するため、自己回帰型です。
補助損失
損失関数 - ニューラル ネットワーク モデルのメインの損失関数と組み合わせて使用され、重みがランダムに初期化される初期の反復処理でトレーニングを高速化します。
補助損失関数は、有効なグラデーションを前のレイヤにプッシュします。これにより、勾配消失問題に対処することで、トレーニング中の収束が容易になります。
k における平均適合率
ランク付けされた結果(書籍の推奨事項の番号付きリストなど)を生成する単一のプロンプトに対するモデルのパフォーマンスを要約する指標。k における平均適合率は、各関連結果の k における適合率の値の平均です。したがって、k における平均適合率の式は次のようになります。
\[{\text{average precision at k}} = \frac{1}{n} \sum_{i=1}^n {\text{precision at k for each relevant item} } \]
ここで
- \(n\) は、リスト内の関連アイテムの数です。
k でのリコールとのコントラスト。
軸に沿った条件
ディシジョン ツリーで、単一の特徴のみを含む条件。たとえば、area
が特徴量の場合、軸に沿った条件は次のようになります。
area > 200
斜め条件も参照してください。
B
バックプロパゲーション
ニューラル ネットワークで勾配降下法を実装するアルゴリズム。
ニューラル ネットワークのトレーニングには、次の 2 パス サイクルの多くの反復が含まれます。
- フォワード パスでは、システムは バッチの例を処理して、予測を生成します。システムは、各予測を各ラベル値と比較します。予測値とラベル値の差は、その例の損失です。システムは、すべての例の損失を集計して、現在のバッチの合計損失を計算します。
- バックワード パス(バックプロパゲーション)では、すべての隠れ層のすべてのニューロンの重みを調整することで、損失を減らします。
ニューラル ネットワークには、多くの隠れ層に多くのニューロンが含まれていることがよくあります。これらのニューロンはそれぞれ異なる方法で全体的な損失に貢献します。バックプロパゲーションは、特定のニューロンに適用する重みを増減するかどうかを決定します。
学習率は、各バックワード パスで各重みを増減させる程度を制御する乗数です。学習率が大きいほど、各重みの増減が大きくなります。
微積分の用語で言うと、バックプロパゲーションは微積分の連鎖律を実装します。つまり、バックプロパゲーションは、各パラメータに関するエラーの偏導関数を計算します。
数年前、ML 実務者は逆伝播を実装するためにコードを記述する必要がありました。Keras などの最新の ML API では、バックプロパゲーションが実装されています。さて、
詳細については、ML 集中講座のニューラル ネットワークをご覧ください。
バギング
各構成要素のモデルが、復元抽出されたトレーニング例のランダムなサブセットでトレーニングされるアンサンブルをトレーニングする方法。たとえば、ランダム フォレストは、バギングでトレーニングされたディシジョン ツリーのコレクションです。
バギングという用語は、ブートストラップ集計の略です。
詳細については、Decision Forests コースのランダム フォレストをご覧ください。
bag of words
フレーズや文章内の単語の表現(順序は関係ありません)。たとえば、単語のバッグは次の 3 つのフレーズを同じように表します。
- 犬が飛び跳ねる
- 犬を飛び越える
- 犬が飛び越える
各単語は、スパース ベクトル内のインデックスにマッピングされます。このベクトルには、語彙内のすべての単語のインデックスが含まれます。たとえば、「犬がジャンプする」というフレーズは、「犬」、「ジャンプする」という単語に対応する 3 つのインデックスにゼロ以外の値を持つ特徴ベクトルにマッピングされます。ゼロ以外の値は次のいずれかになります。
- 単語の存在を示す 1。
- バッグ内の単語の出現回数。たとえば、フレーズが「the maroon dog is a dog with maroon fur」の場合、「maroon」と「dog」の両方が 2 として表され、他の単語は 1 として表されます。
- 単語がバッグに出現する回数の対数など、他の値。
ベースライン
別のモデル(通常はより複雑なモデル)のパフォーマンスを比較評価するための基準点として使用されるモデル。たとえば、ロジスティック回帰モデルは、ディープ ラーニング モデルの優れたベースラインとして機能します。
特定の問題に関して、ベースラインは、新しいモデルが有用であるために新しいモデルが達成する必要があるパフォーマンスの最小期待値をモデル デベロッパーが定量化するのに役立ちます。
ベースモデル
特定のタスクやアプリケーションに対応するためのファイン チューニングの出発点として使用できる事前トレーニング済みモデル。
ベースモデルは、事前トレーニング済みモデルと基盤モデルの両方の同義語です。
Batch
1 回のトレーニングイテレーションで使用されるサンプルのセット。バッチサイズは、バッチ内のサンプル数を決定します。
バッチとエポックの関係については、エポックをご覧ください。
詳細については、ML 集中講座の線形回帰: ハイパーパラメータをご覧ください。
バッチ推論
複数のラベルなしの例を小さなサブセット(「バッチ」)に分割して、予測を推論するプロセス。
バッチ推論では、アクセラレータ チップの並列化機能を利用できます。つまり、複数のアクセラレータがラベルなしの例の異なるバッチで同時に予測を推論できるため、1 秒あたりの推論数が大幅に増加します。
詳細については、ML 集中講座の本番環境の ML システム: 静的推論と動的推論をご覧ください。
バッチ正規化
隠れ層の活性化関数の入力または出力を正規化します。バッチ正規化には、次の利点があります。
- 外れ値の重みから保護することで、ニューラル ネットワークをより安定させます。
- 学習率を上げて、トレーニングを高速化します。
- 過学習を減らします。
バッチサイズ
バッチ内のサンプルの数。たとえば、バッチサイズが 100 の場合、モデルは 1 回のイテレーションごとに 100 個の例を処理します。
一般的なバッチサイズ戦略は次のとおりです。
- バッチサイズが 1 の確率的勾配降下法(SGD)。
- フルバッチ。バッチサイズは、トレーニング セット全体のサンプル数です。たとえば、トレーニング セットに 100 万個のサンプルが含まれている場合、バッチサイズは 100 万個のサンプルになります。通常、フルバッチは非効率的な戦略です。
- バッチサイズが通常 10 ~ 1,000 のミニバッチ。通常、ミニバッチが最も効率的な戦略です。
詳しくは以下をご覧ください。
ベイズ ニューラル ネットワーク
重みと出力の不確実性を考慮する確率的ニューラル ネットワーク。標準的なニューラル ネットワーク回帰モデルは、通常、スカラー値を予測します。たとえば、標準モデルは住宅価格を 853,000 と予測します。一方、ベイズ ニューラル ネットワークは値の分布を予測します。たとえば、ベイズモデルは、住宅価格を 853,000、標準偏差を 67,200 と予測します。
ベイズ ニューラル ネットワークは、 ベイズの定理に基づいて重みと予測の不確実性を計算します。ベイズ ニューラル ネットワークは、医薬品関連のモデルなど、不確実性を定量化することが重要な場合に役立ちます。ベイズ ニューラル ネットワークは、過適合の防止にも役立ちます。
ベイズ最適化
ベイズ学習手法を使用して不確実性を定量化するサロゲートを最適化することで、計算コストの高い目的関数を最適化する確率回帰モデル手法。ベイズ最適化自体が非常に高価であるため、通常は、ハイパーパラメータの選択など、パラメータの数が少ない評価にコストがかかるタスクを最適化するために使用されます。
ベルマン方程式
強化学習では、最適な Q 関数によって次の恒等式が満たされます。
\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]
強化学習アルゴリズムは、次の更新ルールを使用して、この恒等式を適用して Q 学習を作成します。
\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]
強化学習以外にも、ベルマン方程式は動的計画法にも応用されています。 ベルマン方程式の Wikipedia のエントリをご覧ください。
BERT(Bidirectional Encoder Representations from Transformers)
テキストの表現のモデル アーキテクチャ。トレーニング済みの BERT モデルは、テキスト分類やその他の ML タスク用の大規模なモデルの一部として機能します。
BERT には次の特徴があります。
- Transformer アーキテクチャを使用するため、セルフアテンションに依存します。
- Transformer のエンコーダ部分を使用します。エンコーダの役割は、分類などの特定のタスクを実行することではなく、適切なテキスト表現を生成することです。
- 双方向です。
- 教師なしトレーニングにマスキングを使用します。
BERT のバリエーションには次のようなものがあります。
BERT の概要については、オープンソース化された BERT: 自然言語処理の最先端の事前トレーニングをご覧ください。
バイアス(倫理/公平性)
1. 特定のこと、人、グループに対する固定観念、偏見、またはえこひいき。こうしたバイアスは、データの収集と解釈、システムの設計、ユーザーがシステムを操作する方法に影響する可能性があります。このタイプのバイアスの形式には、次のようなものがあります。
2. サンプリングや報告の手順で体系的に生じたエラー。このタイプのバイアスの形式には、次のようなものがあります。
機械学習モデルのバイアス項や予測バイアスと混同しないでください。
詳細については、ML 集中講座の公平性: 偏りの種類をご覧ください。
バイアス(数学)またはバイアス項
原点からの切片またはオフセット。バイアスは、機械学習モデルのパラメータです。次のいずれかで表されます。
- b
- w0
たとえば、次の数式では、バイアスは b です。
単純な 2 次元線では、バイアスは単に「y 切片」を意味します。たとえば、次の図の線のバイアスは 2 です。
バイアスは、すべてのモデルが原点(0,0)から始まるわけではないために存在します。たとえば、遊園地の入場料が 2 ユーロで、滞在 1 時間ごとに 0.5 ユーロの追加料金が発生するとします。したがって、総費用をマッピングするモデルのバイアスは 2 になります。これは、最低費用が 2 ユーロであるためです。
バイアスは、倫理と公平性のバイアスや予測バイアスと混同しないでください。
詳細については、ML 集中講座の線形回帰をご覧ください。
双方向
対象のテキスト セクションの前と後の両方にあるテキストを評価するシステムを表す用語。一方、単方向のシステムは、対象のテキスト セクションの前にあるテキストのみを評価します。
たとえば、次の質問の下線部分を表す単語の確率を判断する必要があるマスク言語モデルについて考えてみましょう。
_____ はどうなっていますか?
一方向言語モデルでは、「What」、「is」、「the」という単語で提供されるコンテキストのみに基づいて確率を計算する必要があります。一方、双方向言語モデルは「with」と「you」からもコンテキストを取得できるため、モデルがより適切な予測を生成するのに役立ちます。
双方向言語モデル
先行テキストと後続テキストに基づいて、テキストの抜粋内の特定の場所に特定のトークンが存在する確率を判断する言語モデル。
バイグラム
N=2 の n グラム。
バイナリ分類
2 つの相互に排他的なクラスのいずれかを予測する分類タスクの一種。
たとえば、次の 2 つの機械学習モデルはそれぞれバイナリ分類を実行します。
- メール メッセージが迷惑メール(ポジティブ クラス)か迷惑メールではない(ネガティブ クラス)かを判断するモデル。
- 病状を評価して、特定の病気がある(陽性クラス)か、その病気がない(陰性クラス)かを判断するモデル。
マルチクラス分類と比較してください。
詳細については、機械学習集中講座の分類をご覧ください。
バイナリ条件
決定木では、通常は yes または no の 2 つの結果のみが可能な条件。たとえば、次の条件はバイナリ条件です。
temperature >= 100
非バイナリ条件も参照してください。
詳細については、Decision Forests コースの条件のタイプをご覧ください。
ビニング
バケット化と同義。
BLEU(Bilingual Evaluation Understudy)
機械翻訳(スペイン語から日本語など)を評価するための 0.0 ~ 1.0 の指標。
スコアを計算するために、BLEU は通常、ML モデルの翻訳(生成されたテキスト)を人間の専門家の翻訳(参照テキスト)と比較します。生成されたテキストと参照テキストの n グラムが一致する度合いによって、BLEU スコアが決まります。
この指標に関する元の論文は、BLEU: a Method for Automatic Evaluation of Machine Translation です。
BLEURT もご覧ください。
BLEURT(Bilingual Evaluation Understudy from Transformers)
ある言語から別の言語への(特に英語との間の)機械翻訳を評価するための指標。
英語との間の翻訳では、BLEURT は BLEU よりも人間の評価に沿ったものになります。BLEU とは異なり、BLEURT は意味の類似性を重視し、言い換えに対応できます。
BLEURT は、事前トレーニングされた大規模言語モデル(正確には BERT)に依存しています。このモデルは、人間の翻訳者のテキストでファイン チューニングされています。
この指標に関する元の論文は、BLEURT: Learning Robust Metrics for Text Generation です。
ブースト
一連の単純で精度が低い分類子(「弱い」分類子)を反復的に組み合わせて、モデルが現在誤分類している例の重みを増やすことで、精度の高い分類子(「強い」分類子)にする機械学習手法。
詳細については、デシジョン フォレスト コースの勾配ブースト ディシジョン ツリーとはをご覧ください。
境界ボックス
画像内の関心領域(下の画像の犬など)を囲む長方形の(x, y)座標。
ブロードキャスト
行列演算でオペランドのシェイプをその演算と互換性のあるディメンションに拡張すること。たとえば、線形代数では、行列の加算演算の 2 つのオペランドの次元が同じである必要があります。したがって、形状 (m, n) の行列を長さ n のベクトルに追加することはできません。ブロードキャストでは、長さ n のベクトルを (m, n) の形状の行列に仮想的に拡張し、各列に同じ値を複製することで、このオペレーションを可能にします。
詳しくは、NumPy のブロードキャストの説明をご覧ください。
バケット化、
通常は値の範囲に基づいて、1 つの特徴をバケットまたはビンと呼ばれる複数のバイナリ特徴に変換します。通常、切り捨てられた特徴量は連続特徴量です。
たとえば、温度を 1 つの連続する浮動小数点型の特徴量として表すのではなく、温度の範囲を次のような離散的なバケットに分割できます。
- 摂氏 10 度以下は「コールド」バケットになります。
- 11 ~ 24 度の場合は「温帯」バケットになります。
- 摂氏 25 度以上は「暖かい」バケットになります。
モデルは、同じバケット内のすべての値を同じように扱います。たとえば、値 13
と 22
はどちらも中温バケットにあるため、モデルは 2 つの値を同じように扱います。
詳細については、機械学習集中講座の数値データ: ビン分割をご覧ください。
C
調整レイヤ
通常は予測バイアスを考慮するための、予測後の調整。調整された予測と確率は、観測されたラベルのセットの分布と一致する必要があります。
候補の生成
おすすめシステムによって選択された最適化案の初期セット。たとえば、10 万冊の書籍を提供する書店を考えてみましょう。候補生成フェーズでは、特定のユーザーに適した書籍のリストがはるかに小さく(500 冊など)なります。しかし、500 冊もの書籍をユーザーにすすめるのは多すぎます。レコメンデーション システムの後続のより高価なフェーズ(スコアリングや再ランキングなど)では、これらの 500 個の候補が、より小さく、より有用なレコメンデーション セットに絞り込まれます。
詳細については、レコメンデーション システム コースの候補生成の概要をご覧ください。
候補サンプリング
トレーニング時に最適化を行い、たとえば softmax を使用して、すべての陽性ラベルの確率を計算しますが、陰性ラベルのランダム サンプルに対してのみ計算します。たとえば、ビーグルと犬というラベルの付いた例が与えられた場合、候補サンプリングは、次の予測確率と対応する損失項を計算します。
- beagle
- 犬
- 残りのネガティブ クラスのランダムなサブセット(猫、棒付きキャンディ、フェンスなど)。
ポジティブ クラスが常に適切なポジティブ強化を受けられる限り、ネガティブ クラスは頻度の低いネガティブ強化から学習できるという考え方です。これは実際に経験的に観察されています。
候補サンプリングは、特に陰性クラスの数が非常に多い場合に、すべての陰性クラスの予測を計算するトレーニング アルゴリズムよりも計算効率が高くなります。
カテゴリデータ
特徴。取り得る値の特定のセットがあります。たとえば、traffic-light-state
という名前のカテゴリ特徴について考えてみます。この特徴は、次の 3 つの値のいずれか 1 つしか持つことができません。
red
yellow
green
traffic-light-state
をカテゴリ特徴量として表現することで、モデルは red
、green
、yellow
が運転者の行動に与える影響の違いを学習できます。
数値データと対照的です。
詳細については、ML 集中講座のカテゴリデータの操作をご覧ください。
因果言語モデル
単一言語ペアの言語モデルと同義。
言語モデリングにおけるさまざまな方向性のアプローチを比較するには、双方向言語モデルをご覧ください。
centroid
k 平均法または k 中央値アルゴリズムによって決定されたクラスタの中心。たとえば、k が 3 の場合、k 平均法または k 中央値アルゴリズムは 3 つのセントロイドを見つけます。
詳細については、クラスタリング コースのクラスタリング アルゴリズムをご覧ください。
重心ベースのクラスタリング
データを非階層クラスタに編成する クラスタリング アルゴリズムのカテゴリ。k 平均法は、最も広く使用されている重心ベースのクラスタリング アルゴリズムです。
階層型クラスタリング アルゴリズムと比較してください。
詳細については、クラスタリング コースのクラスタリング アルゴリズムをご覧ください。
Chain-of-Thought プロンプト
大規模言語モデル(LLM)に推論を段階的に説明させるプロンプト エンジニアリング手法。たとえば、次のプロンプトについて考えてみましょう。特に 2 文目に注目してください。
時速 0 マイルから時速 60 マイルまで 7 秒で加速する車に乗っているドライバーが受ける G フォースはどのくらいですか?回答には、関連する計算をすべて示してください。
LLM のレスポンスは次のようになります。
- 物理の公式のシーケンスを表示し、適切な場所に 0、60、7 の値を代入します。
- 選択した数式とその理由、さまざまな変数の意味を説明します。
Chain-of-thought プロンプトを使用すると、LLM はすべての計算を実行する必要があるため、より正確な回答が得られる可能性があります。また、連鎖思考プロンプトを使用すると、ユーザーは LLM の手順を調べて、回答が妥当かどうかを判断できます。
チャット
ML システム(通常は大規模言語モデル)とのやり取りの内容。チャットでの以前のやり取り(入力した内容と大規模言語モデルの回答)が、チャットの後続部分のコンテキストになります。
chatbot は大規模言語モデルのアプリケーションです。
チェックポイント
トレーニング中またはトレーニング完了後にモデルのパラメータの状態をキャプチャするデータ。たとえば、トレーニング中に次のことができます。
- トレーニングを停止します。これは、意図的に行う場合もあれば、特定のエラーの結果としてそうなる場合もあります。
- チェックポイントをキャプチャします。
- 後で、別のハードウェアでチェックポイントを再読み込みします。
- トレーニングを再開します。
クラス
ラベルが属することができるカテゴリ。次に例を示します。
分類モデルは、クラスを予測します。一方、回帰モデルは、クラスではなく数値を予測します。
詳細については、機械学習集中講座の分類をご覧ください。
分類モデル
予測がクラスであるモデル。たとえば、次のモデルはすべて分類モデルです。
- 入力文の言語を予測するモデル(フランス語か、スペイン語ですか?イタリア語か、など)。
- 樹木の種類を予測するモデル(メープルか、オークか、バオバブか、など)。
- 特定の病状について、陽性クラスか陰性クラスかを予測するモデル。
一方、回帰モデルはクラスではなく数値を予測します。
一般的な分類モデルには次の 2 つがあります。
分類しきい値
バイナリ分類では、ロジスティック回帰モデルの未加工の出力を陽性クラスまたは陰性クラスのいずれかの予測に変換する 0 ~ 1 の数値。分類しきい値は、モデルのトレーニングによって選択される値ではなく、人間が選択する値です。
ロジスティック回帰モデルは、0 ~ 1 の範囲の生の値を出力します。以下の手順を行います。
- この生の値が分類しきい値より大きい場合、正のクラスが予測されます。
- この生の値が分類しきい値より小さい場合、負のクラスが予測されます。
たとえば、分類しきい値が 0.8 であるとします。生の値が 0.9 の場合、モデルは陽性クラスを予測します。生の値が 0.7 の場合、モデルは負のクラスを予測します。
分類しきい値の選択は、偽陽性と偽陰性の数に大きな影響を与えます。
詳細については、ML 集中講座のしきい値と混同行列をご覧ください。
分類器
分類モデルのカジュアルな用語。
クラスの不均衡なデータセット
各クラスのラベルの合計数が大きく異なる分類問題のデータセット。たとえば、2 つのラベルが次のように分割されているバイナリ分類データセットについて考えてみましょう。
- 1,000,000 個の負のラベル
- 10 個の正のラベル
ネガティブ ラベルとポジティブ ラベルの比率は 100,000 対 1 であるため、これはクラス不均衡のデータセットです。
一方、次のデータセットは、負のラベルと正のラベルの比率が 1 に近いので、クラスの不均衡はありません。
- 517 個の負のラベル
- 483 個の正のラベル
マルチクラス データセットは、クラスの不均衡が生じている場合もあります。たとえば、次のマルチクラス分類データセットもクラス不均衡です。これは、1 つのラベルの例が他の 2 つのラベルよりもはるかに多いためです。
- クラス「green」のラベルが 1,000,000 個
- クラス「purple」のラベルが 200 個
- クラス「orange」のラベルが 350 個
クリッピング
次のいずれかまたは両方を行うことで、外れ値を処理する手法。
- 最大しきい値を超える特徴の値を最大しきい値まで減らします。
- 最小しきい値を下回る特徴量の値を最小しきい値まで引き上げます。
たとえば、特定の特徴の値の 0.5% 未満が 40 ~ 60 の範囲外にあるとします。この場合は、次の操作を行います。
- 60(最大しきい値)を超えるすべての値を 60 にクリップします。
- 40(最小しきい値)未満のすべての値を 40 にクリップします。
外れ値はモデルを損傷し、トレーニング中に重みがオーバーフローすることがあります。一部の外れ値は、精度などの指標を大幅に損なう可能性があります。クリッピングは、損傷を制限する一般的な手法です。
勾配クリッピングは、トレーニング中に勾配値を指定された範囲内に強制的に収めます。
詳細については、ML 集中講座の数値データ: 正規化をご覧ください。
Cloud TPU
Google Cloud での ML ワークロードの高速化を目的として設計された特殊なハードウェア アクセラレータ。
クラスタリング
関連する例をグループ化する(特に教師なし学習中)。すべての例がグループ化されたら、各クラスタに意味を付与できます。
クラスタリング アルゴリズムは多数存在します。たとえば、k 平均法アルゴリズムは、次の図のように、重心との距離に基づいて例をクラスタリングします。
その後、人間の研究者がクラスタを確認し、たとえば、クラスタ 1 に「矮性樹木」、クラスタ 2 に「成木」というラベルを付けます。
別の例として、次の図に示すように、中心点からの例の距離に基づくクラスタリング アルゴリズムについて考えてみましょう。
詳細については、クラスタリング コースをご覧ください。
共適応
ニューロンが、ネットワーク全体の動作に依存するのではなく、特定の他のニューロンの出力にほぼ完全に依存して、トレーニング データのパターンを予測する望ましくない動作。共適応を引き起こすパターンが検証データに存在しない場合、共適応によって過剰適合が発生します。ドロップアウト正則化は、ドロップアウトによってニューロンが特定の他のニューロンのみに依存できないようにするため、共適応を減らします。
コラボレーション フィルタリング
他の多くのユーザーの関心に基づいて、あるユーザーの関心を予測すること。コラボレーション フィルタリングは、レコメンデーション システムでよく使用されます。
詳細については、レコメンデーション システム コースの協調フィルタリングをご覧ください。
コンパクト モデル
計算リソースが限られた小型デバイスで実行するように設計された小型モデル。たとえば、コンパクト モデルはスマートフォン、タブレット、組み込みシステムで実行できます。
compute
(名詞)モデルまたはシステムで使用されるコンピューティング リソース(処理能力、メモリ、ストレージなど)。
アクセラレータ チップをご覧ください。
コンセプト ドリフト
特徴とラベルの関係の変化。時間の経過とともに、コンセプトのドリフトによってモデルの品質が低下します。
トレーニング中、モデルはトレーニング セットの特徴とそのラベルの関係を学習します。トレーニング セットのラベルが現実世界の適切なプロキシである場合、モデルは現実世界で適切な予測を行うはずです。ただし、コンセプトのドリフトにより、モデルの予測は時間の経過とともに精度が低下する傾向があります。
たとえば、特定の車種が「燃費が良い」かどうかを予測するバイナリ分類モデルについて考えてみましょう。つまり、特徴は次のようになります。
- 車の重量
- エンジンの圧縮
- transmission type
ラベルが次のいずれかである場合:
- 燃料効率が良い
- 燃費が悪い
しかし、「燃費の良い車」の概念は常に変化しています。1994 年に「燃費が良い」とラベル付けされた自動車モデルは、2024 年には「燃費が良くない」とラベル付けされる可能性がほぼ確実にあります。コンセプト ドリフトが発生したモデルでは、時間の経過とともに予測の有用性が低下する傾向があります。
非定常性と比較対照します。
商品の状態(condition)
ディシジョン ツリーでは、ディシジョン ツリーに含まれる任意のノードに次の 2 つの条件が含まれます。
条件は、分割またはテストとも呼ばれます。
leaf との対比条件。
関連項目:
詳細については、Decision Forests コースの条件のタイプをご覧ください。
confabulation
ハルシネーションと同義。
幻覚よりも、虚言症という用語の方が技術的には正確でしょう。しかし、最初に普及したのはハルシネーションでした。
構成
モデルのトレーニングに使用される初期プロパティ値を割り当てるプロセス。次のものがあります。
ML プロジェクトでは、特別な構成ファイルを使用するか、次の構成ライブラリを使用して構成を行うことができます。
確証バイアス
既存の信念や仮説を裏付けるような形で情報を検索、解釈、重視、想起する傾向。ML デベロッパーは、既存の信念を裏付ける結果に影響を与える方法で、誤ってデータを収集したりラベル付けしたりする可能性があります。確証バイアスは、暗黙のバイアスの一種です。
テスト担当者のバイアスは、確証バイアスの一種です。テスト担当者が、既存の仮説が確証されるまでモデルのトレーニングを続けることで生じます。
混同行列
分類モデルが行った正しい予測と誤った予測の数をまとめた NxN の表。たとえば、バイナリ分類モデルの次の混同行列について考えてみましょう。
腫瘍(予測) | 腫瘍なし(予測) | |
---|---|---|
腫瘍(グラウンド トゥルース) | 18(TP) | 1(FN) |
腫瘍なし(グラウンド トゥルース) | 6(FP) | 452(TN) |
上の混同行列は、次のことを示しています。
- グラウンド トゥルースが「腫瘍」である 19 個の予測のうち、モデルは 18 個を正しく分類し、1 個を誤って分類しました。
- グラウンド トゥルースが「Non-Tumor」である 458 件の予測のうち、モデルは 452 件を正しく分類し、6 件を誤って分類しました。
マルチクラス分類問題の混同行列は、間違いのパターンを特定するのに役立ちます。たとえば、3 つの異なるアヤメの種類(Virginica、Versicolor、Setosa)を分類する 3 クラスのマルチクラス分類モデルの次の混同行列について考えてみましょう。正解が Virginica の場合、混同行列は、モデルが Setosa よりも Versicolor を誤って予測する可能性がはるかに高いことを示しています。
Setosa(予測) | Versicolor(予測) | Virginica(予測) | |
---|---|---|---|
Setosa(グラウンド トゥルース) | 88 | 12 | 0 |
Versicolor(グラウンド トゥルース) | 6 | 141 | 7 |
Virginica(グラウンド トゥルース) | 2 | 27 | 109 |
別の例として、手書きの数字を認識するようにトレーニングされたモデルが、4 ではなく 9 を誤って予測したり、7 ではなく 1 を誤って予測したりする傾向があることが、混同行列からわかる場合があります。
混同行列には、適合率や再現率など、さまざまなパフォーマンス指標を計算するのに十分な情報が含まれています。
構成要素の解析
文をより小さな文法構造(「構成要素」)に分割すること。ML システムの後続部分(自然言語理解モデルなど)は、元の文よりも構成要素を簡単に解析できます。たとえば、次の文について考えてみましょう。
友人が 2 匹の猫を飼い始めました。
構成要素パーサーは、この文を次の 2 つの構成要素に分割できます。
- 「My friend」は名詞句です。
- adopted two cats は動詞句です。
これらの構成要素は、さらに小さな構成要素に細分化できます。たとえば、動詞句
2 匹の猫を飼い始めた
にさらに細分化できます。
- adopted は動詞です。
- 2 匹の猫は別の名詞句です。
コンテキスト化された言語エンベディング
流暢な人間の話者が単語やフレーズを理解する方法に近い方法で、単語やフレーズを「理解」するエンベディング。コンテキスト化された言語エンベディングは、複雑な構文、セマンティクス、コンテキストを理解できます。
たとえば、英語の単語「cow」のエンベディングについて考えてみましょう。word2vec などの古いエンベディングでは、cow から bull までのエンベディング空間内の距離が、ewe(雌羊)から ram(雄羊)までの距離や、female から male までの距離と類似するように、英単語を表現できます。コンテキスト化された言語エンベディングは、英語話者が「cow」という単語を牛または雄牛の意味でカジュアルに使用することがあることを認識することで、さらに一歩進むことができます。
コンテキスト ウィンドウ
モデルが特定のプロンプトで処理できるトークンの数。コンテキスト ウィンドウが大きいほど、モデルはより多くの情報を使用して、プロンプトに明解で一貫性のある回答を提供できます。
連続特徴
温度や重さなど、可能な値の範囲が無限の浮動小数点特徴。
離散特徴と比較してください。
便宜的サンプリング
科学的に収集されていないデータセットを使用して、迅速なテストを実施する。後で、科学的に収集されたデータセットに切り替えることが不可欠です。
収束
反復処理ごとに 損失値がほとんど変化しないか、まったく変化しない状態。たとえば、次の損失曲線は、約 700 回の反復で収束することを示しています。
モデルが収束するのは、追加のトレーニングを行ってもモデルが改善されない場合です。
ディープ ラーニングでは、損失値が最終的に減少するまで、多くのイテレーションで一定またはほぼ一定になることがあります。損失値が一定の期間続くと、一時的に収束したように見えることがあります。
早期停止もご覧ください。
詳細については、ML 集中講座のモデルの収束と損失曲線をご覧ください。
凸関数
関数のグラフの上側の領域が凸集合である関数。典型的な凸関数は、U のような形をしています。たとえば、次の関数はすべて凸関数です。
一方、次の関数は凸関数ではありません。グラフの上側の領域が凸集合ではないことに注目してください。
狭義凸関数には、局所最小点が 1 つだけあり、それが大域最小点でもあります。従来の U 字型関数は、厳密な凸関数です。ただし、一部の凸関数(直線など)は U 字型ではありません。
詳細については、ML 集中講座の収束と凸関数をご覧ください。
凸最適化
勾配降下法などの数学的手法を使用して、凸関数の最小値を見つけるプロセス。機械学習の多くの研究は、さまざまな問題を凸最適化問題として定式化し、それらの問題をより効率的に解決することに重点を置いてきました。
詳細については、Boyd と Vandenberghe の Convex Optimization をご覧ください。
凸集合
ユークリッド空間のサブセット。サブセット内の任意の 2 点を結ぶ線がサブセット内に完全に収まる。たとえば、次の 2 つの形状は凸集合です。
一方、次の 2 つの図形は凸集合ではありません。
畳み込み
数学では、2 つの関数の混合を指します。機械学習では、畳み込みは畳み込みフィルタと入力行列を混合して、重みをトレーニングします。
ML における「畳み込み」という用語は、畳み込み演算または畳み込みレイヤのいずれかを指す略語としてよく使用されます。
畳み込みがない場合、機械学習アルゴリズムは大きなテンソルのすべてのセルに対して個別の重みを学習する必要があります。たとえば、2K x 2K 画像でトレーニングする機械学習アルゴリズムは、4M 個の個別の重みを見つけることを強制されます。畳み込みのおかげで、機械学習アルゴリズムは畳み込みフィルタの各セルの重みを見つけるだけで済み、モデルのトレーニングに必要なメモリが大幅に削減されます。畳み込みフィルタが適用されると、各セルがフィルタで乗算されるように、セル全体に複製されます。
詳細については、画像分類コースの畳み込みニューラル ネットワークの概要をご覧ください。
畳み込みフィルタ
畳み込み演算の 2 つのアクターの 1 つ。(もう一方のアクターは入力行列のスライスです)。畳み込みフィルタは、入力行列と同じランクを持ち、形状が小さい行列です。たとえば、28x28 の入力行列が与えられた場合、フィルタは 28x28 より小さい任意の 2D 行列になります。
写真の操作では、通常、畳み込みフィルタ内のすべてのセルが 1 と 0 の定数パターンに設定されます。ML では、通常、畳み込みフィルタは乱数でシードされ、ネットワークが理想的な値をトレーニングします。
詳細については、画像分類コースの畳み込みをご覧ください。
畳み込みレイヤ
ディープ ニューラル ネットワークのレイヤ。畳み込みフィルタが入力行列を渡します。たとえば、次の 3x3 の畳み込みフィルタについて考えてみましょう。
次のアニメーションは、5x5 入力行列を含む 9 つの畳み込み演算で構成される畳み込みレイヤを示しています。各畳み込み演算は、入力行列の異なる 3x3 スライスで動作します。結果の 3x3 行列(右側)は、9 つの畳み込み演算の結果で構成されます。
詳細については、画像分類コースの全結合レイヤをご覧ください。
畳み込みニューラル ネットワーク
少なくとも 1 つのレイヤが畳み込みレイヤであるニューラル ネットワーク。一般的な畳み込みニューラル ネットワークは、次のレイヤの組み合わせで構成されています。
畳み込みニューラル ネットワークは、画像認識などの特定の問題で大きな成功を収めています。
畳み込み演算
次の 2 段階の算術演算。
- 畳み込みフィルタと入力行列のスライスとの要素ごとの乗算。(入力行列のスライスは、畳み込みフィルタと同じランクとサイズになります)。
- 結果の積行列内のすべての値の合計。
たとえば、次の 5x5 の入力行列を考えてみましょう。
次の 2x2 畳み込みフィルタを考えてみましょう。
各畳み込み演算では、入力行列の 2x2 スライスが 1 つ使用されます。たとえば、入力行列の左上の 2x2 スライスを使用するとします。したがって、このスライスに対する畳み込み演算は次のようになります。
畳み込みレイヤは、一連の畳み込み演算で構成され、それぞれが入力行列の異なるスライスで動作します。
費用
損失と同義。
共同トレーニング
半教師あり学習アプローチは、次のすべての条件に該当する場合に特に有用です。
- データセット内のラベル付きの例に対するラベルなしの例の比率が高い。
- これは分類問題(バイナリまたはマルチクラス)です。
- データセットには、互いに独立していて補完的な 2 つの異なる予測特徴セットが含まれています。
コトレーニングは、基本的に独立したシグナルを増幅してより強力なシグナルにします。たとえば、個々の中古車を「良い」または「悪い」に分類する分類モデルについて考えてみましょう。予測機能の 1 つのセットは、車の年式、メーカー、モデルなどの集計特性に焦点を当て、予測機能の別のセットは、以前の所有者の運転記録と車のメンテナンス履歴に焦点を当てます。
コトレーニングに関する重要な論文は、Blum と Mitchell による Combining Labeled and Unlabeled Data with Co-Training です。
反事実的公平性
1 つ以上の機密属性を除いて、最初の個人と同一の別の個人に対して、分類モデルが同じ結果を生成するかどうかを確認する公平性指標。反事実的公平性について分類モデルを評価することは、モデル内の潜在的なバイアスの原因を特定する 1 つの方法です。
詳しくは、次のいずれかをご覧ください。
- 機械学習集中講座の公平性: 反事実的公平性。
- When Worlds Collide: Integrating Different Counterfactual Assumptions in Fairness(英語)
対象範囲のバイアス
選択バイアスをご覧ください。
クラッシュ ブラッサム
意味が曖昧な文またはフレーズ。クラッシュ ブロッサムは、自然言語理解において重大な問題を引き起こします。たとえば、「Red Tape Holds Up Skyscraper」という見出しは、NLU モデルがこの見出しを文字どおりに解釈することも、比喩的に解釈することもできるため、クラッシュ ブロッサムです。
批評家
Deep Q-Network と同義。
交差エントロピー
対数損失をマルチクラス分類問題に一般化したものです。交差エントロピーは、2 つの確率分布間の差を定量化します。パープレキシティもご覧ください。
交差検証
トレーニング セットから除外された 1 つ以上の重複しないデータ サブセットに対してモデルをテストすることで、モデルが新しいデータにどれだけ一般化されるかを推定するメカニズム。
累積分布関数(CDF)
目標値以下のサンプルの頻度を定義する関数。たとえば、連続値の正規分布を考えてみましょう。CDF は、サンプルの約 50% が平均値以下であり、サンプルの約 84% が平均値より 1 標準偏差大きい値以下であることを示します。
D
データ分析
サンプル、測定、可視化を考慮したデータの理解。データ分析は特に、最初のモデルを構築する前に、データセットを初めて受け取ったときに役立ちます。また、テストの理解やシステムの問題のデバッグにも不可欠です。
データ拡張
既存のサンプルを変換して追加のサンプルを作成することにより、トレーニング サンプルの範囲と数を人為的に増やすこと。たとえば、画像が特徴の 1 つであるのに、データセットにはモデルが有用な関連性を学習するのに十分な画像サンプルが含まれていないとします。理想的なのは、モデルを適切にトレーニングできるように、データセットにラベル付けされた画像を十分に追加することです。それが不可能な場合は、データ拡張によって各画像を回転、伸縮、反射して元の画像の多くのバリエーションを生成し、優れたトレーニングを可能にする十分なラベル付きデータを得ることができます。
DataFrame
メモリ内のデータセットを表す一般的な pandas データ型。
DataFrame は、テーブルやスプレッドシートに似ています。DataFrame の各列には名前(ヘッダー)があり、各行は一意の数値で識別されます。
DataFrame の各列は 2 次元配列のように構造化されていますが、各列に独自のデータ型を割り当てられる点が特徴です。
公式の pandas.DataFrame リファレンス ページもご覧ください。
データ並列処理
トレーニングまたは推論をスケーリングする方法の 1 つで、モデル全体を複数のデバイスに複製し、入力データのサブセットを各デバイスに渡します。データ並列処理では、非常に大きなバッチサイズでのトレーニングと推論が可能になります。ただし、モデルはすべてのデバイスに収まるほど小さくする必要があります。
通常、データ並列処理によりトレーニングと推論の速度が上がります。
モデル並列処理もご覧ください。
Dataset API(tf.data)
データを読み取り、機械学習アルゴリズムが必要とする形式に変換するための高レベルの TensorFlow API。tf.data.Dataset
オブジェクトは、要素のシーケンスを表します。各要素には 1 つ以上の Tensor が含まれています。tf.data.Iterator
オブジェクトは、Dataset
の要素へのアクセスを提供します。
データセット
通常は(ただし限定されない)次のいずれかの形式で整理された、未加工データのコレクションです。
- スプレッドシート
- CSV(カンマ区切り値)形式のファイル
決定境界
バイナリクラスまたはマルチクラス分類問題でモデルによって学習されたクラス間の分離線。たとえば、次の図はバイナリ分類問題を表しています。決定境界は、オレンジ色のクラスと青色のクラスの境界です。
デシジョン フォレスト
複数のディシジョン ツリーから作成されたモデル。ディシジョン フォレストは、ディシジョン ツリーの予測を集計して予測を行います。一般的なディシジョン フォレストには、ランダム フォレストや勾配ブースト ツリーなどがあります。
詳細については、デシジョン フォレスト コースのデシジョン フォレストのセクションをご覧ください。
決定しきい値
分類しきい値と同義。
ディシジョン ツリー
階層的に編成された一連の条件とリーフで構成される教師あり学習モデル。たとえば、次の意思決定ツリーを考えます。
デコーダ
一般に、処理済み、密、内部の表現から、より未加工な、疎、外部の表現に変換する ML システム。
デコーダは多くの場合、大規模なモデルのコンポーネントであり、エンコーダと対になっています。
sequence-to-sequence(Seq2Seq)タスクでは、デコーダはエンコーダによって生成された内部状態から開始して、次のシーケンスを予測します。
Transformer アーキテクチャ内のデコーダの定義については、Transformer を参照してください。
詳細については、ML 集中講座の大規模言語モデルをご覧ください。
ディープモデル
複数の隠れ層を含むニューラル ネットワーク。
ディープモデルは、ディープ ニューラル ネットワークとも呼ばれます。
ワイドモデルと比較してください。
ネットワークでよく
ディープモデルと同義。
Deep Q-Network(DQN)
Q 学習では、Q 関数を予測するディープ ニューラル ネットワーク。
Critic は、Deep Q-Network の同義語です。
人口学的等価性
モデルの分類結果が特定の機密属性に依存しない場合に満たされる公平性指標。
たとえば、リリパット人とブロブディンナグ人が Glubbdubdrib 大学に申し込んだ場合、リリパット人の合格率とブロブディンナグ人の合格率が同じであれば、どちらかのグループの平均的な資格がもう一方のグループよりも高いかどうかに関係なく、人口統計学的パリティが達成されます。
均等化されたオッズと機会の平等とは対照的です。これらは、分類結果の集計が機密属性に依存することを許可しますが、特定のグラウンド トゥルース ラベルの分類結果が機密属性に依存することを許可しません。人口統計学的パリティの最適化におけるトレードオフを視覚的に確認するには、「よりスマートな機械学習による差別の是正」をご覧ください。
詳細については、ML 集中講座の公平性: 人口統計学的パリティをご覧ください。
ノイズ除去
自己教師あり学習の一般的なアプローチ。
ノイズ除去により、ラベルなしの例から学習できます。元のデータセットはターゲットまたはラベルとして機能し、ノイズの多いデータは入力として機能します。
一部のマスク言語モデルでは、次のようにノイズ除去を使用します。
- ノイズは、一部のトークンをマスクすることで、ラベルのない文に人工的に追加されます。
- モデルは元のトークンを予測しようとします。
密な特徴
ほとんどまたはすべての値がゼロ以外の特徴。通常は浮動小数点値の Tensor。たとえば、次の 10 要素の Tensor は、9 つの値がゼロ以外であるため、密です。
8 | 3 | 7 | 5 | 2 | 4 | 0 | 4 | 9 | 6 |
スパースな特徴と比較してください。
密なレイヤ
全結合レイヤと同義。
深さ
ニューラル ネットワーク内の次の合計:
- 隠れ層の数
- 出力レイヤの数(通常は 1)
- エンベディング レイヤの数
たとえば、隠れ層が 5 つ、出力層が 1 つのニューラル ネットワークの深さは 6 です。
入力レイヤは depth に影響しないことに注意してください。
深度方向分離畳み込みニューラル ネットワーク(sepCNN)
Inception に基づく畳み込みニューラル ネットワーク アーキテクチャ。ただし、Inception モジュールは深さ方向の分離可能な畳み込みに置き換えられています。Xception とも呼ばれます。
デプスワイズ分離可能畳み込み(分離可能畳み込みとも呼ばれます)は、標準の 3D 畳み込みを、より計算効率の高い 2 つの別々の畳み込み演算に分解します。1 つ目はデプスワイズ畳み込み(深さ 1(n ✕ n ✕ 1))、2 つ目はポイントワイズ畳み込み(長さと幅が 1(1 ✕ 1 ✕ n))です。
詳細については、Xception: Depthwise Separable Convolution を使用したディープ ラーニングをご覧ください。
派生ラベル
プロキシ ラベルと同義。
デバイス
次の 2 つの定義が考えられるオーバーロードされた用語。
- CPU、GPU、TPU など、TensorFlow セッションを実行できるハードウェアのカテゴリ。
- アクセラレータ チップ(GPU または TPU)で ML モデルをトレーニングする場合、テンソルとエンベディングを実際に操作するシステムの部分。デバイスはアクセラレータ チップで動作します。一方、ホストは通常 CPU で実行されます。
差分プライバシー
ML において、モデルのトレーニング セットに含まれる機密データ(個人の個人情報など)が公開されないようにするための匿名化アプローチ。このアプローチにより、モデルが特定の個人について学習したり記憶したりすることがなくなります。これは、モデルのトレーニング中にサンプリングとノイズの追加を行い、個々のデータポイントを不明瞭にすることで実現されます。これにより、機密性の高いトレーニング データが漏えいするリスクを軽減できます。
差分プライバシーは、ML 以外でも使用されています。たとえば、データ サイエンティストは、さまざまなユーザー属性のプロダクト使用統計情報を計算する際に、個人のプライバシーを保護するために差分プライバシーを使用することがあります。
次元削減
特徴ベクトル内の特定の特徴を表すために使用される次元数を減らします。通常は、エンベディング ベクトルに変換します。
寸法
次のいずれかの定義を持つオーバーロードされた用語。
Tensor 内の座標のレベル数。次に例を示します。
- スカラーにはディメンションがありません(例:
["Hello"]
)。 - ベクトルには 1 つのディメンションがあります(例:
[3, 5, 7, 11]
)。 - マトリックスには 2 つのディメンションがあります(例:
[[2, 4, 18], [5, 7, 14]]
)。1 次元ベクトルの特定のセルを一意に指定するには 1 つの座標を使用します。2 次元行列の特定のセルを一意に指定するには 2 つの座標が必要です。
- スカラーにはディメンションがありません(例:
特徴ベクトル内のエントリ数。
エンベディング レイヤ内の要素の数。
直接プロンプト
ゼロショット プロンプトと同義。
離散特徴
取り得る値の有限集合を持つ特徴。たとえば、値が animal、vegetable、mineral のいずれかである特徴は、離散(またはカテゴリカル)特徴です。
連続特徴と対照的です。
識別モデル
1 つ以上の特徴のセットからラベルを予測するモデル。より正式には、識別モデルは、特徴と重みが与えられた場合の出力の条件付き確率を定義します。つまり、次のようになります。
p(output | features, weights)
たとえば、特徴と重みからメールがスパムかどうかを予測するモデルは、識別モデルです。
分類モデルや回帰モデルなど、教師あり学習モデルの大部分は識別モデルです。
生成モデルと対照的です。
discriminator
例が本物か偽物かを判断するシステム。
または、ジェネレータによって作成された例が本物か偽物かを判断する、敵対的生成ネットワーク内のサブシステム。
詳細については、GAN コースの識別器をご覧ください。
不均衡な影響
さまざまな人口サブグループに不均衡な影響を与える人に関する意思決定を行う。通常、これはアルゴリズムによる意思決定プロセスが、一部のサブグループに他のサブグループよりも大きな損害または利益をもたらす状況を指します。
たとえば、リリパット人のミニチュア住宅ローンの適格性を判断するアルゴリズムで、郵送先住所に特定の郵便番号が含まれている場合、その人を「不適格」と分類する可能性が高いとします。リトル エンディアンのリルピュート人よりもビッグ エンディアンのリルピュート人のほうが、この郵便番号の住所を持っている可能性が高い場合、このアルゴリズムは不均衡な影響をもたらす可能性があります。
サブグループの特性がアルゴリズムによる意思決定プロセスの明示的な入力である場合に生じる不均衡に焦点を当てる不当な扱いとは対照的です。
差別的取り扱い
アルゴリズムによる意思決定プロセスに被験者の機密属性を考慮し、人々のさまざまなサブグループが異なる扱いを受けるようにする。
たとえば、リリパット人が住宅ローン申請で提供したデータに基づいて、ミニチュア住宅ローンの利用資格を判断するアルゴリズムを考えてみましょう。アルゴリズムがリリパットの所属をビッグ エンディアンまたはリトル エンディアンとして入力に使用する場合、その次元に沿って差別的な扱いが行われます。
不均衡な影響(アルゴリズムによる意思決定がサブグループに及ぼす社会的影響の不均衡に焦点を当てたもの。サブグループがモデルへの入力であるかどうかは関係ない)とは対照的です。
での精製
1 つのモデル(教師と呼ばれる)のサイズを、元のモデルの予測を可能な限り忠実にエミュレートする小さなモデル(生徒と呼ばれる)に縮小するプロセス。蒸留が有用なのは、小規模なモデルには大規模なモデル(教師)よりも次の 2 つの重要なメリットがあるためです。
- 推論時間の短縮
- メモリとエネルギー使用量の削減
ただし、生徒の予測は通常、教師の予測ほど正確ではありません。
抽出では、生徒モデルと教師モデルの予測の出力の差に基づいて、損失関数を最小限に抑えるように生徒モデルをトレーニングします。
蒸留と次の用語を比較対照します。
詳細については、機械学習集中講座の LLM: ファインチューニング、蒸留、プロンプト エンジニアリングをご覧ください。
配信
特定の特徴またはラベルの異なる値の頻度と範囲。分布は、特定の値の可能性を捉えます。
次の図は、2 つの異なる分布のヒストグラムを示しています。
- 左側は、富の分布と、その富を所有する人数の関係をべき乗則で表したグラフです。
- 右側は、身長と、その身長の人の数の正規分布です。
各特徴とラベルの分布を理解すると、値を正規化して外れ値を検出する方法を判断できます。
「分布外」とは、データセットに表示されない値、または非常にまれな値を指します。たとえば、猫の画像で構成されるデータセットの場合、土星の画像は分布外と見なされます。
分割型クラスタリング
階層型クラスタリングをご覧ください。
ダウンサンプリング
次のいずれかを意味する可能性のあるオーバーロードされた用語。
- モデルをより効率的にトレーニングするために、特徴内の情報量を減らすこと。たとえば、画像認識モデルをトレーニングする前に、高解像度画像を低解像度形式にダウンサンプリングします。
- 過剰に表現されたクラスの例の割合が極端に低いデータでトレーニングして、過小に表現されたクラスのモデル トレーニングを改善します。たとえば、クラスの不均衡なデータセットでは、モデルは多数派クラスについて多くを学習する傾向があり、少数派クラスについては十分に学習しません。ダウンサンプリングは、メジャー クラスとマイナー クラスのトレーニング量のバランスをとるのに役立ちます。
詳細については、ML 集中講座のデータセット: 不均衡なデータセットをご覧ください。
DQN
Deep Q-Network の略語。
ドロップアウト正則化
ニューラル ネットワークのトレーニングに役立つ正則化の一種。ドロップアウト正則化では、単一の勾配ステップで、ネットワーク レイヤ内の固定数のユニットがランダムに選択されて削除されます。ドロップアウトするユニットが多いほど、正則化が強くなります。これは、小さなネットワークの指数関数的に大きなアンサンブルをエミュレートするようにネットワークをトレーニングすることに似ています。詳細については、Dropout: A Simple Way to Prevent Neural Networks from Overfitting(ドロップアウト: ニューラル ネットワークの過学習を防ぐ簡単な方法)をご覧ください。
動的
頻繁または継続的に行われること。機械学習では、動的とオンラインという用語は同義語です。機械学習における dynamic と online の一般的な使用例は次のとおりです。
- 動的モデル(またはオンライン モデル)は、頻繁にまたは継続的に再トレーニングされるモデルです。
- 動的トレーニング(またはオンライン トレーニング)は、頻繁にまたは継続的にトレーニングを行うプロセスです。
- 動的推論(またはオンライン推論)は、オンデマンドで予測を生成するプロセスです。
動的モデル
頻繁に(継続的に)再トレーニングされるモデル。動的モデルは、進化するデータに常に適応する「生涯学習者」です。動的モデルは、オンライン モデルとも呼ばれます。
静的モデルも参照してください。
E
Eager Execution
オペレーションがすぐに実行される TensorFlow プログラミング環境。一方、グラフ実行で呼び出されたオペレーションは、明示的に評価されるまで実行されません。Eager 実行は、ほとんどのプログラミング言語のコードと同様に、命令型インターフェースです。一般に、積極的実行プログラムはグラフ実行プログラムよりもデバッグがはるかに容易です。
早期停止
トレーニングの損失が減少を終える前にトレーニングを終了する正則化の手法。早期停止では、検証データセットの損失が上昇し始めたとき、つまり汎化性能が低下したときに、モデルのトレーニングを意図的に停止します。
早期終了との違い。
アース ムーバー距離(EMD)
2 つの分布の相対的な類似度を測定します。アース ムーバー距離が小さいほど、分布の類似性が高くなります。
編集距離
2 つのテキスト文字列の類似性を測定します。機械学習では、編集距離は次の理由で役立ちます。
- 編集距離は簡単に計算できます。
- 編集距離は、互いに類似していることがわかっている 2 つの文字列を比較できます。
- 編集距離を使用すると、異なる文字列が特定の文字列にどの程度類似しているかを判断できます。
編集距離には複数の定義があり、それぞれ異なる文字列操作を使用します。例については、レーベンシュタイン距離をご覧ください。
Einsum 表記
2 つのテンソルを結合する方法を記述するための効率的な表記法。テンソルは、一方のテンソルの要素に他方のテンソルの要素を乗算し、その積を合計することで結合されます。Einsum 表記では、記号を使用して各テンソルの軸を識別します。これらの記号は、新しい結果テンソルの形状を指定するために再配置されます。
NumPy は、一般的な Einsum 実装を提供します。
エンベディング レイヤ
高次元のカテゴリカル特徴でトレーニングし、低次元の埋め込みベクトルを徐々に学習する特別な隠れ層。埋め込みレイヤを使用すると、高次元のカテゴリ特徴のみでトレーニングする場合よりも、ニューラル ネットワークのトレーニングをはるかに効率的に行うことができます。
たとえば、Earth は現在約 73,000 種の樹木をサポートしています。モデルの特徴が樹種であるとします。この場合、モデルの入力レイヤには 73,000 個の要素を含むワンホット ベクトルが含まれます。たとえば、baobab
は次のように表されます。
73,000 個の要素を含む配列は非常に長くなります。モデルにエンベディング レイヤを追加しないと、72,999 個のゼロを乗算するため、トレーニングに非常に時間がかかります。たとえば、エンベディング レイヤを 12 個のディメンションで構成するとします。その結果、エンベディング レイヤは各樹種の新しいエンベディング ベクトルを徐々に学習します。
状況によっては、ハッシュ化がエンベディング レイヤの妥当な代替手段となることがあります。
詳細については、ML 集中講座のエンベディングをご覧ください。
エンベディング空間
高次元ベクトル空間の特徴がマッピングされる d 次元ベクトル空間。エンベディング空間は、目的のアプリケーションにとって意味のある構造をキャプチャするようにトレーニングされます。
2 つのエンベディングのドット積は、それらの類似度の指標です。
エンベディング ベクトル
大まかに言うと、任意の 隠れ層から取得された浮動小数点数の配列で、その隠れ層への入力を表します。多くの場合、エンベディング ベクトルはエンベディング レイヤでトレーニングされた浮動小数点数の配列です。たとえば、エンベディング レイヤが地球上の 73,000 種の樹木ごとにエンベディング ベクトルを学習する必要があるとします。次の配列は、バオバブのエンベディング ベクトルです。
エンベディング ベクトルはランダムな数値の集まりではありません。エンベディング レイヤは、トレーニング中にニューラル ネットワークが他の重みを学習する方法と同様に、トレーニングを通じてこれらの値を決定します。配列の各要素は、樹種の特性に関する評価です。どの要素がどの樹種の特性を表していますか?これは人間が判断するには非常に難しいことです。
エンベディング ベクトルの数学的に注目すべき点は、類似したアイテムには類似した浮動小数点数のセットがあることです。たとえば、類似した樹種は、類似していない樹種よりも類似した浮動小数点数のセットを持ちます。レッドウッドとセコイアは関連する樹種であるため、レッドウッドとココヤシよりも類似した浮動小数点数のセットになります。エンベディング ベクトルの数値は、同じ入力でモデルを再トレーニングした場合でも、モデルを再トレーニングするたびに変化します。
経験累積分布関数(eCDF または EDF)
実際のデータセットの実測値に基づく累積分布関数。X 軸上の任意の点における関数の値は、指定された値以下のデータセット内の観測値の割合です。
経験的リスク最小化(ERM)
トレーニング セットの損失を最小限に抑える関数を選択します。構造的リスク最小化と対照的です。
エンコーダ
一般に、未加工な、疎、外部の表現から、より加工された、密、内部の表現に変換する ML システム。
エンコーダは、多くの場合、大規模なモデルのコンポーネントであり、デコーダと対になっています。変換ツールにはエンコーダとデコーダを対で使用するものと、エンコーダまたはデコーダのみを単独で使用するものがあります。
一部のシステムでは、エンコーダの出力を分類ネットワークや回帰ネットワークへの入力として使用します。
sequence-to-sequence(Seq2Seq)タスクでは、エンコーダは入力シーケンスを受け取り、内部状態(ベクトル)を返します。次に、デコーダがその内部状態を使用して次のシーケンスを予測します。
Transformer アーキテクチャのエンコーダの定義については、Transformer をご覧ください。
詳細については、ML 集中講座の LLM: 大規模言語モデルとはをご覧ください。
エンドポイント
サービスにアクセスできるネットワーク アドレス指定可能な場所(通常は URL)。
アンサンブル
個別にトレーニングされたモデルのコレクション。ここでの予測は平均化または集約されています。多くの場合、アンサンブルは単一モデルよりも優れた予測結果をもたらします。たとえば、ランダム フォレストは、複数のディシジョン ツリーから構築されたアンサンブルです。すべてのディシジョン フォレストがアンサンブルであるとは限りません。
詳細については、機械学習集中講座のランダム フォレストをご覧ください。
エントロピー
情報理論では、確率分布の予測不可能性を説明するものです。また、各例に含まれる情報量を表すものとしても定義されます。分布のエントロピーが最大になるのは、確率変数のすべての値が等しい確率で発生する場合です。
2 つの値「0」と「1」を持つセットのエントロピー(たとえば、バイナリ分類問題のラベル)は、次の式で表されます。
H = -p log p - q log q = -p log p - (1-p) * log (1-p)
ここで
- H はエントロピーです。
- p は「1」の例の割合です。
- q は「0」の例の割合です。q = (1 - p) であることに注意してください。
- log は通常 log2 です。この場合、エントロピー単位はビットです。
たとえば、次のように仮定します。
- 100 個の例に値「1」が含まれている
- 300 個の例に値「0」が含まれている
したがって、エントロピー値は次のようになります。
- p = 0.25
- q = 0.75
- H = (-0.25)log2(0.25) - (0.75)log2(0.75) = 1 例あたり 0.81 ビット
完全にバランスの取れたセット(たとえば、200 個の「0」と 200 個の「1」)のエントロピーは、例あたり 1.0 ビットになります。セットのバランスが崩れるほど、エントロピーは 0.0 に近づきます。
決定木では、エントロピーは情報ゲインの定式化に役立ち、スプリッタが分類決定木の成長中に条件を選択するのに役立ちます。
エントロピーを以下と比較します。
エントロピーは、シャノンのエントロピーと呼ばれることもあります。
詳細については、Decision Forests コースの数値特徴を使用したバイナリ分類の正確な分割ツールをご覧ください。
環境
強化学習では、エージェントを含む世界であり、エージェントがその世界の状態を観察できるようになっているものです。たとえば、表現された世界は、チェスのようなゲームや、迷路のような物理的な世界などです。エージェントが環境にアクションを適用すると、環境は状態間を遷移します。
エピソード
強化学習では、エージェントが環境を学習するために繰り返す試行のそれぞれ。
エポック
各サンプルが 1 回処理されるように、トレーニング セット全体に対するトレーニング パス全体。
エポックは N
/バッチサイズ のトレーニング イテレーションを表します。ここで、N
は例の総数です。
たとえば、次のように仮定します。
- データセットは 1,000 個の例で構成されています。
- バッチサイズは 50 個のサンプルです。
したがって、1 つのエポックには 20 回の反復が必要です。
1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations
詳細については、ML 集中講座の線形回帰: ハイパーパラメータをご覧ください。
ε-greedy ポリシー
強化学習では、イプシロン確率でランダム ポリシーに従うか、それ以外の場合はグリーディ ポリシーに従うポリシー。たとえば、イプシロンが 0.9 の場合、ポリシーは 90% の時間でランダム ポリシーに従い、10% の時間でグリーディ ポリシーに従います。
エピソードを繰り返すたびに、アルゴリズムはイプシロンの値を減らし、ランダム ポリシーからグリーディ ポリシーに移行します。ポリシーをシフトすることで、エージェントはまず環境をランダムに探索し、次にランダム探索の結果を貪欲に利用します。
機会の平等
モデルが機密属性のすべての値について望ましい結果を平等に予測しているかどうかを評価する公平性指標。つまり、モデルの望ましい結果が陽性クラスの場合、すべてのグループで真陽性率が同じになることが目標となります。
機会の平等は、均等化されたオッズに関連しています。これは、すべてのグループで真陽性率と偽陽性率の両方が同じであることを必要とします。
Glubbdubdrib 大学が、リリパット人とブロブディンナグ人を厳格な数学プログラムに受け入れたとします。リリパットのセカンダリー スクールでは、数学の授業の充実したカリキュラムが提供されており、生徒のほとんどが大学プログラムの資格を取得しています。ブロブディンナグの高校では数学の授業がまったく提供されていないため、資格のある生徒ははるかに少なくなっています。リリパット人かブロブディンナグ人かに関係なく、有資格の学生が同じ確率で入学できる場合、国籍(リリパット人またはブロブディンナグ人)に関して「合格」という優先ラベルの機会均等性が満たされます。
たとえば、Glubbdubdrib 大学に 100 人の小人と 100 人の巨人が応募し、次のように入学が決定されるとします。
表 1. リリパットの応募者(90% が資格あり)
リードの精査が完了 | 見込みなし | |
---|---|---|
Admitted | 45 | 3 |
不承認 | 45 | 7 |
合計 | 90 | 10 |
合格した適格な学生の割合: 45/90 = 50% 不合格になった不適格な学生の割合: 7/10 = 70% 合格したリリパット人の学生の割合: (45+3)/100 = 48% |
表 2. Brobdingnagian の応募者(10% が資格あり):
リードの精査が完了 | 見込みなし | |
---|---|---|
Admitted | 5 | 9 |
不承認 | 5 | 81 |
合計 | 10 | 90 |
入学を許可された資格のある学生の割合: 5/10 = 50% 入学を拒否された資格のない学生の割合: 81/90 = 90% 入学を許可されたブロブディンナグ人の学生の合計割合: (5+9)/100 = 14% |
上記の例では、リリパット人とブロブディンナグ人がどちらも 50% の確率で入学できるため、有資格の学生の入学機会の平等が満たされています。
機会均等は満たされていますが、次の 2 つの公平性指標は満たされていません。
- 人口統計学的パリティ: リリパット人とブロブディンナグ人が異なる割合で大学に入学している。リリパット人の学生の 48% が入学しているが、ブロブディンナグ人の学生は 14% しか入学していない。
- 均等なオッズ: リリパット人とブロブディンナグ人の両方の生徒が合格する確率は同じですが、不合格となる確率も同じであるという制約は満たされていません。不適格なリリパット人の拒否率は 70% ですが、不適格なブロブディンナグ人の拒否率は 90% です。
詳細については、ML 集中講座の公平性: 機会の平等をご覧ください。
均等オッズ
モデルがポジティブ クラスとネガティブ クラスの両方について、機密属性のすべての値に対して結果を平等に予測しているかどうかを評価する公平性指標。一方のクラスのみを排他的に評価するものではありません。つまり、真陽性率と偽陰性率の両方が、すべてのグループで同じである必要があります。
均等オッズは、単一のクラス(正または負)のエラー率のみに焦点を当てた機会の平等に関連しています。
たとえば、Glubbdubdrib 大学がリリパット人とブロブディンナグ人を厳格な数学プログラムに受け入れているとします。リリパットの高校では、数学の授業のカリキュラムが充実しており、ほとんどの生徒が大学プログラムの資格を取得しています。Brobdingnagians の中等学校では数学の授業がまったく提供されていないため、資格のある生徒ははるかに少なくなっています。リリパット人でもブロブディンナグ人でも、資格があればプログラムに合格する確率は同じで、資格がなければ不合格になる確率は同じである場合、均等なオッズが満たされます。
リリパット人とブロブディンナグ人がそれぞれ 100 人ずつ Glubbdubdrib 大学に入学を申し込んだとします。入学の決定は次のように行われます。
表 3: リリパットの応募者(90% が資格あり)
リードの精査が完了 | 見込みなし | |
---|---|---|
Admitted | 45 | 2 |
不承認 | 45 | 8 |
合計 | 90 | 10 |
入学が許可された資格のある学生の割合: 45/90 = 50% 入学が許可されなかった資格のない学生の割合: 8/10 = 80% 入学が許可されたリリパット人の学生の合計割合: (45+2)/100 = 47% |
表 4. Brobdingnagian の応募者(10% が資格あり):
リードの精査が完了 | 見込みなし | |
---|---|---|
Admitted | 5 | 18 |
不承認 | 5 | 72 |
合計 | 10 | 90 |
合格した資格のある学生の割合: 5/10 = 50% 不合格になった資格のない学生の割合: 72/90 = 80% 合格した Brobdingnagian 学生の割合: (5+18)/100 = 23% |
リリパット人とブロブディンナグ人の両方で、合格した学生の 50% が合格し、不合格の学生の 80% が不合格になるため、均等なオッズが満たされています。
均等なオッズは、「Equality of Opportunity in Supervised Learning」で次のように正式に定義されています。「予測子 Ŷ は、Ŷ と A が Y を条件として独立している場合、保護属性 A と結果 Y に関して均等なオッズを満たします。」
Estimator
非推奨の TensorFlow API。Estimator ではなく tf.keras を使用します。
evals
主に LLM 評価の略語として使用されます。広義には、evals は、評価のあらゆる形式の略語です。
評価
モデルの品質を測定したり、異なるモデルを相互に比較したりするプロセス。
教師あり機械学習モデルを評価するには、通常、検証セットとテストセットに対してモデルを評価します。LLM の評価では、通常、品質と安全性のより広範な評価が行われます。
例
特徴の 1 行の値と、場合によってはラベル。教師あり学習の例は、次の 2 つの一般的なカテゴリに分類されます。
- ラベル付きの例は、1 つ以上の特徴とラベルで構成されます。トレーニング中にラベル付きの例が使用されます。
- ラベルなしの例は、1 つ以上の特徴で構成されますが、ラベルはありません。ラベルなしの例は推論時に使用されます。
たとえば、天気予報が学生のテストの点数に与える影響を判断するモデルをトレーニングするとします。ラベル付きの例を 3 つ示します。
機能 | ラベル | ||
---|---|---|---|
温度 | 湿度 | 気圧 | テストスコア |
15 | 47 | 998 | 良い |
19 | 34 | 1020 | 非常に良い |
18 | 92 | 1012 | 悪い |
ラベルなしの例を 3 つ示します。
温度 | 湿度 | 気圧 | |
---|---|---|---|
12 | 62 | 1014 | |
21 | 47 | 1017 | |
19 | 41 | 1021 |
通常、データセットの行は、例の未加工のソースです。つまり、通常、例はデータセット内の列のサブセットで構成されます。また、例の特徴には、特徴の交差などの合成特徴を含めることもできます。
詳細については、機械学習入門コースの教師あり学習をご覧ください。
経験再生
強化学習では、トレーニング データの時間相関を減らすために使用される DQN 手法。エージェントは、状態遷移を再生バッファに保存し、再生バッファから遷移をサンプリングしてトレーニング データを作成します。
実験者のバイアス
確証バイアスをご覧ください。
勾配爆発問題
ディープ ニューラル ネットワーク(特に再帰型ニューラル ネットワーク)の勾配が驚くほど急峻(高い)になる傾向。急な勾配は、多くの場合、ディープ ニューラル ネットワーク内の各ノードの重みに非常に大きな更新を引き起こします。
勾配爆発問題が発生したモデルは、トレーニングが困難になるか、不可能になります。グラデーション クリッピングを使用すると、この問題を軽減できます。
比較対象として、「勾配消失問題」があります。
F
F1
適合率と再現率の両方に依存する「ロールアップ」2 値分類指標。式は次のとおりです。
事実性
ML の世界では、出力が現実に基づいているモデルを表すプロパティ。事実性は指標ではなくコンセプトです。たとえば、次のようなプロンプトを大規模言語モデルに送信するとします。
食塩の化学式は何ですか?
事実性を最適化するモデルは次のように応答します。
NaCl
すべてのモデルは事実に基づいていなければならないと考えるのは当然です。ただし、次のようなプロンプトでは、生成 AI モデルは事実性ではなく創造性を最適化する必要があります。
宇宙飛行士とイモムシに関するリメリックを教えて。
結果として得られるリメリックは、現実に基づいたものにはならない可能性があります。
グラウンディングと比較してください。
公平性に関する制約
1 つ以上の公平性の定義が満たされるように、アルゴリズムに制約を適用すること。公平性制約の例:公平性指標
測定可能な「公平性」の数学的定義。よく使用される公平性指標には、次のようなものがあります。
公平性に関する指標の多くは相互に排他的です。公平性に関する指標の不整合をご覧ください。
偽陰性(FN)
モデルが陰性クラスを誤って予測した例。たとえば、特定のメール メッセージがスパムではない(負のクラス)と予測されたが、そのメール メッセージが実際にはスパムである場合などです。
偽陰性率
モデルが誤って陰性クラスを予測した実際の陽性例の割合。次の式は、偽陰性率を計算します。
詳細については、ML 集中講座のしきい値と混同行列をご覧ください。
偽陽性(FP)
モデルが陽性クラスを誤って予測した例。たとえば、特定のメール メッセージがスパム(ポジティブ クラス)であるとモデルが予測したが、そのメール メッセージは実際にはスパムではない。
詳細については、ML 集中講座のしきい値と混同行列をご覧ください。
偽陽性率(FPR)
モデルが陽性クラスを誤って予測した実際の陰性例の割合。次の式は、偽陽性率を計算します。
偽陽性率は、ROC 曲線の x 軸です。
詳細については、ML 集中講座の分類: ROC と AUC をご覧ください。
高速減衰
LLM のパフォーマンスを向上させるためのトレーニング手法。高速減衰では、トレーニング中に学習率を急速に減衰させます。この戦略は、モデルがトレーニング データに過剰適合するのを防ぎ、一般化を改善するのに役立ちます。
機能
ML モデルへの入力変数。例は 1 つ以上の特徴で構成されます。たとえば、天気予報が学生のテストの点数に与える影響を判断するモデルをトレーニングするとします。次の表に、3 つの特徴と 1 つのラベルを含む 3 つの例を示します。
機能 | ラベル | ||
---|---|---|---|
温度 | 湿度 | 気圧 | テストスコア |
15 | 47 | 998 | 92 |
19 | 34 | 1020 | 84 |
18 | 92 | 1012 | 87 |
ラベルとのコントラスト。
詳細については、機械学習入門コースの教師あり学習をご覧ください。
特徴クロス
カテゴリ特徴量またはバケット化された特徴量を「クロス」することで形成される合成特徴量。
たとえば、気温を次の 4 つのバケットのいずれかで表す「気分予測」モデルについて考えてみましょう。
freezing
chilly
temperate
warm
風速を次の 3 つのバケットのいずれかで表します。
still
light
windy
特徴量クロスがない場合、線形モデルは上記の 7 つのバケットそれぞれで個別にトレーニングされます。そのため、モデルは windy
のトレーニングとは独立して freezing
のトレーニングを行います。
または、気温と風速の特徴クロスを作成することもできます。この合成特徴には、次の 12 個の可能な値があります。
freezing-still
freezing-light
freezing-windy
chilly-still
chilly-light
chilly-windy
temperate-still
temperate-light
temperate-windy
warm-still
warm-light
warm-windy
特徴クロスにより、モデルは freezing-windy
の日と freezing-still
の日の気分を学習できます。
それぞれに多数のバケットがある 2 つの特徴量から合成特徴量を作成すると、結果として得られる特徴量クロスには膨大な数の組み合わせが存在することになります。たとえば、ある特徴に 1,000 個のバケットがあり、別の特徴に 2,000 個のバケットがある場合、結果の特徴の交差には 2,000,000 個のバケットがあります。
形式的には、クロスはデカルト積です。
特徴の交差は主に線形モデルで使用され、ニューラル ネットワークで使用されることはほとんどありません。
詳細については、ML 集中講座のカテゴリデータ: 特徴の交差をご覧ください。
2つのステップが含まれます
次の手順を含むプロセス。
- モデルのトレーニングに役立つ可能性のある特徴を特定する。
- データセットの元データを、それらの特徴の効率的なバージョンに変換します。
たとえば、temperature
が便利な機能であると判断できます。次に、バケット化を試して、モデルがさまざまな temperature
範囲から学習できる内容を最適化します。
特徴量エンジニアリングは、特徴量抽出または特徴量化と呼ばれることもあります。
詳細については、ML 集中講座の数値データ: モデルが特徴ベクトルを使用してデータを読み込む方法をご覧ください。
特徴抽出
次のいずれかの定義を持つオーバーロードされた用語。
- 別のモデルで入力として使用するために、教師なしモデルまたは事前トレーニング済みモデルによって計算された中間特徴表現(ニューラル ネットワークの隠れ層の値など)を取得します。
- 特徴量エンジニアリングと同義。
特徴の重要度
変数の重要度と同義。
機能セット
機械学習モデルがトレーニングする特徴のグループ。たとえば、住宅価格を予測するモデルの単純な特徴セットは、郵便番号、物件の広さ、物件の状態で構成される場合があります。
機能仕様
tf.Example プロトコル バッファから特徴データを抽出するために必要な情報について説明します。tf.Example プロトコル バッファはデータのコンテナにすぎないため、次の指定が必要です。
- 抽出するデータ(つまり、特徴のキー)
- データ型(float や int など)
- 長さ(固定または可変)
特徴ベクトル
例を構成する特徴値の配列。特徴ベクトルは、トレーニング時と推論時に入力されます。たとえば、2 つの離散特徴を持つモデルの特徴ベクトルは次のようになります。
[0.92, 0.56]
各サンプルは特徴ベクトルに異なる値を指定するため、次のサンプルの特徴ベクトルは次のようになります。
[0.73, 0.49]
特徴量エンジニアリングでは、特徴ベクトルで特徴をどのように表現するかを決定します。たとえば、5 つの可能な値を持つバイナリ カテゴリ特徴は、ワンホット エンコーディングで表すことができます。この場合、特定の例のフィーチャー ベクトルの部分は、次のように 4 つのゼロと 3 番目の位置の 1 つの 1.0 で構成されます。
[0.0, 0.0, 1.0, 0.0, 0.0]
別の例として、モデルが次の 3 つの特徴で構成されているとします。
- ワンホット エンコーディングで表される 5 つの可能な値を持つバイナリ カテゴリ特徴。例:
[0.0, 1.0, 0.0, 0.0, 0.0]
- ワンホット エンコーディングで表される 3 つの可能な値を持つ別のバイナリ カテゴリ特徴。例:
[0.0, 0.0, 1.0]
- 浮動小数点特徴。例:
8.3
。
この場合、各サンプルの特徴ベクトルは 9 つの値で表されます。上記のリストの例の値が指定されている場合、特徴ベクトルは次のようになります。
0.0 1.0 0.0 0.0 0.0 0.0 0.0 1.0 8.3
詳細については、ML 集中講座の数値データ: モデルが特徴ベクトルを使用してデータを読み込む方法をご覧ください。
特徴量化
ドキュメントや動画などの入力ソースから特徴を抽出し、それらの特徴を特徴ベクトルにマッピングするプロセス。
一部の ML エキスパートは、特徴化を特徴量エンジニアリングまたは特徴抽出の同義語として使用します。
フェデレーション ラーニング
スマートフォンなどのデバイスに分散されている例を使用して ML モデルをトレーニングする分散型 ML の手法。フェデレーション ラーニングでは、デバイスのサブセットが中央のコーディネート サーバーから現在のモデルをダウンロードします。デバイスは、デバイスに保存されている例を使用して、モデルを改善します。その後、デバイスはモデルの改善(トレーニング サンプルは除く)をコーディネート サーバーにアップロードします。コーディネート サーバーでは、他の更新と集約されて、改善されたグローバル モデルが生成されます。集計後、デバイスで計算されたモデルの更新は不要になるため、破棄できます。
トレーニング例はアップロードされないため、フェデレーション ラーニングは、データ収集の焦点とデータ最小化のプライバシー原則に沿っています。
詳しくは、フェデレーション ラーニングのコミック(コミックです)をご覧ください。
フィードバック ループ
ML において、モデルの予測が同じモデルまたは別のモデルのトレーニング データに影響を与える状況。たとえば、映画をおすすめするモデルは、ユーザーが視聴する映画に影響を与え、その結果、後続の映画おすすめモデルに影響を与えます。
詳細については、ML 集中講座の本番環境の ML システム: 質問をご覧ください。
フィードフォワード ニューラル ネットワーク(FFN)
循環接続や再帰接続のないニューラル ネットワーク。たとえば、従来のディープ ニューラル ネットワークはフィードフォワード ニューラル ネットワークです。循環型の回帰型ニューラル ネットワークとは対照的です。
少数ショット学習
オブジェクト分類でよく使用される ML アプローチ。少数のトレーニング サンプルから効果的な分類モデルをトレーニングするように設計されています。
少数ショット プロンプト
大規模言語モデルにどのように回答すればよいかを示す例を複数(少数)含むプロンプト。たとえば、次の長いプロンプトには、大規模言語モデルにクエリへの回答方法を示す 2 つの例が含まれています。
1 つのプロンプトの構成要素 | メモ |
---|---|
指定された国の公式通貨は何ですか? | LLM に回答してほしい質問。 |
フランス: EUR | 例 1: |
英国: GBP | 別の例。 |
インド: | 実際のクエリ。 |
一般的に、少数ショット プロンプトは、ゼロショット プロンプトやワンショット プロンプトよりも望ましい結果が得られます。ただし、少数ショット プロンプトでは長いプロンプトが必要になります。
少数ショット プロンプトは、プロンプト ベースの学習に適用される少数ショット学習の一種です。
詳細については、ML 集中講座のプロンプト エンジニアリングをご覧ください。
フィドル
侵入的なコードやインフラストラクチャを使用せずに、関数とクラスの値を設定する Python ファーストの構成ライブラリ。Pax などの ML コードベースの場合、これらの関数とクラスはモデルとトレーニング ハイパーパラメータを表します。
Fiddle は、ML コードベースが通常次のように分割されることを前提としています。
- レイヤとオプティマイザーを定義するライブラリ コード。
- ライブラリを呼び出してすべてを接続するデータセットの「グルー」コード。
Fiddle は、グルーコードの呼び出し構造を評価されていない可変形式でキャプチャします。
ファインチューニング
パラメータを特定のユースケースに合わせて最適化するために、事前トレーニングされたモデルに対してさらに行うタスク固有のトレーニングです。たとえば、一部の大規模言語モデルの完全なトレーニング シーケンスは次のとおりです。
- 事前トレーニング: 大規模な汎用データセット(英語の Wikipedia ページなど)で大規模言語モデルをトレーニングします。
- ファインチューニング: 事前トレーニング済みモデルをトレーニングして、医療に関する質問への回答などの特定のタスクを実行します。通常、ファインチューニングでは、特定のタスクに焦点を当てた数百または数千の例を使用します。
別の例として、大規模な画像モデルの完全なトレーニング シーケンスは次のようになります。
- 事前トレーニング: Wikimedia Commons のすべての画像など、大規模な一般的な画像データセットで大規模な画像モデルをトレーニングします。
- ファインチューニング: シャチの画像を生成するなど、特定のタスクを実行するように事前トレーニング済みモデルをトレーニングします。
ファインチューニングでは、次の戦略を任意に組み合わせることができます。
- 事前トレーニング済みモデルの既存のパラメータをすべて変更する。これは「フル ファインチューニング」と呼ばれることもあります。
- 事前トレーニング済みモデルの既存のパラメータの一部(通常は出力レイヤに最も近いレイヤ)のみを変更し、他の既存のパラメータ(通常は入力レイヤに最も近いレイヤ)は変更しない。パラメータ効率チューニングをご覧ください。
- 通常、出力レイヤに最も近い既存のレイヤの上にレイヤを追加します。
ファインチューニングは、転移学習の一種です。そのため、ファインチューニングでは、事前トレーニング済みモデルのトレーニングに使用されたものとは異なる損失関数やモデルタイプが使用されることがあります。たとえば、事前トレーニング済みの大規模な画像モデルをファインチューニングして、入力画像内の鳥の数を返す回帰モデルを作成できます。
ファインチューニングと次の用語を比較対照します。
詳細については、ML 集中講座のファインチューニングをご覧ください。
フラッシュ モデル
速度と低レイテンシ向けに最適化された、比較的小さな Gemini モデルのファミリー。Flash モデルは、迅速なレスポンスと高いスループットが重要な幅広いアプリケーション向けに設計されています。
Flax
JAX 上に構築されたディープ ラーニング用の高性能オープンソース ライブラリ。Flax には、ニューラル ネットワークのトレーニング用の関数と、パフォーマンスを評価するためのメソッドが用意されています。
Flaxformer
Flax 上に構築されたオープンソースの Transformer ライブラリ。主に自然言語処理とマルチモーダル研究用に設計されています。
forget gate
セルを通過する情報の流れを調整する 長期短期記憶セルの部分。忘却ゲートは、セル状態からどの情報を破棄するかを決定することで、コンテキストを維持します。
基盤モデル
膨大で多様なトレーニング セットでトレーニングされた、非常に大規模な事前トレーニング済みモデル。基盤モデルは、次の両方を行うことができます。
- 幅広いリクエストに適切に対応する。
- 追加のファインチューニングやその他のカスタマイズのベースモデルとして機能します。
つまり、基盤モデルは一般的な意味ですでに非常に高性能ですが、特定のタスクに対してさらに有用になるようにカスタマイズできます。
成功の割合
ML モデルの生成されたテキストを評価するための指標。成功の割合は、生成されたテキスト出力の総数で「成功」した生成テキスト出力の数を割った値です。たとえば、大規模言語モデルが 10 個のコードブロックを生成し、そのうち 5 個が成功した場合、成功の割合は 50% になります。
成功率の指標は統計全体で幅広く使用できますが、ML では主にコード生成や数学の問題などの検証可能なタスクの測定に役立ちます。
full softmax
softmax と同義。
候補サンプリングと比較してください。
詳細については、ML 集中講座のニューラル ネットワーク: 多クラス分類をご覧ください。
全結合レイヤ
各ノードが後続の隠れ層のすべてのノードに接続されている隠れ層。
関数変換
関数を入力として受け取り、変換された関数を出力として返す関数。JAX は関数変換を使用します。
G
GAN
敵対的生成ネットワークの略語。
Gemini
Google の最先端 AI で構成されたエコシステム。このエコシステムの要素は次のとおりです。
- さまざまな Gemini モデル。
- Gemini モデルへのインタラクティブな会話型インターフェース。ユーザーがプロンプトを入力すると、Gemini がそのプロンプトに応答します。
- 各種 Gemini API。
- Gemini モデルに基づくさまざまなビジネス プロダクト(Gemini for Google Cloud など)。
Gemini モデル
Google の最先端の Transformer ベースのマルチモーダル モデル。Gemini モデルは、エージェントと統合するように特別に設計されています。
ユーザーは、対話型ダイアログ インターフェースや SDK など、さまざまな方法で Gemini モデルを操作できます。
Gemma
Gemini モデルの作成に使用されたものと同じ研究とテクノロジーに基づいて構築された、軽量なオープンモデルのファミリーです。複数の異なる Gemma モデルが用意されており、それぞれにビジョン、コード、指示の実行など、異なる機能が備わっています。詳しくは、Gemma をご覧ください。
GenAI または genAI
生成 AI の略語。
一般化
新しい未知のデータに対して正しい予測を行えるモデルの能力。汎化性能が高いモデルは、過学習しているモデルとは正反対の状態です。
詳細については、ML 集中講座の汎化をご覧ください。
汎化曲線
トレーニング損失と検証損失の両方を反復回数の関数としてプロットします。
汎化曲線は、過適合の可能性を検出するのに役立ちます。たとえば、次の汎化曲線では、検証損失が最終的にトレーニング損失よりも大幅に高くなっているため、過学習が示唆されています。
詳細については、ML 集中講座の汎化をご覧ください。
一般化線形モデル
ガウス ノイズに基づく最小二乗回帰モデルを、ポアソン ノイズやカテゴリカル ノイズなどの他のタイプのノイズに基づく他のタイプのモデルに一般化したもの。一般化線形モデルの例は次のとおりです。
- ロジスティック回帰
- マルチクラス回帰
- 最小二乗回帰
一般化線形モデルのパラメータは、凸最適化によって求めることができます。
一般化線形モデルには次の特性があります。
- 最適な最小二乗回帰モデルの平均予測は、トレーニング データの平均ラベルと等しくなります。
- 最適なロジスティック回帰モデルによって予測される平均確率は、トレーニング データの平均ラベルと等しくなります。
一般化線形モデルの能力は、その特徴によって制限されます。ディープモデルとは異なり、一般化線形モデルは「新しい特徴を学習」できません。
生成されたテキスト
一般に、ML モデルが出力するテキスト。大規模言語モデルを評価する際、一部の指標では、生成されたテキストと参照テキストを比較します。たとえば、ML モデルがフランス語からオランダ語にどれだけ効果的に翻訳できるかを判断しようとしているとします。この例の場合は、次のようになります。
- 生成されたテキストは、ML モデルが出力するオランダ語の翻訳です。
- 参照テキストは、人間の翻訳者(またはソフトウェア)が作成したオランダ語の翻訳です。
評価戦略によっては、参照テキストを使用しないものもあります。
敵対的生成ネットワーク(GAN)
生成器がデータを作成し、識別器が作成されたデータが有効か無効かを判断する、新しいデータを作成するシステム。
詳細については、敵対的生成ネットワーク コースをご覧ください。
生成 AI
正式な定義のない、変革的な新しい分野です。ただし、ほとんどの専門家は、生成 AI モデルが次のすべての条件を満たすコンテンツを作成(「生成」)できることに同意しています。
- 複雑
- 一貫性のある
- オリジナル
生成 AI の例:
- 大規模言語モデル。高度なオリジナルのテキストを生成し、質問に答えることができます。
- 独自の画像を生成できる画像生成モデル。
- オーディオと音楽の生成モデル。オリジナルの音楽を作曲したり、リアルな音声を生成したりできます。
- オリジナル動画を生成できる動画生成モデル。
LSTM や RNN などの以前のテクノロジーでも、オリジナルで一貫性のあるコンテンツを生成できます。これらの初期のテクノロジーを生成 AI と見なす専門家もいれば、真の生成 AI には、これらの初期のテクノロジーが生成できるよりも複雑な出力が必要だと考える専門家もいます。
予測 ML との対比。
生成モデル
実際には、次のいずれかを行うモデル。
- トレーニング データセットから新しい例を作成(生成)します。たとえば、詩のデータセットでトレーニングした生成モデルは、詩を作成できます。敵対的生成ネットワークの生成器部分は、このカテゴリに分類されます。
- 新しい例がトレーニング セットから取得されたか、トレーニング セットを作成したのと同じメカニズムで作成された確率を決定します。たとえば、英語の文で構成されるデータセットでトレーニングした後、生成モデルは新しい入力が有効な英語の文である確率を判断できます。
生成モデルは、理論的にはデータセット内の例や特定の特徴の分布を識別できます。具体的には、次のことが求められます。
p(examples)
教師なし学習モデルは生成モデルです。
識別モデルと比較してください。
ジェネレータ
新しい例を作成する敵対的生成ネットワーク内のサブシステム。
識別モデルも参照してください。
ジニ不純度
エントロピーに似た指標。スプリッタは、ジニ不純度またはエントロピーから導出された値を使用して、分類決定木の条件を構成します。情報ゲインはエントロピーから導出されます。ジニ不純度から導出された指標に、一般的に受け入れられている同等の用語はありません。ただし、この名前のない指標は情報ゲインと同じくらい重要です。
ジニ不純度は、ジニ係数または単にジニとも呼ばれます。
ゴールデン データセット
グラウンド トゥルースをキャプチャする手動でキュレーションされたデータのセット。チームは 1 つ以上のゴールデン データセットを使用して、モデルの品質を評価できます。
一部のゴールデン データセットは、グラウンド トゥルースのさまざまなサブドメインをキャプチャします。たとえば、画像分類用のゴールデン データセットでは、照明条件と画像解像度をキャプチャできます。
ゴールデン回答
良いとわかっている回答。たとえば、次のようなプロンプトがあるとします。
2 + 2
理想的な回答は次のとおりです。
4
Google AI Studio
Google の大規模言語モデルを使用してアプリケーションをテストし、構築するためのユーザー フレンドリーなインターフェースを提供する Google ツール。詳細については、Google AI Studio のホームページをご覧ください。
GPT(Generative Pre-trained Transformer)
OpenAI が開発した Transformer ベースの大規模言語モデルのファミリー。
GPT バリアントは、次のような複数のモダリティに適用できます。
- 画像生成(ImageGPT など)
- テキスト画像変換(DALL-E など)。
グラデーション
すべての独立変数に対する偏微分のベクトルのこと。ML では、勾配はモデル関数の偏導関数のベクトルです。勾配は最も急な上昇方向を指し示しています。
グラデーションの累積
バックプロパゲーション手法。反復ごとに 1 回ではなく、エポックごとに 1 回だけパラメータを更新します。各ミニバッチの処理後、勾配の累積では、勾配の実行合計が更新されます。次に、エポックの最後のミニバッチを処理した後、システムはすべてのグラデーション変更の合計に基づいてパラメータを更新します。
グラデーションの累積は、トレーニングに使用可能なメモリ量と比較してバッチサイズが非常に大きい場合に便利です。メモリが問題になる場合は、バッチサイズを小さくするのが自然な傾向です。ただし、通常のバックプロパゲーションでバッチサイズを小さくすると、パラメータ更新の回数が増加します。グラデーションの累積により、モデルはメモリの問題を回避しながら効率的にトレーニングできます。
勾配ブースト(ディシジョン)ツリー(GBT)
次のようなデシジョン フォレストの一種。
- トレーニングは、グラデーション ブースティングに依存します。
- 弱いモデルはディシジョン ツリーです。
詳細については、意思決定フォレスト コースの勾配ブースティング決定木をご覧ください。
勾配ブースティング
弱いモデルをトレーニングして、強いモデルの品質を反復的に改善(損失を削減)するトレーニング アルゴリズム。たとえば、弱いモデルは線形モデルや小さなディシジョン ツリー モデルです。強いモデルは、以前にトレーニングされた弱いモデルの合計になります。
最も単純な形式のグラデーション ブースティングでは、各イテレーションで、強力なモデルの損失勾配を予測するように弱いモデルがトレーニングされます。次に、勾配降下法と同様に、予測された勾配を減算して、強力なモデルの出力を更新します。
ここで
- $F_{0}$ は、開始時の強力なモデルです。
- $F_{i+1}$ は次の強力なモデルです。
- $F_{i}$ は現在の強力なモデルです。
- $\xi$ は 0.0 ~ 1.0 の値で、収縮と呼ばれます。これは、勾配降下法の学習率に類似しています。
- $f_{i}$ は、$F_{i}$ の損失勾配を予測するようにトレーニングされた弱いモデルです。
勾配ブースティングの最新のバリエーションでは、損失の 2 次導関数(ヘシアン)も計算に含まれます。
ディシジョン ツリーは、勾配ブースティングで弱いモデルとしてよく使用されます。勾配ブースト(ディシジョン)ツリーをご覧ください。
勾配クリッピング
勾配降下法を使用してモデルをトレーニングする際に、勾配の最大値を人為的に制限(クリップ)することで、勾配爆発問題を軽減するために一般的に使用されるメカニズム。
勾配降下法
損失を最小限に抑えるための数学的手法。勾配降下法では、重みとバイアスを繰り返し調整し、損失を最小限に抑える最適な組み合わせを徐々に見つけます。
勾配降下法は、機械学習よりもはるかに古いものです。
詳細については、機械学習集中講座の線形回帰: 勾配降下法をご覧ください。
グラフ
TensorFlow の計算仕様。グラフ内のノードはオペレーションを表します。エッジは有向であり、オペレーションの結果(Tensor)を別のオペレーションのオペランドとして渡すことを表します。TensorBoard を使用してグラフを可視化します。
グラフ実行
プログラムが最初にグラフを構築し、そのグラフの全部または一部を実行する TensorFlow プログラミング環境。グラフ実行は、TensorFlow 1.x のデフォルトの実行モードです。
eager 実行と比較してください。
貪欲ポリシー
強化学習では、最も高い期待収益が得られるアクションを常に選択するポリシー。
根拠性
特定のソース資料に基づいて出力される(「グラウンディング」される)モデルのプロパティ。たとえば、物理学の教科書全体を 大規模言語モデルの入力(「コンテキスト」)として提供するとします。次に、その大規模言語モデルに物理学の問題をプロンプトします。モデルの回答がその教科書の情報と一致する場合、そのモデルはその教科書にグラウンディングされています。グラウンディングされたモデルが常に事実に基づいたモデルであるとは限りません。たとえば、入力された物理学の教科書に誤りがある可能性があります。
グラウンド トゥルース
現実。
実際に起こったこと。
たとえば、大学 1 年生の学生が 6 年以内に卒業するかどうかを予測するバイナリ分類モデルを考えてみましょう。このモデルのグラウンド トゥルースは、その生徒が 6 年以内に実際に卒業したかどうかです。
グループ帰属バイアス
個人に当てはまることが、そのグループの全員に当てはまると仮定する。データ収集に便宜的サンプリングを使用すると、グループ アトリビューション バイアスの影響が大きくなる可能性があります。代表的でないサンプルでは、現実を反映していない帰属が行われる可能性があります。
自分が属していないグループに対する均一性のバイアスと所属グループのバイアスもご覧ください。詳細については、ML 集中講座の公平性: 偏りの種類もご覧ください。
H
ハルシネーション
現実世界について主張しているように見えるが、実際には誤った出力を生成 AI モデルが生成すること。たとえば、バラク オバマが 1865 年に死亡したと主張する生成 AI モデルは、ハルシネーションを起こしています。
ハッシュ ; ハッシュ化
機械学習で、カテゴリデータをバケット化するメカニズム。特に、カテゴリの数は多いが、データセットに実際に表示されるカテゴリの数が比較的少ない場合に有効です。
たとえば、地球には約 73,000 種類の樹木が生息しています。73,000 種類の樹木を 73,000 個の個別のカテゴリ バケットで表すことができます。また、データセットに実際に現れる樹種が 200 種類しかない場合は、ハッシュ関数を使用して樹種を 500 個のバケットに分割できます。
1 つのバケットに複数の樹種を含めることができます。たとえば、ハッシュ化によって、遺伝的に異なる 2 つの種である バオバブと紅葉が同じバケットに配置される可能性があります。いずれにしても、ハッシュ化は、大規模なカテゴリカル セットを選択した数のバケットにマッピングする優れた方法です。ハッシュ化では、多数の可能な値を持つカテゴリ特徴を、値を決定論的な方法でグループ化することで、はるかに少ない数の値に変換します。
詳細については、ML 集中講座のカテゴリデータ: 語彙とワンホット エンコードをご覧ください。
ヒューリスティック
問題に対してシンプルかつ迅速に実行できる解決策。例:「ヒューリスティクスでは 86% の精度を達成しました。ディープ ニューラル ネットワークに切り替えると、精度は 98% に向上しました。」
隠れ層
入力層(特徴)と出力層(予測)の間にあるニューラル ネットワークの層。各隠れ層は 1 つ以上のニューロンで構成されます。たとえば、次のニューラル ネットワークには 2 つの隠れ層が含まれています。1 つ目は 3 つのニューロン、2 つ目は 2 つのニューロンです。
ディープ ニューラル ネットワークには複数の隠れ層が含まれています。たとえば、上の図は、モデルに 2 つの隠れ層が含まれているため、ディープ ニューラル ネットワークです。
詳細については、ML 集中講座のニューラル ネットワーク: ノードと隠れ層をご覧ください。
階層型クラスタリング
クラスタのツリーを作成するクラスタリング アルゴリズムのカテゴリ。階層型クラスタリングは、植物分類などの階層データに適しています。階層型クラスタリング アルゴリズムには次の 2 種類があります。
- 凝集型クラスタリングでは、まずすべての例を独自のクラスタに割り当て、最も近いクラスタを繰り返しマージして階層ツリーを作成します。
- 分割型クラスタリングでは、まずすべての例を 1 つのクラスタにグループ化し、次にクラスタを階層ツリーに繰り返し分割します。
重心ベースのクラスタリングと比較してください。
詳細については、クラスタリング コースのクラスタリング アルゴリズムをご覧ください。
ヒルクライム
ML モデルの改善が止まる(「丘の頂上に達する」)まで、ML モデルを反復的に改善(「丘を登る」)するアルゴリズム。アルゴリズムの一般的な形式は次のとおりです。
- 開始モデルを構築します。
- トレーニングまたはファインチューニングの方法を少し調整して、新しい候補モデルを作成します。これには、わずかに異なるトレーニング セットや異なるハイパーパラメータを使用することが含まれる場合があります。
- 新しい候補モデルを評価し、次のいずれかを行います。
- 候補モデルが開始モデルよりも優れている場合、その候補モデルが新しい開始モデルになります。この場合は、手順 1、2、3 を繰り返します。
- どのモデルも開始モデルよりも優れていない場合は、丘の頂上に達したため、反復を停止する必要があります。
ハイパーパラメータ調整のガイダンスについては、ディープ ラーニング チューニング プレイブックをご覧ください。特徴量エンジニアリングのガイダンスについては、ML 集中講座のデータ モジュールをご覧ください。
ヒンジ損失
各トレーニング例から可能な限り離れた決定境界を見つけるように設計された、分類用の損失関数のファミリー。これにより、例と境界の間のマージンが最大化されます。KSVM はヒンジ損失(または 2 乗ヒンジ損失などの関連関数)を使用します。バイナリ分類の場合、ヒンジ損失関数は次のように定義されます。
ここで、y は -1 または +1 の真のラベル、y' は分類モデルの未加工の出力です。
したがって、ヒンジ損失と(y * y')のプロットは次のようになります。
過去のバイアス
すでに世の中に存在し、データセットに組み込まれているバイアスの一種。このようなバイアスは、既存の文化的ステレオタイプ、人口統計上の不平等、特定の社会集団に対する偏見を反映する傾向があります。
たとえば、2 つの異なるコミュニティの地元の銀行から 1980 年代の過去のローン不履行データでトレーニングされた、ローン申請者がローンを不履行にするかどうかを予測する分類モデルを考えてみましょう。過去にコミュニティ A の申請者がコミュニティ B の申請者よりも 6 倍の確率でローンの支払いを滞納していた場合、モデルは過去のバイアスを学習し、コミュニティ A のローンの承認率が低くなる可能性があります。たとえ、コミュニティ A のデフォルト率が高くなった原因となった過去の状況がもはや関連性がなくなったとしてもです。
詳細については、ML 集中講座の公平性: 偏りの種類をご覧ください。
ホールドアウト データ
トレーニング中に意図的に使用されなかった(「ホールドアウト」された)例。検証データセットとテストデータセットは、ホールドアウト データの例です。ホールドアウト データは、モデルがトレーニングに使用したデータ以外のデータに一般化する能力を評価するのに役立ちます。ホールドアウト セットの損失は、トレーニング セットの損失よりも、未知のデータセットの損失をより正確に推定できます。
ホスト
アクセラレータ チップ(GPU または TPU)で ML モデルをトレーニングする場合、次の両方を制御するシステムの一部:
- コードの全体的なフロー。
- 入力パイプラインの抽出と変換。
ホストは通常、アクセラレータ チップではなく CPU で実行されます。デバイスは、アクセラレータ チップ上のテンソルを操作します。
人間による評価
人が ML モデルの出力の品質を判断するプロセス。たとえば、バイリンガルの人が ML 翻訳モデルの品質を判断します。人間による評価は、正解が 1 つではないモデルを判断する際に特に役立ちます。
自動評価と自動評価ツールによる評価と比較してください。
人間参加型(HITL)
次のいずれかを意味する可能性のある、緩やかに定義されたイディオム。
- 生成 AI の出力を批判的または懐疑的に見るポリシー。たとえば、この ML 用語集を作成している人間は、大規模言語モデルの能力に驚きつつも、大規模言語モデルが犯す誤りを認識しています。
- モデルの動作をユーザーが形成、評価、改善するのを支援するための戦略またはシステム。人間をループ内に保持することで、AI は機械知能と人間知能の両方のメリットを享受できます。たとえば、AI がコードを生成し、ソフトウェア エンジニアがそれをレビューするシステムは、人間がループに関与するシステムです。
ハイパーパラメータ
モデルのトレーニングを連続して実行する際に、ユーザーまたはハイパーパラメータ チューニング サービス(Vizier など)が調整する変数。たとえば、学習率はハイパーパラメータです。1 回のトレーニング セッションの前に学習率を 0.01 に設定できます。0.01 が高すぎると判断した場合は、次のトレーニング セッションの学習率を 0.003 に設定します。
一方、パラメータは、モデルがトレーニング中に学習するさまざまな重みとバイアスです。
詳細については、ML 集中講座の線形回帰: ハイパーパラメータをご覧ください。
超平面
空間を 2 つのサブスペースに分割する境界。たとえば、2 次元では直線が超平面であり、3 次元では平面が超平面です。機械学習では、超平面は高次元空間を分離する境界です。カーネル サポート ベクター マシンは、超平面を使用して正のクラスと負のクラスを分離します。多くの場合、非常に高次元の空間で分離します。
I
i.i.d.
独立同分布の略語。
画像認識
画像内のオブジェクト、パターン、コンセプトを分類するプロセス。画像認識は画像分類とも呼ばれます。
詳細については、ML 実習: 画像分類をご覧ください。
詳細については、ML 実践: 画像分類コースをご覧ください。
不均衡なデータセット
クラス不均衡データセットと同義。
暗黙のバイアス
自分のメンタルモデルや記憶に基づいて、自動的に関連付けや推測を行う。暗黙のバイアスは、次のものに影響する可能性があります。
- データの収集方法と分類方法。
- 機械学習システムの設計と開発の方法。
たとえば、結婚式の写真を識別する分類モデルを構築する場合、エンジニアは写真に白いドレスがあることを特徴量として使用する可能性があります。ただし、白いドレスは特定の時代や特定の文化でのみ慣習的に用いられてきました。
確証バイアスもご覧ください。
補完
値の補完の短縮形。
公平性に関する指標の不整合
公平性の概念の中には、相互に両立せず、同時に満たすことができないものがあるという考え方。そのため、すべての ML 問題に適用できる公平性を定量化するための単一の普遍的な指標はありません。
これは落胆するかもしれませんが、公平性の指標の不整合は、公平性の取り組みが無駄であることを意味するものではありません。代わりに、公平性は特定の ML 問題のコンテキストに沿って定義し、そのユースケースに固有の危害を防ぐことを目標にする必要があることを示しています。
公平性指標の非互換性について詳しくは、「公平性の(不)可能性について」をご覧ください。
コンテキスト内学習
少数ショット プロンプトと同義。
独立同分布(i.i.d)
変化しない分布から抽出されたデータ。抽出された各値は、以前に抽出された値に依存しません。i.i.d. は、機械学習の理想気体です。有用な数学的構成ですが、現実の世界ではほとんど見つかりません。たとえば、ウェブページへの訪問者の分布は、短い期間にわたって i.i.d. である可能性があります。つまり、その短い期間中は分布が変化せず、あるユーザーの訪問は一般的に別のユーザーの訪問とは独立しています。ただし、期間を拡大すると、ウェブページの訪問者の季節的な違いが表示されることがあります。
非定常性もご覧ください。
個人の公平性
類似した個人が同様に分類されているかどうかを確認する公平性指標。たとえば、Brobdingnagian Academy は、成績と標準テストのスコアが同じ 2 人の生徒が同じ確率で入学できるようにすることで、個人の公平性を満たしたいと考えているかもしれません。
個人の公平性は、完全に「類似性」(この場合は成績とテストの点数)の定義に依存します。類似性指標に重要な情報(生徒のカリキュラムの厳しさなど)が欠落していると、新たな公平性の問題が生じる可能性があります。
個人の公平性について詳しくは、「認識による公平性」をご覧ください。
推論
従来の ML では、トレーニング済みのモデルをラベルなしの例に適用して予測を行うプロセス。詳細については、ML の概要コースの教師あり学習をご覧ください。
大規模言語モデルでは、推論は、トレーニング済みのモデルを使用して出力を生成するプロセスです。たとえば、入力プロンプトに対するテキスト レスポンスなどです。
統計では、推論はやや異なる意味を持ちます。詳しくは、 統計的推論に関する Wikipedia の記事をご覧ください。
推論パス
ディシジョン ツリーでは、推論中に、特定の例がルートから他の条件をたどってリーフで終了します。たとえば、次の決定木では、太い矢印は、次の特徴値を持つ例の推論パスを示しています。
- x = 7
- y = 12
- z = -3
次の図の推論パスは、リーフ(Zeta
)に到達する前に 3 つの条件を通過します。
3 つの太い矢印は推論パスを示しています。
詳細については、デシジョン フォレスト コースのデシジョン ツリーをご覧ください。
情報利得
決定フォレストでは、ノードのエントロピーと、子ノードのエントロピーの重み付け(例の数による)の合計との差。ノードのエントロピーは、そのノード内の例のエントロピーです。
たとえば、次のエントロピー値を考えてみましょう。
- 親ノードのエントロピー = 0.6
- 16 個の関連する例を含む 1 つの子ノードのエントロピー = 0.2
- 関連する例が 24 個ある別の子ノードのエントロピー = 0.1
したがって、例の 40% は一方の子ノードにあり、60% はもう一方の子ノードにあります。そのため、次のようになります。
- 子ノードの重み付きエントロピーの合計 = (0.4 × 0.2) + (0.6 × 0.1) = 0.14
したがって、情報利得は次のようになります。
- 情報利得 = 親ノードのエントロピー - 子ノードの重み付きエントロピーの合計
- 情報利得 = 0.6 - 0.14 = 0.46
ほとんどの分割ツールは、情報ゲインを最大化する条件を作成しようとします。
内集団バイアス
自分のグループや自分の特性に偏見を持つこと。テスターや評価者が ML デベロッパーの友人、家族、同僚で構成されている場合、内集団バイアスによってプロダクト テストやデータセットが無効になる可能性があります。
所属グループのバイアスは、グループ帰属バイアスの一種です。自分が属していないグループに対する均一性のバイアスもご覧ください。
詳細については、ML 集中講座の公平性: 偏りの種類をご覧ください。
入力ジェネレータ
データがニューラル ネットワークに読み込まれるメカニズム。
入力ジェネレータは、生データをテンソルに処理するコンポーネントと考えることができます。このテンソルは、トレーニング、評価、推論用のバッチを生成するために反復処理されます。
入力レイヤ
特徴ベクトルを保持するニューラル ネットワークのレイヤ。つまり、入力レイヤはトレーニングまたは推論用の例を提供します。たとえば、次のニューラル ネットワークの入力レイヤは 2 つの特徴で構成されています。
インセット条件
ディシジョン ツリーで、アイテムのセット内の 1 つのアイテムの存在をテストする条件。たとえば、次の条件はセット内の条件です。
house-style in [tudor, colonial, cape]
推論時に、住宅スタイルの特徴の値が tudor
、colonial
、cape
のいずれかの場合、この条件は Yes と評価されます。住宅スタイルの特徴の値がそれ以外の場合(ranch
など)、この条件は No と評価されます。
通常、インセット条件は、ワンホット エンコードされた特徴をテストする条件よりも効率的なディシジョン ツリーにつながります。
インスタンス
example と同義。
指示チューニング
生成 AI モデルが指示に従う能力を向上させるファインチューニングの一種。指示チューニングでは、通常はさまざまなタスクを対象とする一連の指示プロンプトでモデルをトレーニングします。その結果、指示チューニングされたモデルは、さまざまなタスクでゼロショット プロンプトに対して有用なレスポンスを生成する傾向があります。
比較対照:
解釈可能性
ML モデルの推論を人間にわかりやすい言葉で説明または提示する能力。
たとえば、ほとんどの線形回帰モデルは解釈可能性が高いです。(各特徴量のトレーニング済み重みを確認するだけで済みます)。デシジョン フォレストは解釈可能性も高いです。ただし、一部のモデルでは、解釈可能にするために高度な可視化が必要になります。
Learning Interpretability Tool(LIT)を使用して、ML モデルを解釈できます。
inter-rater agreement(採点者間一致度)
タスクの実行時に人間の評価者が一致する頻度を測定します。評価者が一致しない場合は、タスクの手順を改善する必要があるかもしれません。アノテーター間一致度または評価者間信頼性とも呼ばれます。最も一般的な評価者間一致度の測定方法の 1 つである Cohen のカッパ係数もご覧ください。
詳細については、ML 集中講座のカテゴリデータ: 一般的な問題をご覧ください。
IoU(Intersection over Union)
2 つのセットの共通部分を和集合で割った値。機械学習の画像検出タスクでは、IoU を使用して、グラウンド トゥルースの境界ボックスに対するモデルの予測境界ボックスの精度を測定します。この場合、2 つのボックスの IoU は、重複する領域と合計領域の比率です。値の範囲は 0(予測境界ボックスとグラウンド トゥルースの境界ボックスが重ならない)から 1(予測境界ボックスとグラウンド トゥルースの境界ボックスの座標が完全に一致する)です。
たとえば、下の画像では次のようになります。
- 予測された境界ボックス(モデルが絵画のナイトテーブルが配置されていると予測した場所を区切る座標)は紫色の枠で囲まれています。
- グラウンド トゥルースのバウンディング ボックス(絵画のナイトテーブルが実際に配置されている場所を区切る座標)は緑色で囲まれています。
ここで、予測とグラウンド トゥルースの境界ボックスの交差部分(左下)は 1、予測とグラウンド トゥルースの境界ボックスの和集合(右下)は 7 であるため、IoU は \(\frac{1}{7}\)です。


IoU
アイテム マトリックス
レコメンデーション システムでは、行列分解によって生成されたエンベディング ベクトルの行列が、各アイテムに関する潜在的なシグナルを保持します。アイテム マトリックスの各行には、すべてのアイテムの単一の潜在的特徴の値が保持されます。たとえば、映画のレコメンデーション システムについて考えてみましょう。アイテム マトリックスの各列は 1 つの映画を表します。潜在シグナルはジャンルを表すこともあれば、ジャンル、スター、映画の公開年などの要素間の複雑な相互作用を含む、解釈が難しいシグナルを表すこともあります。
アイテム マトリックスの列数は、因数分解されるターゲット マトリックスと同じです。たとえば、10,000 件の映画タイトルを評価する映画おすすめシステムの場合、アイテム行列には 10,000 個の列があります。
アイテム
レコメンデーション システムでは、システムが推奨するエンティティ。たとえば、ビデオショップがおすすめするアイテムは動画であり、書店がおすすめするアイテムは書籍です。
繰り返し
トレーニング中に、モデルのパラメータ(モデルの重みとバイアス)を 1 回更新すること。バッチサイズは、モデルが 1 回のイテレーションで処理するサンプル数を決定します。たとえば、バッチサイズが 20 の場合、モデルはパラメータを調整する前に 20 個の例を処理します。
ニューラル ネットワークをトレーニングする場合、1 回の反復には次の 2 つのパスが含まれます。
- 単一バッチの損失を評価するフォワード パス。
- 損失と学習率に基づいてモデルのパラメータを調整するバックワード パス(バックプロパゲーション)。
詳細については、機械学習集中講座の勾配降下法をご覧ください。
J
JAX
配列コンピューティング ライブラリ。XLA(Accelerated Linear Algebra)と自動微分を組み合わせて、高性能な数値計算を実現します。JAX は、構成可能な変換を使用して高速化された数値コードを記述するためのシンプルで強力な API を提供します。JAX には次のような機能があります。
grad
(自動微分)jit
(ジャストインタイム コンパイル)vmap
(自動ベクトル化またはバッチ処理)pmap
(並列化)
JAX は、数値コードの変換を表現して構成するための言語です。Python の NumPy ライブラリに似ていますが、範囲ははるかに広いです。(実際、JAX の .numpy ライブラリは、機能的には同等ですが、Python NumPy ライブラリを完全に書き直したバージョンです)。
JAX は、モデルとデータを GPU と TPU アクセラレータ チップでの並列処理に適した形式に変換することで、多くの ML タスクを高速化するのに特に適しています。
Flax、Optax、Pax などの多くのライブラリは、JAX インフラストラクチャ上に構築されています。
K
Keras
一般的な Python ML API。Keras は、TensorFlow を含む複数のディープ ラーニング フレームワークで実行されます。TensorFlow では、tf.keras として使用できます。
カーネル サポート ベクター マシン(KSVM)
入力データベクトルを高次元空間にマッピングすることで、正のクラスと負のクラスの間のマージンを最大化しようとする分類アルゴリズム。たとえば、入力データセットに 100 個の特徴がある分類問題を考えてみましょう。正のクラスと負のクラスの間のマージンを最大化するために、KSVM はこれらの特徴を内部的に 100 万次元の空間にマッピングできます。KSVM は、ヒンジ損失と呼ばれる損失関数を使用します。
キーポイント
画像内の特定の要素の座標。たとえば、花の種類を区別する画像認識モデルの場合、キーポイントは各花びらの中心、茎、おしべなどになります。
k 分割交差検証
新しいデータに一般化するモデルの能力を予測するアルゴリズム。k 分割交差検定の k は、データセットのサンプルを分割する等しいグループの数を指します。つまり、モデルのトレーニングとテストを k 回行います。kトレーニングとテストの各ラウンドで、異なるグループがテストセットになり、残りのすべてのグループがトレーニング セットになります。k 回のトレーニングとテストの後、選択したテスト指標の平均と標準偏差を計算します。
たとえば、データセットが 120 個の例で構成されているとします。さらに、k を 4 に設定するとします。したがって、例をシャッフルした後、データセットを 30 個の例からなる 4 つの等しいグループに分割し、4 回のトレーニングとテストラウンドを実施します。
たとえば、線形回帰モデルでは平均二乗誤差(MSE)が最も意味のある指標になることがあります。したがって、4 ラウンドすべての MSE の平均と標準偏差を求めます。
k-means
教師なし学習で例をグループ化する一般的なクラスタリング アルゴリズム。k 平均法アルゴリズムは基本的に次の処理を行います。
- 最適な k 個の中心点(セントロイド)を反復的に決定します。
- 各例を最も近いセントロイドに割り当てます。同じ重心に最も近い例は、同じグループに属します。
k 平均法アルゴリズムは、各例から最も近いセントロイドまでの距離の累積二乗を最小限に抑えるようにセントロイドの位置を選択します。
たとえば、犬の高さと犬の幅の次のプロットについて考えてみましょう。
k=3 の場合、k 平均法アルゴリズムは 3 つのセントロイドを決定します。各例は最も近いセントロイドに割り当てられ、3 つのグループが生成されます。
犬用のセーターの S、M、L の理想的なサイズを決定したいメーカーがあるとします。3 つのセントロイドは、そのクラスタ内の各犬の平均の高さと平均の幅を示します。そのため、セーターのサイズは、おそらくこれらの 3 つの重心に基づいて決めるべきです。クラスタの重心は通常、クラスタ内の例ではありません。
上の図は、2 つの特徴(高さと幅)のみを持つ例の k 平均法を示しています。k 平均法では、多くの特徴にわたって例をグループ化できます。
詳細については、クラスタリング コースの k 平均法クラスタリングとはをご覧ください。
k-median
k 平均法と密接に関連するクラスタリング アルゴリズム。この 2 つの実際的な違いは次のとおりです。
- k 平均法では、セントロイド候補と各例との間の距離の二乗の合計を最小化することで、セントロイドが決定されます。
- k-median では、セントロイド候補と各例の距離の合計を最小化することでセントロイドが決定されます。
距離の定義も異なります。
- k 平均法は、セントロイドから例までのユークリッド距離に依存します。(2 次元の場合、ユークリッド距離はピタゴラスの定理を使用して斜辺を計算することを意味します)。たとえば、(2,2) と (5,-2) の間の k 平均法距離は次のようになります。
- k-median は、セントロイドから例までの マンハッタン距離に依存します。この距離は、各ディメンションの絶対デルタの合計です。たとえば、(2,2) と (5,-2) の間の k-median 距離は次のようになります。
L
L0 正規化
モデル内のゼロ以外の重みの合計数にペナルティを課す正則化の一種。たとえば、ゼロ以外の重みが 11 個あるモデルは、ゼロ以外の重みが 10 個ある同様のモデルよりもペナルティが大きくなります。
L0 正則化は、L0 ノルム正則化と呼ばれることもあります。
L1 損失
実際のラベル値とモデルが予測する値の差の絶対値を計算する損失関数。たとえば、5 つの例のバッチの L1 損失の計算は次のようになります。
例の実際の値 | モデルの予測値 | デルタの絶対値 |
---|---|---|
7 | 6 | 1 |
5 | 4 | 1 |
8 | 11 | 3 |
4 | 6 | 2 |
9 | 8 | 1 |
8 = L1 損失 |
L1 損失は、L2 損失よりも外れ値の影響を受けにくいです。
詳細については、ML 集中講座の線形回帰: 損失をご覧ください。
L1 正則化
正則化の一種で、重みの絶対値の合計に比例して重みにペナルティを課します。L1 正則化は、無関係な特徴やほとんど関係のない特徴の重みを正確に 0 にします。重みが 0 の特徴量は、モデルから事実上削除されます。
L2 正則化と比較してください。
L2 損失
実際のラベル値とモデルが予測する値の差の二乗を計算する損失関数。たとえば、5 つの例のバッチの L2 損失の計算は次のようになります。
例の実際の値 | モデルの予測値 | デルタの 2 乗 |
---|---|---|
7 | 6 | 1 |
5 | 4 | 1 |
8 | 11 | 9 |
4 | 6 | 4 |
9 | 8 | 1 |
16 = L2 損失 |
2 乗のため、L2 損失は外れ値の影響を増幅します。つまり、L2 損失は、L1 損失よりも悪い予測に強く反応します。たとえば、前のバッチの L1 損失は 16 ではなく 8 になります。16 個のうち 9 個が 1 つの外れ値で占められていることに注目してください。
回帰モデルは通常、損失関数として L2 損失を使用します。
平均二乗誤差は、例ごとの L2 損失の平均です。二乗損失は、L2 損失の別名です。
詳細については、ML 集中講座のロジスティック回帰: 損失と正則化をご覧ください。
L2 正則化
重みの二乗の合計に比例して重みにペナルティを課す正則化の一種。L2 正則化は、外れ値の重み(正の値が大きいか負の値が小さい重み)を 0 に近づけますが、完全に 0 にはしません。値が 0 に非常に近い特徴はモデルに残りますが、モデルの予測に大きな影響を与えません。
L2 正則化は、線形モデルの一般化を常に改善します。
L1 正則化と比較してください。
詳細については、機械学習集中講座の過学習: L2 正則化をご覧ください。
ラベル
各ラベル付きの例は、1 つ以上の特徴とラベルで構成されます。たとえば、迷惑メール検出データセットでは、ラベルは「迷惑メール」または「迷惑メールではない」のいずれかになります。降雨量データセットでは、ラベルは特定の期間に降った雨の量になることがあります。
詳細については、ML の概要の教師あり学習をご覧ください。
ラベル付きの例
1 つ以上の特徴と 1 つのラベルを含む例。たとえば、次の表は、住宅評価モデルのラベル付きの 3 つの例を示しています。各例には 3 つの特徴と 1 つのラベルがあります。
寝室の数 | 浴室の数 | 築年数 | 住宅価格(ラベル) |
---|---|---|---|
3 | 2 | 15 | $345,000 |
2 | 1 | 72 | $179,000 |
4 | 2 | 34 | $392,000 |
教師あり ML では、モデルはラベル付きの例でトレーニングされ、ラベルなしの例で予測を行います。
ラベル付きの例とラベルなしの例を比較します。
詳細については、ML の概要の教師あり学習をご覧ください。
ラベルの漏洩
特徴がラベルのプロキシであるモデル設計の欠陥。たとえば、見込み顧客が特定の商品を購入するかどうかを予測するバイナリ分類モデルを考えてみましょう。モデルの機能の 1 つが SpokeToCustomerAgent
という名前のブール値であるとします。さらに、見込み顧客が実際に商品を購入した後にのみ、顧客エージェントが割り当てられるとします。トレーニング中に、モデルは SpokeToCustomerAgent
とラベルの関連性をすばやく学習します。
詳細については、ML 集中講座のパイプラインのモニタリングをご覧ください。
lambda
正則化率と同義。
Lambda はオーバーロードされた用語です。ここでは、正則化内の用語の定義に焦点を当てます。
LaMDA(対話アプリケーション用言語モデル)
Google が開発した Transformer ベースの大規模言語モデル。大規模な会話データセットでトレーニングされており、現実的な会話の回答を生成できます。
LaMDA: Google の画期的な会話テクノロジーで概要を確認できます。
landmarks
キーポイントと同義。
言語モデル
長いトークン シーケンスでトークンまたはトークン シーケンスが発生する確率を推定するモデル。
詳細については、ML 集中講座の言語モデルとはをご覧ください。
大規模言語モデル
少なくとも、非常に多くのパラメータを持つ言語モデル。より非公式には、Gemini や GPT などの Transformer ベースの言語モデル。
詳細については、ML 集中講座の大規模言語モデル(LLM)をご覧ください。
遅延
モデルが入力を処理してレスポンスを生成するまでにかかる時間。レイテンシの高いレスポンスは、レイテンシの低いレスポンスよりも生成に時間がかかります。
大規模言語モデルのレイテンシに影響する要因は次のとおりです。
- 入力と出力の [トークン] の長さ
- モデルの複雑さ
- モデルが実行されるインフラストラクチャ
レイテンシの最適化は、レスポンシブで使いやすいアプリケーションを作成するうえで非常に重要です。
潜在空間
エンベディング空間と同義。
レイヤ
ニューラル ネットワーク内のニューロンのセット。一般的なレイヤには次の 3 種類があります。
たとえば、次の図は、入力層が 1 つ、隠れ層が 2 つ、出力層が 1 つのニューラル ネットワークを示しています。
TensorFlow では、レイヤも Python 関数であり、テンソルと構成オプションを入力として受け取り、他のテンソルを出力として生成します。
Layers API(tf.layers)
レイヤの構成としてディープ ニューラル ネットワークを構築するための TensorFlow API。Layers API を使用すると、次のようなさまざまなタイプのレイヤを構築できます。
tf.layers.Dense
: 全結合レイヤ。- 畳み込みレイヤの
tf.layers.Conv2D
。
Layers API は、Keras レイヤ API の規則に準拠しています。つまり、接頭辞が異なることを除き、Layers API のすべての関数は、Keras レイヤ API の対応する関数と同じ名前とシグネチャを持ちます。
leaf
ディシジョン ツリー内のエンドポイント。条件とは異なり、リーフはテストを実行しません。リーフは予測の候補です。リーフは、推論パスの終端ノードでもあります。
たとえば、次のディシジョン ツリーには 3 つのリーフが含まれています。
詳細については、デシジョン フォレスト コースのデシジョン ツリーをご覧ください。
Learning Interpretability Tool(LIT)
ビジュアルでインタラクティブなモデル理解とデータ可視化ツール。
オープンソースの LIT を使用して、モデルを解釈したり、テキスト、画像、表形式のデータを可視化したりできます。
学習率
各イテレーションで重みとバイアスを調整する強さを勾配降下法アルゴリズムに伝える浮動小数点数。たとえば、学習率が 0.3 の場合、学習率が 0.1 の場合よりも 3 倍強力に重みとバイアスが調整されます。
学習率は重要なハイパーパラメータです。学習率を低く設定しすぎると、トレーニングに時間がかかりすぎます。学習率が高すぎると、勾配降下法で収束に到達するのが難しくなることがよくあります。
詳細については、ML 集中講座の線形回帰: ハイパーパラメータをご覧ください。
最小二乗回帰
レーベンシュタイン距離
ある単語を別の単語に変更するために必要な最小の削除、挿入、置換オペレーションを計算する編集距離指標。たとえば、「heart」と「darts」のレーベンシュタイン距離は 3 です。これは、一方の単語を他方の単語に変換するために必要な最小限の変更が次の 3 つであるためです。
- heart → deart(「h」を「d」に置き換える)
- deart → dart(「e」を削除)
- dart → darts(「s」を挿入)
上記のシーケンスは、3 つの編集の唯一のパスではありません。
線形
加算と乗算のみで表すことができる 2 つ以上の変数間の関係。
線形関係のプロットは直線になります。
非線形と比較してください。
線形モデル
特徴量ごとに 1 つの重みを割り当てて予測を行うモデル。(線形モデルにはバイアスも組み込まれています)。一方、ディープモデルでは、特徴と予測の関係は一般的に非線形です。
線形モデルは通常、ディープ モデルよりもトレーニングが容易で、解釈しやすいです。ただし、ディープモデルは特徴間の複雑な関係を学習できます。
線形回帰
次の両方が当てはまる ML モデルのタイプ。
線形回帰とロジスティック回帰を比較します。また、回帰と分類を比較します。
詳細については、ML 集中講座の線形回帰をご覧ください。
LIT
以前は Language Interpretability Tool と呼ばれていた Learning Interpretability Tool(LIT)の略称。
LLM
大規模言語モデルの略語。
LLM 評価(eval)
大規模言語モデル(LLM)のパフォーマンスを評価するための指標とベンチマークのセット。LLM の評価は、大まかに次のようになります。
- LLM の改善が必要な領域を研究者が特定するのに役立ちます。
- さまざまな LLM を比較し、特定のタスクに最適な LLM を特定するのに役立ちます。
- LLM の安全で倫理的な使用を確保します。
詳細については、ML 集中講座の大規模言語モデル(LLM)をご覧ください。
ロジスティック回帰
確率を予測する回帰モデルの一種。ロジスティック回帰モデルには次の特徴があります。
- ラベルはカテゴリカルです。ロジスティック回帰という用語は通常、バイナリ ロジスティック回帰、つまり、2 つの値を取り得るラベルの確率を計算するモデルを指します。あまり一般的ではないバリアントである多項ロジスティック回帰は、2 つ以上の候補値を持つラベルの確率を計算します。
- トレーニング中の損失関数は 対数損失です。(2 つ以上の値が可能なラベルに対して、複数の Log Loss ユニットを並列に配置できます)。
- モデルはディープ ニューラル ネットワークではなく、線形アーキテクチャです。ただし、この定義の残りの部分は、カテゴリラベルの確率を予測するディープモデルにも適用されます。
たとえば、入力メールが迷惑メールであるかそうでないかの確率を計算するロジスティック回帰モデルについて考えてみましょう。推論時に、モデルが 0.72 を予測したとします。したがって、モデルは次のように推定します。
- メールが迷惑メールである可能性が 72% である。
- メールがスパムではない確率は 28% です。
ロジスティック回帰モデルは、次の 2 段階のアーキテクチャを使用します。
- モデルは、入力特徴の線形関数を適用して、未加工の予測(y')を生成します。
- モデルは、その未加工の予測を シグモイド関数への入力として使用します。この関数は、未加工の予測を 0 から 1 の間の値(0 と 1 は含まない)に変換します。
他の回帰モデルと同様に、ロジスティック回帰モデルは数値を予測します。ただし、通常、この数値は次のようにバイナリ分類モデルの一部になります。
- 予測された数値が分類しきい値より大きい場合、バイナリ分類モデルはポジティブ クラスを予測します。
- 予測された数が分類しきい値より小さい場合、バイナリ分類モデルは負のクラスを予測します。
詳細については、ML 集中講座のロジスティック回帰をご覧ください。
logits
分類モデルが生成する未加工(正規化されていない)予測のベクトル。通常は正規化関数に渡されます。モデルがマルチクラス分類問題を解決している場合、通常、ロジットは softmax 関数の入力になります。softmax 関数は、各クラスの確率(正規化された確率)のベクトルを生成します。
ログ損失
詳細については、ML 集中講座のロジスティック回帰: 損失と正則化をご覧ください。
対数オッズ
あるイベントのオッズの対数。
長短期記憶(LSTM)
再帰型ニューラル ネットワークのセルの一種。手書き文字認識、機械翻訳、画像キャプションなどのアプリケーションでデータのシーケンスを処理するために使用されます。LSTM は、RNN のトレーニング時に長いデータ シーケンスが原因で発生する勾配消失問題に対処します。RNN の新しい入力と前のセルのコンテキストに基づいて、内部メモリ状態に履歴を保持します。
LoRA
損失
教師ありモデルのトレーニングで、モデルの予測がラベルからどのくらい離れているかを表す指標。
損失関数は損失を計算します。
詳細については、ML 集中講座の線形回帰: 損失をご覧ください。
損失アグリゲータ
複数のモデルの予測を組み合わせて、それらの予測を使用して 1 つの予測を行うことで、モデルのパフォーマンスを向上させるML アルゴリズムの一種。その結果、損失アグリゲータは予測の分散を減らし、予測の精度を向上させることができます。
損失曲線
トレーニングのイテレーションの数に対する損失のプロット。次のプロットは、一般的な損失曲線を示しています。
損失曲線は、モデルが収束しているか、過学習しているかを判断するのに役立ちます。
損失曲線では、次のすべての種類の損失をプロットできます。
汎化曲線もご覧ください。
詳細については、ML 集中講座の過剰適合: 損失曲線の解釈をご覧ください。
損失関数
トレーニングまたはテスト中に、例のバッチの損失を計算する数学関数。損失関数は、予測が正確なモデルに対しては低い損失を返し、予測が不正確なモデルに対しては高い損失を返します。
通常、トレーニングの目標は、損失関数が返す損失を最小限に抑えることです。
損失関数にはさまざまな種類があります。構築するモデルの種類に適した損失関数を選択します。次に例を示します。
損失曲面
重みと損失のグラフ。勾配降下法は、損失曲面が局所的な最小値になる重みを見つけることを目的としています。
Low-Rank Adaptability(LoRA)
モデルの事前トレーニング済みの重みを「凍結」(変更できないようにする)してから、トレーニング可能な重みの小さなセットをモデルに挿入する、ファインチューニングのためのパラメータ効率手法。このトレーニング可能な重みのセット(更新行列とも呼ばれます)は、ベースモデルよりもはるかに小さいため、トレーニングがはるかに高速になります。
LoRA には次のような利点があります。
- ファインチューニングが適用されるドメインのモデルの予測の品質を向上させます。
- モデルのすべてのパラメータのファインチューニングを必要とする手法よりも高速にファインチューニングを行います。
- 同じベースモデルを共有する複数の特殊モデルの同時サービングを可能にすることで、推論の計算コストを削減します。
LSTM
M
機械学習
入力データからモデルをトレーニングするプログラムまたはシステム。トレーニングされたモデルは、モデルのトレーニングに使用された分布と同じ分布から抽出された新しい(初めて見る)データから有用な予測を行うことができます。
機械学習は、これらのプログラムやシステムに関わる研究分野を指すこともあります。
詳細については、機械学習の概要コースをご覧ください。
機械翻訳
ソフトウェア(通常は ML モデル)を使用して、ある言語から別の言語にテキストを変換すること(例: 英語から日本語)。
多数派クラス
クラス不均衡データセットでより一般的なラベル。たとえば、99% の負のラベルと 1% の正のラベルを含むデータセットの場合、負のラベルが多数派クラスになります。
少数派クラスと比較してください。
詳細については、ML 集中講座のデータセット: 不均衡なデータセットをご覧ください。
マルコフ決定プロセス(MDP)
マルコフ性が成り立つという仮定の下で、一連の状態をナビゲートするために決定(またはアクション)が取られる意思決定モデルを表すグラフ。強化学習では、状態間の遷移によって数値の報酬が返されます。
マルコフ性
特定の環境のプロパティ。状態遷移は、現在の状態とエージェントのアクションに暗黙的に含まれる情報によって完全に決定されます。
マスク言語モデル
シーケンスの空白を埋める候補トークンの確率を予測する言語モデル。たとえば、マスクされた言語モデルは、次の文の下線を置き換える候補単語の確率を計算できます。
帽子をかぶった ____ が戻ってきた。
文献では通常、下線の代わりに「MASK」という文字列が使用されます。次に例を示します。
帽子の「MASK」が戻ってきました。
最近のマスク言語モデルのほとんどは双方向です。
matplotlib
オープンソースの Python 2D プロット ライブラリ。matplotlib を使用すると、機械学習のさまざまな側面を可視化できます。
行列分解
数学では、ドット積がターゲット行列に近似する行列を見つけるメカニズム。
レコメンデーション システムでは、ターゲット行列にアイテムに対するユーザーの評価が格納されることがよくあります。たとえば、映画のレコメンデーション システムのターゲット マトリックスは次のようになります。正の整数はユーザー評価、0 はユーザーが映画を評価していないことを意味します。
カサブランカ | フィラデルフィア物語 | Black Panther(「ブラック パンサー」) | ワンダーウーマン | パルプフィクション | |
---|---|---|---|---|---|
ユーザー 1 | 5.0 | 3.0 | 0.0 | 2.0 | 0.0 |
ユーザー 2 | 4.0 | 0.0 | 0.0 | 1.0 | 5.0 |
ユーザー 3 | 3.0 | 1.0 | 4.0 | 5.0 | 0.0 |
映画のレコメンデーション システムは、評価されていない映画に対するユーザーの評価を予測することを目的としています。たとえば、ユーザー 1 は ブラックパンサーを気に入るでしょうか?
レコメンデーション システムのアプローチの 1 つとして、行列分解を使用して次の 2 つの行列を生成する方法があります。
たとえば、3 人のユーザーと 5 つのアイテムに対して行列分解を行うと、次のようなユーザー行列とアイテム行列が得られます。
User Matrix Item Matrix 1.1 2.3 0.9 0.2 1.4 2.0 1.2 0.6 2.0 1.7 1.2 1.2 -0.1 2.1 2.5 0.5
ユーザー行列とアイテム行列の内積により、元のユーザー評価だけでなく、各ユーザーがまだ見ていない映画の予測も含むおすすめ行列が生成されます。たとえば、ユーザー 1 の「カサブランカ」の評価が 5.0 であったとします。推奨マトリックスのそのセルに対応するドット積は、5.0 前後になるはずです。
(1.1 * 0.9) + (2.3 * 1.7) = 4.9
さらに重要なのは、ユーザー 1 が ブラックパンサーを気に入るかどうかです。1 行目と 3 列目に対応する内積を計算すると、予測評価は 4.3 になります。
(1.1 * 1.4) + (2.3 * 1.2) = 4.3
通常、行列分解では、ターゲット行列よりもはるかにコンパクトなユーザー行列とアイテム行列が生成されます。
平均絶対誤差(MAE)
L1 損失が使用されている場合の、例あたりの平均損失。平均絶対誤差は次のように計算します。
- バッチの L1 損失を計算します。
- L1 損失をバッチ内のサンプル数で割ります。
たとえば、次の 5 つの例のバッチで L1 損失を計算することを考えます。
例の実際の値 | モデルの予測値 | 損失(実測値と予測値の差) |
---|---|---|
7 | 6 | 1 |
5 | 4 | 1 |
8 | 11 | 3 |
4 | 6 | 2 |
9 | 8 | 1 |
8 = L1 損失 |
したがって、L1 損失は 8 で、サンプル数は 5 です。したがって、平均絶対誤差は次のようになります。
Mean Absolute Error = L1 loss / Number of Examples Mean Absolute Error = 8/5 = 1.6
平均絶対誤差と平均二乗誤差、二乗平均平方根誤差を比較します。
k での平均適合率の平均(mAP@k)
検証データセット全体で計算されたすべての k における平均適合率スコアの統計的平均。k における平均適合率の用途の一つは、レコメンデーション システムによって生成された推奨事項の品質を判断することです。
「平均平均」というフレーズは冗長に聞こえますが、指標の名前としては適切です。この指標は、複数の k における平均適合率の値の平均を求めるためです。
平均二乗誤差(MSE)
L2 損失が使用されている場合の、例あたりの平均損失。平均二乗誤差は次のように計算します。
- バッチの L2 損失を計算します。
- L2 損失をバッチ内のサンプル数で割ります。
たとえば、次の 5 つの例のバッチの損失について考えてみましょう。
実際の値 | モデルの予測 | 損失 | 二乗損失 |
---|---|---|---|
7 | 6 | 1 | 1 |
5 | 4 | 1 | 1 |
8 | 11 | 3 | 9 |
4 | 6 | 2 | 4 |
9 | 8 | 1 | 1 |
16 = L2 損失 |
したがって、平均二乗誤差は次のようになります。
Mean Squared Error = L2 loss / Number of Examples Mean Squared Error = 16/5 = 3.2
平均二乗誤差は、特に線形回帰でよく使用されるトレーニング オプティマイザーです。
平均二乗誤差と平均絶対誤差、二乗平均平方根誤差を比較します。
TensorFlow Playground では、平均二乗誤差を使用して損失値を計算します。
メッシュ
ML 並列プログラミングで、データとモデルを TPU チップに割り当て、これらの値のシャーディングまたは複製方法を定義することに関連する用語。
メッシュはオーバーロードされた用語で、次のいずれかを意味します。
- TPU チップの物理レイアウト。
- データとモデルを TPU チップにマッピングするための抽象論理構造。
どちらの場合も、メッシュはシェイプとして指定されます。
メタ学習
学習アルゴリズムを発見または改善する ML のサブセット。メタ学習システムは、少量のデータや以前のタスクで得られた経験から新しいタスクを迅速に学習するようにモデルをトレーニングすることも目的としています。メタラーニング アルゴリズムは通常、次のことを実現しようとします。
- 手動で設計された特徴(イニシャライザやオプティマイザーなど)を改善または学習します。
- データ効率とコンピューティング効率を高めます。
- 一般化を改善します。
メタ学習は少数ショット学習に関連しています。
指標
重視すべき統計情報。
目標は、ML システムが最適化しようとする指標です。
指標 API(tf.metrics)
モデルを評価するための TensorFlow API。たとえば、tf.metrics.accuracy
は、モデルの予測がラベルと一致する頻度を決定します。
ミニバッチ
1 回のイテレーションで処理されるバッチのランダムに選択された小さなサブセット。ミニバッチのバッチサイズは、通常 10 ~ 1,000 サンプルです。
たとえば、トレーニング セット全体(フルバッチ)が 1,000 個の例で構成されているとします。さらに、各ミニバッチのバッチサイズを 20 に設定したとします。したがって、各イテレーションでは、1,000 個の例のうち 20 個をランダムに選択して損失を特定し、それに応じて重みとバイアスを調整します。
ミニバッチの損失を計算する方が、フルバッチのすべての例の損失を計算するよりもはるかに効率的です。
詳細については、ML 集中講座の線形回帰: ハイパーパラメータをご覧ください。
ミニバッチ確率的勾配降下法
ミニバッチを使用する勾配降下法アルゴリズム。つまり、ミニバッチ確率的勾配降下法では、トレーニング データの小さなサブセットに基づいて勾配を推定します。通常の確率的勾配降下法では、サイズ 1 のミニバッチを使用します。
ミニマックス損失
生成されたデータと実際のデータの分布間のクロスエントロピーに基づく、敵対的生成ネットワークの損失関数。
ミニマックス損失は、最初の論文で敵対的生成ネットワークを説明するために使用されています。
詳細については、生成的敵対ネットワーク コースの損失関数をご覧ください。
少数派クラス
クラス不均衡データセット内の少数派のラベル。たとえば、99% のネガティブ ラベルと 1% のポジティブ ラベルを含むデータセットの場合、ポジティブ ラベルは少数クラスです。
多数派クラスと比較してください。
詳細については、ML 集中講座のデータセット: 不均衡なデータセットをご覧ください。
mixture of experts
パラメータのサブセット(エキスパートと呼ばれる)のみを使用して、特定の入力トークンまたは例を処理することで、ニューラル ネットワークの効率を高めるスキーム。ゲーティング ネットワークは、各入力トークンまたは例を適切なエキスパートに転送します。
詳しくは、次のいずれかの論文をご覧ください。
- Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer
- エキスパート選択ルーティングによる Mixture-of-Experts
ML
機械学習の略語。
MMIT
MNIST
LeCun、Cortes、Burges によってコンパイルされたパブリック ドメインのデータセット。60,000 個の画像が含まれており、各画像には人間が 0 ~ 9 の特定の数字を手書きで書く様子が示されています。各画像は 28x28 の整数配列として保存されます。各整数は 0 ~ 255 のグレースケール値です。
MNIST は、新しい機械学習アプローチのテストでよく使用される、機械学習の標準データセットです。詳細については、 手書き数字の MNIST データベースをご覧ください。
モダリティ
上位のデータカテゴリ。たとえば、数値、テキスト、画像、動画、音声は 5 つの異なるモダリティです。
モデル
一般に、入力データを処理して出力を返す数学的構造を指します。別の言い方をすれば、モデルとは、システムが予測を行うために必要なパラメータと構造のセットです。教師あり機械学習では、モデルは例を入力として受け取り、予測を出力として推論します。教師あり機械学習では、モデルは多少異なります。次に例を示します。
- 線形回帰モデルは、一連の重みとバイアスで構成されます。
- ニューラル ネットワーク モデルは、次の要素で構成されます。
- ディシジョン ツリー モデルは、次の要素で構成されます。
- ツリーの形状。つまり、条件とリーフが接続されるパターン。
- 条件とリーフ。
モデルの保存、復元、コピーを作成できます。
教師なし ML もモデルを生成します。通常、入力例を最も適切なクラスタにマッピングできる関数です。
モデル容量
モデルが学習できる問題の複雑さ。モデルが学習できる問題が複雑であるほど、モデルの容量は大きくなります。通常、モデルの容量はモデル パラメータの数とともに増加します。分類モデルの容量の正式な定義については、VC 次元をご覧ください。
モデルのカスケード
特定の推論クエリに最適なモデルを選択するシステム。
非常に大きなモデル(多数のパラメータ)から非常に小さなモデル(パラメータがはるかに少ない)まで、さまざまなモデルのグループを考えてみましょう。非常に大きなモデルは、小さなモデルよりも推論時に多くのコンピューティング リソースを消費します。ただし、非常に大きなモデルは、通常、小さなモデルよりも複雑なリクエストを推論できます。モデル カスケードは、推論クエリの複雑さを判断し、推論を実行する適切なモデルを選択します。モデル カスケードの主な目的は、一般的に小規模なモデルを選択し、より複雑なクエリに対してのみ大規模なモデルを選択することで、推論コストを削減することです。
たとえば、小規模なモデルがスマートフォンで実行され、そのモデルのより大規模なバージョンがリモート サーバーで実行されるとします。適切なモデル カスケードにより、小規模なモデルで単純なリクエストを処理し、複雑なリクエストの処理にのみリモートモデルを呼び出すことができるため、費用とレイテンシを削減できます。
モデルルーターもご覧ください。
モデル並列処理
トレーニングまたは推論をスケーリングする方法の 1 つで、1 つのモデルの異なる部分を異なるデバイスに配置します。モデル並列処理により、単一のデバイスに収まらないほど大きなモデルを使用できます。
モデル並列処理を実装するために、システムは通常次の処理を行います。
- モデルをより小さな部分に分割します。
- これらの小さな部分のトレーニングを複数のプロセッサに分散します。各プロセッサは、モデルの独自の部分をトレーニングします。
- 結果を組み合わせて 1 つのモデルを作成します。
モデルの並列処理によりトレーニングが遅くなります。
データ並列処理もご覧ください。
モデルルーター
モデル カスケードで推論に最適なモデルを決定するアルゴリズム。モデルルーター自体は通常、特定の入力に最適なモデルを選択する方法を徐々に学習する ML モデルです。ただし、モデルルーターは、よりシンプルな非 ML アルゴリズムになることもあります。
モデルのトレーニング
最適なモデルを決定するプロセス。
MOE
モメンタム
学習ステップが現在のステップの導関数だけでなく、直前のステップの導関数にも依存する高度な勾配降下アルゴリズム。運動量では、物理学の運動量と同様に、勾配の指数加重移動平均を時間とともに計算します。モメンタムは、学習が局所的な最小値で停滞するのを防ぐことがあります。
MT
機械翻訳の略語。
マルチクラス分類
教師あり学習では、データセットに 3 つ以上のラベルのクラスが含まれている分類問題。たとえば、Iris データセットのラベルは、次の 3 つのクラスのいずれかである必要があります。
- Iris setosa
- Iris virginica
- Iris versicolor
新しい例でアヤメの種類を予測するアヤメ データセットでトレーニングされたモデルは、マルチクラス分類を実行しています。
これに対し、2 つのクラスを区別する分類問題は、バイナリ分類モデルです。たとえば、スパムまたはスパムではないのいずれかを予測するメールモデルは、バイナリ分類モデルです。
クラスタリング問題では、マルチクラス分類は 3 つ以上のクラスタを指します。
詳細については、ML 集中講座のニューラル ネットワーク: 多クラス分類をご覧ください。
多クラス ロジスティック回帰
マルチヘッド セルフ アテンション
入力シーケンス内の各位置に対してセルフアテンション メカニズムを複数回適用する セルフアテンションの拡張。
Transformer では、マルチヘッド セルフ アテンションが導入されました。
マルチモーダル指示チューニング
テキスト以外の入力(画像、動画、音声など)を処理できる指示チューニング モデル。
マルチモーダル モデル
入力、出力、またはその両方に複数のモダリティが含まれるモデル。たとえば、画像とテキスト キャプション(2 つのモダリティ)の両方を特徴として受け取り、テキスト キャプションが画像にどの程度適しているかを示すスコアを出力するモデルを考えてみましょう。このモデルの入力はマルチモーダルで、出力はユニモーダルです。
多項分類
マルチクラス分類と同義。
多項回帰
多項ロジスティック回帰の同義語。
マルチタスク
複数のタスクを実行するように 1 つのモデルをトレーニングする ML 手法。
マルチタスク モデルは、さまざまなタスクそれぞれに適したデータでトレーニングすることで作成されます。これにより、モデルはタスク間で情報を共有することを学習し、より効果的に学習できます。
複数のタスク用にトレーニングされたモデルは、一般化能力が向上し、さまざまな種類のデータをより堅牢に処理できることがよくあります。
N
Nano
デバイスでの使用を想定して設計された、比較的小さな Gemini モデル。詳しくは、Gemini Nano をご覧ください。
NaN トラップ
トレーニング中にモデル内の 1 つの数値が NaN になり、モデル内の他の数値の多くまたはすべてが最終的に NaN になる場合。
NaN は Not a Number の略です。
自然言語処理
言語規則を使用して、ユーザーが発言または入力した内容をコンピュータに処理させる分野。最新の自然言語処理のほぼすべてが ML に依存しています。自然言語理解
発言または入力された内容の意図を判断する自然言語処理のサブセット。自然言語理解は、自然言語処理を超えて、コンテキスト、皮肉、感情などの言語の複雑な側面を考慮できます。
陰性クラス
バイナリ分類では、一方のクラスを「陽性」、もう一方のクラスを「陰性」と呼びます。陽性クラスはモデルがテストしているものまたはイベントであり、陰性クラスはそれ以外の可能性です。次に例を示します。
- 医学検査の陰性クラスは「腫瘍なし」などになります。
- メールの分類モデルの負のクラスは「迷惑メールではない」です。
ポジティブ クラスもご覧ください。
ネガティブ サンプリング
候補サンプリングと同義。
ニューラル アーキテクチャ検索(NAS)
ニューラル ネットワークのアーキテクチャを自動的に設計する手法。NAS アルゴリズムを使用すると、ニューラル ネットワークのトレーニングに必要な時間とリソースを削減できます。
通常、NAS は次のものを使用します。
- 検索スペース。可能なアーキテクチャのセットです。
- フィットネス関数。特定のアーキテクチャが特定のタスクでどの程度優れたパフォーマンスを発揮するかを測定します。
NAS アルゴリズムは、通常、可能なアーキテクチャの小さなセットから始まり、アルゴリズムが効果的なアーキテクチャについて学習するにつれて、検索スペースを徐々に拡大します。通常、適合度関数はトレーニング セットでのアーキテクチャのパフォーマンスに基づいており、アルゴリズムは通常、強化学習手法を使用してトレーニングされます。
NAS アルゴリズムは、画像分類、テキスト分類、機械翻訳など、さまざまなタスクで高性能なアーキテクチャを見つけるのに効果的であることが証明されています。
ニューラル ネットワークの
隠れ層を 1 つ以上含むモデル。ディープ ニューラル ネットワークは、複数の隠れ層を含むニューラル ネットワークの一種です。たとえば、次の図は 2 つの隠れ層を含むディープ ニューラル ネットワークを示しています。
ニューラル ネットワークの各ニューロンは、次のレイヤのすべてのノードに接続します。たとえば、上の図では、最初の隠れ層にある 3 つのニューロンが、2 番目の隠れ層にある 2 つのニューロンにそれぞれ個別に接続されています。
コンピュータに実装されたニューラル ネットワークは、脳や他の神経系にあるニューラル ネットワークと区別するために、人工ニューラル ネットワークと呼ばれることがあります。
一部のニューラル ネットワークは、さまざまな特徴とラベルの間の非常に複雑な非線形関係を模倣できます。
畳み込みニューラル ネットワークと再帰型ニューラル ネットワークもご覧ください。
詳細については、ML 集中講座のニューラル ネットワークをご覧ください。
ニューロン
機械学習では、ニューラル ネットワークの隠れ層内の個別のユニット。各ニューロンは、次の 2 段階のアクションを実行します。
最初の隠れ層のニューロンは、入力層の特徴値から入力を受け取ります。最初の隠れ層より後の隠れ層のニューロンは、前の隠れ層のニューロンから入力を受け取ります。たとえば、2 番目の隠れ層のニューロンは、最初の隠れ層のニューロンから入力を受け取ります。
次の図は、2 つのニューロンとその入力を示しています。
ニューラル ネットワークのニューロンは、脳や神経系の他の部分のニューロンの動作を模倣します。
N グラム
N 個の単語の順序付きシーケンス。たとえば、truly madly は 2 グラムです。順序が重要であるため、madly truly は truly madly とは異なる 2 グラムです。
N | この種の N グラムの名前 | 例 |
---|---|---|
2 | バイグラムまたは 2 グラム | to go、go to、eat lunch、eat dinner |
3 | trigram または 3-gram | 食べすぎた、幸せな結末、鐘が鳴る |
4 | 4 グラム | walk in the park, dust in the wind, the boy ate lentils |
多くの自然言語理解モデルは、ユーザーが入力または発話する次の単語を予測するために N グラムに依存しています。たとえば、ユーザーが「happily ever」と入力したとします。トライグラムに基づく NLU モデルは、ユーザーが次に「after」と入力すると予測する可能性があります。
n-gram は、単語の順序なしセットである bag of words と対照的です。
詳細については、ML 集中講座の大規模言語モデルをご覧ください。
NLP
自然言語処理の略語。
NLU
自然言語理解の略。
ノード(ディシジョン ツリー)
詳細については、デシジョン フォレスト コースのデシジョン ツリーをご覧ください。
ノード(ニューラル ネットワーク)
詳細については、ML 集中講座のニューラル ネットワークをご覧ください。
ノード(TensorFlow グラフ)
TensorFlow グラフ内のオペレーション。
ノイズ
大まかに言えば、データセット内のシグナルを不明瞭にするもの。ノイズはさまざまな方法でデータに導入される可能性があります。次に例を示します。
- 人間の評価者がラベル付けを間違える。
- 人間や機器が特徴値を誤って記録したり、省略したりする。
非バイナリ条件
2 つ以上の結果を含む条件。たとえば、次の非バイナリ条件には 3 つの結果が含まれています。
詳細については、Decision Forests コースの条件のタイプをご覧ください。
非線形
加算と乗算のみでは表現できない、2 つ以上の変数間の関係。線形関係は線で表すことができますが、非線形関係は線で表すことができません。たとえば、それぞれが 1 つの特徴を 1 つのラベルに関連付ける 2 つのモデルについて考えてみましょう。左のモデルは線形、右のモデルは非線形です。
さまざまな種類の非線形関数を試すには、ML 集中講座のニューラル ネットワーク: ノードと隠れ層をご覧ください。
無回答バイアス
選択バイアスをご覧ください。
非定常性
1 つ以上のディメンション(通常は時間)にわたって値が変化する特徴。たとえば、次のような非定常性の例を考えてみましょう。
- 特定の店舗で販売される水着の数は季節によって異なります。
- 特定の地域で収穫される特定の果物の量は、1 年のほとんどがゼロですが、短い期間だけ大量になります。
- 気候変動により、年間の平均気温が変化しています。
定常性と比較してください。
唯一の正解はない(NORA)
複数の適切なレスポンスがあるプロンプト。たとえば、次のプロンプトには正解が 1 つありません。
ゾウにまつわるジョークを教えて。
正解のないプロンプトを評価するのは難しい場合があります。
NORA
no one right answer の略語。
正規化
大まかに言うと、変数の実際の値の範囲を標準の値の範囲に変換するプロセスです。
- -1 ~+1
- 0 to 1
- Z スコア(おおよそ -3 ~+3)
たとえば、特定の特徴の値の実際の範囲が 800 ~ 2,400 であるとします。特徴エンジニアリングの一環として、実際の値を -1 ~+1 などの標準範囲に正規化できます。
正規化は、特徴エンジニアリングの一般的なタスクです。通常、特徴ベクトル内のすべての数値特徴の範囲がほぼ同じである場合、モデルのトレーニングは高速になり(予測の精度も向上します)。
Z スコアの正規化もご覧ください。
詳細については、ML 集中講座の数値データ: 正規化をご覧ください。
Notebook LM
ユーザーがドキュメントをアップロードし、プロンプトを使用して、ドキュメントに関する質問、要約、整理を行うことができる Gemini ベースのツール。たとえば、著者が複数の短編小説をアップロードして、共通のテーマを見つけるよう NotebookLM に依頼したり、どの小説が映画に最適かを特定するよう依頼したりできます。
新規性検出
新しい(新規の)例がトレーニング セットと同じ分布から生成されたかどうかを判断するプロセス。つまり、トレーニング セットでトレーニングした後、新規性検出では、新しい例(推論中または追加のトレーニング中)が外れ値であるかどうかが判断されます。
外れ値検出との違い。
数値データ
整数または実数値で表される特徴。たとえば、住宅評価モデルでは、住宅の広さ(平方フィートまたは平方メートル)は数値データとして表されるでしょう。特徴を数値データとして表すことは、特徴の値がラベルと数学的な関係にあることを示します。つまり、家の広さ(平方メートル)と家の価値の間には、数学的な関係があると考えられます。
すべての整数データを数値データとして表す必要はありません。たとえば、世界のいくつかの地域では郵便番号は整数ですが、整数の郵便番号はモデルで数値データとして表すべきではありません。これは、郵便番号 20000
の効果が郵便番号 10000 の 2 倍(または半分)ではないためです。また、郵便番号が異なれば不動産価格も異なることは確かですが、郵便番号 20000 の不動産価格が郵便番号 10000 の不動産価格の 2 倍になるとは限りません。郵便番号は、カテゴリデータとして表す必要があります。
詳細については、ML 集中講座の数値データの操作をご覧ください。
NumPy
Python で効率的な配列演算を提供する オープンソースの数学ライブラリ。pandas は NumPy 上に構築されています。
O
目標
アルゴリズムが最適化しようとしている指標。
目的関数
モデルの最適化対象とする数式または指標。たとえば、線形回帰の目的関数は、通常は平均二乗損失です。したがって、線形回帰モデルをトレーニングするときは、平均二乗損失を最小限に抑えることが目標となります。
場合によっては、目的関数を最大化することが目標になります。たとえば、目的関数が精度の場合、目標は精度を最大化することです。
損失もご覧ください。
斜め条件
ディシジョン ツリーで、複数の特徴を含む条件。たとえば、高さと幅が両方とも特徴量の場合、次の条件は斜め条件です。
height > width
軸に沿った条件も参照してください。
詳細については、Decision Forests コースの条件のタイプをご覧ください。
オフライン
static と同義。
オフライン推論
モデルが 予測のバッチを生成し、その予測をキャッシュに保存するプロセス。これにより、アプリはモデルを再実行するのではなく、キャッシュから推論された予測にアクセスできます。
たとえば、4 時間ごとに地域の天気予報(予測)を生成するモデルについて考えてみましょう。モデルを実行するたびに、システムはすべての地域の天気予報をキャッシュに保存します。天気アプリはキャッシュから予報を取得します。
オフライン推論は静的推論とも呼ばれます。
オンライン推論との違い。詳細については、ML 集中講座の本番環境の ML システム: 静的推論と動的推論をご覧ください。
ワンホット エンコード
カテゴリデータをベクトルとして表します。
- 1 つの要素が 1 に設定されています。
- 他のすべての要素は 0 に設定されます。
ワンホット エンコードは、利用できる値が有限である文字列や識別子を表すためによく使用されます。たとえば、Scandinavia
という名前のカテゴリ特徴に 5 つの可能な値があるとします。
- "デンマーク"
- "Sweden"
- "Norway"
- 「フィンランド」
- 「アイスランド」
ワンホット エンコードでは、5 つの値を次のように表すことができます。
国 | ベクトル | ||||
---|---|---|---|---|---|
"デンマーク" | 1 | 0 | 0 | 0 | 0 |
"Sweden" | 0 | 1 | 0 | 0 | 0 |
"Norway" | 0 | 0 | 1 | 0 | 0 |
「フィンランド」 | 0 | 0 | 0 | 1 | 0 |
「アイスランド」 | 0 | 0 | 0 | 0 | 1 |
ワンホット エンコードにより、モデルは 5 つの国それぞれに基づいて異なる接続を学習できます。
特徴を数値データとして表現することは、ワンホット エンコードの代替手段です。残念ながら、スカンジナビア諸国を数値で表すのは適切ではありません。たとえば、次の数値表現について考えてみましょう。
- 「デンマーク」は 0
- 「Sweden」は 1
- 「Norway」は 2
- 「フィンランド」は 3
- 「アイスランド」は 4
数値エンコードを使用すると、モデルは生数値を数学的に解釈し、それらの数値でトレーニングしようとします。しかし、アイスランドはノルウェーの 2 倍(または半分)ではないため、モデルは奇妙な結論に達します。
詳細については、ML 集中講座のカテゴリデータ: 語彙とワンホット エンコードをご覧ください。
ワンショット学習
オブジェクト分類でよく使用される ML アプローチ。単一のトレーニング例から効果的な分類モデルを学習するように設計されています。
ワンショット プロンプト
大規模言語モデルにどのように回答すればよいかを示す例を 1 つ含むプロンプト。たとえば、次のプロンプトには、大規模言語モデルがクエリにどのように回答すべきかを示す例が 1 つ含まれています。
1 つのプロンプトの構成要素 | メモ |
---|---|
指定された国の公式通貨は何ですか? | LLM に回答してほしい質問。 |
フランス: EUR | 例 1: |
インド: | 実際のクエリ。 |
ワンショット プロンプトと次の用語を比較対照します。
1 対すべて
N 個のクラスを含む分類問題の場合、N 個の個別のバイナリ分類器で構成されるソリューション(各可能な結果に 1 つのバイナリ分類器)。たとえば、例を動物、野菜、鉱物に分類するモデルの場合、一対多ソリューションは次の 3 つの個別のバイナリ分類子を提供します。
- 動物か動物でないか
- 野菜か野菜以外か
- ミネラルかミネラル以外か
オンライン
dynamic と同義。
オンライン推論
オンデマンドで予測を生成します。たとえば、アプリがモデルに入力を渡し、予測のリクエストを発行するとします。オンライン推論を使用するシステムは、モデルを実行してリクエストに応答します(予測をアプリに返します)。
オフライン推論と比較してください。
詳細については、ML 集中講座の本番環境の ML システム: 静的推論と動的推論をご覧ください。
オペレーション(op)
TensorFlow で、Tensor を作成、操作、破棄するプロシージャ。たとえば、行列乗算は 2 つの Tensor を入力として受け取り、1 つの Tensor を出力として生成するオペレーションです。
Optax
JAX の勾配処理と最適化ライブラリ。Optax は、ディープ ニューラル ネットワークなどのパラメトリック モデルを最適化するためにカスタム方法で再結合できる構成要素を提供することで、研究を促進します。その他の目標:
- コア コンポーネントの読みやすく、十分にテストされた効率的な実装を提供します。
- 低レベルの要素をカスタム オプティマイザー(または他のグラデーション処理コンポーネント)に組み合わせることで、生産性を向上させます。
- 誰でも簡単に貢献できるようにすることで、新しいアイデアの導入を加速します。
optimizer
勾配降下法アルゴリズムの特定の実装。一般的なオプティマイザーには、次のようなものがあります。
- AdaGrad(ADAptive GRADient descent の略)。
- Adam(ADAptive with Momentum の略)。
自分が属していないグループに対する均一性のバイアス
態度、価値観、性格特性などの特性を比較する際に、内集団のメンバーよりも外集団のメンバーをより類似しているとみなす傾向。イングループとは、定期的にやり取りするユーザーを指します。アウトグループとは、定期的にやり取りしないユーザーを指します。アウトグループに関する属性を回答者に提供してもらうことでデータセットを作成した場合、その属性は、参加者がイングループのメンバーについて挙げる属性よりも、ニュアンスが少なく、ステレオタイプ化されている可能性があります。
たとえば、リリパット人は、他のリリパット人の家について、建築様式、窓、ドア、サイズなどの小さな違いを挙げて、詳細に説明するかもしれません。しかし、同じリリパット人は、ブロブディンナグ人はすべて同じ家に住んでいると宣言するかもしれません。
自分が属していないグループに対する均一性のバイアスは、グループ帰属バイアスの一種です。
内集団バイアスもご覧ください。
外れ値検出
トレーニング セット内の外れ値を特定するプロセス。
特異点検知との違い。
考慮する
他のほとんどの値から離れた値。ML では、次のいずれかが外れ値になります。
- 値が平均値から約 3 標準偏差以上離れている入力データ。
- 絶対値が大きい重み。
- 予測値が実際の値から比較的離れている。
たとえば、widget-price
が特定のモデルの特徴であるとします。平均 widget-price
は 7 ユーロ、標準偏差は 1 ユーロとします。したがって、widget-price
が 12 ユーロまたは 2 ユーロの例は、それぞれの価格が平均値から 5 標準偏差離れているため、外れ値と見なされます。
外れ値は、タイプミスや入力ミスが原因で発生することがよくあります。他のケースでは、外れ値は間違いではありません。平均値から 5 標準偏差離れた値はまれですが、不可能ではありません。
外れ値は、モデルのトレーニングで問題を引き起こすことがよくあります。クリッピングは、外れ値を管理する方法の 1 つです。
詳細については、ML 集中講座の数値データの操作をご覧ください。
アウトオブバッグ評価(OOB 評価)
各ディシジョン ツリーを、そのディシジョン ツリーのトレーニングで使用されなかった例に対してテストすることで、ディシジョン フォレストの品質を評価するメカニズム。たとえば、次の図では、システムが各決定木を約 3 分の 2 の例でトレーニングし、残りの 3 分の 1 の例で評価していることがわかります。
アウトオブバッグ評価は、交差検証メカニズムの計算効率が高く、保守的な近似です。交差検証では、交差検証ラウンドごとに 1 つのモデルがトレーニングされます(たとえば、10 分割交差検証では 10 個のモデルがトレーニングされます)。OOB 評価では、単一のモデルがトレーニングされます。バギングでは、トレーニング中に各ツリーから一部のデータが保持されるため、OOB 評価でそのデータを使用して交差検証を近似できます。
詳細については、デシジョン フォレスト コースのバッグ外評価をご覧ください。
出力レイヤ
ニューラル ネットワークの「最終」レイヤ。出力レイヤには予測が含まれます。
次の図は、入力レイヤ、2 つの隠れレイヤ、出力レイヤを含む小さなディープ ニューラル ネットワークを示しています。
過学習
トレーニング データにあまりにも一致しすぎて、新しいデータに対して正しい予測を行えないモデルを作成する。
正則化により、過剰適合を減らすことができます。大規模で多様なトレーニング セットでトレーニングを行うと、過学習を減らすこともできます。
詳細については、機械学習集中講座の過剰適合をご覧ください。
オーバーサンプリング
クラス不均衡データセットのマイナークラスのサンプルを再利用して、よりバランスの取れたトレーニング セットを作成します。
たとえば、多数派クラスと少数派クラスの比率が 5,000:1 のバイナリ分類問題を考えてみましょう。データセットに 100 万件の例が含まれている場合、少数派のクラスの例は 200 件程度しか含まれていません。これは、効果的なトレーニングを行うには少なすぎる可能性があります。この欠点を克服するために、これらの 200 個の例を複数回オーバーサンプリング(再利用)して、有用なトレーニングに十分な例を生成することがあります。
オーバーサンプリングを行う場合は、過適合に注意する必要があります。
アンダーサンプリングも参照してください。
P
パックされたデータ
データをより効率的に保存するためのアプローチ。
パックされたデータは、圧縮形式を使用するか、より効率的にアクセスできる他の方法でデータを保存します。パックされたデータは、アクセスに必要なメモリと計算量を最小限に抑え、トレーニングの高速化とモデル推論の効率化につながります。
パックされたデータは、データ拡張や正則化などの他の手法と組み合わせて使用されることが多く、モデルのパフォーマンスをさらに向上させます。
PaLM
pandas
numpy 上に構築された列指向のデータ分析 API。TensorFlow を含む多くの ML フレームワークは、入力として pandas データ構造をサポートしています。詳しくは、pandas のドキュメントをご覧ください。
パラメータ
モデルがトレーニング中に学習する重みとバイアス。たとえば、線形回帰モデルでは、パラメータは次の式でバイアス(b)とすべての重み(w1、w2 など)で構成されます。
一方、ハイパーパラメータは、ユーザー(またはハイパーパラメータ チューニング サービス)がモデルに提供する値です。たとえば、学習率はハイパーパラメータです。
パラメータ効率チューニング
完全なファインチューニングよりも効率的に、大規模な事前トレーニング済み言語モデル(PLM)をファインチューニングする一連の手法。パラメータ効率チューニングでは、通常、完全なファインチューニングよりもはるかに少ないパラメータがファインチューニングされますが、一般に、完全なファインチューニングで構築された大規模言語モデルと同等(またはほぼ同等)のパフォーマンスを発揮する大規模言語モデルが生成されます。
パラメータ効率チューニングと次のものを比較対照します。
パラメータ効率チューニングは、パラメータ効率ファインチューニングとも呼ばれます。
パラメータ サーバー(PS)
分散設定でモデルのパラメータを追跡するジョブ。
パラメータの更新
トレーニング中にモデルのパラメータを調整するオペレーション。通常は、勾配降下法の 1 回の反復内で行われます。
偏導関数
1 つの変数を除き、すべての変数が定数と見なされる導関数。たとえば、x に関する f(x, y) の偏導関数は、f を x の関数としてのみ(つまり、y を定数として)扱う導関数です。x に関する f の偏微分は、x の変化のみに焦点を当て、方程式内の他のすべての変数を無視します。
参加バイアス
無回答のバイアスと同義。選択バイアスをご覧ください。
パーティショニング戦略
変数がパラメータ サーバー間で分割されるアルゴリズム。
pass at k(pass@k)
大規模言語モデルが生成するコード(Python など)の品質を判断する指標。具体的には、pass at k は、生成された k 個のコードブロックのうち、少なくとも 1 つのコードブロックがすべての単体テストに合格する可能性を示します。
大規模言語モデルは、複雑なプログラミング問題に対して適切なコードを生成するのが難しいことがよくあります。ソフトウェア エンジニアは、大規模言語モデルに同じ問題に対する複数の(k 個の)解決策を生成するように指示することで、この問題に対応します。次に、ソフトウェア エンジニアが各ソリューションを単体テストでテストします。pass at k の計算は、単体テストの結果によって異なります。
- これらのソリューションの1 つ以上が単体テストに合格した場合、LLM はそのコード生成チャレンジに合格します。
- どのソリューションも単体テストに合格しない場合、LLM はそのコード生成チャレンジに失敗します。
k でのパスの式は次のとおりです。
\[\text{pass at k} = \frac{\text{total number of passes}} {\text{total number of challenges}}\]
一般に、k の値が大きいほど、k での合格スコアが高くなります。ただし、k の値が大きいほど、大規模言語モデルと単体テストのリソースが必要になります。
Pathways Language Model(PaLM)
Gemini モデルの古いモデルであり、前身となるモデル。
Pax
複数の TPU アクセラレータ チップ スライスまたは Pod にまたがるほど大規模な ニューラル ネットワーク モデルのトレーニング用に設計されたプログラミング フレームワーク。
Pax は JAX 上に構築された Flax 上に構築されています。
パーセプトロン
1 つ以上の入力値を受け取り、入力の重み付き合計に対して関数を実行し、単一の出力値を計算するシステム(ハードウェアまたはソフトウェア)。機械学習では、この関数は通常、ReLU、シグモイド、tanh などの非線形関数です。たとえば、次のパーセプトロンはシグモイド関数を使用して 3 つの入力値を処理します。
次の図では、パーセプトロンは 3 つの入力を受け取ります。各入力は、パーセプトロンに入る前に重みによって変更されます。
パーセプトロンは、ニューラル ネットワークのニューロンです。
パフォーマンス
次の意味を持つオーバーロードされた用語:
- ソフトウェア エンジニアリングにおける標準的な意味。つまり、このソフトウェアはどのくらいの速さ(または効率)で実行されるかということです。
- ML における意味。ここで、パフォーマンスは「このモデルはどの程度正確か」という質問に答えます。つまり、モデルの予測はどの程度正確かということです。
permutation variable importances
特徴量の値を並べ替えた後のモデルの予測誤差の増加を評価する変数重要度の一種。順列変数重要度は、モデルに依存しない指標です。
パープレキシティ
モデルがタスクをどの程度達成しているかを測定する指標の 1 つ。たとえば、ユーザーがスマートフォンのキーボードで入力している単語の最初の数文字を読み取り、候補となる補完単語のリストを表示するタスクがあるとします。このタスクのパープレキシティ P は、ユーザーが入力しようとしている実際の単語をリストに含めるために必要な推測の数にほぼ等しくなります。
パープレキシティは、次のように交差エントロピーに関連しています。
パイプライン
ML アルゴリズムを取り巻くインフラストラクチャ。パイプラインには、データの収集、データをトレーニング データファイルへの格納、1 つ以上のモデルのトレーニング、モデルの本番環境へのエクスポートが含まれます。
詳細については、ML プロジェクトの管理コースの ML パイプラインをご覧ください。
パイプライン処理
モデルの処理を連続したステージに分割し、各ステージを異なるデバイスで実行するモデル並列処理の一種。ステージが 1 つのバッチを処理している間、前のステージは次のバッチを処理できます。
段階的トレーニングもご覧ください。
pjit
複数のアクセラレータ チップで実行するためにコードを分割する JAX 関数。ユーザーは関数を pjit に渡します。pjit は、同等のセマンティクスを持ちながら、複数のデバイス(GPU や TPU コアなど)で実行される XLA コンピューティングにコンパイルされた関数を返します。
pjit を使用すると、SPMD パーティショナーを使用して、計算を書き換えることなくシャード化できます。
2023 年 3 月の時点で、pjit
は jit
に統合されています。詳細については、分散配列と自動並列化をご覧ください。
PLM
事前トレーニング済み言語モデルの略語。
pmap
複数の基盤となるハードウェア デバイス(CPU、GPU、TPU)で、異なる入力値を使用して入力関数のコピーを実行する JAX 関数。pmap は SPMD に依存します。
ポリシー
強化学習では、エージェントの状態からアクションへの確率的マッピング。
プーリング
前の畳み込みレイヤで作成された行列をより小さな行列に縮小します。通常、プーリングでは、プーリングされた領域の最大値または平均値を取得します。たとえば、次のような 3x3 行列があるとします。
プーリング オペレーションは、畳み込みオペレーションと同様に、その行列をスライスに分割し、その畳み込みオペレーションをストライドでスライドさせます。たとえば、プーリング オペレーションで、畳み込み行列が 1x1 ストライドの 2x2 スライスに分割されるとします。次の図に示すように、4 つのプーリング オペレーションが行われます。各プーリング オペレーションが、そのスライスの 4 つの最大値を選択するとします。
プーリングは、入力行列の並進不変性を強制するのに役立ちます。
ビジョン アプリケーションのプーリングは、正式には空間プーリングと呼ばれます。時系列アプリケーションでは、通常、プーリングは時間プーリングと呼ばれます。プールは、サブサンプリングまたはダウンサンプリングと呼ばれることもあります。
ML 実践: 画像分類コースの畳み込みニューラル ネットワークの概要をご覧ください。
位置エンコーディング
シーケンス内のトークンの位置に関する情報をトークンのエンベディングに追加する手法。Transformer モデルは、位置エンコードを使用して、シーケンスの異なる部分間の関係をより深く理解します。
位置エンコーディングの一般的な実装では、正弦関数が使用されます。(具体的には、正弦波関数の周波数と振幅は、シーケンス内のトークンの位置によって決まります)。この手法により、Transformer モデルは位置に基づいてシーケンスのさまざまな部分に注意を払うことを学習できます。
陽性クラス
テスト対象のクラス。
たとえば、がんモデルのポジティブ クラスは「腫瘍」になります。メールの分類モデルのポジティブ クラスは「迷惑メール」になる可能性があります。
陰性クラスと比較してください。
後処理
モデルの実行後にモデルの出力を調整する。後処理を使用すると、モデル自体を変更せずに公平性制約を適用できます。
たとえば、バイナリ分類子に後処理を適用して、分類しきい値を設定し、真陽性率がその属性のすべての値で同じであることを確認することで、一部の属性で機会の平等を維持できます。
事後トレーニング済みモデル
一般的に、次の 1 つ以上の後処理が行われた事前トレーニング済みモデルを指す、緩やかに定義された用語。
PR AUC(PR 曲線の下の面積)
さまざまな分類しきい値の値に対して(再現率、適合率)の点をプロットして得られた、補間された適合率 / 再現率曲線の下の面積。
Praxis
Pax のコアとなる高性能 ML ライブラリ。Praxis は「レイヤ ライブラリ」と呼ばれることがよくあります。
Praxis には、Layer クラスの定義だけでなく、次のものを含むほとんどのサポート コンポーネントも含まれています。
Praxis は、Model クラスの定義を提供します。
precision
「全陽性のラベルの中でモデルが正しく識別したラベルの数は?」という質問に回答する分類モデルの指標。
モデルが陽性クラスを予測したとき、予測が正しかった割合はどのくらいですか?
式は次のとおりです。
ここで
- 真陽性とは、モデルが陽性のクラスを正しく予測したことを意味します。
- 偽陽性とは、モデルが陽性クラスを誤って予測したことを意味します。
たとえば、モデルが 200 件のポジティブ予測を行ったとします。この 200 件の正の予測のうち:
- 150 件が真陽性でした。
- 50 件は誤検知でした。
この例の場合は、次のようになります。
詳細については、ML 集中講座の分類: 精度、再現率、適合率、関連指標をご覧ください。
k での適合率(precision@k)
ランク付けされた(順序付けされた)アイテムのリストを評価するための指標。Precision at k は、そのリストの最初の k 個の項目のうち、「関連性がある」項目の割合を示します。具体的には、次のことが求められます。
\[\text{precision at k} = \frac{\text{relevant items in first k items of the list}} {\text{k}}\]
k の値は、返されるリストの長さ以下にする必要があります。返されるリストの長さは計算に含まれません。
関連性は主観的なことが多く、人間の評価者でさえ、どの項目が関連しているかについて意見が一致しないことがよくあります。
比較対象日:
適合率と再現率の曲線
予測
モデルの出力。次に例を示します。
- バイナリ分類モデルの予測は、陽性クラスまたは陰性クラスのいずれかです。
- マルチクラス分類モデルの予測は 1 つのクラスです。
- 線形回帰モデルの予測は数値です。
予測バイアス
ML モデルのバイアス項や、倫理と公平性のバイアスとは異なります。
予測 ML
標準(「クラシック」)の機械学習システム。
予測 ML という用語には正式な定義はありません。この用語は、生成 AI に基づいていない ML システムのカテゴリを区別するものです。
予測のパリティ
特定の分類子について、考慮対象のサブグループの適合率が同等であるかどうかを確認する公平性指標。
たとえば、大学の合格を予測するモデルの場合、リリパット人とブロブディンナグ人の適合率が同じであれば、国籍に関する予測パリティを満たします。
予測パリティは、予測率パリティとも呼ばれます。
予測パリティの詳細については、「公平性の定義の説明」(セクション 3.2.1)をご覧ください。
予測料金同等性
予測パリティの別名。
前処理
モデルのトレーニングに使用する前にデータを処理すること。前処理は、英語のテキスト コーパスから英語の辞書にない単語を削除するような単純なものから、機密属性と相関関係のある属性をできるだけ排除するようにデータポイントを再表現するような複雑なものまであります。前処理は、公平性制約を満たすのに役立ちます。事前トレーニング済みモデル
この用語は、トレーニング済みのモデルまたはトレーニング済みのエンベディング ベクトルを指すこともありますが、現在では通常、トレーニング済みの大規模言語モデルまたはトレーニング済みの生成 AI モデルを指します。
事前トレーニング
大規模なデータセットでのモデルの最初のトレーニング。一部の事前トレーニング済みモデルは扱いにくく、通常は追加のトレーニングで調整する必要があります。たとえば、ML エキスパートは、Wikipedia のすべての英語ページなど、膨大なテキスト データセットで大規模言語モデルを事前トレーニングする場合があります。事前トレーニングの後、次のいずれかの手法でモデルをさらに調整できます。
事前分布
トレーニングを開始する前にデータについて想定していること。たとえば、L2 正則化は、重みは小さく、ゼロを中心に正規分布しているという事前分布に依存しています。
Pro
Ultra よりも少ないが、Nano よりも多いパラメータを持つ Gemini モデル。詳細については、Gemini Pro をご覧ください。
確率的回帰モデル
各特徴の重みだけでなく、それらの重みの不確実性も使用する回帰モデル。確率的回帰モデルは、予測とその予測の不確実性を生成します。たとえば、確率的回帰モデルでは、標準偏差 12 で 325 の予測が得られることがあります。確率的回帰モデルの詳細については、tensorflow.org の Colab をご覧ください。
確率密度関数
特定の値を正確に持つデータサンプルの頻度を特定する関数。データセットの値が連続する浮動小数点数の場合、完全一致はほとんど発生しません。ただし、値 x
から値 y
までの確率密度関数を積分すると、x
と y
の間のデータサンプル数の期待値が得られます。
たとえば、平均が 200 で標準偏差が 30 の正規分布を考えてみましょう。211.4 ~ 218.7 の範囲に収まるデータサンプルが予想される頻度を特定するには、正規分布の確率密度関数を 211.4 ~ 218.7 の範囲で積分します。
プロンプト
大規模言語モデルに入力として入力されるテキスト。モデルが特定の動作をするように条件付けます。プロンプトは、フレーズのように短くすることも、任意に長くすることもできます(小説の全文など)。プロンプトは、次の表に示すカテゴリなど、複数のカテゴリに分類されます。
プロンプト カテゴリ | 例 | メモ |
---|---|---|
質問 | ハトはどれくらいの速さで飛ぶことができますか? | |
手順 | アービトラージについての面白い詩を書いて。 | 大規模言語モデルに何らかの処理を依頼するプロンプト。 |
例 | Markdown コードを HTML に変換します。例:
Markdown: * list item HTML: <ul> <li>list item</li> </ul> |
このプロンプト例の最初の文は指示です。プロンプトの残りの部分は例です。 |
ロール | 機械学習のトレーニングで勾配降下法が使用される理由を物理学の博士号を持つ人に説明してください。 | 文の前半は指示、後半の「物理学の博士号を持つ」というフレーズは役割の部分です。 |
モデルが完了する部分入力 | 英国首相の官邸は | 部分入力プロンプトは、この例のように突然終了するか、アンダースコアで終了します。 |
生成 AI モデルは、テキスト、コード、画像、エンベディング、動画など、ほぼすべてのプロンプトに応答できます。
プロンプトベースの学習
特定のモデルの機能。任意のテキスト入力(プロンプト)に応じて動作を適応させることができます。一般的なプロンプトベースの学習パラダイムでは、大規模言語モデルがテキストを生成してプロンプトに応答します。たとえば、ユーザーが次のプロンプトを入力したとします。
ニュートンの運動の第 3 法則を要約してください。
プロンプト ベースの学習が可能なモデルは、以前のプロンプトに回答するように特別にトレーニングされていません。むしろ、モデルは物理学に関する多くの事実、一般的な言語規則に関する多くのこと、一般的に有用な回答を構成する多くのことを「知って」います。この知識があれば、有用な回答を提供できるはずです。人間からの追加のフィードバック(「その回答は複雑すぎる」、「リアクションとは何ですか?」など)により、一部のプロンプト ベースの学習システムでは、回答の有用性を徐々に改善できます。
プロンプト設計
プロンプト エンジニアリングと同義。
プロンプト エンジニアリング
大規模言語モデルから望ましい回答を引き出すプロンプトを作成する技術。人間がプロンプト エンジニアリングを行います。適切に構造化されたプロンプトを作成することは、大規模言語モデルから有用なレスポンスを得るために不可欠な要素です。プロンプト エンジニアリングは、次のような多くの要因に左右されます。
- 大規模言語モデルの事前トレーニングと、場合によってはファイン チューニングに使用されるデータセット。
- モデルがレスポンスの生成に使用する温度などのデコード パラメータ。
プロンプト設計は、プロンプト エンジニアリングの同義語です。
役立つプロンプトの作成について詳しくは、プロンプト設計の概要をご覧ください。
プロンプト チューニング
システムが実際のプロンプトの先頭に追加する「接頭辞」を学習するパラメータ効率チューニング メカニズム。
プロンプト チューニングの一種(プレフィックス チューニングと呼ばれることもあります)では、すべてのレイヤにプレフィックスを追加します。一方、ほとんどのプロンプト チューニングでは、入力レイヤに接頭辞を追加するだけです。
proxy(機密属性)
機密属性の代わりに使用される属性。たとえば、個人の郵便番号が、その個人の収入、人種、民族の代理として使用されることがあります。プロキシラベル
データセットで直接利用できないラベルを近似するために使用されるデータ。
たとえば、従業員のストレス レベルを予測するモデルをトレーニングする必要があるとします。データセットには予測特徴が多数含まれていますが、ストレス レベルというラベルは含まれていません。そこで、ストレス レベルのプロキシラベルとして「職場での事故」を選択します。ストレスの多い従業員は、落ち着いた従業員よりも事故を起こす可能性が高くなります。それとも、そうなのでしょうか?労働災害は、実際にはさまざまな理由で増減しているのかもしれません。
2 つ目の例として、データセットのブール値ラベルとして「雨が降っているか?」を使用したいが、データセットに雨のデータが含まれていないとします。写真が利用可能な場合は、傘をさしている人の写真を「雨が降っているか?」のプロキシ ラベルとして設定できます。これは適切なプロキシラベルですか?そうかもしれませんが、文化によっては、雨よりも日差しを防ぐために傘をさす人が多いかもしれません。
プロキシ ラベルは完全ではないことがよくあります。可能な場合は、プロキシ ラベルではなく実際のラベルを選択します。ただし、実際のラベルがない場合は、最も悪い候補ではないプロキシラベルを慎重に選択してください。
詳細については、ML 集中講座のデータセット: ラベルをご覧ください。
純粋関数
出力が入力のみに基づいており、副作用がない関数。具体的には、純粋関数は、ファイルの内容や関数外の変数の値などのグローバル状態を使用したり変更したりしません。
純粋関数は、スレッドセーフなコードを作成するために使用できます。これは、複数のアクセラレータ チップに モデルコードをシャーディングする場合に役立ちます。
JAX の関数変換メソッドでは、入力関数が純粋関数であることが必要です。
Q
Q 関数
強化学習では、状態で アクション を実行し、指定されたポリシーに従った場合に得られる収益を予測する関数。
Q 関数は、状態行動価値関数とも呼ばれます。
Q 学習
強化学習では、エージェントが ベルマン方程式を適用して マルコフ決定プロセスの最適な Q 関数を学習できるようにするアルゴリズム。マルコフ決定プロセスは環境をモデル化します。
分位数
分位バケット内の各バケット。
分位点バケット化
各バケットに同じ(またはほぼ同じ)数の例が含まれるように、特徴の値をバケットに分散します。たとえば、次の図では、44 個のポイントを 4 つのバケットに分割し、各バケットに 11 個のポイントが含まれています。図の各バケットに同じ数のポイントが含まれるように、一部のバケットは x 値の幅が異なります。
詳細については、ML 集中講座の数値データ: ビン分割をご覧ください。
量子化
次のいずれかの方法で使用できるオーバーロードされた用語。
- 特定の特徴に分位バケットを実装する。
- データを 0 と 1 に変換して、保存、トレーニング、推論を高速化します。ブール値データは他の形式よりもノイズやエラーに強いため、量子化によってモデルの正確性を向上させることができます。量子化手法には、丸め、切り捨て、ビン分割などがあります。
モデルのパラメータの保存に使用されるビット数を減らします。たとえば、モデルのパラメータが 32 ビットの浮動小数点数として保存されているとします。量子化では、これらのパラメータを 32 ビットから 4 ビット、8 ビット、16 ビットに変換します。量子化により、次のものが削減されます。
- コンピューティング、メモリ、ディスク、ネットワークの使用量
- 予測の推論時間
- 消費電力
ただし、量子化によってモデルの予測の正確性が低下することがあります。
キュー
キュー データ構造を実装する TensorFlow オペレーション。通常は I/O で使用されます。
R
RAG
検索拡張生成の略語。
ランダム フォレスト
各ディシジョン ツリーが特定のランダム ノイズでトレーニングされるディシジョン ツリーのアンサンブル(バギングなど)。
ランダム フォレストは、デシジョン フォレストの一種です。
詳細については、ディシジョン フォレスト コースのランダム フォレストをご覧ください。
ランダム ポリシー
ランク(順序)
クラスを高い順に分類する ML 問題におけるクラスの順序。たとえば、行動ランキング システムでは、犬の報酬を最高(ステーキ)から最低(しおれたケール)までランク付けできます。
rank(Tensor)
Tensor のディメンションの数。たとえば、スカラーのランクは 0、ベクトルのランクは 1、行列のランクは 2 です。
ランク(順序)と混同しないでください。
ランキング
アイテムのリストを並べ替えることを目的とする教師あり学習の一種。
rater
例にラベルを付ける人。「アノテーター」は、評価者の別の名前です。
詳細については、ML 集中講座のカテゴリデータ: 一般的な問題をご覧ください。
recall
「全陽性のラベルの中でモデルが正しく識別したラベルの数は?」という質問に回答する分類モデルの指標。
グラウンド トゥルースが陽性クラスだった場合、モデルが陽性クラスとして正しく識別した予測の割合はどのくらいですか?
式は次のとおりです。
\[\text{Recall} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}} \]
ここで
- 真陽性とは、モデルが陽性のクラスを正しく予測したことを意味します。
- 偽陰性とは、モデルが陰性クラスを誤って予測したことを意味します。
たとえば、モデルがグラウンド トゥルースが陽性クラスである例に対して 200 件の予測を行ったとします。これらの 200 個の予測のうち:
- 180 件が真陽性でした。
- 20 件は偽陰性でした。
この例の場合は、次のようになります。
\[\text{Recall} = \frac{\text{180}} {\text{180} + \text{20}} = 0.9 \]
詳細については、分類: 精度、再現率、適合率、関連指標をご覧ください。
上位 k 件の再現率(recall@k)
ランク付けされた(順序付けされた)アイテムのリストを出力するシステムを評価するための指標。再現率(k)は、返された関連アイテムの総数のうち、リストの最初の k 個のアイテムに含まれる関連アイテムの割合を示します。
\[\text{recall at k} = \frac{\text{relevant items in first k items of the list}} {\text{total number of relevant items in the list}}\]
k での精度とのコントラスト。
レコメンデーション システム
大規模なコーパスから、各ユーザーにとって望ましいアイテムの比較的小さなセットを選択するシステム。たとえば、動画レコメンデーション システムは、100,000 本の動画のコーパスから 2 本の動画をおすすめします。あるユーザーには『カサブランカ』と『フィラデルフィア物語』を、別のユーザーには『ワンダーウーマン』と『ブラックパンサー』を選択します。動画のおすすめシステムは、次のような要素に基づいておすすめを行うことがあります。
- 類似のユーザーが評価または視聴した映画。
- ジャンル、監督、俳優、ターゲット層...
詳細については、レコメンデーション システムのコースをご覧ください。
正規化線形ユニット(ReLU)
次の動作を行うアクティベーション関数:
- 入力が負の値またはゼロの場合、出力は 0 になります。
- 入力が正の場合、出力は入力と同じになります。
次に例を示します。
- 入力が -3 の場合、出力は 0 になります。
- 入力が +3 の場合、出力は 3.0 になります。
ReLU のプロットを次に示します。
ReLU は非常に一般的な活性化関数です。ReLU は単純な動作ですが、ニューラル ネットワークが特徴量とラベルの間の非線形の関係を学習できるようにします。
再帰型ニューラル ネットワーク
意図的に複数回実行されるニューラル ネットワーク。各実行の一部が次の実行にフィードされます。具体的には、前の実行の隠れ層が、次の実行の同じ隠れ層への入力の一部を提供します。再帰型ニューラル ネットワークは、シーケンスの評価に特に役立ちます。これにより、隠れ層はシーケンスの前の部分に対するニューラル ネットワークの以前の実行から学習できます。
たとえば、次の図は 4 回実行される再帰型ニューラル ネットワークを示しています。最初の実行で隠れ層で学習された値は、2 回目の実行で同じ隠れ層への入力の一部になります。同様に、2 回目の実行で隠れ層で学習された値は、3 回目の実行で同じ隠れ層への入力の一部になります。このようにして、リカレント ニューラル ネットワークは、個々の単語の意味だけでなく、シーケンス全体の意味を徐々にトレーニングして予測します。
参照テキスト
プロンプトに対するエキスパートの回答。たとえば、次のプロンプトを指定します。
「What is your name?」という質問を英語からフランス語に翻訳してください。
エキスパートの回答は次のようになります。
Comment vous appelez-vous?
さまざまな指標(ROUGE など)は、リファレンス テキストが ML モデルの生成テキストと一致する度合いを測定します。
回帰モデル
数値予測を生成するモデル。(これに対し、分類モデルはクラス予測を生成します)。たとえば、次のすべてが回帰モデルです。
- 特定の住宅の価値をユーロで予測するモデル(423,000 など)。
- 特定の樹木の寿命を年単位で予測するモデル(23.2 など)。
- 特定の都市で今後 6 時間に降る雨の量をインチ単位で予測するモデル(0.18 など)。
一般的な回帰モデルには次の 2 つがあります。
数値予測を出力するモデルがすべて回帰モデルであるとは限りません。場合によっては、数値予測は数値クラス名を持つ分類モデルにすぎません。たとえば、数値の郵便番号を予測するモデルは、回帰モデルではなく分類モデルです。
正則化
過剰適合を軽減するメカニズム。正則化の一般的なタイプは次のとおりです。
- L1 正則化
- L2 正則化
- ドロップアウト正則化
- 早期停止(正式な正則化手法ではありませんが、過適合を効果的に制限できます)
正則化は、モデルの複雑さに対するペナルティとして定義することもできます。
詳細については、ML 集中講座の過剰適合: モデルの複雑さをご覧ください。
正則化率
トレーニング中の正則化の相対的な重要度を指定する数値。正則化率を上げると、過剰適合が軽減されますが、モデルの予測能力が低下する可能性があります。逆に、正則化率を減らすか省略すると、過適合が増加します。
詳細については、機械学習集中講座の過学習: L2 正則化をご覧ください。
強化学習(RL)
最適なポリシーを学習するアルゴリズムのファミリー。目標は、環境とやり取りする際に収益を最大化することです。たとえば、ほとんどのゲームの最終的な報酬は勝利です。強化学習システムは、最終的に勝利につながった過去のゲームの動きのシーケンスと、最終的に敗北につながったシーケンスを評価することで、複雑なゲームのプレイの専門家になることができます。
人間からのフィードバックを用いた強化学習(RLHF)
人間の評価者からのフィードバックを使用して、モデルの回答の品質を向上させます。たとえば、RLHF メカニズムでは、モデルのレスポンスの質を 👍 または 👎 の絵文字で評価するようユーザーに求めることができます。システムは、そのフィードバックに基づいて今後のレスポンスを調整できます。
ReLU
正規化線形ユニットの略。
再生バッファ
DQN のようなアルゴリズムでは、エクスペリエンス リプレイで使用する状態遷移を保存するためにエージェントが使用するメモリ。
レプリカ
トレーニング セットまたはモデルのコピー(または一部)。通常は別のマシンに保存されます。たとえば、システムは次の戦略を使用して データ並列処理を実装できます。
- 既存のモデルのレプリカを複数のマシンに配置します。
- トレーニング セットの異なるサブセットを各レプリカに送信します。
- パラメータの更新を集計します。
レプリカは、推論サーバーの別のコピーを参照することもできます。レプリカの数を増やすと、システムが同時に処理できるリクエストの数が増えますが、サービング費用も増加します。
報告バイアス
人々がアクション、結果、プロパティについて書く頻度が、実世界の頻度や、プロパティが個人のクラスの特徴である程度を反映していない。報告バイアスは、ML システムが学習するデータの構成に影響する可能性があります。
たとえば、書籍では、「笑った」という単語は「呼吸した」という単語よりも一般的です。書籍コーパスから笑いと呼吸の相対頻度を推定する ML モデルは、笑いの方が呼吸よりも一般的であると判断するでしょう。
詳細については、ML 集中講座の公平性: 偏りの種類をご覧ください。
「bank」が
データを有用な特徴にマッピングするプロセス。
再ランキング
レコメンデーション システムの最終段階。この段階では、スコアリングされたアイテムが他の(通常は ML 以外の)アルゴリズムに従って再評価されることがあります。再ランキングでは、スコアリング フェーズで生成されたアイテムのリストを評価し、次のようなアクションを実行します。
- ユーザーがすでに購入したアイテムを削除する。
- 変更されてからの時間が短いアイテムのスコアをブーストします。
詳細については、レコメンデーション システム コースの再ランキングをご覧ください。
検索拡張生成(RAG)
モデルのトレーニング後に取得されたナレッジソースを使用してグラウンディングすることで、大規模言語モデル(LLM)の出力の品質を向上させる手法。RAG は、信頼できるナレッジベースやドキュメントから取得した情報へのアクセスをトレーニング済みの LLM に提供することで、LLM レスポンスの精度を向上させます。
検索拡張生成を使用する一般的な動機は次のとおりです。
- モデルの生成した回答の事実の正確性を高める。
- モデルにトレーニングされていない知識へのアクセス権を付与する。
- モデルが使用する知識を変更する。
- モデルがソースを引用できるようにする。
たとえば、化学アプリが PaLM API を使用して、ユーザーのクエリに関連する要約を生成するとします。アプリのバックエンドがクエリを受信すると、バックエンドは次の処理を行います。
- ユーザーのクエリに関連するデータを検索(取得)します。
- 関連する化学データをユーザーのクエリに追加(「拡張」)します。
- 追加されたデータに基づいて要約を作成するように LLM に指示します。
リターン
強化学習では、特定のポリシーと特定の状態が与えられた場合、リターンは、状態からエピソードの終わりまでポリシーに従うときにエージェントが受け取ると予想されるすべての報酬の合計です。エージェントは、報酬を獲得するために必要な状態遷移に応じて報酬を割り引くことで、期待される報酬の遅延を考慮します。
したがって、割引率が \(\gamma\)で、 \(r_0, \ldots, r_{N}\)がエピソードの終了までの報酬を表す場合、収益の計算は次のようになります。
特典
強化学習では、環境で定義されたとおり、状態でアクションを実行した結果の数値。
リッジ正則化
L2 正則化と同義。リッジ正則化という用語は純粋な統計のコンテキストでよく使用されますが、L2 正則化は ML でよく使用されます。
RNN
再帰型ニューラル ネットワークの略語。
ROC(受信者操作特性)曲線
バイナリ分類におけるさまざまな分類しきい値に対する真陽性率と偽陽性率のグラフ。
ROC 曲線の形状は、陽性クラスと陰性クラスを分離するバイナリ分類モデルの能力を示します。たとえば、バイナリ分類モデルがすべての陰性クラスとすべての陽性クラスを完全に分離するとします。
上記のモデルの ROC 曲線は次のようになります。
一方、次の図は、負のクラスと正のクラスをまったく分離できないひどいモデルのロジスティック回帰の生値をグラフ化したものです。
このモデルの ROC 曲線は次のようになります。
一方、現実の世界では、ほとんどのバイナリ分類モデルは陽性クラスと陰性クラスをある程度分離しますが、完全に分離することは通常ありません。したがって、一般的な ROC 曲線は、次の 2 つの極端なケースの中間に位置します。
ROC 曲線上の点のうち、(0.0,1.0) に最も近い点が、理論上は理想的な分類しきい値を特定します。ただし、理想的な分類しきい値の選択には、他のいくつかの現実世界の問題が影響します。たとえば、偽陰性の方が偽陽性よりもはるかに大きな問題を引き起こす可能性があります。
AUC という数値指標は、ROC 曲線を単一の浮動小数点値に要約します。
ロール プロンプト
生成 AI モデルのレスポンスのターゲット オーディエンスを特定する、プロンプトの省略可能な部分。役割プロンプトがない場合、大規模言語モデルは質問したユーザーにとって有用な回答を返すこともあれば、そうでない回答を返すこともあります。ロール プロンプトを使用すると、大規模言語モデルは特定のターゲット ユーザーにとってより適切で役立つ方法で回答できます。たとえば、次のプロンプトのロール プロンプト部分は太字で示されています。
- このドキュメントを経済学の博士号取得者向けに要約してください。
- 10 歳の子ども向けに潮の満ち引きの仕組みを説明してください。
- 2008 年の金融危機について説明します。幼い子どもやゴールデン レトリバーに話すように話します。
root
決定木の開始ノード(最初の条件)。慣例により、図ではルートがディシジョン ツリーの上部に配置されます。次に例を示します。
ルート ディレクトリ
複数のモデルの TensorFlow チェックポイントとイベント ファイルのサブディレクトリをホストするために指定するディレクトリ。
二乗平均平方根誤差(RMSE)
平均二乗誤差の平方根。
回転不変性
画像分類問題において、画像の向きが変わっても画像を正しく分類できるアルゴリズムの能力。たとえば、アルゴリズムは、テニスラケットが上向き、横向き、下向きのいずれであっても、テニスラケットを識別できます。回転不変性が常に望ましいとは限りません。たとえば、逆さまの 9 は 9 として分類されるべきではありません。
ROUGE(Recall-Oriented Understudy for Gisting Evaluation)
自動要約モデルと機械翻訳モデルを評価する指標のファミリー。ROUGE 指標は、参照テキストが ML モデルの生成テキストとどの程度重複しているかを判断します。ROUGE ファミリーの各メンバーは、重複を異なる方法で測定します。ROUGE スコアが高いほど、参照テキストと生成されたテキストの類似性が高いことを示します。
通常、ROUGE ファミリーの各メンバーは次の指標を生成します。
- 適合率
- 再現率
- F1
詳細と例については、以下をご覧ください。
ROUGE-L
ROUGE ファミリーのメンバーで、参照テキストと生成されたテキストの最長共通部分列の長さに焦点を当てています。次の式は、ROUGE-L の再現率と適合率を計算します。
次に、F1 を使用して、ROUGE-L 再現率と ROUGE-L 精度を 1 つの指標にロールアップできます。
ROUGE-L は、参照テキストと生成されたテキストの改行を無視するため、最長共通部分列が複数の文にまたがる可能性があります。参照テキストと生成されたテキストに複数の文が含まれている場合は、一般的に ROUGE-Lsum と呼ばれる ROUGE-L のバリエーションの方が優れた指標となります。ROUGE-Lsum は、パッセージ内の各文の最長共通部分列を特定し、それらの最長共通部分列の平均を計算します。
ROUGE-N
ROUGE ファミリー内の指標のセット。参照テキストと生成されたテキストの特定のサイズの共有 N グラムを比較します。次に例を示します。
- ROUGE-1 は、参照テキストと生成されたテキストで共有されているトークンの数を測定します。
- ROUGE-2 は、参照テキストと生成されたテキストで共有されるバイグラム(2 グラム)の数を測定します。
- ROUGE-3 は、参照テキストと生成されたテキストで共有されているトライグラム(3 グラム)の数を測定します。
次の数式を使用すると、ROUGE-N ファミリーの任意のメンバーの ROUGE-N 再現率と ROUGE-N 適合率を計算できます。
次に、F1 を使用して、ROUGE-N 再現率と ROUGE-N 適合率を 1 つの指標にロールアップできます。
ROUGE-S
スキップグラム マッチングを可能にする ROUGE-N の寛容な形式。つまり、ROUGE-N は完全に一致する N グラムのみをカウントしますが、ROUGE-S は 1 つ以上の単語で区切られた N グラムもカウントします。たとえば、次の点を考えます。
ROUGE-N を計算する場合、2 グラムの「白い雲」は「白いもくもくとした雲」と一致しません。ただし、ROUGE-S を計算する場合、白い雲は白い積雲と一致します。
決定係数
ラベルの分散に個々の特徴量または特徴量セットがどの程度寄与したかを示す回帰指標。決定係数は 0 ~ 1 の値で、次のように解釈できます。
- 決定係数 0 は、その特徴量セットがラベルの分散にまったく寄与していないことを意味します。
- 決定係数 1 は、ラベルの分散のすべてがその特徴量セットによるものであることを意味します。
- 0 ~ 1 の決定係数は、ラベルの分散が特定の特徴量または特徴量セットからどの程度予測可能であるかを示します。たとえば、決定係数が 0.10 の場合、ラベルの分散の 10% が特徴量セットによるものであることを意味します。決定係数が 0.20 の場合、20% が特徴量セットによるものであることを意味します。
決定係数は、モデルが予測した値とグラウンド トゥルースの間のピアソン相関係数の 2 乗です。
S
サンプリング バイアス
選択バイアスをご覧ください。
復元抽出
候補アイテムのセットからアイテムを選択する方法。同じアイテムを複数回選択できます。「with replacement」というフレーズは、選択するたびに、選択したアイテムが候補アイテムのプールに戻されることを意味します。逆の方法である非復元抽出では、候補アイテムは 1 回しか選択できません。
たとえば、次のような果物のセットについて考えてみましょう。
fruit = {kiwi, apple, pear, fig, cherry, lime, mango}
システムが最初に fig
をランダムに選択したとします。復元抽出を使用する場合、システムは次のセットから 2 番目のアイテムを選択します。
fruit = {kiwi, apple, pear, fig, cherry, lime, mango}
はい。以前と同じセットなので、システムが fig
を再び選択する可能性があります。
復元なしのサンプリングを使用する場合、一度選択したサンプルを再度選択することはできません。たとえば、システムが最初のサンプルとして fig
をランダムに選択した場合、fig
を再度選択することはできません。そのため、システムは次の(縮小された)セットから 2 番目のサンプルを選択します。
fruit = {kiwi, apple, pear, cherry, lime, mango}
SavedModel
TensorFlow モデルの保存と復元に推奨される形式。SavedModel は言語に依存しない復元可能なシリアル化形式です。これにより、高水準のシステムとツールで TensorFlow モデルを生成、使用、変換できます。
詳細については、TensorFlow プログラマー ガイドの保存と復元のセクションをご覧ください。
割安便
モデルのチェックポイントの保存を担当する TensorFlow オブジェクト。
スカラー
ランク 0 のテンソルとして表すことができる単一の数値または単一の文字列。たとえば、次のコード行はそれぞれ TensorFlow で 1 つのスカラーを作成します。
breed = tf.Variable("poodle", tf.string) temperature = tf.Variable(27, tf.int16) precision = tf.Variable(0.982375101275, tf.float64)
スケーリング
ラベル、特徴値、またはその両方の範囲をシフトする数学的変換または手法。一部のスケーリング形式は、正規化などの変換に非常に役立ちます。
ML で役立つ一般的なスケーリング形式は次のとおりです。
- 線形スケーリング。通常は減算と除算を組み合わせて、元の値を -1 ~+1 または 0 ~ 1 の数値に置き換えます。
- 対数スケーリング。元の値をその対数に置き換えます。
- Z スコア正規化。元の値を、その特徴の平均からの標準偏差の数を表す浮動小数点値に置き換えます。
scikit-learn
一般的なオープンソースの ML プラットフォーム。scikit-learn.org をご覧ください。
得点
候補生成フェーズで生成された各アイテムの値またはランキングを提供するレコメンデーション システムの一部。
選択バイアス
データで観測されたサンプルと観測されなかったサンプルの間に体系的な違いを生み出す選択プロセスが原因で、サンプリングされたデータから導き出された結論に生じるエラー。選択バイアスには次の形態があります。
- カバレッジ バイアス: データセットで表される母集団が、ML モデルが予測を行う母集団と一致しない。
- サンプリング バイアス: データが対象グループからランダムに収集されていない。
- 無回答バイアス(参加バイアスとも呼ばれます): 特定のグループのユーザーがアンケートへの参加を辞退する割合が、他のグループのユーザーと異なる。
たとえば、映画の楽しさを予測する ML モデルを作成するとします。トレーニング データを収集するために、映画館の最前列に座っている全員にアンケートを配布します。一見すると、これはデータセットを収集する合理的な方法のように思えますが、この形式のデータ収集では、次のような選択バイアスが生じる可能性があります。
- カバレッジ バイアス: 映画を視聴したユーザーの母集団からサンプリングすると、モデルの予測が、映画にそれほど関心を示していないユーザーに一般化されない可能性があります。
- サンプリング バイアス: 意図した母集団(映画館にいるすべての人)からランダムにサンプリングするのではなく、最前列にいる人だけをサンプリングしました。前列に座っている人は、他の列に座っている人よりも映画に興味がある可能性があります。
- 無回答バイアス: 一般的に、意見が強い人は、意見が弱い人よりも任意回答のアンケートに回答する傾向があります。映画のアンケートは任意であるため、回答は正規分布(ベル型分布)よりも二峰性分布になる可能性が高くなります。
セルフアテンション(セルフアテンション レイヤとも呼ばれます)
エンベディングのシーケンス(トークン エンベディングなど)を別のエンベディングのシーケンスに変換するニューラル ネットワーク レイヤ。出力シーケンスの各エンベディングは、アテンション メカニズムを介して入力シーケンスの要素から情報を統合することで構築されます。
セルフ アテンションの「セルフ」は、他のコンテキストではなく、シーケンス自体に注意を払うことを指します。自己注意は Transformer の主要な構成要素の 1 つであり、「クエリ」、「キー」、「値」などの辞書ルックアップ用語を使用します。
セルフアテンション レイヤは、各単語に 1 つずつ、入力表現のシーケンスから始まります。単語の入力表現は、単純なエンベディングにすることができます。入力シーケンス内の各単語について、ネットワークは単語と単語シーケンス全体の各要素との関連性をスコアリングします。関連性スコアは、単語の最終表現に他の単語の表現がどの程度組み込まれるかを決定します。
たとえば、次の文について考えてみましょう。
動物は疲れていたため、通りを渡りませんでした。
次の図(Transformer: A Novel Neural Network Architecture for Language Understanding より)は、代名詞 it のセルフアテンション レイヤのアテンション パターンを示しています。各行の濃さは、各単語が表現にどの程度貢献しているかを示しています。
セルフアテンション レイヤは、「それ」に関連する単語をハイライト表示します。この場合、注意レイヤは、参照する可能性のある単語をハイライトするように学習し、動物に最も高い重みを割り当てています。
n 個のトークンのシーケンスの場合、セルフ アテンションはエンベディングのシーケンスを n 回変換します。シーケンス内の各位置で 1 回ずつ変換します。
アテンションとマルチヘッド セルフ アテンションもご覧ください。
自己教師あり学習
教師なし ML の問題を、ラベルなしの例から代理のラベルを作成して、教師あり ML の問題に変換する一連の手法。
BERT などの一部の Transformer ベースのモデルでは、自己教師あり学習が使用されます。
自己教師ありトレーニングは、半教師あり学習アプローチです。
セルフ トレーニング
次のすべての条件が満たされている場合に特に有用な、自己教師あり学習のバリエーション。
セルフ トレーニングは、モデルの改善が停止するまで次の 2 つの手順を繰り返すことで機能します。
- 教師あり ML を使用して、ラベル付きの例でモデルをトレーニングします。
- ステップ 1 で作成したモデルを使用して、ラベルなしの例で予測(ラベル)を生成し、信頼度の高いものを予測ラベルとともにラベル付きの例に移動します。
ステップ 2 の各イテレーションでは、ステップ 1 のラベル付きの例が追加され、トレーニングに使用されます。
半教師あり学習
一部のトレーニング例にはラベルが付いているが、他のトレーニング例にはラベルが付いていないデータでモデルをトレーニングする。半教師あり学習の手法の 1 つに、ラベルなしの例のラベルを推論し、推論されたラベルでトレーニングして新しいモデルを作成する方法があります。ラベルの取得にコストがかかるが、ラベルなしの例が豊富にある場合は、半教師あり学習が役立ちます。
セルフ トレーニングは、半教師あり学習の手法の 1 つです。
センシティブ属性
法的、倫理的、社会的、個人的な理由で特別な配慮がなされる人間の属性。感情分析
統計アルゴリズムまたは機械学習アルゴリズムを使用して、サービス、プロダクト、組織、トピックに対するグループの全体的な態度(ポジティブかネガティブか)を判断すること。たとえば、自然言語理解を使用して、アルゴリズムが大学のコースのテキスト フィードバックに対して感情分析を実行し、学生がコースをどの程度好んだか嫌ったかを判断できます。
詳細については、テキスト分類ガイドをご覧ください。
シーケンス モデル
入力に順序依存性があるモデル。たとえば、以前に視聴した動画のシーケンスから次に視聴する動画を予測します。
シーケンス ツー シーケンス タスク
入力シーケンスのトークンを出力シーケンスのトークンに変換するタスク。たとえば、シーケンス ツー シーケンス タスクには次の 2 つの一般的な種類があります。
- 翻訳者:
- 入力シーケンスの例: 「I love you.」
- 出力シーケンスの例: 「Je t'aime.」
- 質問応答:
- 入力シーケンスの例: 「ニューヨークで車は必要ですか?」
- 出力シーケンスの例: 「いいえ。車は自宅に置いておいてください。」
サービングです
オンライン推論またはオフライン推論を通じて予測を提供するために、トレーニング済みモデルを利用できるようにするプロセス。
shape(Tensor)
テンソルの各ディメンションの要素数。形状は整数のリストとして表されます。たとえば、次の 2 次元テンソルの形状は [3,4] です。
[[5, 7, 6, 4], [2, 9, 4, 8], [3, 6, 5, 1]]
TensorFlow では、行優先(C スタイル)形式を使用してディメンションの順序を表します。そのため、TensorFlow の形状は [4,3]
ではなく [3,4]
になります。つまり、2 次元 TensorFlow テンソルでは、形状は [
行数、列数]
です。
静的形状は、コンパイル時に判明するテンソル形状です。
動的シェイプはコンパイル時に不明であるため、ランタイム データに依存します。このテンソルは、TensorFlow で [3, ?]
のようにプレースホルダ ディメンションで表されることがあります。
シャード
トレーニング セットまたはモデルの論理分割。通常、何らかのプロセスによって、例またはパラメータを(通常は)同じサイズのチャンクに分割してシャードが作成されます。各シャードは異なるマシンに割り当てられます。
モデルのシャーディングはモデル並列処理と呼ばれ、データのシャーディングはデータ並列処理と呼ばれます。
収縮
グラデーション ブースティングのハイパーパラメータ。過剰適合を制御します。勾配ブースティングの縮小は、勾配降下法の学習率に類似しています。シュリンケージは 0.0 ~ 1.0 の範囲の小数値です。収縮値が小さいほど、収縮値が大きい場合よりも過適合が軽減されます。
比較評価
同じプロンプトに対するレスポンスを判断して、2 つのモデルの品質を比較します。たとえば、次のプロンプトが 2 つの異なるモデルに渡されたとします。
3 つのボールをジャグリングしているかわいい犬の画像を作成して。
並列評価では、評価者はどちらの画像が「優れているか」(より正確か、より美しくなったか?Cuter?)。
シグモイド関数
入力値を制約された範囲(通常は 0 ~ 1 または -1 ~+1)に「圧縮」する数学関数。つまり、シグモイドには任意の数(2、100 万、マイナス 10 億など)を渡すことができ、出力は制約された範囲内に収まります。シグモイド活性化関数のプロットは次のようになります。
シグモイド関数は、機械学習で次のような用途に使用されます。
類似性指標
クラスタリング アルゴリズムで、2 つの例がどの程度類似しているかを判断するために使用される指標。
単一プログラム / 複数データ(SPMD)
同じ計算を異なるデバイス上の異なる入力データに対して並列に実行する並列処理手法。SPMD の目的は、結果をより迅速に取得することです。これは、並列プログラミングの最も一般的なスタイルです。
サイズ不変性
画像分類問題において、画像のサイズが変化しても画像を正しく分類できるアルゴリズムの能力。たとえば、アルゴリズムは 2M ピクセルを消費しても 200K ピクセルを消費しても、猫を識別できます。最高の画像分類アルゴリズムでも、サイズ不変性には実用的な限界があります。たとえば、20 ピクセルしか使用していない猫の画像をアルゴリズム(または人間)が正しく分類することは難しいでしょう。
詳細については、クラスタリング コースをご覧ください。
スケッチ
教師なし MLでは、例に対して予備的な類似性分析を行うアルゴリズムのカテゴリ。スケッチ アルゴリズムは、 局所性鋭敏ハッシュ関数を使用して類似する可能性の高いポイントを特定し、それらをバケットにグループ化します。
スケッチングにより、大規模なデータセットで類似度計算に必要な計算量が減少します。データセット内のすべての例のペアの類似度を計算するのではなく、各バケット内のポイントのペアの類似度のみを計算します。
skip-gram
元のコンテキストから単語を省略(スキップ)できる n グラム。つまり、N 個の単語が元々隣接していない可能性があります。より正確に言うと、k-skip-n-gram は、最大 k 個の単語がスキップされた可能性がある n グラムです。
たとえば、「the quick brown fox」には次の 2 グラムがあります。
- 「the quick」
- 「quick brown」
- "茶色の狐"
「1-skip-2-gram」は、間に最大 1 つの単語がある単語のペアです。したがって、「the quick brown fox」には次の 1 スキップ 2 グラムがあります。
- 「the brown」
- 「quick fox」
また、スキップできる単語の数は 1 つ未満であるため、すべての 2 グラムは 1 スキップ 2 グラムでもあります。
スキップグラムは、単語の周囲のコンテキストをより深く理解するのに役立ちます。この例では、「fox」は 1-skip-2-gram のセットでは「quick」に直接関連付けられていますが、2-gram のセットでは関連付けられていません。
スキップグラムは、単語エンベディング モデルのトレーニングに役立ちます。
Softmax
マルチクラス分類モデルで、考えられる各クラスの確率を決定する関数。確率の合計は 1.0 になります。たとえば、次の表は、softmax がさまざまな確率をどのように分布させるかを示しています。
画像は... | 確率 |
---|---|
犬 | .85 |
猫 | .13 |
馬 | .02 |
ソフトマックスは、フル ソフトマックスとも呼ばれます。
候補サンプリングと比較してください。
詳細については、ML 集中講座のニューラル ネットワーク: 多クラス分類をご覧ください。
ソフト プロンプト チューニング
リソースを大量に消費するファインチューニングを行わずに、特定のタスク用に大規模言語モデルをチューニングする手法。ソフト プロンプト チューニングでは、モデル内のすべての重みを再トレーニングする代わりに、同じ目標を達成するためにプロンプトが自動的に調整されます。
テキスト プロンプトが与えられると、ソフト プロンプト チューニングでは通常、追加のトークン エンベディングがプロンプトに追加され、逆伝播を使用して入力が最適化されます。
「ハード」プロンプトには、トークン エンベディングではなく実際のトークンが含まれます。
スパース特徴
値の大部分がゼロまたは空の特徴。たとえば、1 つの 1 の値と 100 万個の 0 の値を含む特徴はスパースです。一方、密な特徴は、ゼロまたは空ではない値が大部分を占めています。
ML では、驚くほど多くの特徴量がスパース特徴量です。カテゴリ特徴は通常、スパース特徴です。たとえば、森に 300 種類の樹木が生息している場合、1 つの例で カエデの木だけを特定する場合があります。また、動画ライブラリ内の数百万もの動画の中から、1 つの例として「カサブランカ」だけが識別されることもあります。
通常、モデルではスパース特徴をワンホット エンコーディングで表します。ワンホット エンコーディングが大きい場合は、効率を高めるために、ワンホット エンコーディングの上にエンベディング レイヤーを配置することがあります。
スパース表現
スパース特徴でゼロ以外の要素の位置のみを保存します。
たとえば、species
という名前のカテゴリ特徴が、特定の森林に生息する 36 種類の樹木を識別するとします。また、各例は 1 つの種のみを識別するとします。
ワンホット ベクトルを使用して、各例の樹種を表すことができます。ワンホット ベクトルには、1 つの 1
(その例の特定の樹種を表す)と 35 個の 0
(その例にない 35 個の樹種を表す)が含まれます。したがって、maple
のワンホット表現は次のようになります。
一方、スパース表現では、特定の種の場所を特定するだけです。maple
が位置 24 にある場合、maple
のスパース表現は次のようになります。
24
スパース表現は、ワンホット表現よりもはるかにコンパクトです。
詳細については、ML 集中講座のカテゴリカル データの操作をご覧ください。
スパース ベクトル
値のほとんどがゼロのベクトル。スパース特徴とスパース性もご覧ください。
スパース性
ベクトルまたは行列でゼロ(または null)に設定された要素の数を、そのベクトルまたは行列のエントリの総数で割った値。たとえば、98 個のセルに 0 が含まれる 100 要素の行列について考えてみましょう。スパース性の計算は次のとおりです。
特徴量のスパース性は特徴ベクトル内のスパース性を指し、モデルのスパース性はモデルの重みのスパース性を指します。
空間プーリング
プーリングをご覧ください。
分割
スプリッタ
決定木のトレーニング中に、各ノードで最適な条件を見つけるルーティン(およびアルゴリズム)。
SPMD
単一プログラム / 複数データの略語。
二乗ヒンジ損失
ヒンジ損失の 2 乗。2 乗ヒンジ損失は、通常のヒンジ損失よりも外れ値に厳しいペナルティを科します。
二乗損失
L2 損失と同義。
段階的なトレーニング
離散的なステージのシーケンスでモデルをトレーニングする戦術。目標は、トレーニング プロセスの高速化またはモデル品質の向上です。
プログレッシブ スタッキング アプローチの図を以下に示します。
- ステージ 1 には 3 つの隠れ層、ステージ 2 には 6 つの隠れ層、ステージ 3 には 12 個の隠れ層が含まれています。
- ステージ 2 では、ステージ 1 の 3 つの隠しレイヤで学習した重みを使用してトレーニングを開始します。ステージ 3 では、ステージ 2 の 6 つの隠しレイヤで学習した重みを使用してトレーニングを開始します。
パイプラインもご覧ください。
state
強化学習では、エージェントがアクションを選択するために使用する、環境の現在の構成を表すパラメータ値。
状態行動価値関数
Q 関数と同義。
static
継続的ではなく、一度だけ実行されるもの。静的とオフラインという用語は同義語です。以下に、マシンラーニングにおける static と offline の一般的な使用例を示します。
- 静的モデル(またはオフライン モデル)は、一度トレーニングしてからしばらく使用するモデルです。
- 静的トレーニング(またはオフライン トレーニング)は、静的モデルをトレーニングするプロセスです。
- 静的推論(またはオフライン推論)は、モデルが一度にバッチ予測を生成するプロセスです。
動的とのコントラスト。
静的推論
オフライン推論と同義。
定常性
1 つ以上のディメンション(通常は時間)で値が変化しない特徴。たとえば、2021 年と 2023 年で値がほぼ同じ特徴は定常性を示します。
現実の世界では、定常性を示す特徴はほとんどありません。安定性の代名詞とも言える海面水位でさえ、時間とともに変化します。
非定常性と対照的です。
解説
1 つのバッチのフォワード パスとバックワード パス。
フォワード パスとバックワード パスの詳細については、バックプロパゲーションをご覧ください。
ステップサイズ
学習率と同義。
確率的勾配降下法(SGD)
バッチサイズが 1 の勾配降下法アルゴリズム。つまり、SGD はトレーニング セットから一様にランダムに選択された単一の例でトレーニングします。
詳細については、ML 集中講座の線形回帰: ハイパーパラメータをご覧ください。
ストライド
畳み込み演算またはプーリングにおける、次の入力スライスの各次元のデルタ。たとえば、次のアニメーションは、畳み込み演算中の(1,1)ストライドを示しています。したがって、次の入力スライスは前の入力スライスの 1 つ右の位置から始まります。操作が右端に達すると、次のスライスは左端まで移動し、1 つ下の位置に移動します。
上記の例は、2 次元のストライドを示しています。入力行列が 3 次元の場合、ストライドも 3 次元になります。
構造リスク最小化(SRM)
次の 2 つの目標のバランスを取るアルゴリズム。
- 最も予測精度の高いモデル(損失が最小のモデルなど)を構築する必要がある。
- モデルをできるだけシンプルに保つ必要がある(たとえば、強力な正則化)。
たとえば、トレーニング セットで損失と正則化を最小限に抑える関数は、構造的リスク最小化アルゴリズムです。
経験損失最小化と比較してください。
サブサンプリング
プーリングをご覧ください。
サブワード トークン
言語モデルでは、単語の部分文字列であるトークン。単語全体の場合もあります。
たとえば、「itemize」という単語は、「item」(語根)と「ize」(接尾辞)に分割され、それぞれが独自のトークンで表されます。一般的でない単語をサブワードと呼ばれるこのような部分に分割することで、言語モデルは接頭辞や接尾辞など、単語のより一般的な構成要素を操作できます。
逆に、「going」のような一般的な単語は分割されず、単一のトークンで表されることがあります。
概要
TensorFlow では、特定のステップで計算された値または値のセット。通常は、トレーニング中にモデル指標を追跡するために使用されます。
教師あり機械学習
特徴とその対応するラベルからモデルをトレーニングします。教師あり ML は、一連の質問とその対応する回答を学習して科目を学習することに似ています。質問と回答のマッピングを習得すると、生徒は同じトピックに関する新しい(これまで見たことのない)質問に回答できるようになります。
教師なし機械学習と比較します。
詳細については、ML の概要コースの教師あり学習をご覧ください。
合成特徴
入力特徴には存在しないが、入力特徴の 1 つ以上から組み立てられた特徴。合成特徴を作成する方法は次のとおりです。
- 連続する特徴を範囲ビンにバケット化します。
- 特徴クロスを作成する。
- 1 つの特徴量の値を他の特徴量の値またはそれ自体で乗算(または除算)します。たとえば、
a
とb
が入力特徴の場合、次の例は合成特徴です。- ab
- a2
- 特徴値に超越関数を適用する。たとえば、
c
が入力特徴の場合、合成特徴の例は次のようになります。- sin(c)
- ln(c)
正規化またはスケーリングのみで作成された特徴量は、合成特徴量とは見なされません。
T
T5
2020 年に Google AI によって導入されたテキストからテキストへの転移学習 モデル。T5 は、Transformer アーキテクチャに基づいて、非常に大規模なデータセットでトレーニングされたエンコーダ - デコーダモデルです。テキストの生成、言語の翻訳、会話形式での質問への回答など、さまざまな自然言語処理タスクで効果を発揮します。
T5 の名前は、「Text-to-Text Transfer Transformer」の 5 つの T に由来しています。
T5X
T5X
大規模な自然言語処理(NLP)モデルを構築してトレーニングするために設計された、オープンソースの機械学習フレームワーク。T5 は、T5X コードベース(JAX と Flax 上に構築)で実装されています。
表形式の Q 学習
強化学習では、テーブルを使用して、状態とアクションのすべての組み合わせの Q 関数を保存することで、Q 学習を実装します。
ターゲット
ラベルと同義。
ターゲット ネットワーク
Deep Q-learning では、メインのニューラル ネットワークの安定した近似であるニューラル ネットワークを使用します。メインのニューラル ネットワークは、Q 関数またはポリシーのいずれかを実装します。その後、ターゲット ネットワークによって予測された Q 値に基づいてメイン ネットワークをトレーニングできます。したがって、メイン ネットワークが自身で予測した Q 値でトレーニングするときに発生するフィードバック ループを防ぐことができます。このフィードバックを回避することで、トレーニングの安定性が向上します。
タスク
機械学習の手法を使用して解決できる問題。例:
温度
モデルの出力のランダム性の度合いを制御するハイパーパラメータ。温度が高いほど、ランダムな出力が多くなり、温度が低いほど、ランダムな出力が少なくなります。
最適な温度は、特定のアプリケーションや文字列の値によって異なります。
時間データ
異なる時点で記録されたデータ。たとえば、1 年の各日に記録された冬用コートの売上高は、時間データになります。
Tensor
TensorFlow プログラムの主要なデータ構造。テンソルは N 次元(N は非常に大きくなる可能性があります)のデータ構造で、通常はスカラー、ベクトル、行列です。Tensor の要素には、整数値、浮動小数点値、文字列値を保持できます。
TensorBoard
1 つ以上の TensorFlow プログラムの実行中に保存された概要を表示するダッシュボード。
TensorFlow
大規模な分散型機械学習プラットフォーム。この用語は、TensorFlow スタックのベース API レイヤも指します。このレイヤは、データフロー グラフでの一般的な計算をサポートします。
TensorFlow は主に ML に使用されますが、データフロー グラフを使用した数値計算を必要とする ML 以外のタスクにも使用できます。
TensorFlow Playground
さまざまなハイパーパラメータがモデル(主にニューラル ネットワーク)のトレーニングにどのように影響するかを可視化するプログラム。 http://playground.tensorflow.org にアクセスして、TensorFlow Playground を試してください。
TensorFlow Serving
トレーニング済みモデルを本番環境にデプロイするためのプラットフォーム。
TPU(Tensor Processing Unit)
ML ワークロードのパフォーマンスを最適化する特定用途向け集積回路(ASIC)。これらの ASIC は、TPU デバイス上の複数の TPU チップとしてデプロイされます。
テンソルのランク
ランク(テンソル)をご覧ください。
テンソルの形状
Tensor に含まれる要素の数(さまざまなディメンション)。たとえば、[5, 10]
テンソルは、1 つの次元で 5、別の次元で 10 の形状になります。
テンソルのサイズ
Tensor に含まれるスカラーの合計数。たとえば、[5, 10]
テンソルのサイズは 50 です。
TensorStore
大きな多次元配列を効率的に読み書きするためのライブラリ。
終了条件
強化学習では、エージェントが特定の状態に達したときや、状態遷移のしきい値を超えたときなど、エピソードの終了条件を決定します。たとえば、三目並べでは、プレイヤーが 3 つの連続したスペースをマークしたとき、またはすべてのスペースがマークされたときにエピソードが終了します。
test
テスト損失
テストセットに対するモデルの損失を表す指標。モデルを構築する場合、通常はテスト損失を最小限に抑えようとします。これは、テスト損失が小さいほど、トレーニング損失や検証損失が小さい場合よりも品質シグナルが強くなるためです。
テスト損失とトレーニング損失または検証損失の間に大きな差がある場合は、正則化率を上げる必要があることを示していることがあります。
テストセット
トレーニング済みのモデルのテスト用に予約されたデータセットのサブセット。
従来、データセット内の例は次の 3 つの異なるサブセットに分割します。
- トレーニング セット
- 検証セット
- テストセット
データセット内の各例は、上記のサブセットのいずれか 1 つにのみ属している必要があります。たとえば、1 つの例がトレーニング セットとテストセットの両方に属することはできません。
トレーニング セットと検証セットは、どちらもモデルのトレーニングに密接に関連しています。テストセットはトレーニングと間接的にのみ関連付けられているため、テスト損失は、トレーニング損失や検証損失よりもバイアスが少なく、品質の高い指標です。
詳細については、ML 集中講座のデータセット: 元のデータセットを分割するをご覧ください。
テキスト スパン
テキスト文字列の特定のサブセクションに関連付けられた配列インデックス スパン。たとえば、Python 文字列 s="Be good now"
の単語 good
は、3 ~ 6 のテキスト スパンを占有します。
tf.Example
ML モデルのトレーニングまたは推論用の入力データを記述するための標準の プロトコル バッファ。
tf.keras
TensorFlow に統合された Keras の実装。
しきい値(ディシジョン ツリーの場合)
軸に沿った条件では、特徴と比較される値。たとえば、次の条件では 75 がしきい値です。
grade >= 75
詳細については、デシジョン フォレスト コースの数値特徴量を使用したバイナリ分類の正確な分割ツールをご覧ください。
時系列分析
時系列データを分析する機械学習と統計のサブフィールド。分類、クラスタリング、予測、異常検出など、多くのタイプの ML 問題で時系列分析が必要です。たとえば、時系列分析を使用して、過去の販売データに基づいて冬物コートの将来の販売数を月単位で予測できます。
timestep
回帰型ニューラル ネットワーク内の「展開」された 1 つのセル。たとえば、次の図は 3 つのタイムステップ(添え字 t-1、t、t+1 でラベル付け)を示しています。
token
言語モデルで、モデルがトレーニングと予測を行う場合の原子単位。通常、トークンは次のいずれかです。
- 単語。たとえば、「犬は猫が好き」というフレーズは、「犬」、「は」、「猫」という 3 つの単語トークンで構成されています。
- 文字。たとえば、「bike fish」というフレーズは 9 個の文字トークンで構成されます。(空白もトークンの 1 つとしてカウントされます)。
- サブワード - 1 つの単語が 1 つのトークンまたは複数のトークンになることがあります。サブワードは、ルートワード、接頭辞、接尾辞で構成されます。たとえば、サブワードをトークンとして使用する言語モデルは、「dogs」という単語を 2 つのトークン(ルート単語「dog」と複数形の接尾辞「s」)と見なす場合があります。同じ言語モデルでも、「taller」という単語を 2 つのサブワード(ルート単語「tall」と接尾辞「er」)と見なすことがあります。
言語モデル以外のドメインでは、トークンは他の種類の原子単位を表すことができます。たとえば、コンピュータ ビジョンでは、トークンは画像のサブセットとなる場合があります。
詳細については、ML 集中講座の大規模言語モデルをご覧ください。
tokenizer
入力データのシーケンスをトークンに変換するシステムまたはアルゴリズム。
最新の基盤モデルのほとんどはマルチモーダルです。マルチモーダル システムのトークナイザーは、各入力タイプを適切な形式に変換する必要があります。たとえば、テキストとグラフィックの両方で構成される入力データが与えられた場合、トークナイザーは入力テキストをサブワードに、入力画像を小さなパッチに変換します。次に、トークナイザーはすべてのトークンを 1 つの統合された埋め込み空間に変換する必要があります。これにより、モデルはマルチモーダル入力のストリームを「理解」できます。
上位 k の精度
生成されたリストの最初の k 個の位置に「ターゲット ラベル」が表示される割合。リストは、パーソナライズされたおすすめや、ソフトマックスで並べ替えられたアイテムのリストなどです。
上位 k の精度は、k での精度とも呼ばれます。
タワー
それ自体がディープ ニューラル ネットワークであるディープ ニューラル ネットワークのコンポーネント。場合によっては、各タワーが独立したデータソースから読み取り、出力が最終レイヤで結合されるまで独立した状態を維持します。他のケース(多くの Transformer の エンコーダとデコーダ タワーなど)では、タワーは相互にクロス接続されています。
有害
コンテンツが誹謗中傷的、脅迫的、または不快である度合い。多くの ML モデルは、有害性を特定して測定できます。これらのモデルのほとんどは、暴言のレベルや脅迫的な言葉のレベルなど、複数のパラメータに沿って有害性を特定します。
TPU
TPU チップ
ML ワークロード用に最適化されたオンチップ高帯域幅メモリを備えたプログラマブル線形代数アクセラレータ。複数の TPU チップが TPU デバイスにデプロイされます。
TPU デバイス
複数の TPU チップ、高帯域幅ネットワーク インターフェース、システム冷却ハードウェアを備えたプリント基板(PCB)。
TPU ノード
特定の TPU タイプの Google Cloud 上の TPU リソース。TPU ノードは、ピア VPC ネットワークから VPC ネットワークに接続します。TPU ノードは、Cloud TPU API で定義されたリソースです。
TPU Pod
Google データセンター内の TPU デバイスの特定の構成。TPU Pod 内のすべてのデバイスは、専用の高速ネットワークで相互に接続されています。TPU Pod は、特定の TPU バージョンで使用可能な TPU デバイスの最大構成です。
TPU リソース
作成、管理、使用する Google Cloud 上の TPU エンティティ。たとえば、TPU ノードと TPU タイプは TPU リソースです。
TPU スライス
TPU スライスは、TPU Pod 内の TPU デバイスの断片的な部分です。TPU スライス内のすべてのデバイスは、専用の高速ネットワークで相互に接続されています。
TPU タイプ
特定の TPU ハードウェア バージョンの 1 つ以上の TPU デバイスの構成。TPU タイプは、Google Cloud で TPU ノードを作成するときに選択します。たとえば、v2-8
TPU タイプは 8 個のコアを持つ単一の TPU v2 デバイスです。v3-2048
TPU タイプには、256 個のネットワーク接続された TPU v3 デバイスと合計 2,048 個のコアがあります。TPU タイプは、Cloud TPU API で定義されたリソースです。
TPU ワーカー
ホストマシンで実行され、TPU デバイスで機械学習プログラムを実行するプロセス。
トレーニング
モデルを構成する最適なパラメータ(重みとバイアス)を決定するプロセス。トレーニング中、システムは例を読み込み、パラメータを徐々に調整します。トレーニングでは、各例が数回から数十億回使用されます。
詳細については、ML の概要コースの教師あり学習をご覧ください。
トレーニングの損失
特定のトレーニング イテレーション中のモデルの損失を表す指標。たとえば、損失関数が平均二乗誤差であるとします。たとえば、10 回目の反復のトレーニング損失(平均二乗誤差)が 2.2 で、100 回目の反復のトレーニング損失が 1.9 であるとします。
損失曲線は、トレーニングの損失と反復回数をプロットしたものです。損失曲線は、トレーニングに関する次のヒントを提供します。
- 右下がりの傾斜は、モデルが改善されていることを意味します。
- 上向きの傾斜は、モデルが悪化していることを意味します。
- 傾斜が平らな場合は、モデルが収束に達したことを意味します。
たとえば、次のやや理想化された損失曲線は、次のようになります。
- 初期の反復で急激な下降勾配が見られる。これは、モデルが急速に改善していることを意味します。
- トレーニングの終了近くまで徐々に平坦になる(ただし、まだ下降している)傾斜。これは、最初の反復処理よりもやや遅いペースでモデルの改善が継続していることを意味します。
- トレーニングの終わりに近づくにつれて傾斜が平らになり、収束を示しています。
トレーニング損失は重要ですが、汎化もご覧ください。
トレーニング サービング スキュー
トレーニング時のモデルのパフォーマンスと、同じモデルのサービング時のパフォーマンスの差。
トレーニング セット
従来、データセット内の例は次の 3 つの異なるサブセットに分割されます。
理想的には、データセット内の各例は上記のサブセットのいずれか 1 つにのみ属している必要があります。たとえば、1 つの例がトレーニング セットと検証セットの両方に属することはできません。
詳細については、ML 集中講座のデータセット: 元のデータセットを分割するをご覧ください。
軌跡
強化学習では、エージェントの状態遷移のシーケンスを表すタプルのシーケンス。各タプルは、特定の状態遷移の状態、アクション、報酬、次の状態に対応します。
転移学習
ある機械学習タスクから別の機械学習タスクに情報を転送すること。たとえば、マルチタスク学習では、単一のモデルが複数のタスクを解決します。たとえば、タスクごとに異なる出力ノードを持つディープモデルなどです。転移学習では、より単純なタスクのソリューションからより複雑なタスクのソリューションに知識を転送したり、より多くのデータがあるタスクからより少ないデータがあるタスクに知識を転送したりすることがあります。
ほとんどの ML システムは、単一のタスクを解決します。転移学習は、単一のプログラムで複数のタスクを解決できる AI への第一歩です。
Transformer
Google で開発されたニューラル ネットワーク アーキテクチャ。セルフ アテンション メカニズムを使用して、畳み込みや再帰型ニューラル ネットワークに依存することなく、入力エンベディングのシーケンスを出力エンベディングのシーケンスに変換します。Transformer は、自己注意レイヤのスタックと見なすことができます。
Transformer には次のいずれかを含めることができます。
エンコーダは、エンベディングのシーケンスを同じ長さの新しいシーケンスに変換します。エンコーダには N 個の同一レイヤが含まれ、各レイヤには 2 つのサブレイヤが含まれます。これらの 2 つのサブレイヤは、入力エンベディング シーケンスの各位置に適用され、シーケンスの各要素を新しいエンベディングに変換します。最初のエンコーダ サブレイヤは、入力シーケンス全体から情報を集約します。2 番目のエンコーダ サブレイヤは、集約された情報を出力エンベディングに変換します。
デコーダは、入力エンベディングのシーケンスを出力エンベディングのシーケンスに変換します。このとき、シーケンスの長さが異なる場合があります。デコーダには、3 つのサブレイヤを持つ N 個の同一のレイヤも含まれています。そのうち 2 つはエンコーダのサブレイヤと似ています。3 番目のデコーダ サブレイヤは、エンコーダの出力を受け取り、セルフアテンション メカニズムを適用して、そこから情報を収集します。
ブログ投稿の Transformer: 言語理解のための新しいニューラル ネットワーク アーキテクチャでは、Transformer の概要を説明しています。
詳細については、ML 集中講座の LLM: 大規模言語モデルとはをご覧ください。
並進不変性
画像分類問題において、画像内のオブジェクトの位置が変化しても、画像を正しく分類するアルゴリズムの能力。たとえば、フレームの中央に犬がいても、フレームの左端に犬がいても、アルゴリズムは犬を識別できます。
trigram
N=3 の n グラム。
真陰性(TN)
モデルが陰性クラスを正しく予測した例。たとえば、特定のメール メッセージが迷惑メールではないとモデルが推論し、そのメール メッセージが実際に迷惑メールではない場合です。
真陽性(TP)
モデルが陽性クラスを正しく予測した例。たとえば、特定のメール メッセージがスパムであるとモデルが推論し、そのメール メッセージが実際にスパムである場合です。
真陽性率(TPR)
リコールと同義。具体的には、次のことが求められます。
真陽性率は、ROC 曲線の Y 軸です。
TTL
有効期間の略。
U
Ultra
最も多くのパラメータを持つ Gemini モデル。詳しくは、Gemini Ultra をご覧ください。
認識不能(機密属性)
機密属性が存在するが、トレーニング データに含まれていない状況。機密属性はデータの他の属性と相関していることが多いため、機密属性を認識せずにトレーニングされたモデルでも、その属性に関して不公平な影響が生じたり、他の公平性制約に違反したりする可能性があります。
アンダーフィット
モデルがトレーニング データの複雑さを十分に把握していないため、予測能力の低いモデルが生成される。過少適合を引き起こす問題は多数あります。たとえば、次のようなものがあります。
詳細については、機械学習集中講座の過剰適合をご覧ください。
アンダーサンプリング
クラス不均衡データセットの多数派クラスからサンプルを削除して、よりバランスの取れたトレーニング セットを作成します。
たとえば、メジャークラスとマイナークラスの比率が 20:1 のデータセットを考えてみましょう。このクラスの不均衡を解消するには、少数派クラスのサンプルをすべて含み、多数派クラスのサンプルを10 分の 1 だけ含むトレーニング セットを作成します。これにより、トレーニング セットのクラス比率は 2:1 になります。アンダーサンプリングにより、このよりバランスの取れたトレーニング セットで、より優れたモデルが生成される可能性があります。また、このよりバランスの取れたトレーニング セットには、効果的なモデルをトレーニングするのに十分な例が含まれていない可能性があります。
オーバーサンプリングと比較してください。
単一方向
対象のテキスト セクションの前にあるテキストのみを評価するシステム。一方、双方向のシステムは、対象のテキスト セクションの前にあるテキストと後にあるテキストの両方を評価します。詳しくは、双方向をご覧ください。
単方向言語モデル
確率をターゲット トークンの後ではなく前に出現するトークンのみに基づいて計算する言語モデル。双方向言語モデルと比較してください。
ラベルのない例
特徴は含まれているが、ラベルは含まれていない例。たとえば、次の表は、住宅評価モデルのラベルなしの 3 つの例を示しています。各例には 3 つの特徴がありますが、住宅の価値はありません。
寝室の数 | 浴室の数 | 築年数 |
---|---|---|
3 | 2 | 15 |
2 | 1 | 72 |
4 | 2 | 34 |
教師あり ML では、モデルはラベル付きの例でトレーニングされ、ラベルなしの例で予測を行います。
半教師あり学習と教師なし学習では、トレーニング中にラベルなしの例が使用されます。
ラベルなしの例とラベル付きの例を比較します。
教師なし機械学習
データセット(通常はラベルなしデータセット)内のパターンを見つけるようにモデルをトレーニングします。
教師なし ML の最も一般的な用途は、類似した例のグループにデータをクラスタリングすることです。たとえば、教師なし ML アルゴリズムは、音楽のさまざまなプロパティに基づいて曲をクラスタリングできます。クラスタリングの結果は、他の ML アルゴリズム(音楽レコメンデーション サービスなど)の入力として使用できます。クラスタリングは、有用なラベルが不足している場合や存在しない場合に役立ちます。たとえば、不正使用や不正行為などのドメインでは、クラスタリングによって人間がデータをより深く理解できます。
教師あり機械学習と比較してください。
詳細については、ML 入門コースの機械学習とはをご覧ください。
アップリフト モデリング
マーケティングで一般的に使用されるモデリング手法。個々の「トリートメント」の「因果効果」(「増分効果」とも呼ばれます)をモデル化します。次に 2 つの例を示します。
- 医師は、患者(個人)の年齢や病歴に応じて、医療処置(治療)による死亡率の低下(因果効果)を予測するために、アップリフト モデリングを使用する場合があります。
- マーケティング担当者は、アップリフト モデリングを使用して、広告(トリートメント)が個人(個人)に与える購入確率の増加(因果効果)を予測できます。
アップリフト モデリングは、一部のラベル(たとえば、バイナリ トリートメントのラベルの半分)が常に欠落しているという点で、分類や回帰とは異なります。たとえば、患者は治療を受けるか受けないかのどちらかです。したがって、患者が治癒するかしないかは、この 2 つの状況のいずれかでのみ観察できます(両方で観察することはできません)。アップリフト モデルの主なメリットは、観測されていない状況(反事実)の予測を生成し、それを使用して因果効果を計算できることです。
アップウェイト
ダウンサンプリングした係数と同じ重みをダウンサンプリングしたクラスに適用します。
ユーザー マトリックス
レコメンデーション システムでは、行列分解によって生成されたエンベディング ベクトルが、ユーザーの好みに関する潜在的なシグナルを保持します。ユーザー マトリックスの各行には、1 人のユーザーのさまざまな潜在シグナルの相対的な強さに関する情報が含まれています。たとえば、映画のレコメンデーション システムについて考えてみましょう。このシステムでは、ユーザー マトリックスの潜在シグナルは、特定のジャンルに対する各ユーザーの興味を表す場合もあれば、複数の要因にわたる複雑なインタラクションを含む解釈が難しいシグナルを表す場合もあります。
ユーザー行列には、潜在的特徴ごとに 1 つの列があり、ユーザーごとに 1 つの行があります。つまり、ユーザー マトリックスの行数は、因数分解されるターゲット マトリックスの行数と同じになります。たとえば、1,000,000 人のユーザー向けの映画レコメンデーション システムの場合、ユーザー マトリックスには 1,000,000 行が含まれます。
V
検証
モデルの品質の初期評価。検証では、検証セットと比較してモデルの予測の品質を検査します。
検証セットはトレーニング セットとは異なるため、検証は過学習を防ぐのに役立ちます。
検証セットに対するモデルの評価を最初のテストラウンド、テストセットに対するモデルの評価を 2 回目のテストラウンドと考えることができます。
検証損失
トレーニングの特定の反復中に、検証セットでのモデルの損失を表す指標。
汎化曲線もご覧ください。
検証セット
トレーニング済みのモデルに対して初期評価を行う データセットのサブセット。通常、トレーニング済みモデルは、テストセットに対して評価する前に、検証セットに対して数回評価します。
従来、データセット内の例は次の 3 つの異なるサブセットに分割します。
- トレーニング セット
- 検証セット
- テストセット
理想的には、データセット内の各例は上記のサブセットのいずれか 1 つにのみ属している必要があります。たとえば、1 つの例がトレーニング セットと検証セットの両方に属することはできません。
詳細については、ML 集中講座のデータセット: 元のデータセットを分割するをご覧ください。
値の補完
欠損値を許容可能な代替値に置き換えるプロセス。値が欠落している場合は、例全体を破棄するか、値の補完を使用して例を復元できます。
たとえば、1 時間ごとに記録される temperature
特徴を含むデータセットについて考えてみましょう。ただし、特定の時間帯の温度測定値は利用できませんでした。データセットの一部を次に示します。
タイムスタンプ | 温度 |
---|---|
1680561000 | 10 |
1680564600 | 12 |
1680568200 | missing |
1680571800 | 20 |
1680575400 | 21 |
1680579000 | 21 |
システムは、欠損した例を削除するか、補完アルゴリズムに応じて欠損した温度を 12、16、18、20 のいずれかに補完します。
勾配消失問題
一部のディープ ニューラル ネットワークの初期の隠れ層の勾配が驚くほど平坦(低い)になる傾向。勾配が小さくなるほど、ディープ ニューラル ネットワークのノードの重みの変化が小さくなり、学習がほとんど行われなくなります。勾配消失問題が発生したモデルは、トレーニングが困難または不可能になります。Long Short-Term Memory セルは、この問題に対処します。
比較対象として、「勾配爆発問題」があります。
変数の重要度
各特徴のモデルに対する相対的な重要度を示すスコアのセット。
たとえば、住宅価格を推定する決定木について考えてみましょう。この決定木では、サイズ、年齢、スタイルの 3 つの特徴を使用するとします。3 つの特徴の変数重要度のセットが {size=5.8, age=2.5, style=4.7} と計算された場合、サイズは年齢やスタイルよりも決定木にとって重要です。
さまざまな変数重要度指標があり、モデルのさまざまな側面について ML の専門家に情報を提供できます。
変分オートエンコーダ(VAE)
入力と出力の不一致を利用して、入力の変更バージョンを生成するオートエンコーダの一種。変分オートエンコーダは生成 AI に役立ちます。
VAE は、確率モデルのパラメータを推定する手法である変分推論に基づいています。
ベクトル
意味が数学や科学の分野によって異なる、非常に過負荷な用語。機械学習では、ベクトルには次の 2 つのプロパティがあります。
- データ型: ML のベクトルには通常、浮動小数点数が含まれます。
- 要素数: ベクトルの長さ、つまり次元です。
たとえば、8 つの浮動小数点数を保持する特徴ベクトルについて考えてみましょう。この特徴ベクトルの長さ(ディメンション)は 8 です。機械学習ベクトルには、非常に多くの次元が含まれていることがよくあります。
さまざまな種類の情報をベクトルとして表現できます。次に例を示します。
- 地球上の任意の位置は、緯度と経度の 2 次元ベクトルで表すことができます。
- 500 個の株の現在の価格は、500 次元のベクトルとして表すことができます。
- 有限数のクラスの確率分布は、ベクトルとして表すことができます。たとえば、3 つの出力色(赤、緑、黄)のいずれかを予測するマルチクラス分類システムは、
(0.3, 0.2, 0.5)
ベクトルを出力してP[red]=0.3, P[green]=0.2, P[yellow]=0.5
を意味する可能性があります。
ベクトルは連結できるため、さまざまなメディアを 1 つのベクトルで表現できます。一部のモデルは、多くのワンホット エンコーディングの連結を直接処理します。
TPU などの専用プロセッサは、ベクトルに対する数学演算を実行するように最適化されています。
Vertex
AI と ML のための Google Cloud のプラットフォーム。Vertex は、Gemini モデルへのアクセスなど、AI アプリケーションの構築、デプロイ、管理のためのツールとインフラストラクチャを提供します。W
Wasserstein 損失
敵対的生成ネットワークで一般的に使用される損失関数の 1 つ。生成されたデータの分布と実際のデータの間のアース ムーバー距離に基づいています。
weight
モデルが別の値に乗算する値。トレーニングは、モデルの理想的な重みを決定するプロセスです。推論は、学習した重みを使用して予測を行うプロセスです。
詳細については、ML 集中講座の線形回帰をご覧ください。
加重交互最小二乗(WALS)
レコメンデーション システムの行列分解中に目的関数を最小化するアルゴリズム。欠損した例の重みを減らすことができます。WALS は、行の因数分解と列の因数分解を交互に固定することで、元の行列と再構成の間の重み付き二乗誤差を最小限に抑えます。これらの最適化はそれぞれ、最小二乗法による凸最適化で解決できます。詳細については、レコメンデーション システム コースをご覧ください。
加重合計
関連するすべての入力値に、対応する重みを掛けて合計した値。たとえば、関連する入力が次の要素で構成されているとします。
入力値 | 入力の重み |
2 | -1.3 |
-1 | 0.6 |
3 | 0.4 |
したがって、加重和は次のようになります。
weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0
加重合計は、活性化関数の入力引数です。
ワイドモデル
通常、多くのスパース入力特徴を持つ線形モデル。このようなモデルは、出力ノードに直接接続する多数の入力を持つ特殊なタイプのニューラル ネットワークであるため、「ワイド」と呼びます。ワイドモデルは、ディープモデルよりもデバッグと検査が容易な場合が多くあります。ワイドモデルは隠れ層を使用して非線形性を表現することはできませんが、特徴の交差やバケット化などの変換を使用して、さまざまな方法で非線形性をモデル化できます。
ディープモデルとの違い。
幅
ニューラル ネットワークの特定のレイヤにあるニューロンの数。
群衆の知恵
大勢の人々(「群衆」)の意見や推定値を平均すると、驚くほど良い結果が得られることが多いという考え方。たとえば、大きな瓶に詰められたジェリービーンズの数を当てるゲームを考えてみましょう。個々の推測はほとんどが不正確ですが、すべての推測の平均は、瓶の中の実際のジェリービーンズの数に驚くほど近いことが経験的に示されています。
アンサンブルは、群衆の知恵のソフトウェア アナログです。個々のモデルの予測が大きく外れていても、多くのモデルの予測を平均すると、驚くほど正確な予測が得られることがよくあります。たとえば、個々のディシジョン ツリーの予測精度は低い可能性がありますが、ディシジョン フォレストの予測精度は非常に高いことがよくあります。
ワード エンベディング
単語セット内の各単語をエンベディング ベクトルで表します。つまり、各単語を 0.0 ~ 1.0 の浮動小数点値のベクトルとして表します。意味が似ている単語は、意味が異なる単語よりも類似性の高い表現になります。たとえば、ニンジン、セロリ、キュウリはすべて比較的類似した表現になりますが、飛行機、サングラス、歯磨き粉の表現とは大きく異なります。
X
XLA(Accelerated Linear Algebra)
GPU、CPU、ML アクセラレータ用のオープンソースの ML コンパイラ。
XLA コンパイラは、PyTorch、TensorFlow、JAX などの一般的な ML フレームワークからモデルを取得し、GPU、CPU、ML アクセラレータなどのさまざまなハードウェア プラットフォームで高パフォーマンスの実行を実現するように最適化します。
Z
ゼロショット学習
モデルが、まだ具体的にトレーニングされていないタスクの予測を推論する機械学習トレーニングの一種。つまり、モデルにはタスク固有のトレーニング例は与えられませんが、そのタスクの推論を行うように求められます。
ゼロショット プロンプト
大規模言語モデルにどのように回答してほしいかの例が示されていないプロンプト。次に例を示します。
1 つのプロンプトの構成要素 | メモ |
---|---|
指定された国の公式通貨は何ですか? | LLM に回答してほしい質問。 |
インド: | 実際のクエリ。 |
大規模言語モデルは、次のいずれかのレスポンスを返す可能性があります。
- ルピー
- INR
- ₹
- ルピー(インド)
- ルピー
- インドルピー
どの形式も正しいですが、特定の形式が望ましい場合があります。
ゼロショット プロンプトと次の用語を比較対照します。
Z スコアの正規化
生の特徴値を、その特徴の平均からの標準偏差の数を表す浮動小数点値に置き換えるスケーリング手法。たとえば、平均が 800 で標準偏差が 100 の特徴について考えてみましょう。次の表に、Z スコア正規化によって生の値が Z スコアにどのようにマッピングされるかを示します。
Raw 値 | Z スコア |
---|---|
800 | 0 |
950 | +1.5 |
575 | -2.25 |
その後、機械学習モデルは、生の値ではなく、その特徴の Z スコアでトレーニングを行います。
詳細については、ML 集中講座の数値データ: 正規化をご覧ください。
この用語集では、機械学習の用語を定義します。