このページは Cloud Translation API によって翻訳されました。

機械学習の用語集

この用語集では、AI の用語を定義します。

A

アブレーション

特徴またはコンポーネントの重要度を評価する手法。モデルから一時的に削除します。次に、その特徴やコンポーネントなしでモデルを再トレーニングします。再トレーニングしたモデルのパフォーマンスが大幅に低下した場合は、削除した特徴やコンポーネントが重要であった可能性が高いです。

たとえば、10 個の特徴で分類モデルをトレーニングし、テストセットで 88% の精度を達成したとします。最初の特徴量の重要度を確認するには、他の 9 つの特徴量のみを使用してモデルを再トレーニングします。再トレーニングされたモデルのパフォーマンスが大幅に低下した場合（精度が 55% など）、削除された特徴量は重要だった可能性があります。逆に、再トレーニングしたモデルのパフォーマンスが同程度であれば、その特徴はそれほど重要ではなかった可能性があります。

アブレーションは、次の重要性を判断するうえでも役立ちます。

大規模な ML システムのサブシステム全体など、より大きなコンポーネント
データの前処理ステップなどのプロセスまたは手法

どちらの場合も、コンポーネントを削除した後にシステムのパフォーマンスがどのように変化するか（または変化しないか）を観察します。

A/B テスト

2 つ（またはそれ以上）の手法（A と B）を比較する統計的な方法。通常、A は既存の手法で、B は新しい手法です。A/B テストでは、どの手法のパフォーマンスが優れているかだけでなく、その差が統計的に有意であるかどうかも判断できます。

A/B テストでは通常、2 つの手法で 1 つの指標を比較します。たとえば、2 つの手法でモデルの精度を比較します。ただし、A/B テストでは、有限個の指標を比較することもできます。

アクセラレータチップ

#GoogleCloud

ディープラーニングアルゴリズムに必要な主要な計算を実行するように設計された特殊なハードウェアコンポーネントのカテゴリ。

アクセラレータチップ（または単にアクセラレータ）は、汎用 CPU と比較して、トレーニングタスクと推論タスクの速度と効率を大幅に向上させることができます。ニューラルネットワークのトレーニングや、同様の計算負荷の高いタスクに最適です。

アクセラレータチップの例:

ディープラーニング専用のハードウェアを備えた Google の Tensor Processing Unit（TPU）。
NVIDIA の GPU。当初はグラフィック処理用に設計されましたが、並列処理を可能にするように設計されており、処理速度を大幅に向上させることができます。

accuracy

#fundamentals

#Metric

分類予測の正解の数を予測の総数で割った数。具体的には、次のことが求められます。

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

たとえば、40 個の正しい予測と 10 個の誤った予測を行ったモデルの精度は次のようになります。

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

バイナリ分類では、正しい予測と正しくない予測のさまざまなカテゴリに固有の名前が付けられます。したがって、二項分類の精度の式は次のようになります。

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

ここで

TP は、真陽性（正しい予測）の数です。
TN は真陰性（正しい予測）の数です。
FP は偽陽性（誤った予測）の数です。
FN は偽陰性（誤った予測）の数です。

精度と適合率、再現率を比較対照します。

アイコンをクリックすると、精度とクラス不均衡データセットの詳細が表示されます。

精度は、状況によっては有用な指標ですが、誤解を招く可能性もあります。特に、精度は通常、クラス不均衡データセットを処理する分類モデルを評価するのに適した指標ではありません。

たとえば、ある亜熱帯の都市では、1 世紀に 25 日しか雪が降らないとします。雪が降らない日（負のクラス）は雪が降る日（正のクラス）よりもはるかに多いため、この都市の雪のデータセットはクラスの不均衡があります。毎日雪が降るか降らないかを予測するはずのバイナリ分類モデルが、毎日「雪が降らない」と予測しているとします。このモデルは精度は高いですが、予測能力はありません。次の表に、100 年間の予測の結果をまとめます。

カテゴリ	数値
TP	0
TN	36499
FP	0
FN	25

したがって、このモデルの精度は次のようになります。

accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (0 + 36499) / (0 + 36499 + 0 + 25) = 0.9993 = 99.93%

99.93% の精度は非常に高いように見えますが、実際にはモデルの予測能力はありません。

適合率と再現率は、通常、クラス不均衡データセットでトレーニングされたモデルを評価する場合、精度よりも有用な指標です。

詳細については、ML 集中講座の分類: 正確度、再現率、適合率、関連指標をご覧ください。

アクション

強化学習では、エージェントが環境の状態間を遷移するメカニズム。エージェントは、ポリシーを使用してアクションを選択します。

活性化関数

#fundamentals

ニューラルネットワークが特徴とラベルの間の非線形（複雑な）関係を学習できるようにする関数。

よく使用される活性化関数には、次のようなものがあります。

ReLU
シグモイド

活性化関数のプロットは、単一の直線になることはありません。たとえば、ReLU 活性化関数のプロットは 2 つの直線で構成されます。

2 つの線のデカルトプロット。最初の行は、x 軸に沿って -infinity,0 から 0,-0 まで実行される、y 値が 0 の定数です。2 行目は 0,0 から始まります。この線の傾きは +1 なので、0,0 から +無限大,+無限大まで伸びています。

シグモイド活性化関数のプロットは次のようになります。

x 値が -∞ から +∞ の範囲にあり、y 値が 0 から 1 の範囲にある 2 次元曲線プロット。x が 0 の場合、y は 0.5 になります。曲線の傾きは常に正の値で、0,0.5 で最も大きくなり、x の絶対値が増加するにつれて徐々に小さくなります。

アイコンをクリックすると、例が表示されます。

ニューラルネットワークでは、活性化関数は、ニューロンへのすべての入力の加重和を操作します。重み付き合計を計算するために、ニューロンは関連する値と重みの積を合計します。たとえば、ニューロンへの関連する入力が次のもので構成されているとします。

入力値	入力の重み
2	-1.3
-1	0.6
3	0.4

したがって、加重和は次のようになります。

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

このニューラルネットワークの設計者が、活性化関数としてシグモイド関数を選択したとします。この場合、ニューロンは -2.0 のシグモイドを計算します。これは約 0.12 です。したがって、ニューロンはニューラルネットワークの次のレイヤに -2.0 ではなく 0.12 を渡します。次の図に、プロセスの関連部分を示します。

詳細については、ML 集中講座のニューラルネットワーク: 活性化関数をご覧ください。

能動的学習

アルゴリズムが学習するデータの一部を選択するトレーニング アプローチ。アクティブラーニングは、ラベル付きの例が少ない場合や、取得に費用がかかる場合に特に有効です。能動的学習アルゴリズムは、さまざまなラベル付きの例を盲目的に探すのではなく、学習に必要な特定の範囲の例を選択的に探します。

AdaGrad

各パラメータの勾配をリスケールする高度な勾配降下アルゴリズム。各パラメータに独立した学習率を効果的に付与します。詳細については、オンライン学習と確率的最適化のための適応型サブグラディエント法をご覧ください。

適応

#generativeAI

チューニングまたはファインチューニングと同義。

エージェント

#generativeAI

マルチモーダルユーザー入力を推論して、ユーザーに代わってアクションを計画、実行できるソフトウェア。

強化学習では、エージェントは ポリシーを使用して、環境の状態間の遷移から得られる期待収益を最大化するエンティティです。

エージェントの/代理人の

#generativeAI

エージェントの形容詞形。エージェント性とは、エージェントが持つ特性（自律性など）を指します。

エージェントワークフロー

#generativeAI

エージェントが目標を達成するためにアクションを自律的に計画して実行する動的プロセス。このプロセスでは、推論、外部ツールの呼び出し、計画の自己修正が行われることがあります。

凝集型クラスタリング

#clustering

階層型クラスタリングをご覧ください。

AI スロップ

#generativeAI

品質よりも量を優先する生成 AI システムからの出力。たとえば、AI スロップを含むウェブページは、安価に作成された AI 生成の低品質なコンテンツで埋め尽くされています。

異常検出

外れ値を特定するプロセス。たとえば、特定の特徴の平均が 100 で標準偏差が 10 の場合、異常検出では値 200 が疑わしいと判断されます。

AR

拡張現実の略。

PR 曲線下面積

#Metric

PR AUC（PR 曲線の下の面積）をご覧ください。

ROC 曲線下面積

#Metric

AUC（ROC 曲線の下の面積）をご覧ください。

汎用人工知能

幅広い問題解決能力、創造性、適応性を示す非人間的なメカニズム。たとえば、汎用人工知能を実証するプログラムは、テキストの翻訳、交響曲の作曲、まだ発明されていないゲームでの優れたパフォーマンスを実現できます。

AI

#fundamentals

複雑なタスクを解決できる人間以外のプログラムまたはモデル。たとえば、テキストを翻訳するプログラムやモデル、放射線画像から病気を特定するプログラムやモデルは、どちらも人工知能を示しています。

正式には、ML は AI の一分野です。しかし、近年では、人工知能と機械学習という用語を同じ意味で使用する組織も出てきています。

Attention、

ニューラルネットワークで使用されるメカニズムで、特定の単語または単語の一部がどの程度重要かを示します。アテンションは、モデルが次のトークン/単語を予測するために必要な情報量を圧縮します。一般的なアテンションメカニズムは、一連の入力に対する加重和で構成されます。各入力の重みは、ニューラルネットワークの別の部分で計算されます。

Transformer の構成要素である セルフアテンションとマルチヘッドセルフアテンションもご覧ください。

セルフアテンションの詳細については、ML 集中講座の LLM: 大規模言語モデルとはをご覧ください。

属性

#responsible

機能と同義。

ML の公平性において、属性は個人に関連する特性を指すことがよくあります。

属性サンプリング

#df

各ディシジョンツリーが条件を学習するときに、可能な特徴のランダムなサブセットのみを考慮するディシジョンフォレストをトレーニングする戦術。通常、各ノードに対して、特徴量の異なるサブセットがサンプリングされます。一方、属性サンプリングなしで決定木をトレーニングする場合、各ノードですべての可能な特徴が考慮されます。

AUC（ROC 曲線の下の面積）

#fundamentals

#Metric

バイナリ分類モデルが陽性クラスと陰性クラスを分離する能力を表す 0.0 ～ 1.0 の数値。AUC が 1.0 に近いほど、クラスを互いに分離するモデルの能力が優れています。

たとえば、次の図は、陽性クラス（緑色の楕円）と陰性クラス（紫色の長方形）を完全に分離する分類モデルを示しています。この非現実的な完全なモデルの AUC は 1.0 です。

一方の側に 8 つの正の例、もう一方の側に 9 つの負の例がある数直線。

一方、次の図は、ランダムな結果を生成した分類モデルの結果を示しています。このモデルの AUC は 0.5 です。

6 つの正の例と 6 つの負の例を含む数直線。例のシーケンスは、正、負、正、負、正、負、正、負、正、負、正、負です。

はい。上記のモデルの AUC は 0.0 ではなく 0.5 です。

ほとんどのモデルは、この 2 つの極端なモデルの中間に位置します。たとえば、次のモデルは陽性と陰性をある程度分離するため、AUC は 0.5 ～ 1.0 の範囲になります。

6 つの正の例と 6 つの負の例を含む数直線。例のシーケンスは、負、負、負、負、正、負、正、正、負、正、正、正です。

AUC は、分類しきい値に設定した値を無視します。AUC は、可能なすべての分類しきい値を考慮します。

アイコンをクリックして、AUC と ROC 曲線の関係を確認します。

AUC は、ROC 曲線の下の面積を表します。たとえば、陽性と陰性を完全に分離するモデルの ROC 曲線は次のようになります。

AUC は、上の図のグレーの領域の面積です。この特殊なケースでは、面積はグレーの領域の長さ（1.0）にグレーの領域の幅（1.0）を掛けた値になります。したがって、1.0 と 1.0 の積は AUC が 1.0 になり、これは可能な限り高い AUC スコアです。

一方、クラスをまったく分離できない分類モデルの ROC 曲線は次のようになります。このグレーの領域の面積は 0.5 です。

一般的な ROC 曲線は次のようになります。

この曲線下の面積を手動で計算するのは大変なため、通常はプログラムでほとんどの AUC 値を計算します。

アイコンをクリックすると、AUC のより正式な定義が表示されます。

AUC は、無作為に選択した陽性のサンプルが陽性に分類される確率が、無作為に選択した陰性のサンプルが陽性に分類される確率よりも高い可能性を表します。分類モデルの信頼度が高いほど、AUC の値は大きくなります。

詳細については、ML 集中講座の分類: ROC と AUC をご覧ください。

拡張現実

コンピュータで生成された画像をユーザーの現実世界の視界に重ね合わせ、合成された視界を提供するテクノロジー。

オートエンコーダ

入力から最も重要な情報を抽出することを学習するシステム。オートエンコーダは、エンコーダとデコーダの組み合わせです。オートエンコーダは、次の 2 段階のプロセスに依存しています。

エンコーダは、入力を（通常は）損失のある低次元の（中間）形式にマッピングします。
デコーダは、低次元形式を元の高次元入力形式にマッピングすることで、元の入力の損失バージョンを構築します。

オートエンコーダは、エンコーダの中間形式から元の入力をできるだけ正確に再構成しようとするデコーダを使用して、エンドツーエンドでトレーニングされます。中間形式は元の形式よりも小さいため（低次元）、オートエンコーダは入力内のどの情報が不可欠かを学習する必要があり、出力は入力と完全に同じにはなりません。

次に例を示します。

入力データがグラフィックの場合、非完全コピーは元のグラフィックと似ていますが、多少変更されています。完全なコピーではないため、元のグラフィックからノイズが除去されたり、欠落したピクセルが補完されたりする可能性があります。
入力データがテキストの場合、オートエンコーダは元のテキストを模倣した（ただし、同一ではない）新しいテキストを生成します。

変分オートエンコーダもご覧ください。

自動評価

#generativeAI

ソフトウェアを使用してモデルの出力の品質を判断する。

モデルの出力が比較的単純な場合は、スクリプトまたはプログラムでモデルの出力をゴールデンレスポンスと比較できます。このタイプの自動評価は、プログラマティック評価と呼ばれることもあります。ROUGE や BLEU などの指標は、プログラムによる評価に役立つことがよくあります。

モデルの出力が複雑な場合や、正解が 1 つではない場合は、自動採点ツールと呼ばれる別の ML プログラムが自動評価を行うことがあります。

人間による評価と比較してください。

自動化バイアス

#responsible

自動意思決定システムが誤りを犯した場合でも、人間による意思決定者が自動意思決定システムによる推奨事項を、自動化なしで作成された情報よりも優先する場合。

詳細については、ML 集中講座の公平性: 偏りの種類をご覧ください。

AutoML

機械学習 モデルを構築するための自動化されたプロセス。AutoML では、次のようなタスクを自動的に実行できます。

最も適切なモデルを検索します。
ハイパーパラメータを調整します。
データ（特徴量エンジニアリングを含む）を準備します。
結果のモデルをデプロイします。

AutoML は、機械学習パイプラインの開発にかかる時間と労力を節約し、予測精度を向上させることができるため、データサイエンティストにとって有用です。また、複雑な ML タスクを非専門家でも利用できるようにすることで、非専門家にとっても有用です。

詳細については、ML 集中講座の自動機械学習（AutoML）をご覧ください。

自動評価

#generativeAI

人間による評価と自動評価を組み合わせた、生成 AI モデルの出力の品質を判断するためのハイブリッドメカニズム。自動評価ツールは、人間の評価によって作成されたデータでトレーニングされた ML モデルです。理想的には、自動評価ツールは人間の評価者を模倣することを学習します。

事前構築された自動評価ツールを利用できますが、最適な自動評価ツールは、評価するタスクに合わせて特別にファインチューニングされています。

自己回帰モデル

#generativeAI

独自の以前の予測に基づいて予測を推論するモデル。たとえば、自己回帰言語モデルは、以前に予測されたトークンに基づいて次のトークンを予測します。Transformer ベースの大規模言語モデルはすべて自動回帰です。

一方、GAN ベースの画像モデルは、通常は自己回帰ではありません。これは、画像をステップごとに反復的に生成するのではなく、単一のフォワードパスで生成するためです。ただし、一部の画像生成モデルは、画像を段階的に生成するため、自己回帰型です。

補助損失

損失関数 - ニューラルネットワーク モデルのメインの損失関数と組み合わせて使用され、重みがランダムに初期化される初期の反復でトレーニングを高速化します。

補助損失関数は、有効な勾配を前のレイヤにプッシュします。これにより、勾配消失問題に対処することで、トレーニング中の収束が容易になります。

k における平均適合率

#Metric

ランク付けされた結果（書籍の推奨事項の番号付きリストなど）を生成する単一のプロンプトに対するモデルのパフォーマンスを要約する指標。k における平均適合率は、各関連結果の k における適合率の値の平均です。したがって、k における平均適合率の式は次のようになります。

\[{\text{average precision at k}} = \frac{1}{n} \sum_{i=1}^n {\text{precision at k for each relevant item} } \]

ここで

$n$ は、リスト内の関連アイテムの数です。

k でのリコールとのコントラスト。

アイコンをクリックして例を確認

大規模言語モデルに次のクエリが与えられたとします。

List the 6 funniest movies of all time in order.

大規模言語モデルは次のリストを返します。

全般
Mean Girls
Platoon
ブライズメイズ史上最悪のウェディングプラン
Citizen Kane
This is Spinal Tap

返されたリストの映画のうち 4 本は非常に面白い（つまり、関連性が高い）が、2 本はドラマ（関連性が低い）である。次の表に結果の詳細を示します。

位置	映画	関連性があるか？	k での適合率
1	全般	○	1.0
2	Mean Girls	○	1.0
3	Platoon	いいえ	関連性がない
4	ブライズメイズ史上最悪のウェディングプラン	○	0.75
5	Citizen Kane	いいえ	関連性がない
6	This is Spinal Tap	○	0.67

関連性の高い結果の数は 4 です。したがって、6 での平均適合率は次のように計算できます。

$${\text{average precision at 6}} = \frac{1}{4} {\text{(1.0 + 1.0 + 0.75 + 0.67)} } $$ $${\text{average precision at 6}} = {\text{~0.85} } $$

軸に沿った条件

#df

ディシジョンツリーで、単一の特徴のみを含む条件。たとえば、area が特徴量の場合、次の条件は軸に沿った条件です。

area > 200

斜め条件も参照してください。

B

バックプロパゲーション

#fundamentals

ニューラルネットワークで勾配降下法を実装するアルゴリズム。

ニューラルネットワークのトレーニングには、次の 2 パスサイクルの多くの反復が含まれます。

フォワードパスでは、システムは バッチの例を処理して、予測を生成します。システムは、各予測を各ラベル値と比較します。予測値とラベル値の差が、その例の損失になります。システムは、すべての例の損失を集計して、現在のバッチの合計損失を計算します。
バックワードパス（バックプロパゲーション）では、すべての隠れ層のすべてのニューロンの重みを調整することで、損失を減らします。

ニューラルネットワークには、多くの隠れ層に多くのニューロンが含まれていることがよくあります。これらのニューロンはそれぞれ異なる方法で全体的な損失に貢献します。バックプロパゲーションは、特定のニューロンに適用される重みを増減するかどうかを決定します。

学習率は、各バックワードパスで各重みを増減させる程度を制御する乗数です。学習率が大きいほど、各重みの増減が大きくなります。

微積分の用語で言うと、バックプロパゲーションは微積分の連鎖律を実装します。つまり、バックプロパゲーションは、各パラメータに関する誤差の偏導関数を計算します。

数年前までは、ML 実務家は逆伝播を実装するためにコードを記述する必要がありました。Keras などの最新の ML API では、バックプロパゲーションが実装されています。さて、

詳細については、ML 集中講座のニューラルネットワークをご覧ください。

バギング

#df

各構成要素の モデルが、復元抽出でサンプリングされたトレーニング例のランダムなサブセットでトレーニングされるアンサンブルをトレーニングする方法。たとえば、ランダムフォレストは、バギングでトレーニングされたディシジョンツリーのコレクションです。

バギングという用語は、ブートストラップアグリゲーションの略です。

詳細については、Decision Forests コースのランダムフォレストをご覧ください。

bag of words

フレーズや文章内の単語の表現。順序は関係ありません。たとえば、バッグオブワーズは次の 3 つのフレーズを同じように表します。

犬が飛び跳ねる
犬を飛び越える
犬が

各単語は、スパースベクトル内のインデックスにマッピングされます。このベクトルには、語彙内のすべての単語のインデックスが含まれます。たとえば、「犬がジャンプする」というフレーズは、「犬」、「ジャンプする」という単語に対応する 3 つのインデックスにゼロ以外の値を持つ特徴ベクトルにマッピングされます。ゼロ以外の値は次のいずれかになります。

単語の存在を示す 1。
バッグ内の単語の出現回数。たとえば、フレーズが「the maroon dog is a dog with maroon fur」の場合、「maroon」と「dog」の両方が 2 として表され、他の単語は 1 として表されます。
単語がバッグに出現する回数の対数など、他の値。

ベースライン

#Metric

別のモデル（通常はより複雑なモデル）のパフォーマンスを比較評価するための基準点として使用されるモデル。たとえば、ロジスティック回帰モデルは、ディープラーニングモデルの優れたベースラインとして機能します。

特定の問題に関して、ベースラインは、新しいモデルが有用であるために新しいモデルが達成する必要があるパフォーマンスの最小期待値をモデルデベロッパーが定量化するのに役立ちます。

ベースモデル

#generativeAI

特定のタスクやアプリケーションに対応するためのファインチューニングの出発点として使用できる事前トレーニング済みモデル。

事前トレーニング済みモデルと基盤モデルもご覧ください。

Batch

#fundamentals

1 回のトレーニングイテレーションで使用されるサンプルのセット。バッチサイズは、バッチ内のサンプル数を決定します。

バッチとエポックの関係については、エポックをご覧ください。

詳細については、ML 集中講座の線形回帰: ハイパーパラメータをご覧ください。

バッチ推論

#GoogleCloud

複数のラベルなしの例を小さなサブセット（「バッチ」）に分割して、予測を推論するプロセス。

バッチ推論では、アクセラレータチップの並列化機能を利用できます。つまり、複数のアクセラレータがラベルなしの例の異なるバッチで同時に予測を推論できるため、1 秒あたりの推論数が大幅に増加します。

詳細については、ML 集中講座の本番環境の ML システム: 静的推論と動的推論をご覧ください。

バッチ正規化

隠れ層の活性化関数の入力または出力を正規化します。バッチ正規化には、次の利点があります。

外れ値の重みから保護することで、ニューラルネットワークの安定性を高めます。
学習率を上げて、トレーニングを高速化します。
過学習を減らします。

バッチサイズ

#fundamentals

バッチ内のサンプルの数。たとえば、バッチサイズが 100 の場合、モデルは 1 回のイテレーションごとに 100 個の例を処理します。

一般的なバッチサイズ戦略は次のとおりです。

バッチサイズが 1 の確率的勾配降下法（SGD）。
フルバッチ。バッチサイズは、トレーニングセット全体のサンプル数です。たとえば、トレーニングセットに 100 万個のサンプルが含まれている場合、バッチサイズは 100 万個のサンプルになります。通常、フルバッチは非効率的な戦略です。
バッチサイズが通常 10 ～ 1,000 の ミニバッチ。通常、ミニバッチが最も効率的な戦略です。

詳しくは以下をご覧ください。

機械学習集中講座の本番環境 ML システム: 静的推論と動的推論。
ディープラーニングチューニングハンドブック。

ベイズニューラルネットワーク

重みと出力の不確実性を考慮する確率的ニューラルネットワーク。標準的なニューラルネットワーク回帰モデルは、通常、スカラー値を予測します。たとえば、標準モデルは住宅価格を 853,000 と予測します。一方、ベイズニューラルネットワークは値の分布を予測します。たとえば、ベイズモデルは、住宅価格を 853,000、標準偏差を 67,200 と予測します。

ベイズニューラルネットワークは、ベイズの定理に基づいて重みと予測の不確実性を計算します。ベイズニューラルネットワークは、医薬品関連のモデルなど、不確実性を定量化することが重要な場合に役立ちます。ベイズニューラルネットワークは、過剰適合の防止にも役立ちます。

ベイズ最適化

ベイズ学習手法を使用して不確実性を定量化するサロゲートを最適化することで、計算コストの高い目的関数を最適化する確率回帰モデル手法。ベイズ最適化自体が非常にコストのかかる処理であるため、通常は、ハイパーパラメータの選択など、パラメータの数が少ない評価コストの高いタスクを最適化するために使用されます。

ベルマン方程式

強化学習では、最適な Q 関数によって次の恒等式が満たされます。

\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]

強化学習アルゴリズムは、この同一性を適用して、次の更新ルールを使用して Q 学習を作成します。

\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]

強化学習以外にも、ベルマン方程式は動的プログラミングに応用されています。ベルマン方程式の Wikipedia エントリをご覧ください。

BERT（Bidirectional Encoder Representations from Transformers）

テキストの表現のモデルアーキテクチャ。トレーニング済みの BERT モデルは、テキスト分類やその他の ML タスク用の大規模モデルの一部として機能します。

BERT には次の特徴があります。

Transformer アーキテクチャを使用するため、セルフアテンションに依存します。
Transformer のエンコーダ部分を使用します。エンコーダの役割は、分類などの特定のタスクを実行することではなく、適切なテキスト表現を生成することです。
双方向です。
教師なしトレーニングにマスキングを使用します。

BERT のバリエーションには次のようなものがあります。

ALBERT（A Light BERT の頭文字）。
LaBSE。

BERT の概要については、オープンソース化された BERT: 自然言語処理の最先端の事前トレーニングをご覧ください。

バイアス（倫理/公正性）

#responsible

#fundamentals

1. 特定のこと、人、グループに対する固定観念、偏見、またはえこひいき。こうしたバイアスは、データの収集と解釈、システムの設計、ユーザーがシステムを操作する方法に影響する可能性があります。このタイプのバイアスの形式には、次のようなものがあります。

自動化バイアス
確証バイアス
実験者のバイアス
グループ帰属バイアス
暗黙的なバイアス
所属グループのバイアス
自分が属していないグループに対する均一性のバイアス

2. サンプリングや報告の手順で体系的に生じたエラー。このタイプのバイアスの形式には、次のようなものがあります。

報道の偏り
無回答バイアス
参加バイアス
報告バイアス
サンプリングバイアス
選択バイアス

ML モデルのバイアス項や予測バイアスと混同しないでください。

詳細については、ML 集中講座の公平性: 偏りの種類をご覧ください。

バイアス（数学）またはバイアス項

#fundamentals

原点からの切片またはオフセット。バイアスは、機械学習モデルのパラメータです。次のいずれかで表されます。

b
w₀

たとえば、次の数式では、バイアスは b です。

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

単純な 2 次元線では、バイアスは単に「y 切片」を意味します。たとえば、次の図の線のバイアスは 2 です。

傾きが 0.5、バイアス（y 切片）が 2 の線のプロット。

バイアスは、すべてのモデルが原点（0,0）から始まるわけではないために存在します。たとえば、遊園地の入場料が 2 ユーロで、滞在 1 時間ごとに 0.5 ユーロの追加料金が発生するとします。したがって、総費用をマッピングするモデルのバイアスは 2 になります。これは、最低費用が 2 ユーロであるためです。

バイアスは、倫理と公平性のバイアスや予測バイアスと混同しないでください。

詳細については、機械学習集中講座の線形回帰をご覧ください。

双方向

対象のテキストセクションの前と後の両方にあるテキストを評価するシステムを表す用語。一方、単方向のシステムは、対象のテキストセクションの前にあるテキストのみを評価します。

たとえば、次の質問の下線部分を表す単語の確率を判断する必要があるマスク言語モデルについて考えてみましょう。

_____ はどうなっていますか？

一方向言語モデルは、「What」、「is」、「the」という単語で提供されるコンテキストのみに基づいて確率を計算する必要があります。一方、双方向言語モデルは「with」と「you」からもコンテキストを取得できるため、モデルがより適切な予測を生成できる可能性があります。

双方向言語モデル

先行テキストと後続テキストに基づいて、テキストの抜粋内の特定の場所に特定のトークンが存在する確率を判断する言語モデル。

バイグラム

N=2 の n グラム。

バイナリ分類

#fundamentals

2 つの相互に排他的なクラスのいずれかを予測する分類タスクの一種。

陽性クラス
陰性クラス

たとえば、次の 2 つの機械学習モデルはそれぞれバイナリ分類を実行します。

メールメッセージが迷惑メール（ポジティブクラス）か迷惑メールでない（ネガティブクラス）かを判断するモデル。
病状を評価して、特定の病気がある（陽性クラス）か、その病気がない（陰性クラス）かを判断するモデル。

マルチクラス分類と比較してください。

ロジスティック回帰と分類しきい値もご覧ください。

詳細については、機械学習集中講座の分類をご覧ください。

バイナリ条件

#df

決定木では、通常は yes または no の 2 つの結果のみが可能な条件。たとえば、次の条件はバイナリ条件です。

temperature >= 100

非バイナリ条件も参照してください。

詳細については、Decision Forests コースの条件のタイプをご覧ください。

ビニング

バケット化と同義。

ブラックボックスモデル

人間の理解が不可能または困難な「推論」を行うモデル。つまり、人間はプロンプトがレスポンスにどのように影響するかを確認できますが、ブラックボックスモデルがレスポンスをどのように決定するかを正確に判断することはできません。つまり、ブラックボックスモデルには解釈可能性がありません。

ほとんどのディープモデルと大規模言語モデルはブラックボックスです。

BLEU（Bilingual Evaluation Understudy）

機械翻訳（スペイン語から日本語など）を評価するための 0.0 ～ 1.0 の指標。

スコアを計算するために、BLEU は通常、ML モデルの翻訳（生成されたテキスト）を人間の専門家の翻訳（参照テキスト）と比較します。生成されたテキストと参照テキストの n グラムの一致度によって BLEU スコアが決まります。

この指標に関する元の論文は、BLEU: a Method for Automatic Evaluation of Machine Translation です。

BLEURT もご覧ください。

BLEURT（Bilingual Evaluation Understudy from Transformers）

ある言語から別の言語への機械翻訳（特に英語との間の翻訳）を評価するための指標。

英語との間の翻訳では、BLEURT は BLEU よりも人間の評価に沿った結果が得られます。BLEU とは異なり、BLEURT は意味的類似性を重視し、言い換えに対応できます。

BLEURT は、事前トレーニングされた大規模言語モデル（正確には BERT）に依存しています。このモデルは、人間の翻訳者のテキストでファインチューニングされています。

この指標に関する元の論文は、BLEURT: Learning Robust Metrics for Text Generation です。

ブースト

一連の単純で精度が低い分類モデル（「弱い分類器」と呼ばれる）を反復的に組み合わせて、モデルが現在誤分類している例を重み付けすることで、精度の高い分類モデル（「強い分類器」）にする機械学習手法。

詳細については、デシジョンフォレストコースの勾配ブーストディシジョンツリーとはをご覧ください。

境界ボックス

画像内の関心領域（下の画像の犬など）を囲む長方形の（x, y）座標。

ソファに座っている犬の写真。左上の座標が（275、1271）、右下の座標が（2954、2761）の緑色の境界ボックスが犬の体を囲んでいる

ブロードキャスト

行列演算でオペランドのシェイプをその演算と互換性のあるディメンションに拡張すること。たとえば、線形代数では、行列の加算演算の 2 つのオペランドの次元が同じである必要があります。したがって、形状 (m, n) の行列を長さ n のベクトルに追加することはできません。ブロードキャストでは、長さ n のベクトルを (m, n) の形状の行列に仮想的に拡張し、各列に同じ値を複製することで、このオペレーションを可能にします。

アイコンをクリックして例を確認します。

A と B の定義が次のようになっている場合、A と B の次元が異なるため、線形代数では A+B は禁止されます。

A = [[7, 10, 4],
     [13, 5, 9]]
B = [2]

ただし、ブロードキャストを使用すると、B を次のように仮想的に拡張して A+B のオペレーションを実行できます。

 [[2, 2, 2],
  [2, 2, 2]]

したがって、A+B は有効なオペレーションになります。

[[7, 10, 4],  +  [[2, 2, 2],  =  [[ 9, 12, 6],
 [13, 5, 9]]      [2, 2, 2]]      [15, 7, 11]]

詳しくは、NumPy のブロードキャストの説明をご覧ください。

バケット化、

#fundamentals

通常は値の範囲に基づいて、1 つの特徴をバケットまたはビンと呼ばれる複数のバイナリ特徴に変換します。切り捨てられた特徴は通常、連続特徴です。

たとえば、温度を 1 つの連続した浮動小数点型の特徴量として表すのではなく、温度の範囲を次のような離散的なバケットに分割できます。

10 度以下は「コールド」バケットになります。
11 ～ 24 度の場合は「温帯」バケットになります。
摂氏 25 度以上は「暖かい」バケットになります。

モデルは、同じバケット内のすべての値を同じように扱います。たとえば、値 13 と 22 はどちらも中温バケットにあるため、モデルは 2 つの値を同じように扱います。

アイコンをクリックすると、追加のメモが表示されます。

温度を連続特徴として表すと、モデルは温度を単一の特徴として扱います。温度を 3 つのバケットで表す場合、モデルは各バケットを個別の特徴として扱います。つまり、モデルは各バケットとラベルの個別の関係を学習できます。たとえば、線形回帰モデルは、バケットごとに個別の重みを学習できます。

バケットの数を増やすと、モデルが学習する必要がある関係の数が増えるため、モデルがより複雑になります。たとえば、コールド、テンパレート、ウォームのバケットは、モデルがトレーニングする 3 つの別々の機能です。たとえば、フリーズとホットの 2 つのバケットを追加すると、モデルは 5 つの個別の特徴でトレーニングする必要があります。

作成するバケットの数や、各バケットの範囲をどのように判断すればよいですか？通常、回答にはかなりの量のテストが必要です。

詳細については、機械学習集中講座の数値データ: ビン分割をご覧ください。

C

キャリブレーションレイヤ

通常は予測バイアスを考慮するために行う予測後の調整。調整された予測と確率は、観測されたラベルのセットの分布と一致する必要があります。

候補の生成

おすすめシステムによって選択された最適化案の初期セット。たとえば、10 万冊の書籍を提供する書店を考えてみましょう。候補生成フェーズでは、特定のユーザーに適した書籍のリストがはるかに小さく（500 冊など）なります。しかし、500 冊もの書籍をユーザーにすすめるのは多すぎます。レコメンデーションシステムの後続のより高価なフェーズ（スコアリングや再ランキングなど）では、これらの 500 個の候補が、より小さく、より有用なレコメンデーションセットに絞り込まれます。

詳細については、レコメンデーションシステムコースの候補生成の概要をご覧ください。

候補サンプリング

トレーニング時に最適化を行い、たとえば softmax を使用してすべての陽性ラベルの確率を計算しますが、陰性ラベルのランダムサンプルに対してのみ計算します。たとえば、ビーグルと犬というラベルの付いた例が与えられた場合、候補サンプリングは次の予測確率と対応する損失項を計算します。

beagle
犬
残りのネガティブクラスのランダムなサブセット（猫、棒付きキャンディ、フェンスなど）。

ポジティブクラスが常に適切なポジティブ強化を受ければ、ネガティブクラスは頻度の低いネガティブ強化から学習できるという考え方です。これは実際に経験的に観察されています。

候補サンプリングは、特に負のクラスの数が非常に多い場合に、すべての負のクラスの予測を計算するトレーニングアルゴリズムよりも計算効率が高くなります。

カテゴリデータ

#fundamentals

特徴。取り得る値の特定のセットがあります。たとえば、traffic-light-state という名前のカテゴリ特徴について考えてみます。この特徴は、次の 3 つの値のいずれか 1 つのみを取ることができます。

red
yellow
green

traffic-light-state をカテゴリ特徴量として表現することで、モデルは red、green、yellow が運転者の行動に与える影響の違いを学習できます。

カテゴリ特徴は、離散特徴と呼ばれることもあります。

数値データと比較してください。

詳細については、ML 集中講座のカテゴリデータの操作をご覧ください。

因果言語モデル

単一言語ペアの言語モデルと同義。

言語モデリングにおけるさまざまな方向性のアプローチを比較するには、双方向言語モデルをご覧ください。

centroid

#clustering

k 平均法または k 中央値アルゴリズムによって決定されたクラスタの中心。たとえば、k が 3 の場合、k 平均法または k 中央値アルゴリズムは 3 つのセントロイドを見つけます。

詳細については、クラスタリングコースのクラスタリングアルゴリズムをご覧ください。

重心ベースのクラスタリング

#clustering

データを非階層クラスタに編成するクラスタリング アルゴリズムのカテゴリ。k 平均法は、最も広く使用されている重心ベースのクラスタリングアルゴリズムです。

階層型クラスタリング アルゴリズムと比較してください。

詳細については、クラスタリングコースのクラスタリングアルゴリズムをご覧ください。

Chain-of-Thought プロンプト

#generativeAI

大規模言語モデル（LLM）に推論を段階的に説明するように促すプロンプトエンジニアリング手法。たとえば、次のプロンプトについて考えてみましょう。特に 2 文目に注目してください。

時速 0 マイルから時速 60 マイルまで 7 秒で加速する車に乗っているドライバーが受ける G フォースはどのくらいですか？回答には、関連する計算をすべて示してください。

LLM のレスポンスは、次のようになります。

物理の公式のシーケンスを表示し、適切な場所に 0、60、7 の値を代入します。
選択した数式とその理由、さまざまな変数の意味を説明します。

Chain-of-thought プロンプトを使用すると、LLM はすべての計算を実行する必要があるため、より正確な回答が得られる可能性があります。また、連鎖思考プロンプトを使用すると、ユーザーは LLM の手順を調べて、回答が妥当かどうかを判断できます。

文字 N グラム F スコア（ChrF）

#Metric

機械翻訳モデルを評価する指標。文字 N グラム F スコアは、参照テキストの N グラムが ML モデルの生成テキストの N グラムとどの程度重複しているかを判断します。

文字 n グラム F スコアは、ROUGE ファミリーと BLEU ファミリーの指標に似ていますが、次の点が異なります。

文字 N グラム F スコアは、文字 N グラムで動作します。
ROUGE と BLEU は、単語 N グラムまたはトークンで動作します。

チャット

#generativeAI

ML システム（通常は大規模言語モデル）とのやり取りの内容。チャットでの以前のやり取り（入力した内容と大規模言語モデルの回答）が、チャットの後続部分のコンテキストになります。

chatbot は大規模言語モデルのアプリケーションです。

チェックポイント

トレーニング中またはトレーニング完了後にモデルのパラメータの状態をキャプチャするデータ。たとえば、トレーニング中に次のことができます。

トレーニングを停止します。これは、意図的に行う場合もあれば、特定のエラーの結果としてそうなる場合もあります。
チェックポイントをキャプチャします。
後で、別のハードウェアでチェックポイントを再読み込みします。
トレーニングを再開します。

クラス

#fundamentals

ラベルが属することができるカテゴリ。次に例を示します。

スパムを検出するバイナリ分類モデルでは、2 つのクラスは スパムと非スパムになります。
犬種を識別するマルチクラス分類モデルでは、クラスはプードル、ビーグル、パグなどになります。

分類モデルは、クラスを予測します。一方、回帰モデルはクラスではなく数値を予測します。

詳細については、機械学習集中講座の分類をご覧ください。

クラスバランスデータセット

各カテゴリのインスタンス数がほぼ等しいカテゴリカル ラベルを含むデータセット。たとえば、バイナリラベルが native plant または nonnative plant のいずれかである植物データセットを考えてみましょう。

515 個の在来植物と 485 個の外来植物を含むデータセットは、クラスバランスデータセットです。
875 個の自生植物と 125 個の外来植物を含むデータセットは、クラス不均衡データセットです。

クラスバランスデータセットとクラス不均衡データセットの間に明確な境界線はありません。この区別が重要になるのは、クラスの不均衡が著しいデータセットでトレーニングされたモデルが収束できない場合のみです。詳細については、ML 集中講座のデータセット: 不均衡なデータセットをご覧ください。

分類モデル

#fundamentals

予測がクラスであるモデル。たとえば、次のモデルはすべて分類モデルです。

入力文の言語を予測するモデル（フランス語か、スペイン語ですか？イタリア語か、など）。
樹木の種類を予測するモデル（メープルか、オークか、バオバブか、など）。
特定の病状について、陽性クラスか陰性クラスかを予測するモデル。

一方、回帰モデルはクラスではなく数値を予測します。

一般的な分類モデルには次の 2 つがあります。

バイナリ分類
マルチクラス分類

分類しきい値

#fundamentals

バイナリ分類では、ロジスティック回帰モデルの未加工の出力を陽性クラスまたは陰性クラスのいずれかの予測に変換する 0 ～ 1 の数値。分類しきい値は、モデルトレーニングで選択された値ではなく、人間が選択する値です。

ロジスティック回帰モデルは、0 ～ 1 の範囲の生の値を出力します。以下の手順を行います。

この生の値が分類しきい値より大きい場合、正のクラスが予測されます。
この生の値が分類しきい値より小さい場合、負のクラスが予測されます。

たとえば、分類しきい値が 0.8 であるとします。生の値が 0.9 の場合、モデルは陽性クラスを予測します。生の値が 0.7 の場合、モデルは負のクラスを予測します。

分類しきい値の選択は、偽陽性と偽陰性の数に大きな影響を与えます。

アイコンをクリックすると、追加のメモが表示されます。

モデルやデータセットの進化に伴い、エンジニアが分類しきい値を変更することもあります。分類しきい値を変更すると、陽性クラスの予測が突然陰性クラスになったり、その逆になったりする可能性があります。

たとえば、バイナリ分類の病気予測モデルについて考えてみましょう。システムが 1 年目に実行されたとします。

特定の患者の生の値は 0.95 です。
分類しきい値は 0.94 です。

そのため、システムは陽性のクラスを診断します。（患者が息をのむ。「ああ、I'm sick!")

1 年後、値は次のようになっている可能性があります。

同じ患者の生の値は 0.95 のままです。
分類しきい値が 0.97 に変更されます。

そのため、システムは患者を陰性クラスに再分類します。（「今日はいい日だ！I'm not sick.」（私は病気ではありません）と答えます。同じ患者です。別の診断。

詳細については、ML 集中講座のしきい値と混同行列をご覧ください。

分類器

#fundamentals

分類モデルのカジュアルな用語。

クラスの不均衡なデータセット

#fundamentals

各クラスのラベルの総数が大きく異なる分類のデータセット。たとえば、2 つのラベルが次のように分割されているバイナリ分類データセットについて考えてみましょう。

1,000,000 個の負のラベル
10 個の正のラベル

ネガティブラベルとポジティブラベルの比率は 100,000 対 1 であるため、これはクラス不均衡データセットです。

一方、次のデータセットは、ネガティブラベルとポジティブラベルの比率が 1 に比較的近いため、クラスバランスが取れています。

517 個の負のラベル
483 個の正のラベル

マルチクラスデータセットは、クラスの不均衡が生じている場合もあります。たとえば、次のマルチクラス分類データセットも、1 つのラベルの例が他の 2 つのラベルよりもはるかに多いため、クラスの不均衡があります。

クラス「green」のラベルが 1,000,000 個
クラス「purple」のラベルが 200 個
クラス「orange」のラベルが 350 個

クラスの不均衡なデータセットをトレーニングすると、特別な課題が生じる可能性があります。詳細については、ML 集中講座の不均衡なデータセットをご覧ください。

エントロピー、多数派クラス、少数派クラスもご覧ください。

クリッピング

#fundamentals

次のいずれかまたは両方を行うことで、外れ値を処理する手法。

最大しきい値を超える特徴の値を最大しきい値まで減らします。
最小しきい値未満の特徴量の値を最小しきい値まで引き上げます。

たとえば、特定の特徴の値の 0.5% 未満が 40 ～ 60 の範囲外にあるとします。この場合は、次の操作を行います。

60（最大しきい値）を超えるすべての値を 60 にクリップします。
40（最小しきい値）未満のすべての値を 40 にクリップします。

外れ値はモデルを損傷させ、トレーニング中に重みがオーバーフローすることがあります。一部の外れ値は、精度などの指標を大幅に損なう可能性があります。クリッピングは、損傷を制限する一般的な手法です。

勾配クリッピングは、トレーニング中に指定された範囲内の勾配値を強制します。

詳細については、ML 集中講座の数値データ: 正規化をご覧ください。

Cloud TPU

#TensorFlow

#GoogleCloud

Google Cloud での ML ワークロードの高速化を目的として設計された特殊なハードウェアアクセラレータ。

クラスタリング

#clustering

関連する例をグループ化する（特に教師なし学習中）。すべての例がグループ化されたら、各クラスタに意味を付与できます。

クラスタリングアルゴリズムは多数存在します。たとえば、K 平均法アルゴリズムは、次の図のように、重心との距離に基づいて例をクラスタリングします。

X 軸に「木の幅」、Y 軸に「木の高さ」というラベルが付けられた 2 次元グラフ。グラフには 2 つの重心と数十個のデータポイントが含まれています。データポイントは、その近接性に基づいて分類されます。つまり、一方のセントロイドに最も近いデータポイントはクラスタ 1 に分類され、もう一方のセントロイドに最も近いデータポイントはクラスタ 2 に分類されます。

その後、人間の研究者がクラスタを確認し、たとえば、クラスタ 1 に「矮性樹木」、クラスタ 2 に「成木」というラベルを付けます。

別の例として、次の図に示すように、中心点からの例の距離に基づくクラスタリングアルゴリズムについて考えてみましょう。

数十個のデータポイントが同心円状に配置され、ダーツボードの中心の周りの穴のようになっています。データポイントの最も内側のリングはクラスタ 1、中央のリングはクラスタ 2、最も外側のリングはクラスタ 3 に分類されます。

詳細については、クラスタリングコースをご覧ください。

共適応

ニューロンが、ネットワーク全体の動作に依存するのではなく、特定の他のニューロンの出力にほぼ完全に依存して、トレーニングデータのパターンを予測する望ましくない動作。共適応を引き起こすパターンが検証データに存在しない場合、共適応によって過剰適合が発生します。ドロップアウト正則化は、ドロップアウトによってニューロンが特定の他のニューロンのみに依存できないようにするため、共適応を減らします。

コラボレーションフィルタリング

他の多くのユーザーの関心に基づいて、あるユーザーの関心について予測を行う。コラボレーションフィルタリングは、レコメンデーションシステムでよく使用されます。

詳細については、レコメンデーションシステムコースの協調フィルタリングをご覧ください。

コンパクトモデル

計算リソースが限られた小型デバイスで実行するように設計された小規模なモデル。たとえば、コンパクトモデルはスマートフォン、タブレット、組み込みシステムで実行できます。

compute

（名詞）モデルまたはシステムで使用されるコンピューティングリソース（処理能力、メモリ、ストレージなど）。

アクセラレータチップをご覧ください。

コンセプトドリフト

特徴とラベルの関係の変化。時間の経過とともに、コンセプトのドリフトによってモデルの品質が低下します。

トレーニング中、モデルはトレーニングセット内の特徴とそのラベルの関係を学習します。トレーニングセットのラベルが現実世界の適切なプロキシである場合、モデルは現実世界で適切な予測を行う必要があります。ただし、コンセプトのドリフトにより、モデルの予測は時間の経過とともに精度が低下する傾向があります。

たとえば、特定の車種が「燃費が良い」かどうかを予測するバイナリ分類モデルについて考えてみましょう。つまり、特徴は次のようになります。

車の重量
エンジンの圧縮
transmission type

ラベルが次のいずれかである場合:

燃料効率が良い
燃費が悪い

ただし、「燃費の良い車」の概念は常に変化しています。1994 年に「燃費が良い」とラベル付けされた自動車モデルは、2024 年にはほぼ確実に「燃費が良くない」とラベル付けされるでしょう。コンセプトドリフトが発生しているモデルは、時間の経過とともに有用性の低い予測を行う傾向があります。

非定常性と比較対照します。

アイコンをクリックすると、追加のメモが表示されます。

コンセプトのドリフトを補正するには、コンセプトのドリフトのレートよりも速くモデルを再トレーニングします。たとえば、コンセプトドリフトによってモデルの精度が 2 か月ごとに大幅に低下する場合は、2 か月よりも頻繁にモデルを再トレーニングします。

商品の状態（condition）

#df

ディシジョンツリーでは、テストを実行する任意のノード。たとえば、次のディシジョンツリーには 2 つの条件が含まれています。

2 つの条件（x > 0）と（y > 0）で構成されるディシジョンツリー。

条件は、分割またはテストとも呼ばれます。

leaf とのコントラスト条件。

confabulation

ハルシネーションと同義。

幻覚よりも、虚言の方が技術的に正確な用語である可能性があります。しかし、最初に普及したのはハルシネーションでした。

構成

モデルのトレーニングに使用される初期プロパティ値を割り当てるプロセス。次のものがあります。

モデルの構成レイヤ
データの場所
次のようなハイパーパラメータ:

ML プロジェクトでは、特別な構成ファイルを使用するか、次の構成ライブラリを使用して構成を行うことができます。

確証バイアス

#responsible

既存の信念や仮説を裏付けるような形で情報を検索、解釈、優先、想起する傾向。ML デベロッパーは、既存の信念を裏付ける結果に影響を与える方法で、誤ってデータを収集したりラベル付けしたりする可能性があります。確証バイアスは、暗黙のバイアスの一種です。

テスト担当者のバイアスは、確証バイアスの 1 つの形です。テスト担当者が、既存の仮説が確認されるまでモデルのトレーニングを続けます。

混同行列

#fundamentals

分類モデルが行った正しい予測と誤った予測の数をまとめた N×N の表。たとえば、バイナリ分類モデルの次の混同行列について考えてみましょう。

	腫瘍（予測）	腫瘍なし（予測）
腫瘍（グラウンドトゥルース）	18（TP）	1（FN）
腫瘍なし（グラウンドトゥルース）	6（FP）	452（TN）

上の混同行列は、次のことを示しています。

グラウンドトゥルースが「腫瘍」である 19 個の予測のうち、モデルは 18 個を正しく分類し、1 個を誤って分類しました。
グラウンドトゥルースが「Non-Tumor」である 458 件の予測のうち、モデルは 452 件を正しく分類し、6 件を誤って分類しました。

マルチクラス分類問題の混同行列は、間違いのパターンを特定するのに役立ちます。たとえば、3 つの異なるアヤメの種類（Virginica、Versicolor、Setosa）を分類する 3 クラスのマルチクラス分類モデルの次の混同行列について考えてみましょう。正解が Virginica の場合、混同行列は、モデルが Setosa よりも Versicolor を誤って予測する可能性がはるかに高いことを示しています。

	Setosa（予測）	Versicolor（予測）	Virginica（予測）
Setosa（グラウンドトゥルース）	88	12	0
Versicolor（グラウンドトゥルース）	6	141	7
Virginica（グラウンドトゥルース）	2	27	109

別の例として、手書きの数字を認識するようにトレーニングされたモデルが、4 ではなく 9 を誤って予測したり、7 ではなく 1 を誤って予測したりする傾向があることが、混同行列からわかる場合があります。

混同行列には、適合率や再現率など、さまざまなパフォーマンス指標を計算するのに十分な情報が含まれています。

構成要素の解析

文をより小さな文法構造（「構成要素」）に分割すること。ML システムの後段（自然言語理解モデルなど）では、元の文よりも構成要素を簡単に解析できます。たとえば、次の文について考えてみましょう。

友人が 2 匹の猫を飼い始めました。

構成要素パーサーは、この文を次の 2 つの構成要素に分割できます。

「My friend」は名詞句です。
adopted two cats は動詞句です。

これらの構成要素は、さらに小さな構成要素に細分化できます。たとえば、動詞句

2 匹の猫を飼い始めた

にさらに細分化できます。

adopted は動詞です。
2 匹の猫は別の名詞句です。

コンテキスト化された言語エンベディング

#generativeAI

流暢な人間の話者が単語やフレーズを理解する方法に近い方法で単語やフレーズを「理解」するエンベディング。コンテキスト化された言語エンベディングは、複雑な構文、セマンティクス、コンテキストを理解できます。

たとえば、英語の単語「cow」のエンベディングについて考えてみましょう。word2vec などの古いエンベディングでは、cow から bull までのエンベディング空間内の距離が、ewe（雌羊）から ram（雄羊）までの距離や、female から male までの距離に似ているように、英単語を表現できます。コンテキスト化された言語エンベディングは、英語話者が「cow」という単語を牛または雄牛の意味でカジュアルに使用することがあることを認識することで、さらに一歩進むことができます。

コンテキストウィンドウ

#generativeAI

モデルが特定のプロンプトで処理できるトークンの数。コンテキストウィンドウが大きいほど、モデルはより多くの情報を使用して、プロンプトに明解で一貫性のある回答を提供できます。

連続特徴

#fundamentals

温度や重さなど、可能な値の範囲が無限の浮動小数点特徴。

離散特徴と比較してください。

便宜的サンプリング

科学的に収集されていないデータセットを使用して、迅速なテストを実施する。後で、科学的に収集されたデータセットに切り替えることが不可欠です。

収束

#fundamentals

反復処理ごとに損失値がほとんど変化しないか、まったく変化しない状態。たとえば、次の損失曲線は、約 700 回の反復で収束することを示しています。

デカルトプロット。X 軸が損失です。Y 軸はトレーニングの反復回数です。最初の数回の反復では損失が非常に大きいが、急激に減少する。約 100 回のイテレーションの後、損失はまだ減少していますが、その速度ははるかに緩やかになっています。約 700 回のイテレーション後、損失は横ばいになります。

モデルが収束するのは、追加のトレーニングを行ってもモデルが改善されない場合です。

ディープラーニングでは、損失値が最終的に減少するまで、多くのイテレーションで一定またはほぼ一定になることがあります。損失値が一定の期間続くと、一時的に収束したように見えることがあります。

早期停止もご覧ください。

詳細については、ML 集中講座のモデルの収束と損失曲線をご覧ください。

会話型コーディング

#generativeAI

ソフトウェアを作成する目的で、ユーザーと生成 AI モデルの間で行われる反復的なダイアログ。ソフトウェアについて説明するプロンプトを発行します。モデルは、その説明を使用してコードを生成します。次に、前のプロンプトまたは生成されたコードの欠陥に対処する新しいプロンプトを発行すると、モデルは更新されたコードを生成します。生成されたソフトウェアが十分に優れていると判断されるまで、このやり取りが繰り返されます。

会話コーディングは、バイブスコーディングの本来の意味です。

仕様コーディングも参照してください。

凸関数

関数のグラフの上側の領域が凸集合である関数。典型的な凸関数は、U のような形をしています。たとえば、次の関数はすべて凸関数です。

U 字型の曲線。それぞれに 1 つの最小点があります。

一方、次の関数は凸関数ではありません。グラフの上側の領域が凸集合ではないことに注目してください。

2 つの異なるローカル最小値を持つ W 字型の曲線。

狭義凸関数には、局所最小点が 1 つだけあり、それが大域最小点でもあります。従来の U 字型の関数は、厳密な凸関数です。ただし、一部の凸関数（直線など）は U 字型ではありません。

アイコンをクリックすると、計算の詳細が表示されます。

一般的な損失関数の多くは凸関数です。たとえば、次の関数があります。

L₂ 損失
ログ損失
L₁ 正則化
L₂ 正則化

勾配降下法の多くのバリエーションでは、厳密な凸関数の最小値に近い点を見つけることが保証されています。同様に、確率的勾配降下法の多くのバリエーションでは、厳密に凸関数である関数の最小値に近い点を見つける可能性が高くなります（保証されるわけではありません）。

2 つの凸関数の合計（L₂ 損失 + L₁ 正則化など）は凸関数です。

ディープモデルは凸関数ではありません。驚くべきことに、凸最適化用に設計されたアルゴリズムは、その解がグローバル最小値であることは保証されていませんが、ディープネットワークでかなり良い解を見つける傾向があります。

詳細については、ML 集中講座の収束と凸関数をご覧ください。

凸最適化

勾配降下法などの数学的手法を使用して、凸関数の最小値を見つけるプロセス。機械学習の研究の多くは、さまざまな問題を凸最適化問題として定式化し、それらの問題をより効率的に解決することに重点を置いています。

詳細については、Boyd と Vandenberghe の Convex Optimization をご覧ください。

凸集合

部分集合内の任意の 2 点を結ぶ線が、その部分集合内に完全に含まれるようなユークリッド空間の部分集合。たとえば、次の 2 つの形状は凸集合です。

長方形のイラスト。楕円の別のイラスト。

一方、次の 2 つの形状は凸集合ではありません。

1 つの円グラフのイラスト。1 つのセグメントが欠落しています。非常に不規則な多角形の別の例。

畳み込み

数学では、2 つの関数を組み合わせたもの。機械学習では、畳み込みは畳み込みフィルタと入力行列を混合して、重みをトレーニングします。

ML における「畳み込み」という用語は、畳み込み演算または畳み込みレイヤのいずれかを指す略語としてよく使用されます。

畳み込みがない場合、機械学習アルゴリズムは大きなテンソルの各セルに対して個別の重みを学習する必要があります。たとえば、2K x 2K 画像でトレーニングする機械学習アルゴリズムは、4M 個の個別の重みを見つけることを強制されます。畳み込みのおかげで、機械学習アルゴリズムは畳み込みフィルタの各セルの重みを見つけるだけで済み、モデルのトレーニングに必要なメモリが大幅に削減されます。畳み込みフィルタを適用すると、各セルがフィルタで乗算されるように、フィルタがセル全体に複製されます。

詳細については、画像分類コースの畳み込みニューラルネットワークの概要をご覧ください。

畳み込みフィルタ

畳み込み演算の 2 つのアクターの 1 つ。（もう一方のアクターは入力行列のスライスです）。畳み込みフィルタは、入力行列と同じランクを持ち、形状が小さい行列です。たとえば、28x28 の入力行列が与えられた場合、フィルタは 28x28 より小さい任意の 2D 行列になります。

写真の操作では、通常、畳み込みフィルタのすべてのセルが 1 と 0 の一定のパターンに設定されます。ML では、通常、畳み込みフィルタは乱数でシードされ、ネットワークが理想的な値をトレーニングします。

詳細については、画像分類コースの畳み込みをご覧ください。

畳み込みレイヤ

畳み込みフィルタが入力行列を渡すディープニューラルネットワークのレイヤ。たとえば、次の 3x3 の畳み込みフィルタについて考えてみましょう。

次の値を含む 3x3 行列: [[0,1,0], [1,0,1], [0,1,0]]

次のアニメーションは、5x5 入力行列を含む 9 個の畳み込み演算で構成される畳み込みレイヤを示しています。各畳み込み演算は、入力行列の異なる 3x3 スライスで動作します。結果の 3x3 行列（右側）は、9 つの畳み込み演算の結果で構成されています。

2 つのマトリックスを示すアニメーション。最初の行列は 5x5 行列 [[128,97,53,201,198], [35,22,25,200,195], [37,24,28,197,182], [33,28,92,195,179], [31,40,100,192,177]] です。2 番目の行列は、[[181,303,618], [115,338,605], [169,351,560]] という 3x3 行列です。2 番目の行列は、5x5 行列のさまざまな 3x3 サブセットに畳み込みフィルタ [[0, 1, 0], [1, 0, 1], [0, 1, 0]] を適用して計算されます。

詳細については、画像分類コースの全結合レイヤをご覧ください。

畳み込みニューラルネットワーク

少なくとも 1 つのレイヤが畳み込みレイヤであるニューラルネットワーク。一般的な畳み込みニューラルネットワークは、次のレイヤの組み合わせで構成されています。

畳み込みレイヤ
プーリングレイヤ
密結合レイヤ

畳み込みニューラルネットワークは、画像認識などの特定の問題で大きな成功を収めています。

畳み込み演算

次の 2 段階の算術演算:

畳み込みフィルタと入力行列のスライスとの要素ごとの乗算。（入力行列のスライスは、畳み込みフィルタと同じランクとサイズになります）。
結果の積行列内のすべての値の合計。

たとえば、次の 5x5 の入力行列を考えてみましょう。

5x5 行列: [[128,97,53,201,198], [35,22,25,200,195],
[37,24,28,197,182], [33,28,92,195,179], [31,40,100,192,177]]。

ここで、次の 2x2 の畳み込みフィルタを考えてみましょう。

2x2 マトリックス: [[1, 0], [0, 1]]

各畳み込み演算では、入力行列の 2x2 のスライスが 1 つ使用されます。たとえば、入力行列の左上の 2x2 スライスを使用するとします。したがって、このスライスの畳み込み演算は次のようになります。

入力行列の左上 2x2 セクション（[[128,97], [35,22]]）に畳み込みフィルタ [[1, 0], [0, 1]] を適用します。畳み込みフィルタは 128 と 22 をそのまま残しますが、97 と 35 をゼロにします。その結果、畳み込み演算では値 150（128+22）が生成されます。

畳み込みレイヤは、一連の畳み込み演算で構成され、それぞれが入力行列の異なるスライスで動作します。

費用

#Metric

損失と同義。

共同トレーニング

半教師あり学習アプローチは、次のすべての条件に該当する場合に特に有用です。

データセット内のラベルなしの例とラベル付きの例の比率が高い。
これは分類問題（バイナリまたはマルチクラス）です。
データセットには、互いに独立していて補完的な 2 つの異なる予測特徴セットが含まれています。

共訓練は、基本的に独立したシグナルを増幅してより強力なシグナルにします。たとえば、個々の中古車を「良い」または「悪い」に分類する分類モデルについて考えてみましょう。予測機能の 1 つのセットは、車の年式、メーカー、モデルなどの集計特性に焦点を当て、予測機能の別のセットは、以前の所有者の運転記録と車のメンテナンス履歴に焦点を当てます。

共トレーニングに関する重要な論文は、Blum と Mitchell による Combining Labeled and Unlabeled Data with Co-Training です。

反事実的公平性

#responsible

#Metric

1 つ以上の機密属性を除き、最初の個人と同一の別の個人に対して、分類モデルが同じ結果を生成するかどうかを確認する公平性指標。反事実的公平性について分類モデルを評価することは、モデル内の潜在的なバイアスの原因を特定する 1 つの方法です。

詳しくは、次のいずれかをご覧ください。

機械学習集中講座の公平性: 反事実的公平性。
When Worlds Collide: Integrating Different Counterfactual Assumptions in Fairness（英語）

カバレッジバイアス

#responsible

選択バイアスをご覧ください。

クラッシュブラッサム

意味が曖昧な文またはフレーズ。クラッシュブロッサムは、自然言語理解において重大な問題を引き起こします。たとえば、「Red Tape Holds Up Skyscraper」という見出しは、NLU モデルがこの見出しを文字どおりに解釈することも、比喩的に解釈することもできるため、クラッシュブロッサムです。

アイコンをクリックすると、追加のメモが表示されます。

謎めいた見出しについて説明します。

Red Tape は、次のいずれかを指す可能性があります。
- 接着剤
- 過剰な官僚主義
「Holds Up」は、次のいずれかを指します。
- 構造サポート
- 処理の遅れ

批評家

Deep Q-Network と同義。

交差エントロピー

#Metric

対数損失をマルチクラス分類問題に一般化したものです。交差エントロピーは、2 つの確率分布間の差を定量化します。perplexity もご覧ください。

交差検証

トレーニングセットから除外された 1 つ以上の重複しないデータサブセットに対してモデルをテストすることで、モデルが新しいデータにどれだけ一般化されるかを推定するメカニズム。

累積分布関数（CDF）

#Metric

目標値以下のサンプルの頻度を定義する関数。たとえば、連続値の正規分布を考えてみましょう。CDF は、サンプルの約 50% が平均値以下であり、サンプルの約 84% が平均値より 1 標準偏差以上小さいことを示します。

D

データ分析

サンプル、測定、可視化を考慮したデータの理解。データ分析は特に、最初のモデルを構築する前に、データセットを初めて受け取ったときに役立ちます。また、テストの理解やシステムの問題のデバッグにも不可欠です。

データの拡張

既存のサンプルを変換して追加のサンプルを作成することにより、トレーニング サンプルの範囲と数を人為的に増やすこと。たとえば、画像が特徴の 1 つであるのに、データセットにはモデルが有用な関連性を学習するのに十分な画像サンプルが含まれていないとします。理想的なのは、モデルを適切にトレーニングできるように、データセットにラベル付けされた画像を十分に追加することです。それが不可能な場合は、データ拡張によって各画像を回転、伸縮、反射して元の画像の多くのバリエーションを生成し、優れたトレーニングを可能にする十分なラベル付きデータを得ることができます。

DataFrame

#fundamentals

メモリ内のデータセットを表す一般的な pandas データ型。

DataFrame は、テーブルやスプレッドシートに似ています。DataFrame の各列には名前（ヘッダー）があり、各行は一意の数値で識別されます。

DataFrame の各列は 2 次元配列のように構造化されていますが、各列に独自のデータ型を割り当てられる点が特徴です。

pandas.DataFrame のリファレンスページもご覧ください。

データ並列処理

トレーニングまたは推論をスケーリングする方法の 1 つで、モデル全体を複数のデバイスに複製し、入力データのサブセットを各デバイスに渡します。データ並列処理では、非常に大きなバッチサイズでのトレーニングと推論が可能になります。ただし、モデルはすべてのデバイスに収まるほど小さくする必要があります。

通常、データ並列処理によりトレーニングと推論の速度が上がります。

モデル並列処理もご覧ください。

Dataset API（tf.data）

#TensorFlow

データを読み取り、機械学習アルゴリズムが必要とする形式に変換するための高レベルの TensorFlow API。tf.data.Dataset オブジェクトは、要素のシーケンスを表します。各要素には 1 つ以上の Tensor が含まれます。tf.data.Iterator オブジェクトは、Dataset の要素へのアクセスを提供します。

データセット

#fundamentals

通常は（ただし限定されない）次のいずれかの形式で整理された、未加工データのコレクションです。

スプレッドシート
CSV（カンマ区切り値）形式のファイル

決定境界

バイナリクラスまたはマルチクラス分類問題でモデルによって学習されたクラス間の分離線。たとえば、次の図はバイナリ分類問題を表しています。この図では、決定境界はオレンジ色のクラスと青色のクラスの境界線です。

クラス間の境界が明確に定義されている。

デシジョンフォレスト

#df

複数のディシジョンツリーから作成されたモデル。ディシジョンフォレストは、ディシジョンツリーの予測を集計して予測を行います。一般的なディシジョンフォレストには、ランダムフォレストや勾配ブーストツリーなどがあります。

詳細については、デシジョンフォレストコースのデシジョンフォレストのセクションをご覧ください。

決定しきい値

分類しきい値と同義。

ディシジョンツリー

#df

階層的に編成された一連の条件とリーフで構成される教師あり学習モデル。たとえば、次のディシジョンツリーを考えます。

階層的に配置された 4 つの条件で構成され、5 つのリーフにつながるディシジョンツリー。

デコーダ

一般に、処理済み、密、内部の表現から、より未加工な、疎、外部の表現に変換する ML システム。

デコーダは多くの場合、大規模なモデルのコンポーネントであり、エンコーダと対になっています。

sequence-to-sequence（Seq2Seq）タスクでは、デコーダはエンコーダによって生成された内部状態から開始して、次のシーケンスを予測します。

Transformer アーキテクチャ内のデコーダの定義については、Transformer を参照してください。

詳細については、ML 集中講座の大規模言語モデルをご覧ください。

ディープモデル

#fundamentals

複数の隠れ層を含むニューラルネットワーク。

ディープモデルは、ディープニューラルネットワークとも呼ばれます。

ワイドモデルと比較してください。

ネットワークでよく

ディープモデルと同義。

Deep Q-Network（DQN）

Q 学習では、Q 関数を予測するディープ ニューラルネットワーク。

Critic は、Deep Q-Network の同義語です。

人口統計学的等価性

#responsible

#Metric

モデルの分類結果が特定の機密属性に依存しない場合に満たされる公平性指標。

たとえば、リリパット人とブロブディンナグ人が Glubbdubdrib 大学に申し込んだ場合、リリパット人の合格率とブロブディンナグ人の合格率が同じであれば、一方のグループが他方よりも平均的に資格があるかどうかに関係なく、人口統計学的パリティが達成されます。

等化オッズと機会の平等とは対照的です。これらは、分類結果の集計が機密属性に依存することを許可しますが、特定の指定されたグラウンドトゥルース ラベルの分類結果が機密属性に依存することを許可しません。「よりスマートな機械学習による差別の是正」で、人口統計学的パリティの最適化におけるトレードオフを視覚化した図をご覧ください。

詳細については、ML 集中講座の公平性: 人口統計学的パリティをご覧ください。

ノイズ除去

自己教師あり学習の一般的なアプローチ。

ノイズがデータセットに人工的に追加されます。
モデルはノイズの除去を試みます。

ノイズ除去により、ラベルなしの例から学習できます。元のデータセットはターゲットまたはラベルとして機能し、ノイズの多いデータは入力として機能します。

一部のマスク言語モデルでは、次のようにノイズ除去を使用します。

ノイズは、一部のトークンをマスクすることで、ラベルのない文に人工的に追加されます。
モデルは元のトークンを予測しようとします。

密な特徴

#fundamentals

ほとんどまたはすべての値がゼロ以外の特徴。通常は浮動小数点値の Tensor。たとえば、次の 10 要素の Tensor は、9 つの値がゼロ以外であるため、密です。

スパースな特徴と比較してください。

密なレイヤ

全結合レイヤと同義。

深さ

#fundamentals

ニューラルネットワーク内の次の合計:

隠れ層の数
出力レイヤの数（通常は 1）
エンベディングレイヤの数

たとえば、隠れ層が 5 つ、出力層が 1 つのニューラルネットワークの深さは 6 です。

入力レイヤは depth に影響しないことに注意してください。

深度方向分離畳み込みニューラルネットワーク（sepCNN）

Inception に基づく畳み込みニューラルネットワーク アーキテクチャ。ただし、Inception モジュールは空間方向の分離可能な畳み込みに置き換えられています。Xception とも呼ばれます。

デプスワイズ分離畳み込み（分離畳み込みとも呼ばれます）は、標準の 3D 畳み込みを、より計算効率の高い 2 つの別々の畳み込み演算に分解します。1 つ目はデプスワイズ畳み込み（深さ 1（n ✕ n ✕ 1））、2 つ目はポイントワイズ畳み込み（長さと幅が 1（1 ✕ 1 ✕ n））。

詳細については、Xception: Depthwise Separable Convolutions を使用したディープラーニングをご覧ください。

派生ラベル

プロキシラベルと同義。

デバイス

#TensorFlow

#GoogleCloud

次の 2 つの定義が考えられるオーバーロードされた用語。

CPU、GPU、TPU など、TensorFlow セッションを実行できるハードウェアのカテゴリ。
アクセラレータチップ（GPU または TPU）で ML モデルをトレーニングする場合、テンソルとエンベディングを実際に操作するシステムの部分。デバイスはアクセラレータチップで動作します。一方、ホストは通常 CPU で実行されます。

差分プライバシー

ML において、モデルのトレーニングセットに含まれる機密データ（個人の個人情報など）が公開されないようにするための匿名化アプローチ。このアプローチにより、モデルが特定の個人について学習したり記憶したりすることがなくなります。これは、モデルのトレーニング中にサンプリングとノイズの追加を行い、個々のデータポイントを不明瞭にすることで実現され、機密性の高いトレーニングデータが漏えいするリスクを軽減します。

差分プライバシーは、ML 以外でも使用されています。たとえば、データサイエンティストは、さまざまなユーザー属性のプロダクト使用統計情報を計算する際に、個人のプライバシーを保護するために差分プライバシーを使用することがあります。

次元削減

特徴ベクトル内の特定の特徴を表すために使用される次元の数を減らします。通常は、エンベディングベクトルに変換します。

ディメンション

次のいずれかの定義を持つオーバーロードされた用語。

Tensor 内の座標のレベル数。次に例を示します。
- スカラーにはディメンションがありません（例: ["Hello"]）。
- ベクトルには 1 つのディメンションがあります（例: [3, 5, 7, 11]）。
- マトリックスには 2 つのディメンションがあります（例: [[2, 4, 18], [5, 7, 14]]）。1 次元ベクトルの特定のセルを一意に指定するには 1 つの座標を使用しますが、2 次元行列の特定のセルを一意に指定するには 2 つの座標が必要です。
特徴ベクトルのエントリ数。
エンベディングレイヤ内の要素の数。

直接プロンプト

#generativeAI

ゼロショットプロンプトと同義。

離散特徴

#fundamentals

取り得る値の有限集合を持つ特徴。たとえば、値が animal、vegetable、mineral のいずれかである特徴は、離散（またはカテゴリカル）特徴です。

連続特徴と対照的です。

識別モデル

1 つ以上の特徴のセットからラベルを予測するモデル。より形式的には、識別モデルは、特徴と重みが与えられた場合の出力の条件付き確率を定義します。つまり、次のようになります。

p(output | features, weights)

たとえば、特徴と重みからメールがスパムかどうかを予測するモデルは、識別モデルです。

分類モデルや回帰モデルなど、教師あり学習モデルの大部分は識別モデルです。

生成モデルと対照的です。

discriminator

例が本物か偽物かを判断するシステム。

または、ジェネレータによって作成された例が本物か偽物かを判断する敵対的生成ネットワーク内のサブシステム。

詳細については、GAN コースの識別器をご覧ください。

不均衡な影響

#responsible

さまざまな人口サブグループに不均衡な影響を与える人に関する決定を下すこと。通常、これはアルゴリズムによる意思決定プロセスが、一部のサブグループに他のサブグループよりも大きな損害または利益をもたらす状況を指します。

たとえば、小人族のミニチュア住宅ローンの適格性を判断するアルゴリズムで、特定の郵便番号が住所に含まれている場合、小人族が「不適格」と分類される可能性が高くなるとします。リトルエンディアンのリリパット人よりもビッグエンディアンのリリパット人のほうが、この郵便番号の住所を持っている可能性が高い場合、このアルゴリズムは不均衡な影響をもたらす可能性があります。

不公平な扱い（アルゴリズムによる意思決定プロセスへのサブグループの特性の明示的な入力によって生じる不公平に焦点を当てる）とは対照的です。

差別的取り扱い

#responsible

アルゴリズムによる意思決定プロセスに被験者の機密属性を考慮し、人々のさまざまなサブグループが異なる扱いを受けるようにすること。

たとえば、リリパット人が住宅ローン申請で提供したデータに基づいて、ミニチュア住宅ローンの利用資格を判断するアルゴリズムを考えてみましょう。アルゴリズムがリリパットの所属をビッグエンディアンまたはリトルエンディアンとして入力に使用する場合、その次元に沿って差別的な扱いが行われます。

不均衡な影響とは対照的です。不均衡な影響は、アルゴリズムによる決定がサブグループに及ぼす社会的影響の不均衡に焦点を当てています。サブグループがモデルへの入力であるかどうかは関係ありません。

での精製

#generativeAI

1 つのモデル（教師と呼ばれる）のサイズを、元のモデルの予測を可能な限り忠実にエミュレートする小さなモデル（生徒と呼ばれる）に縮小するプロセス。蒸留が有用なのは、小規模なモデルには大規模なモデル（教師）よりも次の 2 つの重要なメリットがあるためです。

推論時間の短縮
メモリとエネルギー使用量の削減

ただし、生徒の予測は通常、教師の予測ほど正確ではありません。

蒸留では、生徒モデルと教師モデルの予測の出力の差に基づいて、損失関数を最小限に抑えるように生徒モデルをトレーニングします。

蒸留と次の用語を比較対照します。

ファインチューニング
プロンプトベースの学習

詳細については、ML 集中講座の LLM: ファインチューニング、蒸留、プロンプトエンジニアリングをご覧ください。

配信

特定の特徴またはラベルの異なる値の頻度と範囲。分布は、特定の値の可能性を捉えます。

次の図は、2 つの異なる分布のヒストグラムを示しています。

左側は、富の分布と、その富を所有する人数の関係をべき乗則で表したグラフです。
右側は、身長と、その身長の人の数の正規分布です。

2 つのヒストグラム。1 つのヒストグラムは、X 軸に富、Y 軸にその富を持つ人の数を示すべき乗則分布を示しています。ほとんどの人は富をほとんど持っておらず、一部の人が多くの富を所有しています。もう 1 つのヒストグラムは、X 軸に身長、Y 軸にその身長の人数を示した正規分布です。ほとんどの人は平均値の近くに集まっています。

各特徴とラベルの分布を理解すると、値を正規化して外れ値を検出する方法を判断できます。

「分布外」とは、データセットに表示されない値、または非常にまれな値を指します。たとえば、猫の画像で構成されるデータセットの場合、土星の画像は分布外と見なされます。

分割型クラスタリング

#clustering

階層型クラスタリングをご覧ください。

ダウンサンプリング

次のいずれかを意味する可能性のあるオーバーロードされた用語。

モデルをより効率的にトレーニングするために、特徴の情報量を減らすこと。たとえば、画像認識モデルをトレーニングする前に、高解像度画像を低解像度形式にダウンサンプリングします。
過剰に表現されたクラスの例の割合が極端に低いデータでトレーニングし、過小に表現されたクラスのモデルトレーニングを改善します。たとえば、クラスの不均衡なデータセットでは、モデルは多数派クラスについて多くを学習し、少数派クラスについては十分に学習しない傾向があります。ダウンサンプリングは、メジャークラスとマイナークラスのトレーニング量のバランスをとるのに役立ちます。

詳細については、機械学習集中講座のデータセット: 不均衡なデータセットをご覧ください。

DQN

Deep Q-Network の略語。

ドロップアウト正則化

ニューラルネットワークのトレーニングで役立つ正則化の一種。ドロップアウト正則化では、単一の勾配ステップで、ネットワークレイヤ内の固定数のユニットがランダムに選択されて削除されます。ドロップアウトするユニットが多いほど、正則化が強くなります。これは、小さなネットワークの指数関数的に大きなアンサンブルをエミュレートするようにネットワークをトレーニングするのと同様です。詳細については、Dropout: A Simple Way to Prevent Neural Networks from Overfitting をご覧ください。

動的

#fundamentals

頻繁にまたは継続的に行われること。機械学習では、動的とオンラインという用語は同義語です。機械学習における dynamic と online の一般的な使用例は次のとおりです。

動的モデル（またはオンラインモデル）は、頻繁にまたは継続的に再トレーニングされるモデルです。
動的トレーニング（またはオンライントレーニング）は、頻繁にまたは継続的にトレーニングを行うプロセスです。
動的推論（またはオンライン推論）は、オンデマンドで予測を生成するプロセスです。

動的モデル

#fundamentals

頻繁に（継続的に）再トレーニングされるモデル。動的モデルは、進化するデータに常に適応する「生涯学習者」です。動的モデルは、オンラインモデルとも呼ばれます。

静的モデルと比較してください。

E

Eager Execution

#TensorFlow

オペレーションがすぐに実行される TensorFlow プログラミング環境。一方、グラフ実行で呼び出されたオペレーションは、明示的に評価されるまで実行されません。Eager 実行は、ほとんどのプログラミング言語のコードと同様の命令型インターフェースです。一般に、積極的実行プログラムはグラフ実行プログラムよりもデバッグがはるかに簡単です。

早期停止

#fundamentals

トレーニングの損失が減少を終える前にトレーニングを終了する正則化の手法。早期停止では、検証データセットの損失が上昇し始めたとき、つまり汎化性能が低下したときに、モデルのトレーニングを意図的に停止します。

アイコンをクリックすると、追加のメモが表示されます。

早期停止は直感に反するように思えるかもしれません。損失がまだ減少している間にトレーニングを停止するようにモデルに指示することは、デザートが完全に焼き上がる前に料理を止めるようにシェフに指示するようなものです。ただし、モデルのトレーニングが長すぎると、過学習につながる可能性があります。つまり、モデルを長時間トレーニングすると、モデルがトレーニングデータに過度に適合し、新しいサンプルを適切に予測できなくなる可能性があります。

早期終了との違い。

アースムーバー距離（EMD）

#Metric

2 つの分布の相対的な類似度を測定します。アースムーバー距離が小さいほど、分布の類似性が高くなります。

編集距離

#Metric

2 つのテキスト文字列の類似度を測定します。機械学習では、編集距離は次の理由で役立ちます。

編集距離は簡単に計算できます。
編集距離は、互いに類似していることがわかっている 2 つの文字列を比較できます。
編集距離を使用すると、異なる文字列が特定の文字列にどの程度類似しているかを判断できます。

編集距離にはいくつかの定義があり、それぞれ異なる文字列操作を使用します。例については、レーベンシュタイン距離をご覧ください。

Einsum 表記

2 つのテンソルを結合する方法を記述するための効率的な表記法。テンソルは、一方のテンソルの要素に他方のテンソルの要素を乗算し、その積を合計することで結合されます。Einsum 表記では、記号を使用して各テンソルの軸を識別します。これらの記号は、新しい結果テンソルの形状を指定するために並べ替えられます。

NumPy は、一般的な Einsum 実装を提供します。

エンベディングレイヤ

#fundamentals

高次元のカテゴリカル特徴でトレーニングし、低次元の埋め込みベクトルを徐々に学習する特別な隠れ層。埋め込みレイヤを使用すると、高次元のカテゴリ特徴のみでトレーニングする場合よりも、ニューラルネットワークのトレーニング効率が大幅に向上します。

たとえば、Earth は現在約 73,000 種の樹木をサポートしています。モデルの特徴が樹種であるとします。この場合、モデルの入力レイヤには 73,000 個の要素を含むワンホットベクトルが含まれます。たとえば、baobab は次のように表されます。

73,000 個の要素の配列。最初の 6,232 個の要素には値 0 が保持されます。次の要素には値 1 が格納されます。最後の 66,767 個の要素には値 0 が保持されます。

73,000 個の要素を含む配列は非常に長くなります。モデルにエンベディングレイヤを追加しないと、72,999 個のゼロを乗算するため、トレーニングに非常に時間がかかります。たとえば、エンベディングレイヤを 12 個のディメンションで構成するとします。その結果、エンベディングレイヤは各樹種の新しいエンベディングベクトルを徐々に学習します。

状況によっては、ハッシュ化がエンベディングレイヤーの妥当な代替手段となります。

詳細については、ML 集中講座のエンベディングをご覧ください。

エンベディング空間

高次元ベクトル空間の特徴がマッピングされる d 次元ベクトル空間。エンベディング空間は、目的のアプリケーションにとって意味のある構造をキャプチャするようにトレーニングされます。

2 つのエンベディングのドット積は、それらの類似度の指標です。

エンベディングベクトル

大まかに言うと、任意の 隠れ層から取得された浮動小数点数の配列で、その隠れ層への入力を記述します。多くの場合、エンベディングベクトルはエンベディングレイヤでトレーニングされた浮動小数点数の配列です。たとえば、エンベディングレイヤが地球上の 73,000 種の樹木ごとにエンベディングベクトルを学習する必要があるとします。次の配列は、バオバブのエンベディングベクトルです。

12 個の要素からなる配列。各要素は 0.0 ～ 1.0 の浮動小数点数を保持します。

エンベディングベクトルは、ランダムな数値の集まりではありません。エンベディングレイヤは、トレーニング中にニューラルネットワークが他の重みを学習する方法と同様に、トレーニングを通じてこれらの値を決定します。配列の各要素は、樹種の特性に関する評価です。どの要素がどの樹種の特性を表していますか？これは人間が判断するには非常に難しいことです。

エンベディングベクトルの数学的に注目すべき点は、類似したアイテムには類似した浮動小数点数のセットがあることです。たとえば、類似した樹種は、類似していない樹種よりも類似した浮動小数点数のセットを持ちます。レッドウッドとセコイアは関連する樹種であるため、レッドウッドとココヤシよりも類似した浮動小数点数のセットになります。モデルを同じ入力で再トレーニングしても、エンベディングベクトルの数値は再トレーニングのたびに変化します。

経験累積分布関数（eCDF または EDF）

#Metric

実際のデータセットの実測値に基づく累積分布関数。X 軸上の任意の点における関数の値は、指定された値以下のデータセット内の観測値の割合です。

経験的リスク最小化（ERM）

トレーニングセットの損失を最小限に抑える関数を選択します。構造リスクの最小化と対照的です。

エンコーダ

一般に、未加工な、疎、外部の表現から、より加工された、密、内部の表現に変換する ML システム。

エンコーダは、多くの場合、大規模なモデルのコンポーネントであり、デコーダと対になっています。変換ツールにはエンコーダとデコーダを対で使用するものと、エンコーダまたはデコーダのみを単独で使用するものがあります。

一部のシステムでは、エンコーダの出力を分類ネットワークや回帰ネットワークへの入力として使用します。

sequence-to-sequence（Seq2Seq）タスクでは、エンコーダは入力シーケンスを受け取り、内部状態（ベクトル）を返します。次に、デコーダは、その内部状態を使用して次のシーケンスを予測します。

Transformer アーキテクチャのエンコーダの定義については、Transformer をご覧ください。

詳細については、ML 集中講座の LLM: 大規模言語モデルとはをご覧ください。

エンドポイント

サービスにアクセスできるネットワークアドレス指定可能な場所（通常は URL）。

自動化

個別にトレーニングされたモデルのコレクション。ここでの予測は平均化または集約されています。多くの場合、アンサンブルは単一モデルよりも優れた予測結果をもたらします。たとえば、ランダムフォレストは、複数のディシジョンツリーから構築されたアンサンブルです。すべてのディシジョンフォレストがアンサンブルであるとは限りません。

詳細については、ML 集中講座のランダムフォレストをご覧ください。

エントロピー

#df

#Metric

情報理論では、確率分布の予測不可能性を説明します。また、エントロピーは、各例に含まれる情報量としても定義されます。分布のエントロピーが最大になるのは、確率変数のすべての値が等しく発生する可能性がある場合です。

2 つの値「0」と「1」を持つセットのエントロピー（たとえば、バイナリ分類問題のラベル）は、次の式で表されます。

H = -p log p - q log q = -p log p - (1-p) * log (1-p)

ここで

H はエントロピーです。
p は「1」の例の割合です。
q は「0」の例の割合です。q = (1 - p) であることに注意してください。
log は通常 log₂ です。この場合、エントロピー単位はビットです。

たとえば、次のように仮定します。

100 個の例に値「1」が含まれている
300 個の例に値「0」が含まれている

したがって、エントロピー値は次のようになります。

p = 0.25
q = 0.75
H = (-0.25)log₂(0.25) - (0.75)log₂(0.75) = 1 例あたり 0.81 ビット

完全にバランスの取れたセット（たとえば、200 個の「0」と 200 個の「1」）のエントロピーは、例あたり 1.0 ビットになります。セットの不均衡が大きくなるほど、エントロピーは 0.0 に近づきます。

決定木では、エントロピーは情報ゲインの定式化に役立ち、スプリッタが分類決定木の成長中に条件を選択するのに役立ちます。

エントロピーの比較対象:

ジニ不純度
交差エントロピー損失関数

エントロピーは、シャノンのエントロピーと呼ばれることもあります。

詳細については、デシジョンフォレストコースの数値特徴を使用したバイナリ分類の正確な分割ツールをご覧ください。

環境

強化学習では、エージェントを含む世界であり、エージェントがその世界の状態を観察できるようになっているものです。たとえば、表現された世界は、チェスのようなゲームや、迷路のような物理的な世界などです。エージェントが環境にアクションを適用すると、環境は状態間を遷移します。

エピソード

強化学習では、エージェントが環境を学習するために繰り返す試行のそれぞれ。

エポック

#fundamentals

各サンプルが 1 回処理されるように、トレーニングセット全体に対するトレーニングパス全体。

エポックは N/バッチサイズ トレーニング イテレーションを表します。ここで、N は例の総数です。

たとえば、次のように仮定します。

データセットは 1,000 個の例で構成されています。
バッチサイズは 50 個のサンプルです。

したがって、1 つのエポックには 20 回の反復が必要です。

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

詳細については、ML 集中講座の線形回帰: ハイパーパラメータをご覧ください。

ε-greedy ポリシー

強化学習では、イプシロン確率でランダムポリシーに従うか、それ以外の場合はグリーディポリシーに従うポリシー。たとえば、イプシロンが 0.9 の場合、ポリシーは 90% の確率でランダムポリシーに従い、10% の確率でグリーディポリシーに従います。

エピソードを繰り返すたびに、アルゴリズムはイプシロンの値を減らし、ランダムポリシーに従うことからグリーディーポリシーに従うことに移行します。ポリシーをシフトすることで、エージェントはまず環境をランダムに探索し、次にランダム探索の結果を貪欲に活用します。

機会の平等

#responsible

#Metric

公平性指標。モデルが機密属性のすべての値について望ましい結果を平等に予測しているかどうかを評価します。つまり、モデルの望ましい結果が陽性クラスの場合、すべてのグループで真陽性率が同じになることが目標となります。

機会の平等は、均等化されたオッズに関連しています。これは、すべてのグループで真陽性率と偽陽性率の両方が同じであることを必要とします。

Glubbdubdrib 大学が、リリパット人とブロブディンナグ人を厳格な数学プログラムに入学させるとします。リリパットのセカンダリースクールでは、数学の授業の充実したカリキュラムが提供されており、ほとんどの生徒が大学プログラムの資格を取得しています。ブロブディンナグの学校では数学の授業がまったく提供されていないため、資格のある生徒の数がはるかに少なくなっています。リリパット人かブロブディンナグ人かに関係なく、資格のある学生が同じ確率で入学できる場合、国籍（リリパット人またはブロブディンナグ人）に関して「合格」という優先ラベルの機会均等性が満たされます。

たとえば、Glubbdubdrib 大学に 100 人の Lilliputians と 100 人の Brobdingnagians が応募し、次のように入学が決定されるとします。

表 1. 小人症の応募者（90% が資格あり）

	リードの精査が完了	見込みなし
Admitted	45	3
不承認	45	7
合計	90	10
入学が許可された適格な学生の割合: 45/90 = 50% 入学が許可されなかった不適格な学生の割合: 7/10 = 70% 入学が許可されたリリパットの学生の割合: (45+3)/100 = 48%

表 2. Brobdingnagian の応募者（10% が資格あり）:

	リードの精査が完了	見込みなし
Admitted	5	9
不承認	5	81
合計	10	90
入学を許可された資格のある学生の割合: 5/10 = 50% 入学を拒否された資格のない学生の割合: 81/90 = 90% 入学を許可されたブロブディンナグ人の学生の合計割合: (5+9)/100 = 14%

上記の例では、リリパット人とブロブディンナグ人がどちらも 50% の確率で入学できるため、有資格の学生の入学機会の平等が満たされています。

機会均等性は満たされていますが、次の 2 つの公平性指標は満たされていません。

人口統計学的パリティ: リリパット人とブロブディンナグ人が異なる割合で大学に入学している。リリパット人の学生の 48% が入学しているが、ブロブディンナグ人の学生は 14% しか入学していない。
均等なオッズ: 資格のあるリリパット人とブロブディンナグ人が同じ確率で入学できる一方で、資格のないリリパット人とブロブディンナグ人が同じ確率で不合格になるという追加の制約は満たされません。リリパット人の不合格率は 70% ですが、ブロブディンナグ人の不合格率は 90% です。

詳細については、ML 集中講座の公平性: 機会の平等をご覧ください。

均等オッズ

#responsible

#Metric

ポジティブクラスとネガティブクラスの両方に関して、機密属性のすべての値についてモデルが結果を平等に予測しているかどうかを評価する公平性指標。一方のクラスのみを排他的に評価するものではありません。つまり、真陽性率と偽陰性率の両方が、すべてのグループで同じである必要があります。

均等化されたオッズは、単一のクラス（正または負）のエラー率のみに焦点を当てた機会の平等に関連しています。

たとえば、Glubbdubdrib 大学がリリパット人とブロブディンナグ人を厳格な数学プログラムに受け入れているとします。リリパットの高校では、数学の授業のカリキュラムが充実しており、生徒のほとんどが大学プログラムの資格を有しています。ブロブディンナグの高校では数学の授業がまったく提供されていないため、資格のある生徒の数がはるかに少なくなっています。応募者が小人国人か巨人国人かに関係なく、資格のある応募者はプログラムに合格する可能性が等しく、資格のない応募者は不合格になる可能性が等しい場合、均等なオッズが満たされます。

Glubbdubdrib 大学に 100 人のリリパット人と 100 人のブロブディンナグ人が応募し、次のように入学が決定されるとします。

表 3: 小人症の応募者（90% が資格あり）

	リードの精査が完了	見込みなし
Admitted	45	2
不承認	45	8
合計	90	10
入学が許可された資格のある学生の割合: 45/90 = 50% 入学が許可されなかった資格のない学生の割合: 8/10 = 80% 入学が許可されたリリパット人の学生の合計割合: (45+2)/100 = 47%

表 4. Brobdingnagian の応募者（10% が資格あり）:

	リードの精査が完了	見込みなし
Admitted	5	18
不承認	5	72
合計	10	90
合格した資格のある学生の割合: 5/10 = 50% 不合格になった資格のない学生の割合: 72/90 = 80% 合格した Brobdingnagian 学生の合計割合: (5+18)/100 = 23%

リリパット人とブロブディンナグ人の両方で、合格した学生の 50% が合格し、不合格の学生の 80% が不合格になるため、均等なオッズが満たされています。

均等なオッズは、「Equality of Opportunity in Supervised Learning」で次のように正式に定義されています。「予測子 Ŷ が保護属性 A と結果 Y に関して均等なオッズを満たすのは、Ŷ と A が Y を条件として独立している場合です。」

Estimator

#TensorFlow

非推奨の TensorFlow API。Estimator ではなく tf.keras を使用します。

evals

#generativeAI

#Metric

主に LLM 評価の略語として使用されます。広義には、evals は、評価のあらゆる形式の略語です。

評価

#generativeAI

#Metric

モデルの品質を測定したり、異なるモデルを比較したりするプロセス。

教師あり機械学習モデルを評価するには、通常、検証セットとテストセットに対してモデルを評価します。LLM の評価には通常、品質と安全性のより広範な評価が含まれます。

完全一致

#Metric

モデルの出力がグラウンドトゥルースまたは基準テキストと完全に一致するか、一致しないかのいずれかである指標。たとえば、正解が「オレンジ」の場合、完全一致を満たすモデル出力は「オレンジ」のみです。

完全一致では、出力がシーケンス（項目のランク付けされたリスト）であるモデルを評価することもできます。一般に、完全一致では、生成されたランク付けリストがグラウンドトゥルースと完全に一致している必要があります。つまり、両方のリストの各項目が同じ順序になっている必要があります。ただし、グラウンドトゥルースが複数の正しいシーケンスで構成されている場合、完全一致では、モデルの出力が正しいシーケンスの 1 つと一致するだけで済みます。

例

#fundamentals

特徴の 1 行の値と、場合によってはラベル。教師あり学習の例は、次の 2 つの一般的なカテゴリに分類されます。

ラベル付きの例は、1 つ以上の特徴とラベルで構成されます。トレーニング中にラベル付きの例が使用されます。
ラベルなしの例は、1 つ以上の特徴で構成されますが、ラベルはありません。ラベルなしの例は推論時に使用されます。

たとえば、生徒のテストの点数に対する気象条件の影響を判断するモデルをトレーニングするとします。ラベル付きの例を 3 つ示します。

機能			ラベル
温度	湿度	気圧	テストスコア
15	47	998	良い
19	34	1020	非常に良い
18	92	1012	悪い

ラベルなしの例を 3 つ示します。

温度	湿度	気圧
12	62	1014
21	47	1017
19	41	1021

データセットの行は通常、例の未加工のソースです。つまり、通常、例はデータセット内の列のサブセットで構成されます。また、例の特徴には、特徴の交差などの合成特徴を含めることもできます。

詳細については、機械学習入門コースの教師あり学習をご覧ください。

経験再生

強化学習では、トレーニングデータの時間相関を減らすために使用される DQN 手法。エージェントは、状態遷移を再生バッファに保存し、再生バッファから遷移をサンプリングしてトレーニングデータを作成します。

実験者のバイアス

#responsible

確証バイアスをご覧ください。

勾配爆発問題

ディープニューラルネットワーク（特にリカレントニューラルネットワーク）の勾配が驚くほど急峻（高い）になる傾向。急な勾配は、ディープニューラルネットワーク内の各ノードの重みに非常に大きな更新を引き起こすことがよくあります。

勾配爆発問題が発生したモデルは、トレーニングが困難になるか、不可能になります。グラデーションクリッピングを使用すると、この問題を軽減できます。

比較対象として、「勾配消失問題」があります。

F

F₁

#Metric

適合率と再現率の両方に依存する「ロールアップ」2 値分類指標。式は次のとおりです。

$$F{_1} = \frac{\text{2 * precision * recall}} {\text{precision + recall}}$$

アイコンをクリックすると例が表示されます。

適合率と再現率が次の値であるとします。

precision = 0.6
再現率 = 0.4

F₁ は次のように計算します。

$$F{_1} = \frac{\text{2 * 0.6 * 0.4}} {\text{0.6 + 0.4}} = 0.48$$

適合率と再現率がかなり類似している場合（前の例のように）、F₁ はそれらの平均値に近くなります。適合率と再現率が大きく異なる場合、F₁ は低い値に近づきます。次に例を示します。

precision = 0.9
再現率 = 0.1

$$F{_1} = \frac{\text{2 * 0.9 * 0.1}} {\text{0.9 + 0.1}} = 0.18$$

事実性

#generativeAI

ML の世界では、出力が現実に基づいているモデルを表すプロパティ。事実性は指標ではなく、コンセプトです。たとえば、次のようなプロンプトを大規模言語モデルに送信するとします。

食塩の化学式は何ですか？

事実性を最適化するモデルは次のように応答します。

NaCl

すべてのモデルは事実に基づいていなければならないと考えるのは当然です。ただし、次のようなプロンプトでは、生成 AI モデルは事実性ではなく創造性を最適化する必要があります。

宇宙飛行士とイモムシについての五行詩を教えて。

結果として得られるリメリックは、現実に基づいたものにはならないでしょう。

グラウンディングと比較してください。

公平性に関する制約

#responsible

1 つ以上の公平性の定義が満たされるように、アルゴリズムに制約を適用すること。公平性制約の例:

モデルの出力を後処理する。
公平性指標の違反に対するペナルティを組み込むように損失関数を変更する。
最適化問題に数学的制約を直接追加する。

公平性指標

#responsible

#Metric

測定可能な「公平性」の数学的定義。よく使用される公平性指標には次のようなものがあります。

均等なオッズ
予測のパリティ
反事実的公平性
人口学的等価性

公平性に関する指標の多くは相互に排他的です。公平性に関する指標の不整合をご覧ください。

#fundamentals

#Metric

モデルが陽性クラスを誤って予測した実際の陰性例の割合。次の式は、偽陽性率を計算します。

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

偽陽性率は、ROC 曲線の X 軸です。

詳細については、ML 集中講座の分類: ROC と AUC をご覧ください。

急速な減衰

#generativeAI

LLM のパフォーマンスを向上させるためのトレーニング手法。高速減衰では、トレーニング中に学習率を急速に減衰させます。この戦略は、モデルがトレーニングデータに過学習するのを防ぎ、一般化を改善するのに役立ちます。

機能

#fundamentals

ML モデルへの入力変数。例は 1 つ以上の特徴で構成されます。たとえば、天気予報が学生のテストの点数に与える影響を判断するモデルをトレーニングするとします。次の表に、3 つの特徴と 1 つのラベルを含む 3 つの例を示します。

機能			ラベル
温度	湿度	気圧	テストスコア
15	47	998	92
19	34	1020	84
18	92	1012	87

ラベルとのコントラスト。

詳細については、機械学習入門コースの教師あり学習をご覧ください。

特徴クロス

#fundamentals

カテゴリ特徴量またはバケット化された特徴量を「クロス」することで形成される合成特徴量。

たとえば、温度を次の 4 つのバケットのいずれかで表す「気分予測」モデルについて考えてみましょう。

freezing
chilly
temperate
warm

風速を次の 3 つのバケットのいずれかで表します。

still
light
windy

特徴量クロスがない場合、線形モデルは上記の 7 つのバケットそれぞれで個別にトレーニングされます。そのため、モデルは windy のトレーニングとは独立して freezing でトレーニングされます。

または、気温と風速の交差特徴を作成することもできます。この合成特徴には、次の 12 個の可能な値があります。

freezing-still
freezing-light
freezing-windy
chilly-still
chilly-light
chilly-windy
temperate-still
temperate-light
temperate-windy
warm-still
warm-light
warm-windy

特徴クロスにより、モデルは freezing-windy の日と freezing-still の日の気分を学習できます。

それぞれに多数のバケットがある 2 つの特徴から合成特徴を作成すると、結果として得られる特徴クロスには膨大な数の組み合わせが存在することになります。たとえば、ある特徴に 1,000 個のバケットがあり、別の特徴に 2,000 個のバケットがある場合、結果の特徴の交差には 2,000,000 個のバケットがあります。

形式的には、クロスはデカルト積です。

特徴の交差は主に線形モデルで使用され、ニューラルネットワークで使用されることはほとんどありません。

詳細については、ML 集中講座のカテゴリデータ: 特徴の交差をご覧ください。

２つのステップが含まれます

#fundamentals

#TensorFlow

次の手順を含むプロセス。

モデルのトレーニングに役立つ可能性のある特徴を特定する。
データセットの元データを、それらの特徴量の効率的なバージョンに変換します。

たとえば、temperature が便利な機能であると判断できます。次に、バケット化を試して、モデルがさまざまな temperature 範囲から学習できる内容を最適化します。

特徴量エンジニアリングは、特徴量抽出または特徴量化と呼ばれることもあります。

アイコンをクリックすると、TensorFlow に関する追加の注意事項が表示されます。

TensorFlow では、特徴エンジニアリングは、多くの場合、未加工のログファイルエントリを tf.Example プロトコルバッファに変換することを意味します。tf.Transform もご覧ください。

詳細については、ML 集中講座の数値データ: モデルが特徴ベクトルを使用してデータを読み込む方法をご覧ください。

特徴抽出

次のいずれかの定義を持つオーバーロードされた用語。

教師なしモデルまたは事前トレーニング済みモデルによって計算された中間特徴表現（ニューラルネットワークの隠れ層の値など）を取得し、別のモデルの入力として使用する。
特徴量エンジニアリングと同義。

特徴の重要度

#df

#Metric

変数の重要度と同義。

機能セット

#fundamentals

機械学習モデルがトレーニングに使用する特徴のグループ。たとえば、住宅価格を予測するモデルの単純な特徴セットは、郵便番号、物件の広さ、物件の状態で構成される場合があります。

機能仕様

#TensorFlow

tf.Example プロトコルバッファから特徴データを抽出するために必要な情報について説明します。tf.Example プロトコルバッファはデータのコンテナにすぎないため、次のものを指定する必要があります。

抽出するデータ（つまり、特徴のキー）
データ型（float や int など）
長さ（固定または可変）

特徴ベクトル

#fundamentals

例を構成する特徴値の配列。特徴ベクトルは、トレーニング時と推論時に入力されます。たとえば、2 つの離散特徴を持つモデルの特徴ベクトルは次のようになります。

[0.92, 0.56]

4 つのレイヤ: 入力レイヤ、2 つの隠れレイヤ、1 つの出力レイヤ。入力レイヤには 2 つのノードがあり、1 つには値 0.92 が含まれ、もう 1 つには値 0.56 が含まれています。

各サンプルは特徴ベクトルに異なる値を指定するため、次のサンプルの特徴ベクトルは次のようになります。

[0.73, 0.49]

特徴量エンジニアリングでは、特徴ベクトルで特徴をどのように表現するかを決定します。たとえば、5 つの可能な値を持つバイナリカテゴリ特徴は、ワンホットエンコードで表すことができます。この場合、特定の例のフィーチャーベクトルの部分は、次のように 4 つのゼロと 3 番目の位置の 1 つの 1.0 で構成されます。

[0.0, 0.0, 1.0, 0.0, 0.0]

別の例として、モデルが次の 3 つの特徴で構成されているとします。

ワンホットエンコーディングで表される 5 つの可能な値を持つバイナリカテゴリ特徴。例: [0.0, 1.0, 0.0, 0.0, 0.0]
ワンホットエンコーディングで表される 3 つの可能な値を持つ別のバイナリカテゴリ特徴。例: [0.0, 0.0, 1.0]
浮動小数点特徴。例: 8.3。

この場合、各サンプルの特徴ベクトルは 9 つの値で表されます。上記のリストの例の値が指定されている場合、特徴ベクトルは次のようになります。

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

詳細については、ML 集中講座の数値データ: モデルが特徴ベクトルを使用してデータを読み込む方法をご覧ください。

特徴量化

ドキュメントや動画などの入力ソースから特徴を抽出し、それらの特徴を特徴ベクトルにマッピングするプロセス。

一部の ML エキスパートは、特徴化を特徴量エンジニアリングまたは特徴抽出の同義語として使用しています。

フェデレーションラーニング

スマートフォンなどのデバイスに分散されている例を使用して ML モデルをトレーニングする分散型 ML の手法。フェデレーションラーニングでは、デバイスのサブセットが中央のコーディネートサーバーから現在のモデルをダウンロードします。デバイスは、デバイスに保存されている例を使用して、モデルの改善を行います。デバイスは、モデルの改善（トレーニングサンプルは除く）をコーディネートサーバーにアップロードします。コーディネートサーバーでは、他の更新と集約されて、改善されたグローバルモデルが生成されます。集約後、デバイスで計算されたモデルの更新は不要になるため、破棄できます。

トレーニング例はアップロードされないため、フェデレーションラーニングは、データ収集の焦点とデータ最小化のプライバシー原則に準拠しています。

詳しくは、フェデレーションラーニングのコミック（コミックです）をご覧ください。

フィードバックループ

#fundamentals

ML において、モデルの予測が同じモデルまたは別のモデルのトレーニングデータに影響を与える状況。たとえば、映画をおすすめするモデルは、ユーザーが視聴する映画に影響を与え、その結果、後続の映画おすすめモデルに影響を与えます。

詳細については、ML 集中講座の本番環境の ML システム: 質問をご覧ください。

フィードフォワードニューラルネットワーク（FFN）

循環接続や再帰接続のないニューラルネットワーク。たとえば、従来のディープニューラルネットワークはフィードフォワードニューラルネットワークです。循環型の回帰型ニューラルネットワークとは対照的です。

少数ショット学習

オブジェクト分類でよく使用される ML アプローチ。少数のトレーニングサンプルから効果的な分類モデルをトレーニングするように設計されています。

ワンショット学習とゼロショット学習もご覧ください。

少数ショットプロンプト

#generativeAI

大規模言語モデルにどのように回答すればよいかを示す例を複数（少数）含むプロンプト。たとえば、次の長いプロンプトには、大規模言語モデルにクエリへの回答方法を示す 2 つの例が含まれています。

1 つのプロンプトの構成要素	メモ
`指定された国の公式通貨は何ですか？`	LLM に回答させたい質問。
`フランス: EUR`	例 1:
`英国: GBP`	別の例。
`インド:`	実際のクエリ。

一般的に、少数ショットプロンプトは、ゼロショットプロンプトやワンショットプロンプトよりも望ましい結果が得られます。ただし、少数ショットプロンプトでは長いプロンプトが必要になります。

少数ショットプロンプトは、プロンプトベースの学習に適用される少数ショット学習の一種です。

詳細については、ML 集中講座のプロンプトエンジニアリングをご覧ください。

フィドル

侵入的なコードやインフラストラクチャを使用せずに、関数とクラスの値を設定する Python ファーストの構成ライブラリ。Pax などの ML コードベースの場合、これらの関数とクラスはモデルとトレーニング ハイパーパラメータを表します。

Fiddle は、ML コードベースが通常次のように分割されることを前提としています。

レイヤとオプティマイザーを定義するライブラリコード。
ライブラリを呼び出してすべてを接続するデータセットの「グルー」コード。

Fiddle は、グルーコードの呼び出し構造を評価されていない可変形式でキャプチャします。

ファインチューニング

#generativeAI

パラメータを特定のユースケースに合わせて最適化するために、事前トレーニングされたモデルに対してさらに行うタスク固有のトレーニングです。たとえば、一部の大規模言語モデルの完全なトレーニングシーケンスは次のようになります。

事前トレーニング: 英語の Wikipedia ページ全体など、膨大な一般的なデータセットで大規模言語モデルをトレーニングします。
ファインチューニング: 医療に関する質問への回答など、特定のタスクを実行するように事前トレーニング済みモデルをトレーニングします。ファインチューニングでは通常、特定のタスクに焦点を当てた数百または数千の例を使用します。

別の例として、大規模な画像モデルの完全なトレーニングシーケンスは次のようになります。

事前トレーニング: Wikimedia Commons のすべての画像など、大規模な一般的な画像データセットで大規模な画像モデルをトレーニングします。
ファインチューニング: シャチの画像を生成するなど、特定のタスクを実行するように事前トレーニング済みモデルをトレーニングします。

ファインチューニングでは、次の戦略を任意に組み合わせることができます。

事前トレーニング済みモデルの既存のパラメータをすべて変更する。これは「フルファインチューニング」と呼ばれることもあります。
事前トレーニング済みモデルの既存のパラメータの一部（通常は出力レイヤに最も近いレイヤ）のみを変更し、他の既存のパラメータ（通常は入力レイヤに最も近いレイヤ）は変更しない。パラメータ効率チューニングをご覧ください。
通常、出力レイヤに最も近い既存のレイヤの上にレイヤを追加します。

ファインチューニングは、転移学習の一種です。そのため、ファインチューニングでは、事前トレーニング済みモデルのトレーニングに使用されたものとは異なる損失関数やモデルタイプが使用されることがあります。たとえば、事前トレーニング済みの大規模な画像モデルをファインチューニングして、入力画像内の鳥の数を返す回帰モデルを作成できます。

ファインチューニングと次の用語を比較対照します。

蒸留
プロンプトベースの学習

詳細については、ML 集中講座のファインチューニングをご覧ください。

フラッシュモデル

#generativeAI

速度と低レイテンシ向けに最適化された、比較的小さな Gemini モデルのファミリー。Flash モデルは、迅速なレスポンスと高いスループットが重要な幅広いアプリケーション向けに設計されています。

Flax

JAX 上に構築された、ディープラーニング用の高性能オープンソースライブラリ。Flax には、ニューラルネットワークのトレーニング用の関数と、パフォーマンスを評価するためのメソッドが用意されています。

Flaxformer

Flax 上に構築されたオープンソースの Transformer ライブラリ。主に自然言語処理とマルチモーダル研究用に設計されています。

忘却ゲート

セルを通過する情報の流れを調整する 長期短期記憶セルの部分。忘却ゲートは、セル状態からどの情報を破棄するかを決定することでコンテキストを維持します。

基盤モデル

#generativeAI

#Metric

膨大で多様なトレーニングセットでトレーニングされた、非常に大規模な事前トレーニング済みモデル。基盤モデルでは、次の両方を行うことができます。

幅広いリクエストに適切に対応する。
追加のファインチューニングやその他のカスタマイズのベースモデルとして機能します。

つまり、基盤モデルは一般的な意味ですでに非常に有能ですが、特定のタスクに対してさらに有用になるようにカスタマイズできます。

成功の割合

#generativeAI

#Metric

ML モデルの生成されたテキストを評価するための指標。成功の割合は、生成されたテキスト出力の総数で「成功」した生成テキスト出力の数を割った値です。たとえば、大規模言語モデルが 10 個のコードブロックを生成し、そのうち 5 個が成功した場合、成功率は 50% になります。

成功率の指標は統計全体で広く使用されていますが、ML では、主にコード生成や数学の問題などの検証可能なタスクを測定するために使用されます。

フル softmax

softmax と同義。

候補サンプリングと比較してください。

詳細については、ML 集中講座のニューラルネットワーク: 多クラス分類をご覧ください。

全結合レイヤ

各ノードが後続の隠れ層のすべてのノードに接続されている隠れ層。

全結合レイヤは、密レイヤとも呼ばれます。

関数変換

関数を入力として受け取り、変換された関数を出力として返す関数。JAX は関数変換を使用します。

G

GAN

敵対的生成ネットワークの略語。

Gemini

#generativeAI

Google の最先端 AI で構成されたエコシステム。このエコシステムの要素は次のとおりです。

さまざまな Gemini モデル。
Gemini モデルへのインタラクティブな会話型インターフェース。ユーザーがプロンプトを入力すると、Gemini がそのプロンプトに応答します。
各種 Gemini API。
Gemini モデルに基づくさまざまなビジネスプロダクト（Gemini for Google Cloud など）。

Gemini モデル

#generativeAI

Google の最先端の Transformer ベースのマルチモーダルモデル。Gemini モデルは、エージェントと統合するように特別に設計されています。

ユーザーは、対話型ダイアログインターフェースや SDK など、さまざまな方法で Gemini モデルを操作できます。

Gemma

#generativeAI

Gemini モデルの作成に使用されたものと同じ研究とテクノロジーに基づいて構築された、軽量なオープンモデルのファミリーです。複数の異なる Gemma モデルが用意されており、それぞれにビジョン、コード、指示の実行などの異なる機能が備わっています。詳しくは、Gemma をご覧ください。

GenAI または genAI

#generativeAI

生成 AI の略語。

一般化

#fundamentals

新しい未知のデータに対して正しい予測を行えるモデルの能力。汎化性能が高いモデルは、過学習しているモデルとは正反対の状態です。

アイコンをクリックすると、追加のメモが表示されます。

トレーニングセットのサンプルでモデルをトレーニングします。その結果、モデルはトレーニングセット内のデータの特性を学習します。一般化とは、トレーニングセットに含まれていない例に対して、モデルが適切な予測を行えるかどうかを問うものです。

一般化を促進するために、正則化により、モデルはトレーニングセット内のデータの特殊性を正確にトレーニングしなくなります。

詳細については、機械学習クラッシュコースの一般化をご覧ください。

汎化曲線

#fundamentals

トレーニング損失と検証損失の両方を反復回数の関数としてプロットしたグラフ。

一般化曲線は、過剰適合の可能性を検出するのに役立ちます。たとえば、次の汎化曲線は、検証損失が最終的にトレーニング損失よりも大幅に高くなるため、過学習を示しています。

Y 軸が損失、X 軸がイテレーションとラベル付けされたデカルトグラフ。2 つのプロットが表示されます。1 つのプロットはトレーニング損失を示し、もう 1 つのプロットは検証損失を示します。2 つのプロットは最初は似ていますが、トレーニング損失は最終的に検証損失よりもはるかに低くなります。

詳細については、ML 集中講座の汎化をご覧ください。

一般化線形モデル

ガウスノイズに基づく最小二乗回帰モデルを、ポアソンノイズやカテゴリカルノイズなどの他のタイプのノイズに基づく他のタイプのモデルに一般化したもの。一般化線形モデルの例を次に示します。

ロジスティック回帰
マルチクラス回帰
最小二乗回帰

一般化線形モデルのパラメータは、凸最適化によって求めることができます。

一般化線形モデルには次の特性があります。

最適な最小二乗回帰モデルの平均予測は、トレーニングデータの平均ラベルと等しくなります。
最適なロジスティック回帰モデルによって予測される平均確率は、トレーニングデータの平均ラベルと等しくなります。

一般化線形モデルの能力は、その特徴によって制限されます。ディープモデルとは異なり、一般化線形モデルは「新しい特徴を学習」できません。

生成されたテキスト

#generativeAI

一般に、ML モデルが出力するテキスト。大規模言語モデルを評価する際、一部の指標では、生成されたテキストと参照テキストを比較します。たとえば、ML モデルがフランス語からオランダ語にどれだけ効果的に翻訳できるかを判断しようとしているとします。この例の場合は、次のようになります。

生成されたテキストは、ML モデルが出力するオランダ語の翻訳です。
参照テキストは、人間の翻訳者（またはソフトウェア）が作成したオランダ語の翻訳です。

一部の評価戦略には参照テキストが含まれていません。

敵対的生成ネットワーク（GAN）

生成器がデータを作成し、識別器が作成されたデータが有効か無効かを判断する、新しいデータを作成するシステム。

詳細については、敵対的生成ネットワークコースをご覧ください。

生成 AI

#generativeAI

正式な定義のない、変革的な新しい分野です。ただし、ほとんどの専門家は、生成 AI モデルは次のすべてに該当するコンテンツを作成（「生成」）できるという点で一致しています。

複雑
一貫性のある
オリジナル

生成 AI の例:

大規模言語モデル。高度なオリジナルのテキストを生成し、質問に答えることができます。
独自の画像を生成できる画像生成モデル。
オーディオと音楽の生成モデル。オリジナルの音楽を作曲したり、リアルな音声を生成したりできます。
オリジナル動画を生成できる動画生成モデル。

LSTM や RNN などの以前のテクノロジーでも、オリジナルで一貫性のあるコンテンツを生成できます。これらの初期のテクノロジーを生成 AI と見なす専門家もいれば、真の生成 AI には、これらの初期のテクノロジーが生成できるよりも複雑な出力が必要だと考える専門家もいます。

予測 ML との対比。

生成モデル

実際には、次のいずれかを行うモデル。

トレーニングデータセットから新しい例を作成（生成）します。たとえば、生成モデルは、詩のデータセットでトレーニングした後、詩を作成できます。敵対的生成ネットワークの生成器部分は、このカテゴリに分類されます。
新しい例がトレーニングセットから取得されたか、トレーニングセットを作成したのと同じメカニズムで作成された確率を決定します。たとえば、英語の文で構成されるデータセットでトレーニングした後、生成モデルは新しい入力が有効な英語の文である確率を判断できます。

生成モデルは、理論的にはデータセット内の例や特定の特徴の分布を識別できます。具体的には、次のことが求められます。

p(examples)

教師なし学習モデルは生成モデルです。

識別モデルと比較してください。

ジェネレータ

新しい例を作成する敵対的生成ネットワーク内のサブシステム。

識別モデルと対照的です。

ジニ不純度

#df

#Metric

エントロピーに似た指標。スプリッタは、ジニ不純度またはエントロピーから導出された値を使用して、分類の決定木の条件を構成します。情報ゲインはエントロピーから導出されます。ジニ不純度から導出された指標に、一般的に受け入れられている同等の用語はありません。ただし、この名前のない指標は情報ゲインと同じくらい重要です。

ジニ不純度は、ジニ係数または単にジニとも呼ばれます。

アイコンをクリックすると、ジニ不純度に関する数学的な詳細が表示されます。

ジニ不純度は、同じ分布から取得した新しいデータを誤分類する確率です。2 つの値「0」と「1」を持つセットのジニ不純度（バイナリ分類問題のラベルなど）は、次の式で計算されます。

I = 1 - (p² + q²) = 1 - (p² + (1-p)²)

ここで

I はジニ不純度です。
p は「1」の例の割合です。
q は「0」の例の割合です。q = 1-p

たとえば、次のデータセットについて考えてみましょう。

100 個のラベル（データセットの 0.25）に値「1」が含まれています。
300 個のラベル（データセットの 0.75）に値「0」が含まれている

したがって、ジニ不純度は次のようになります。

p = 0.25
q = 0.75
I = 1 - (0.25² + 0.75²) = 0.375

したがって、同じデータセットからランダムに選択されたラベルが誤分類される確率は 37.5%、正しく分類される確率は 62.5% になります。

完全にバランスの取れたラベル（たとえば、200 個の「0」と 200 個の「1」）のジニ不純度は 0.5 になります。不均衡の大きいラベルの場合、ジニ不純度は 0.0 に近い値になります。

ゴールデンデータセット

グラウンドトゥルースをキャプチャする手動でキュレーションされたデータのセット。チームは 1 つ以上のゴールデンデータセットを使用して、モデルの品質を評価できます。

一部のゴールデンデータセットは、グラウンドトゥルースのさまざまなサブドメインをキャプチャします。たとえば、画像分類用のゴールデンデータセットでは、照明条件と画像解像度をキャプチャできます。

ゴールデンレスポンス

#generativeAI

レスポンスが良好であることがわかっている。たとえば、次のようなプロンプトがあるとします。

2 + 2

理想的な回答は次のとおりです。

4

ゴールデンレスポンスと参照テキストに関する注意事項については、こちらをクリックしてください。

ROUGE などの評価指標は、参照テキストとモデルの生成テキストを比較します。プロンプトに対する正解が 1 つしかない場合、通常、ゴールデンレスポンスは参照テキストとして機能します。

プロンプトによっては、正解が 1 つではないものもあります。たとえば、「このドキュメントを要約してください」というプロンプトには、正解が複数ある可能性があります。このようなプロンプトの場合、モデルが非常に幅広い要約を生成できるため、参照テキストは実用的でないことがよくあります。ただし、この状況ではゴールデンレスポンスが役立つ可能性があります。たとえば、優れたドキュメントの要約を含むゴールデンレスポンスは、優れたドキュメントの要約のパターンを検出するように自動評価ツールをトレーニングするのに役立ちます。

Google AI Studio

Google の大規模言語モデルを使用してアプリケーションをテストし、構築するためのユーザーフレンドリーなインターフェースを提供する Google ツール。詳細については、Google AI Studio のホームページをご覧ください。

GPT（Generative Pre-trained Transformer）

#generativeAI

OpenAI が開発した Transformer ベースの大規模言語モデルのファミリー。

GPT バリアントは、次のような複数のモダリティに適用できます。

画像生成（ImageGPT など）
テキストから画像への生成（例: DALL-E）。

グラデーション

すべての独立変数に対する偏微分のベクター。ML では、勾配はモデル関数の偏導関数のベクトルです。勾配は最も急な上昇方向を指し示しています。

勾配の累積

バックプロパゲーション手法。反復ごとに 1 回ではなく、エポックごとに 1 回だけパラメータを更新します。各ミニバッチの処理後、勾配の累積では勾配の実行合計が更新されます。次に、エポックの最後のミニバッチを処理した後、システムはすべてのグラデーション変更の合計に基づいてパラメータを更新します。

グラデーションの累積は、トレーニングに使用可能なメモリ量と比較してバッチサイズが非常に大きい場合に便利です。メモリが問題になる場合は、バッチサイズを小さくするのが自然な傾向です。ただし、通常のバックプロパゲーションでバッチサイズを減らすと、パラメータ更新の回数が増加します。グラデーションの累積により、モデルはメモリの問題を回避しながら効率的にトレーニングできます。

勾配ブースト（ディシジョン）ツリー（GBT）

#df

次のようなデシジョンフォレストの一種。

トレーニングは、グラデーションブースティングに依存しています。
弱いモデルは決定木です。

詳細については、Decision Forests コースの Gradient Boosted Decision Trees（勾配ブースティング決定木）をご覧ください。

勾配ブースティング

#df

弱いモデルをトレーニングして、強いモデルの品質を反復的に改善（損失を削減）するトレーニングアルゴリズム。たとえば、弱いモデルは線形モデルや小さなディシジョンツリーモデルです。強いモデルは、以前にトレーニングされた弱いモデルの合計になります。

最も単純な形式のグラデーションブースティングでは、各イテレーションで、強力なモデルの損失勾配を予測するように弱いモデルがトレーニングされます。次に、勾配降下法と同様に、予測された勾配を減算して、強いモデルの出力を更新します。

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

ここで

$F_{0}$ は、開始時の強化学習モデルです。
$F_{i+1}$ は次の強力なモデルです。
$F_{i}$ は現在の強力なモデルです。
$\xi$ は 0.0 ～ 1.0 の値で、収縮と呼ばれます。これは、勾配降下法の学習率に類似しています。
$f_{i}$ は、$F_{i}$ の損失勾配を予測するようにトレーニングされた弱いモデルです。

勾配ブースティングの最新のバリエーションでは、損失の 2 次導関数（ヘシアン）も計算に含まれます。

ディシジョンツリーは、勾配ブースティングで弱いモデルとしてよく使用されます。勾配ブースト（ディシジョン）ツリーをご覧ください。

勾配クリッピング

勾配降下法を使用してモデルをトレーニングするときに、勾配の最大値を人工的に制限（クリッピング）することで、勾配爆発問題を軽減するために一般的に使用されるメカニズム。

勾配降下法

#fundamentals

損失を最小限に抑えるための数学的手法。勾配降下法では、重みとバイアスを繰り返し調整し、損失を最小限に抑える最適な組み合わせを徐々に見つけます。

勾配降下法は、機械学習よりもはるかに古いものです。

詳細については、機械学習集中講座の線形回帰: 勾配降下法をご覧ください。

グラフ

#TensorFlow

TensorFlow の計算仕様。グラフ内のノードはオペレーションを表します。エッジは有向であり、オペレーションの結果（Tensor）を別のオペレーションのオペランドとして渡すことを表します。TensorBoard を使用してグラフを可視化します。

グラフ実行

#TensorFlow

プログラムが最初にグラフを構築し、そのグラフの全部または一部を実行する TensorFlow プログラミング環境。グラフ実行は、TensorFlow 1.x のデフォルトの実行モードです。

eager 実行と比較してください。

貪欲ポリシー

強化学習では、ポリシー常に最も期待される行動を選択する戻る。

根拠性

出力が特定のソース資料に基づいている（「グラウンディング」されている）モデルのプロパティ。たとえば、物理学の教科書全体を 大規模言語モデルの入力（「コンテキスト」）として提供するとします。次に、その大規模言語モデルに物理学の質問をします。モデルのレスポンスにその教科書の情報が反映されている場合、そのモデルはその教科書にグラウンディングされています。

グラウンディングされたモデルが常に事実に基づいたモデルであるとは限りません。たとえば、入力された物理学の教科書に誤りがある可能性があります。

グラウンドトゥルース

#fundamentals

現実。

実際に起こったこと。

たとえば、大学 1 年生の学生が 6 年以内に卒業するかどうかを予測するバイナリ分類モデルを考えてみましょう。このモデルのグラウンドトゥルースは、その生徒が 6 年以内に実際に卒業したかどうかです。

アイコンをクリックすると、追加のメモが表示されます。

モデルの品質はグラウンドトゥルースに対して評価されます。ただし、グラウンドトゥルースが完全に真実であるとは限りません。たとえば、次のような正解の不完全性の例を考えてみましょう。

卒業の例では、各生徒の卒業記録が常に正しいと確信できますか？大学の記録管理は完璧ですか？
ラベルが機器（気圧計など）で測定された浮動小数点値であるとします。各測定器が同じように校正されていること、または各測定値が同じ状況で取得されたことを確認するにはどうすればよいですか？
ラベルが人間の意見に基づくものである場合、各人間の評価者が同じ方法でイベントを評価していることをどのように確認できますか？一貫性を高めるため、専門家である人間の評価者が介入することもあります。

グループ帰属バイアス

#responsible

個人に当てはまることが、そのグループの全員に当てはまると仮定する。データ収集に便宜的サンプリングを使用すると、グループアトリビューションバイアスの影響が拡大する可能性があります。代表的でないサンプルでは、現実を反映していない帰属が行われる可能性があります。

自分が属していないグループに対する均一性のバイアスと所属グループのバイアスもご覧ください。詳細については、ML 集中講座の公平性: 偏りの種類もご覧ください。

H

ハルシネーション

#generativeAI

現実世界について主張しているように見えるが、実際には事実と異なる出力を生成 AI モデルが生成すること。たとえば、バラクオバマが 1865 年に死亡したと主張する生成 AI モデルは、ハルシネーションを起こしています。

ハッシュ ; ハッシュ化

機械学習で、カテゴリデータをバケット化するメカニズム。特に、カテゴリの数は多いが、データセットに実際に表示されるカテゴリの数が比較的少ない場合に有効です。

たとえば、地球には約 73,000 種類の樹木が生息しています。73,000 種類の樹木を 73,000 個の個別のカテゴリバケットで表すことができます。また、データセットに実際に含まれている樹種が 200 種類しかない場合は、ハッシュ化を使用して、樹種を 500 個のバケットに分割できます。

1 つのバケットに複数の樹種を含めることができます。たとえば、ハッシュ化により、遺伝的に異なる 2 つの種である バオバブと紅葉が同じバケットに配置される可能性があります。いずれにしても、ハッシュ化は、大規模なカテゴリカルセットを選択した数のバケットにマッピングする優れた方法です。ハッシュ化では、多数の可能な値を持つカテゴリ特徴を、値を決定論的な方法でグループ化することで、はるかに少ない数の値に変換します。

詳細については、ML 集中講座のカテゴリデータ: 語彙とワンホットエンコードをご覧ください。

ヒューリスティック

問題に対してシンプルかつ迅速に実行できる解決策。例:「ヒューリスティクスでは 86% の精度を達成しました。ディープニューラルネットワークに切り替えると、精度は 98% に向上しました。」

隠れ層

#fundamentals

入力層（特徴）と出力層（予測）の間にあるニューラルネットワークのレイヤ。各隠れ層は 1 つ以上のニューロンで構成されます。たとえば、次のニューラルネットワークには 2 つの隠れ層が含まれています。1 つ目は 3 つのニューロン、2 つ目は 2 つのニューロンです。

4 つのレイヤ。最初のレイヤは、2 つの特徴量を含む入力レイヤです。2 番目のレイヤは、3 つのニューロンを含む隠れレイヤです。3 番目のレイヤは、2 つのニューロンを含む隠れレイヤです。4 番目のレイヤは出力レイヤです。各特徴には 3 つのエッジが含まれており、それぞれが第 2 レイヤの異なるニューロンを指しています。第 2 レイヤの各ニューロンには 2 つのエッジがあり、それぞれが第 3 レイヤの異なるニューロンを指しています。第 3 レイヤの各ニューロンには、出力レイヤを指すエッジが 1 つずつ含まれています。

ディープニューラルネットワークには複数の隠れ層が含まれています。たとえば、上の図は、モデルに 2 つの隠れ層が含まれているため、ディープニューラルネットワークです。

詳細については、ML 集中講座のニューラルネットワーク: ノードと隠れ層をご覧ください。

階層型クラスタリング

#clustering

クラスタのツリーを作成するクラスタリング アルゴリズムのカテゴリ。階層型クラスタリングは、植物分類などの階層データに適しています。階層型クラスタリングアルゴリズムには次の 2 種類があります。

凝集型クラスタリングでは、まずすべての例を独自のクラスタに割り当て、最も近いクラスタを繰り返しマージして階層ツリーを作成します。
分割型クラスタリングでは、まずすべての例を 1 つのクラスタにグループ化し、次にクラスタを階層ツリーに繰り返し分割します。

重心ベースのクラスタリングと比較してください。

詳細については、クラスタリングコースのクラスタリングアルゴリズムをご覧ください。

ヒルクライム

ML モデルの改善が止まる（「丘の頂上に達する」）まで、ML モデルを反復的に改善（「丘を登る」）するアルゴリズム。アルゴリズムの一般的な形式は次のとおりです。

開始モデルを構築します。
トレーニングまたはファインチューニングの方法を少し調整して、新しい候補モデルを作成します。これには、わずかに異なるトレーニングセットや異なるハイパーパラメータを使用することが含まれる場合があります。
新しい候補モデルを評価し、次のいずれかの操作を行います。
- 候補モデルが開始モデルよりも優れている場合、その候補モデルが新しい開始モデルになります。この場合は、手順 1、2、3 を繰り返します。
- どのモデルも開始モデルよりも優れていない場合は、丘の頂上に達したため、反復を停止する必要があります。

ハイパーパラメータ調整のガイダンスについては、ディープラーニングチューニングプレイブックをご覧ください。特徴量エンジニアリングのガイダンスについては、ML 集中講座のデータモジュールをご覧ください。

ヒンジ損失

#Metric

分類用の損失関数のファミリー。各トレーニング例から可能な限り離れた決定境界を見つけるように設計されており、例と境界の間のマージンを最大化します。KSVM はヒンジ損失（または 2 乗ヒンジ損失などの関連関数）を使用します。バイナリ分類の場合、ヒンジ損失関数は次のように定義されます。

$$\text{loss} = \text{max}(0, 1 - (y * y'))$$

ここで、y は -1 または +1 の真のラベル、y' は分類モデルの未加工の出力です。

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

したがって、ヒンジ損失と（y * y'）のプロットは次のようになります。

2 つの線分が結合されたデカルトプロット。最初の線分は (-3, 4) から始まり、(1, 0) で終わります。2 番目の線分は (1, 0) から始まり、傾き 0 で無限に続きます。

過去のバイアス

#responsible

すでに世の中に存在し、データセットに組み込まれているバイアスの一種。このようなバイアスは、既存の文化的ステレオタイプ、人口統計上の不平等、特定の社会集団に対する偏見を反映する傾向があります。

たとえば、2 つの異なるコミュニティの地元の銀行から 1980 年代の過去のローン不履行データでトレーニングされた、ローン申請者がローンを不履行にするかどうかを予測する分類モデルを考えてみましょう。過去にコミュニティ A の申請者がコミュニティ B の申請者よりも 6 倍の確率でローンの支払いを滞納していた場合、モデルは過去のバイアスを学習し、コミュニティ A のローンの承認率が低くなる可能性があります。たとえ、コミュニティ A の滞納率が高くなった過去の状況がもはや関連性がなくなったとしてもです。

詳細については、機械学習クラッシュコースの公平性: バイアスの種類をご覧ください。

ホールドアウトデータ

トレーニング中に意図的に使用されなかった（「ホールドアウト」された）例。検証データセットとテストデータセットは、ホールドアウトデータの例です。ホールドアウトデータは、モデルがトレーニングに使用したデータ以外のデータに一般化する能力を評価するのに役立ちます。ホールドアウトセットの損失は、トレーニングセットの損失よりも、未知のデータセットの損失をより正確に推定できます。

ホスト

#TensorFlow

#GoogleCloud

アクセラレータチップ（GPU または TPU）で ML モデルをトレーニングする場合、次の両方を制御するシステムの一部:

コードの全体的なフロー。
入力パイプラインの抽出と変換。

ホストは通常、アクセラレータチップではなく CPU で実行されます。デバイスは、アクセラレータチップ上のテンソルを操作します。

人間による評価

#generativeAI

人が ML モデルの出力の品質を判断するプロセス。たとえば、バイリンガルの人が ML 翻訳モデルの品質を判断するなど。人間による評価は、正解が 1 つではないモデルを判断する際に特に役立ちます。

自動評価と自動評価ツールによる評価と比較してください。

人間参加型（HITL）

#generativeAI

次のいずれかを意味する可能性のある、緩やかに定義されたイディオム。

生成 AI の出力を批判的または懐疑的に見るポリシー。
モデルの動作をユーザーが形成、評価、改善するための戦略またはシステム。人間参加型 AI を使用すると、AI は機械知能と人間知能の両方のメリットを享受できます。たとえば、AI がコードを生成し、ソフトウェアエンジニアがそれをレビューするシステムは、人間がループに関与するシステムです。

ハイパーパラメータ

#fundamentals

モデルのトレーニングを連続して実行する際に、ユーザーまたはハイパーパラメータチューニングサービス（Vizier など）が調整する変数。たとえば、学習率はハイパーパラメータです。1 回のトレーニングセッションの前に学習率を 0.01 に設定できます。0.01 が高すぎると判断した場合は、次のトレーニングセッションの学習率を 0.003 に設定します。

一方、パラメータは、モデルがトレーニング中に学習するさまざまな重みとバイアスです。

詳細については、ML 集中講座の線形回帰: ハイパーパラメータをご覧ください。

超平面

空間を 2 つのサブスペースに分割する境界。たとえば、2 次元では直線が超平面であり、3 次元では平面が超平面です。機械学習では、超平面は高次元空間を分離する境界として使用されることが一般的です。カーネルサポートベクターマシンは、多くの場合、非常に高次元の空間で、超平面を使用して正のクラスと負のクラスを分離します。

I

i.i.d.

独立同分布の略語。

画像認識

画像内のオブジェクト、パターン、コンセプトを分類するプロセス。画像認識は画像分類とも呼ばれます。

詳細については、ML 実習: 画像分類をご覧ください。

詳細については、ML 実践: 画像分類コースをご覧ください。

不均衡なデータセット

クラス不均衡データセットの同義語。

暗黙のバイアス

#responsible

自分のメンタルモデルや記憶に基づいて、関連付けや推測を自動的に行うこと。暗黙のバイアスは、次のものに影響する可能性があります。

データの収集方法と分類方法。
機械学習システムの設計と開発の方法。

たとえば、結婚式の写真を識別する分類モデルを構築する場合、エンジニアは写真に白いドレスがあるかどうかを特徴として使用することがあります。ただし、白いドレスは特定の時代や文化でのみ慣習的に着用されてきました。

確証バイアスもご覧ください。

補完

値の補完の短縮形。

公平性指標の非互換性

#responsible

#Metric

公平性の概念の中には、相互に両立せず、同時に満たすことができないものがあるという考え方。そのため、すべての ML 問題に適用できる公平性を定量化するための単一の普遍的な指標はありません。

これは落胆するようなことかもしれませんが、公平性の指標の不整合は、公平性への取り組みが無駄であることを意味するものではありません。代わりに、公平性は特定の ML 問題のコンテキストに沿って定義し、そのユースケースに固有の危害を防ぐことを目標にする必要があることを示唆しています。

公平性指標の非互換性について詳しくは、「公平性の（不）可能性について」をご覧ください。

コンテキスト内学習

#generativeAI

少数ショットプロンプトと同義。

独立同分布（i.i.d）

#fundamentals

変化しない分布から抽出されたデータ。抽出された各値は、以前に抽出された値に依存しません。i.i.d. は、機械学習の理想気体です。有用な数学的構成ですが、現実世界で正確に見つかることはほとんどありません。たとえば、ウェブページへの訪問者の分布は、短い期間にわたって i.i.d. になることがあります。つまり、その短い期間中は分布が変化せず、あるユーザーの訪問は一般的に別のユーザーの訪問とは独立しています。ただし、期間を拡大すると、ウェブページの訪問者の季節的な違いが表示されることがあります。

非定常性もご覧ください。

個人の公平性

#responsible

#Metric

類似した個人が同様に分類されているかどうかを確認する公平性指標。たとえば、Brobdingnagian Academy は、成績と標準テストのスコアが同じ 2 人の生徒が同じ確率で入学できるようにすることで、個人の公平性を満たしたいと考えています。

個々の公平性は「類似性」（この場合は成績とテストの点数）をどのように定義するかに完全に依存しており、類似性の測定基準で重要な情報（学生のカリキュラムの厳しさなど）が欠落している場合は、新たな公平性の問題が発生するリスクがあることに注意してください。

個人の公平性について詳しくは、「認識による公平性」をご覧ください。

推論

#fundamentals

#generativeAI

従来の ML では、トレーニング済みのモデルをラベルなしの例に適用して予測を行うプロセス。詳細については、ML の概要コースの教師あり学習をご覧ください。

大規模言語モデルでは、推論は、トレーニング済みのモデルを使用して、入力プロンプトに対するレスポンスを生成するプロセスです。

推論は、統計ではやや異なる意味を持ちます。詳しくは、統計的推論に関する Wikipedia の記事をご覧ください。

推論パス

#df

ディシジョンツリーでは、推論中に、特定の例がルートから他の条件をたどってリーフで終了します。たとえば、次の決定木では、太い矢印は、次の特徴値を持つ例の推論パスを示しています。

x = 7
y = 12
z = -3

次の図の推論パスは、リーフ（Zeta）に到達する前に 3 つの条件を通過します。

4 つの条件と 5 つのリーフで構成されるディシジョンツリー。ルート条件は（x > 0）です。答えが「はい」なので、推論パスはルートから次の条件（y > 0）に移動します。答えが「はい」なので、推論パスは次の条件（z > 0）に進みます。答えが「いいえ」であるため、推論パスはリーフ（Zeta）である終端ノードに移動します。

3 つの太い矢印は推論パスを示します。

詳細については、デシジョンフォレストコースのデシジョンツリーをご覧ください。

情報利得

#df

#Metric

決定フォレストでは、ノードのエントロピーと、子ノードのエントロピーの重み付け（例の数による）された合計の差。ノードのエントロピーは、そのノード内の例のエントロピーです。

たとえば、次のエントロピー値を考えてみましょう。

親ノードのエントロピー = 0.6
16 個の関連する例を含む 1 つの子ノードのエントロピー = 0.2
関連する例が 24 個ある別の子ノードのエントロピー = 0.1

したがって、例の 40% は一方の子ノードにあり、60% はもう一方の子ノードにあります。そのため、次のようになります。

子ノードの重み付きエントロピーの合計 = (0.4 × 0.2) + (0.6 × 0.1) = 0.14

したがって、情報利得は次のようになります。

情報利得 = 親ノードのエントロピー - 子ノードの重み付きエントロピーの合計
情報利得 = 0.6 - 0.14 = 0.46

ほとんどの分割ツールは、情報ゲインを最大化する条件を作成しようとします。

内集団バイアス

#responsible

自分のグループや自分の特性に偏見を持つこと。テスト担当者や評価者が ML デベロッパーの友人、家族、同僚で構成されている場合、内集団バイアスによってプロダクトテストやデータセットが無効になる可能性があります。

所属グループのバイアスは、グループ帰属バイアスの一種です。自分が属していないグループに対する均一性のバイアスもご覧ください。

詳細については、ML 集中講座の公平性: 偏りの種類をご覧ください。

入力ジェネレータ

データがニューラルネットワークに読み込まれるメカニズム。

入力ジェネレータは、生データをテンソルに処理するコンポーネントと考えることができます。このテンソルは、トレーニング、評価、推論用のバッチを生成するために反復処理されます。

入力レイヤ

#fundamentals

特徴ベクトルを保持するニューラルネットワークのレイヤ。つまり、入力レイヤはトレーニングまたは推論用の例を提供します。たとえば、次のニューラルネットワークの入力レイヤは 2 つの特徴で構成されています。

4 つのレイヤ: 入力レイヤ、2 つの隠れレイヤ、出力レイヤ。

インセット条件

#df

ディシジョンツリーでは、アイテムのセット内の 1 つのアイテムの存在をテストする条件。たとえば、次の条件はインセット条件です。

  house-style in [tudor, colonial, cape]

推論時に、住宅スタイルの特徴の値が tudor、colonial、cape のいずれかの場合、この条件は「はい」と評価されます。住宅スタイルの特徴の値がそれ以外の場合（ranch など）、この条件は「No」と評価されます。

通常、インセット条件は、ワンホットエンコードされた特徴をテストする条件よりも効率的なディシジョンツリーにつながります。

インスタンス

example と同義。

指示チューニング

#generativeAI

生成 AI モデルが指示に従う能力を向上させるファインチューニングの一種。指示チューニングでは、通常はさまざまなタスクを対象とする一連の指示プロンプトでモデルをトレーニングします。その結果、指示チューニングされたモデルは、さまざまなタスクにわたってゼロショットプロンプトに対して有用なレスポンスを生成する傾向があります。

比較対照:

パラメータ効率チューニング
プロンプトチューニング

解釈可能性

#fundamentals

ML モデルの推論を人間にわかりやすい言葉で説明または提示する能力。

たとえば、ほとんどの線形回帰モデルは解釈可能性が高いです。（各特徴量のトレーニング済み重みを確認するだけで済みます）。デシジョンフォレストは解釈可能性も高いです。ただし、一部のモデルでは、解釈可能にするために高度な可視化が必要になります。

Learning Interpretability Tool（LIT）を使用して、ML モデルを解釈できます。

評価者間一致度

#Metric

タスクの実行時に人間の評価者が一致する頻度を測定します。評価者が一致しない場合は、タスクの指示を改善する必要があるかもしれません。アノテーター間の合意度または評価者間の信頼性とも呼ばれます。最も一般的な評価者間一致度の測定方法の 1 つである Cohen のカッパ係数もご覧ください。

詳細については、ML 集中講座のカテゴリデータ: 一般的な問題をご覧ください。

IoU（Intersection over Union）

2 つのセットの共通部分を和集合で割った値。機械学習の画像検出タスクでは、IoU を使用して、グラウンドトゥルースの境界ボックスに対するモデルの予測境界ボックスの精度を測定します。この場合、2 つのボックスの IoU は、重複する領域と合計領域の比率です。値の範囲は 0（予測境界ボックスとグラウンドトゥルース境界ボックスが重ならない）から 1（予測境界ボックスとグラウンドトゥルース境界ボックスの座標が完全に一致する）です。

たとえば、下の画像では次のように表示されます。

予測された境界ボックス（モデルが絵画のナイトテーブルが配置されていると予測した場所を区切る座標）は紫色の枠で囲まれています。
グラウンドトゥルースのバウンディングボックス（絵画のナイトテーブルが実際に配置されている場所を区切る座標）は緑色で囲まれています。

ファンゴッホの絵画「アルルの寝室」。ベッドの横にあるナイトテーブルの周りに 2 つの異なるバウンディングボックスがあります。グラウンドトゥルースの境界ボックス（緑色）がナイトテーブルを完全に囲んでいます。予測された境界ボックス（紫）は、グラウンドトゥルースの境界ボックスから 50% 下と右にオフセットされています。ナイトテーブルの右下 4 分の 1 は囲んでいますが、残りの部分は囲んでいません。

ここで、予測とグラウンドトゥルースの境界ボックスの交差部分（左下）は 1、予測とグラウンドトゥルースの境界ボックスの和集合（右下）は 7 であるため、IoU は $\frac{1}{7}$です。

上の図と同じ画像だが、各境界ボックスが 4 つの象限に分割されている。グラウンドトゥルースの境界ボックスの右下象限と予測境界ボックスの左上象限が重なっているため、象限は合計 7 つあります。この重複するセクション（緑色でハイライト表示）は交差部分を表し、面積は 1 です。

上の図と同じ画像だが、各境界ボックスが 4 つの象限に分割されている。グラウンドトゥルースの境界ボックスの右下象限と予測境界ボックスの左上象限が重なっているため、象限は合計 7 つあります。両方の境界ボックスで囲まれた内部全体（緑色でハイライト表示）は和集合を表し、面積は 7 です。

IoU

IoU（Intersection over Union）の略。

アイテムマトリックス

レコメンデーションシステムでは、行列分解によって生成されたエンベディングベクトルの行列が、各アイテムに関する潜在シグナルを保持します。アイテムマトリックスの各行には、すべてのアイテムの単一の潜在的特徴の値が保持されます。たとえば、映画のレコメンデーションシステムについて考えてみましょう。アイテムマトリックスの各列は 1 つの映画を表します。潜在シグナルはジャンルを表すこともあれば、ジャンル、スター、映画の公開年などの要素間の複雑な相互作用を含む、解釈が難しいシグナルであることもあります。

アイテムマトリックスの列数は、因数分解されるターゲットマトリックスと同じです。たとえば、10,000 件の映画タイトルを評価する映画おすすめシステムの場合、アイテム行列には 10,000 個の列があります。

アイテム

レコメンデーションシステムでは、システムが推奨するエンティティ。たとえば、ビデオ店がおすすめするアイテムは動画であり、書店がおすすめするアイテムは書籍です。

繰り返し

#fundamentals

トレーニング中に、モデルのパラメータ（モデルの重みとバイアス）を 1 回更新すること。バッチサイズは、モデルが 1 回のイテレーションで処理するサンプル数を決定します。たとえば、バッチサイズが 20 の場合、モデルはパラメータを調整する前に 20 個の例を処理します。

ニューラルネットワークをトレーニングする場合、1 回の反復には次の 2 つのパスが含まれます。

単一バッチの損失を評価するフォワードパス。
損失と学習率に基づいてモデルのパラメータを調整するバックワードパス（バックプロパゲーション）。

詳細については、機械学習集中講座の勾配降下法をご覧ください。

J

JAX

配列コンピューティングライブラリ。XLA（Accelerated Linear Algebra）と自動微分を組み合わせて、高性能な数値計算を実現します。JAX は、構成可能な変換を使用して高速化された数値コードを記述するためのシンプルで強力な API を提供します。JAX には次のような機能があります。

grad（自動微分）
jit（ジャストインタイムコンパイル）
vmap（自動ベクトル化またはバッチ処理）
pmap（並列化）

JAX は、数値コードの変換を表現して構成するための言語です。Python の NumPy ライブラリに似ていますが、範囲ははるかに広いです。（実際、JAX の .numpy ライブラリは、機能的には同等ですが、Python NumPy ライブラリを完全に書き直したバージョンです）。

JAX は、モデルとデータを GPU と TPU アクセラレータチップ間の並列処理に適した形式に変換することで、多くの ML タスクを高速化するのに特に適しています。

Flax、Optax、Pax などの多くのライブラリは、JAX インフラストラクチャ上に構築されています。

K

Keras

一般的な Python ML API。Keras は、TensorFlow などの複数のディープラーニングフレームワークで実行されます。TensorFlow では、tf.keras として使用できます。

カーネルサポートベクターマシン（KSVM）

入力データベクトルを高次元空間にマッピングすることで、正のクラスと負のクラスの間のマージンを最大化しようとする分類アルゴリズム。たとえば、入力データセットに 100 個の特徴がある分類問題を考えてみましょう。正のクラスと負のクラスの間のマージンを最大化するために、KSVM はこれらの特徴を内部的に 100 万次元の空間にマッピングできます。KSVM は、ヒンジ損失と呼ばれる損失関数を使用します。

キーポイント

画像内の特定の要素の座標。たとえば、花の種類を区別する画像認識モデルの場合、キーポイントは各花びらの中心、茎、おしべなどになります。

k 分割交差検証

新しいデータに一般化するモデルの能力を予測するアルゴリズム。k 分割交差検証の k は、データセットのサンプルを分割する等しいグループの数を指します。つまり、モデルのトレーニングとテストを k 回行います。トレーニングとテストの各ラウンドで、異なるグループがテストセットになり、残りのすべてのグループがトレーニングセットになります。k 回のトレーニングとテストの後、選択したテスト指標の平均値と標準偏差を計算します。

たとえば、データセットが 120 個の例で構成されているとします。さらに、k を 4 に設定するとします。したがって、例をシャッフルした後、データセットを 30 個の例からなる 4 つの等しいグループに分割し、4 回のトレーニングとテストラウンドを実施します。

データセットが 4 つの等しいグループの例に分割されています。ラウンド 1 では、最初の 3 つのグループがトレーニングに使用され、最後のグループがテストに使用されます。ラウンド 2 では、最初の 2 つのグループと最後のグループがトレーニングに使用され、3 番目のグループがテストに使用されます。ラウンド 3 では、最初のグループと最後の 2 つのグループがトレーニングに使用され、2 番目のグループがテストに使用されます。ラウンド 4 では、最初のグループはテストに使用され、最後の 3 つのグループはトレーニングに使用されます。

たとえば、線形回帰モデルでは平均二乗誤差（MSE）が最も意味のある指標になることがあります。したがって、4 ラウンドすべての MSE の平均と標準偏差を求めます。

k-means

#clustering

教師なし学習で例をグループ化する一般的なクラスタリング アルゴリズム。k 平均法アルゴリズムは基本的に次の処理を行います。

最適な k 個の中心点（セントロイド）を反復的に決定します。
各例を最も近いセントロイドに割り当てます。同じ重心に最も近い例は、同じグループに属します。

k 平均法アルゴリズムは、各例から最も近いセントロイドまでの距離の累積二乗を最小限に抑えるようにセントロイドの位置を選択します。

たとえば、犬の高さと犬の幅の次のプロットについて考えてみましょう。

数十個のデータポイントを含む直交座標プロット。

k=3 の場合、k 平均法アルゴリズムは 3 つのセントロイドを決定します。各例は最も近いセントロイドに割り当てられ、3 つのグループが生成されます。

前の図と同じデカルトプロットですが、3 つの重心が追加されています。前のデータポイントは 3 つの異なるグループにクラスタ化され、各グループは特定のセントロイドに最も近いデータポイントを表します。

犬用のセーターの S、M、L の理想的なサイズを決定したいと考えているメーカーを想定します。3 つのセントロイドは、そのクラスタ内の各犬の平均の高さと平均の幅を示します。そのため、セーターのサイズは、おそらくこの 3 つの重心に基づいて決めるべきでしょう。クラスタの重心は通常、クラスタ内の例ではありません。

上の図は、2 つの特徴（高さと幅）のみを持つ例の k 平均法を示しています。k 平均法では、複数の特徴にわたって例をグループ化できます。

詳細については、クラスタリングコースのk 平均法クラスタリングとはをご覧ください。

k-median

#clustering

k 平均法と密接に関連するクラスタリングアルゴリズム。この 2 つの実際的な違いは次のとおりです。

k 平均法では、セントロイド候補と各例との間の距離の二乗の合計を最小化することで、セントロイドが決定されます。
k-median では、セントロイド候補と各例の距離の合計を最小化することでセントロイドが決定されます。

距離の定義も異なります。

k 平均法は、セントロイドから例までのユークリッド距離に依存します。（2 次元の場合、ユークリッド距離はピタゴラスの定理を使用して斜辺を計算することを意味します）。たとえば、(2,2) と (5,-2) の間の k 平均法距離は次のようになります。

$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$

k-median は、セントロイドから例までのマンハッタン距離に依存します。この距離は、各ディメンションの絶対デルタの合計です。たとえば、(2,2) と (5,-2) の間の k-median 距離は次のようになります。

$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

L

L₀ 正規化

#fundamentals

モデル内のゼロ以外の重みの合計数にペナルティを課す正則化の一種。たとえば、ゼロ以外の重みが 11 個あるモデルは、ゼロ以外の重みが 10 個ある同様のモデルよりもペナルティが大きくなります。

L₀ 正則化は、L0 ノルム正則化と呼ばれることもあります。

追加のメモについてはアイコンをクリックしてください。

_{L₀ 正則化は、トレーニングを凸最適化問題に変えるため、一般的に大規模モデルでは実用的ではありません。}

L₁ 損失

#fundamentals

#Metric

実際のラベル値とモデルが予測する値の差の絶対値を計算する損失関数。たとえば、5 つの例のバッチの L₁ 損失の計算は次のようになります。

例の実際の値	モデルの予測値	デルタの絶対値
7	6	1
5	4	1
8	11	3
4	6	2
9	8	1
		8 = L₁ 損失

L₁ 損失は、L₂ 損失よりも外れ値の影響を受けにくいです。

平均絶対誤差（Mean Absolute Error）は、例ごとの L₁ 損失の平均です。

アイコンをクリックすると、正式な数式が表示されます。

$$ L_1 loss = \sum_{i=0}^n | y_i - \hat{y}_i |$$

ここで

$n$ はサンプル数です。
$y$ はラベルの実際の値です。
$\hat{y}$ は、モデルが $y$ に対して予測する値です。

詳細については、ML 集中講座の線形回帰: 損失をご覧ください。

L₁ 正則化

#fundamentals

正則化の一種で、重みの絶対値の合計に比例して重みにペナルティを課します。L₁ 正則化は、無関係な特徴やほとんど関係のない特徴の重みを正確に 0 にします。重みが 0 の特徴は、モデルから事実上削除されます。

L₂ 正則化と比較してください。

L₂ 損失

#fundamentals

#Metric

実際のラベル値とモデルが予測する値の差の二乗を計算する損失関数。たとえば、5 つの例のバッチの L₂ 損失の計算は次のようになります。

例の実際の値	モデルの予測値	デルタの 2 乗
7	6	1
5	4	1
8	11	9
4	6	4
9	8	1
		16 = L₂ 損失

2 乗のため、L₂ 損失は外れ値の影響を増幅します。つまり、L₂ 損失は、L₁ 損失よりも悪い予測に強く反応します。たとえば、前のバッチの L₁ 損失は 16 ではなく 8 になります。16 個のうち 9 個が 1 つの外れ値で占められていることに注目してください。

回帰モデルでは、通常、損失関数として L₂ 損失が使用されます。

平均二乗誤差は、例ごとの L₂ 損失の平均です。二乗損失は、L₂ 損失の別名です。

アイコンをクリックすると、正式な数式が表示されます。

$$ L_2 loss = \sum_{i=0}^n {(y_i - \hat{y}_i)}^2$$

ここで

$n$ はサンプル数です。
$y$ はラベルの実際の値です。
$\hat{y}$ は、モデルが $y$ に対して予測する値です。

詳細については、ML 集中講座のロジスティック回帰: 損失と正則化をご覧ください。

L₂ 正則化

#fundamentals

重みの平方の合計に比例して重みにペナルティを課す正則化の一種。L₂ 正則化は、外れ値の重み（正の値が大きいか負の値が小さい重み）を 0 に近づけますが、完全に 0 にはしません。値が 0 に非常に近い特徴はモデルに残りますが、モデルの予測に大きな影響を与えません。

L₂ 正則化は、線形モデルの一般化を常に改善します。

L₁ 正則化と比較してください。

詳細については、機械学習集中講座の過学習: L2 正則化をご覧ください。

ラベル

#fundamentals

教師あり機械学習における、例の「答え」または「結果」の部分。

各ラベル付きの例は、1 つ以上の特徴とラベルで構成されます。たとえば、迷惑メール検出データセットでは、ラベルは「迷惑メール」または「迷惑メールではない」のいずれかになります。降雨量データセットでは、ラベルは特定の期間に降った雨の量になることがあります。

詳細については、ML の概要の教師あり学習をご覧ください。

ラベル付きの例

#fundamentals

1 つ以上の特徴とラベルを含む例。たとえば、次の表は、住宅評価モデルのラベル付きの 3 つの例を示しています。各例には 3 つの特徴と 1 つのラベルがあります。

寝室の数	浴室の数	家の築年数	住宅価格（ラベル）
3	2	15	$345,000
2	1	72	$179,000
4	2	34	$392,000

教師あり機械学習では、モデルはラベル付きの例でトレーニングし、ラベルなしの例で予測を行います。

ラベル付きの例とラベルなしの例を比較します。

詳細については、ML の概要の教師あり学習をご覧ください。

ラベル漏洩

特徴がラベルのプロキシであるモデル設計の欠陥。たとえば、見込み顧客が特定の商品を購入するかどうかを予測するバイナリ分類モデルを考えてみましょう。モデルの機能の 1 つが SpokeToCustomerAgent という名前のブール値であるとします。さらに、見込み顧客が実際に商品を購入した後にのみ、顧客エージェントが割り当てられるとします。トレーニング中に、モデルは SpokeToCustomerAgent とラベルの関連性をすばやく学習します。

詳細については、ML 集中講座のパイプラインのモニタリングをご覧ください。

lambda

#fundamentals

正則化率と同義。

Lambda はオーバーロードされた用語です。ここでは、正則化における用語の定義に焦点を当てます。

LaMDA（対話アプリケーション用言語モデル）

Google が開発した Transformer ベースの大規模言語モデル。大規模な会話データセットでトレーニングされており、現実的な会話の応答を生成できます。

LaMDA: Google の画期的な会話テクノロジーで概要を確認できます。

landmarks

keypoints と同義。

言語モデル

あモデル確率を推定するトークンまたは、より長いトークンのシーケンス内で発生するトークンのシーケンス。

アイコンをクリックすると、追加のメモが表示されます。

直感に反するかもしれませんが、テキストを評価する多くのモデルは言語モデルではありません。たとえば、テキスト分類モデルや感情分析モデルは言語モデルではありません。

詳細については、ML 集中講座の言語モデルとはをご覧ください。

大規模言語モデル

#generativeAI

少なくとも、非常に多くのパラメータを持つ言語モデル。より非公式には、Gemini や GPT などの Transformer ベースの言語モデル。

詳細については、ML 集中講座の大規模言語モデル（LLM）をご覧ください。

遅延

#generativeAI

モデルが入力を処理してレスポンスを生成するまでにかかる時間。レイテンシの高いレスポンスは、レイテンシの低いレスポンスよりも生成に時間がかかります。

大規模言語モデルのレイテンシに影響する要因は次のとおりです。

入力と出力の [トークン] の長さ
モデルの複雑さ
モデルが実行されるインフラストラクチャ

レイテンシの最適化は、レスポンシブでユーザーフレンドリーなアプリケーションを作成するうえで非常に重要です。

潜在空間

エンベディング空間と同義。

レイヤ

#fundamentals

ニューラルネットワーク内のニューロンのセット。一般的なレイヤには次の 3 種類があります。

すべての特徴の値を提供する入力レイヤ。
特徴とラベルの非線形関係を見つける 1 つ以上の隠れ層。
予測を提供する出力レイヤ。

たとえば、次の図は、入力層が 1 つ、隠れ層が 2 つ、出力層が 1 つのニューラルネットワークを示しています。

入力層が 1 つ、隠れ層が 2 つ、出力層が 1 つのニューラルネットワーク。入力レイヤは 2 つの特徴で構成されています。最初の隠れ層は 3 つのニューロンで構成され、2 番目の隠れ層は 2 つのニューロンで構成されます。出力レイヤは単一のノードで構成されます。

TensorFlow では、レイヤも Python 関数であり、テンソルと構成オプションを入力として受け取り、他のテンソルを出力として生成します。

Layers API（tf.layers）

#TensorFlow

レイヤの構成としてディープ ニューラルネットワークを構築するための TensorFlow API。Layers API を使用すると、次のようなさまざまなタイプのレイヤを構築できます。

全結合レイヤの場合は tf.layers.Dense。
畳み込みレイヤの tf.layers.Conv2D。

Layers API は、Keras レイヤ API の規約に準拠しています。つまり、接頭辞が異なることを除き、Layers API のすべての関数は、Keras レイヤ API の対応する関数と同じ名前とシグネチャを持ちます。

leaf

#df

ディシジョンツリー内のエンドポイント。条件とは異なり、リーフはテストを実行しません。リーフは予測の候補です。リーフは、推論パスの終端ノードでもあります。

たとえば、次のディシジョンツリーには 3 つのリーフが含まれています。

2 つの条件から 3 つのリーフにつながるディシジョンツリー。

詳細については、Decision Forests コースの決定木をご覧ください。

Learning Interpretability Tool（LIT）

モデルの理解とデータの可視化のための視覚的でインタラクティブなツール。

オープンソースの LIT を使用して、モデルを解釈したり、テキスト、画像、表形式のデータを可視化したりできます。

学習率

#fundamentals

各イテレーションで重みとバイアスをどの程度調整するかを勾配降下法アルゴリズムに伝える浮動小数点数。たとえば、学習率が 0.3 の場合、学習率が 0.1 の場合よりも 3 倍強力に重みとバイアスが調整されます。

学習率は重要なハイパーパラメータです。学習率を低く設定しすぎると、トレーニングに時間がかかりすぎます。学習率を高く設定しすぎると、勾配降下法で収束に到達するのが難しくなることがよくあります。

アイコンをクリックすると、より数学的な説明が表示されます。

各反復処理で、勾配降下法アルゴリズムは、学習率に勾配を掛けます。この結果を勾配ステップと呼びます。

詳細については、ML 集中講座の線形回帰: ハイパーパラメータをご覧ください。

最小二乗回帰

L₂ 損失を最小化してトレーニングされた線形回帰モデル。

レーベンシュタイン距離

#metric

ある単語を別の単語に変更するために必要な最小の削除、挿入、置換オペレーションを計算する編集距離指標。たとえば、「heart」と「darts」のレーベンシュタイン距離は 3 です。これは、一方の単語を他方の単語に変えるために必要な最小限の変更が次の 3 つであるためです。

heart → deart（「h」を「d」に置き換える）
deart → dart（「e」を削除）
dart → darts（「s」を挿入）

上記のシーケンスは、3 つの編集の唯一のパスではありません。

線形

#fundamentals

加算と乗算のみで表すことができる 2 つ以上の変数間の関係。

線形関係のプロットは直線になります。

非線形と対照的です。

線形モデル

#fundamentals

モデル。特徴量ごとに 1 つの重みを割り当てて、予測を行います。（線形モデルにはバイアスも組み込まれています）。一方、ディープモデルでは、特徴と予測の関係は一般的に非線形です。

一般に、線形モデルはディープモデルよりもトレーニングが容易で、解釈しやすいです。ただし、ディープモデルは特徴間の複雑な関係を学習できます。

線形回帰とロジスティック回帰は、2 種類の線形モデルです。

アイコンをクリックすると、計算結果が表示されます。

線形モデルは次の式に従います。

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

ここで、

y' は未加工の予測です。（特定の種類の線形モデルでは、この未加工の予測がさらに変更されます。たとえば、ロジスティック回帰をご覧ください）。
b はバイアスです。
w は重みです。w₁ は最初の特徴の重み、w₂ は 2 番目の特徴の重みです。
x は特徴です。x₁ は最初の特徴の値、x₂ は 2 番目の特徴の値です。

たとえば、3 つの特徴の線形モデルが次のバイアスと重みを学習したとします。

b = 7
w₁ = -2.5
w₂ = -1.2
w₃ = 1.4

したがって、3 つの特徴量（x₁、x₂、x₃）が与えられた場合、線形モデルは次の式を使用して各予測を生成します。

y' = 7 + (-2.5)(x₁) + (-1.2)(x₂) + (1.4)(x₃)

特定の例に次の値が含まれているとします。

x₁ = 4
x₂ = -10
x₃ = 5

これらの値を数式に代入すると、この例の予測値は次のようになります。

y' = 7 + (-2.5)(4) + (-1.2)(-10) + (1.4)(5)
y' = 16

線形モデルには、線形方程式のみを使用して予測を行うモデルだけでなく、予測を行う数式の 1 つのコンポーネントとして線形方程式を使用する、より広範なモデルのセットも含まれます。たとえば、ロジスティック回帰は、未加工の予測（y'）を後処理して、0 ～ 1 の範囲の最終的な予測値を生成します。

線形回帰

#fundamentals

次の両方が当てはまる ML モデルのタイプ。

モデルは線形モデルです。
予測は浮動小数点値です。（これは線形回帰の回帰部分です）。

線形回帰とロジスティック回帰を比較します。また、回帰と分類を比較します。

詳細については、ML 集中講座の線形回帰をご覧ください。

LIT

以前は Language Interpretability Tool と呼ばれていた Learning Interpretability Tool（LIT）の略語。

LLM

#generativeAI

大規模言語モデルの略語。

LLM 評価

#generativeAI

#Metric

大規模言語モデル（LLM）のパフォーマンスを評価するための指標とベンチマークのセット。LLM 評価の概要は次のとおりです。

LLM の改善が必要な領域を研究者が特定するのに役立ちます。
さまざまな LLM を比較し、特定のタスクに最適な LLM を特定するのに役立ちます。
LLM の使用が安全で倫理的であることを確認します。

詳細については、ML 集中講座の大規模言語モデル（LLM）をご覧ください。

ロジスティック回帰

#fundamentals

確率を予測する回帰モデルの一種。ロジスティック回帰モデルには次の特徴があります。

ラベルはカテゴリカルです。ロジスティック回帰という用語は通常、バイナリロジスティック回帰、つまり 2 つの値を取り得るラベルの確率を計算するモデルを指します。あまり一般的ではないバリアントである多項ロジスティック回帰は、2 つ以上の候補値を持つラベルの確率を計算します。
トレーニング中の損失関数は 対数損失です。（2 つ以上の可能な値を持つラベルに対して、複数の Log Loss ユニットを並列に配置できます）。
モデルはディープニューラルネットワークではなく、線形アーキテクチャです。ただし、この定義の残りの部分は、カテゴリラベルの確率を予測するディープモデルにも適用されます。

たとえば、入力メールが迷惑メールであるかそうでないかの確率を計算するロジスティック回帰モデルを考えてみましょう。推論時に、モデルが 0.72 を予測したとします。したがって、モデルは次のように推定します。

メールがスパムである可能性が 72% である。
メールがスパムではない確率は 28% です。

ロジスティック回帰モデルは、次の 2 段階のアーキテクチャを使用します。

モデルは、入力特徴の線形関数を適用して、未加工の予測（y'）を生成します。
モデルは、その未加工の予測を シグモイド関数への入力として使用します。この関数は、未加工の予測を 0 から 1 の範囲の値に変換します。

他の回帰モデルと同様に、ロジスティック回帰モデルは数値を予測します。ただし、通常、この数値は次のようにバイナリ分類モデルの一部になります。

予測された数値が分類しきい値より大きい場合、バイナリ分類モデルは陽性クラスを予測します。
予測された数値が分類しきい値より小さい場合、バイナリ分類モデルは負のクラスを予測します。

詳細については、機械学習クラッシュコースのロジスティック回帰をご覧ください。

ロジット

分類モデルが生成する未加工（正規化されていない）予測のベクトル。通常は正規化関数に渡されます。モデルがマルチクラス分類問題を解決している場合、通常、ロジットは softmax 関数の入力になります。softmax 関数は、可能なクラスごとに 1 つの値を持つ（正規化された）確率のベクトルを生成します。

ログ損失

#fundamentals

バイナリ ロジスティック回帰で使用される損失関数。

アイコンをクリックすると、計算結果が表示されます。

次の式で Log Loss を計算します。

$$\text{Log Loss} = \sum_{(x,y)\in D} -y\log(y') - (1 - y)\log(1 - y')$$

ここで

$(x,y)\in D$ は、 $(x,y)$ ペアであるラベル付きの例が多数含まれているデータセットです。
$y$ は、ラベル付きの例のラベルです。これはロジスティック回帰であるため、 $y$ のすべての値は 0 または 1 のいずれかになります。
$y'$ は、 $x$の特徴のセットが与えられた場合の予測値（0 ～ 1 の範囲）です。

詳細については、ML 集中講座のロジスティック回帰: 損失と正則化をご覧ください。

対数オッズ

#fundamentals

あるイベントのオッズの対数。

アイコンをクリックすると、計算結果が表示されます。

イベントがバイナリ確率の場合、オッズは成功確率（p）と失敗確率（1-p）の比率を指します。たとえば、特定のイベントの成功確率が 90%、失敗確率が 10% であるとします。この場合、オッズは次のように計算されます。

$$ {\text{odds}} = \frac{\text{p}} {\text{(1-p)}} = \frac{.9} {.1} = {\text{9}} $$

対数オッズは、オッズの対数です。慣例的に、「対数」は自然対数を指しますが、実際には 1 より大きい任意の底の対数を使用できます。慣例に従って、この例の対数オッズは次のようになります。

$$ {\text{log-odds}} = ln(9) ~= 2.2 $$

対数オッズ関数は、シグモイド関数の逆関数です。

長短期記憶（LSTM）

再帰型ニューラルネットワークのセルの一種。手書き文字認識、機械翻訳、画像キャプションなどのアプリケーションでデータシーケンスを処理するために使用されます。LSTM は、RNN のトレーニング時に長いデータシーケンスが原因で発生する勾配消失問題に対処します。RNN の新しい入力と前のセルのコンテキストに基づいて、内部メモリ状態に履歴を保持します。

LoRA

#generativeAI

低ランク適応性の略。

損失

#fundamentals

#Metric

教師ありモデルのトレーニング中に、モデルの予測がラベルからどれだけ離れているかを示す尺度。

損失関数では損失が計算されます。

詳細については、ML 集中講座の線形回帰: 損失をご覧ください。

損失アグリゲータ

複数のモデルの予測を組み合わせて、それらの予測を使用して 1 つの予測を行うことで、モデルのパフォーマンスを向上させる機械学習アルゴリズムの一種。その結果、損失アグリゲータは予測の分散を減らし、予測の精度を向上させることができます。

損失曲線

#fundamentals

トレーニングのイテレーションの数に対する損失のプロット。次のプロットは、一般的な損失曲線を示しています。

損失とトレーニングの反復回数のデカルトグラフ。最初の反復で損失が急激に減少し、その後は徐々に減少し、最後の反復では傾きが平らになっている。

損失曲線は、モデルが収束しているか、過学習しているかを判断するのに役立ちます。

損失曲線では、次のすべての種類の損失をプロットできます。

トレーニング損失
検証損失
テスト損失

汎化曲線もご覧ください。

詳細については、ML 集中講座の過剰適合: 損失曲線の解釈をご覧ください。

損失関数

#fundamentals

#Metric

トレーニングまたはテスト中に、例のバッチの損失を計算する数学関数。損失関数は、予測が悪いモデルよりも予測が良いモデルに対して、より低い損失を返します。

通常、トレーニングの目標は、損失関数が返す損失を最小限に抑えることです。

損失関数にはさまざまな種類があります。構築するモデルの種類に適した損失関数を選択します。次に例を示します。

L₂ 損失（または平均二乗誤差）は、線形回帰の損失関数です。
対数損失は、ロジスティック回帰の損失関数です。

損失曲面

重みと損失のグラフ。勾配降下法は、損失曲面が局所的な最小値になる重みを見つけることを目的としています。

中間項目の損失効果

長いコンテキストウィンドウの最初と最後の情報が、中央の情報よりも効果的に使用される傾向がある。LLM の特性。つまり、長いコンテキストが与えられた場合、lost-in-the-middle 効果により精度は次のようになります。

回答の作成に関連する情報がコンテキストの先頭または末尾にある場合は、比較的高い。
回答を形成するための関連情報がコンテキストの中央にある場合は、比較的低い。

この用語は、Lost in the Middle: How Language Models Use Long Contexts に由来します。

Low-Rank Adaptability（LoRA）

#generativeAI

モデルの事前トレーニングされた重みを「凍結」（変更できないようにする）してから、トレーニング可能な重みの小さなセットをモデルに挿入する、ファインチューニングのためのパラメータ効率手法。このトレーニング可能な重みのセット（更新行列とも呼ばれます）は、ベースモデルよりもはるかに小さいため、トレーニングがはるかに高速になります。

LoRA には次のような利点があります。

ファインチューニングが適用されるドメインのモデルの予測の品質を向上させます。
モデルのパラメータをすべてファインチューニングする必要がある手法よりも高速にファインチューニングします。
同じベースモデルを共有する複数の特殊モデルの同時サービングを可能にすることで、推論の計算コストを削減します。

アイコンをクリックすると、LoRA の更新マトリックスの詳細が表示されます。

LoRA で使用される更新行列は、ベースモデルから導出されたランク分解行列で構成されています。これは、ノイズをフィルタリングし、モデルの最も重要な特徴にトレーニングを集中させるのに役立ちます。

LSTM

Long Short-Term Memory の略。

M

機械学習

#fundamentals

入力データからモデルをトレーニングするプログラムまたはシステム。トレーニングされたモデルは、モデルのトレーニングに使用された分布と同じ分布から抽出された新しい（初めて見る）データから有用な予測を行うことができます。

機械学習は、これらのプログラムやシステムに関わる研究分野を指すこともあります。

詳細については、機械学習の概要コースをご覧ください。

機械翻訳

#generativeAI

ソフトウェア（通常は ML モデル）を使用して、ある言語から別の言語にテキストを変換すること（例: 英語から日本語）。

多数派クラス

#fundamentals

クラス不均衡データセットでより一般的なラベル。たとえば、99% の負のラベルと 1% の正のラベルを含むデータセットの場合、負のラベルが多数派クラスになります。

少数クラスと比較してください。

詳細については、ML 集中講座のデータセット: 不均衡なデータセットをご覧ください。

マルコフ決定プロセス（MDP）

マルコフ性が成り立つという仮定の下で、一連の状態をナビゲートするために決定（またはアクション）が実行される意思決定モデルを表すグラフ。強化学習では、状態間の遷移によって数値の報酬が返されます。

マルコフ性

特定の環境のプロパティ。状態遷移は、現在の状態とエージェントのアクションに暗黙的に含まれる情報によって完全に決定されます。

マスク言語モデル

シーケンスの空白を埋める候補トークンの確率を予測する言語モデル。たとえば、マスクされた言語モデルは、次の文の下線を置き換える候補単語の確率を計算できます。

帽子をかぶった ____ が戻ってきた。

文献では、通常、下線の代わりに「MASK」という文字列が使用されます。次に例を示します。

帽子の「マスク」が戻ってきました。

最近のマスク言語モデルのほとんどは双方向です。

matplotlib

オープンソースの Python 2D プロットライブラリ。matplotlib を使用すると、機械学習のさまざまな側面を可視化できます。

行列分解

数学において、ドット積がターゲット行列に近似する行列を見つけるためのメカニズム。

レコメンデーションシステムでは、ターゲット行列にアイテムに対するユーザーの評価が格納されることがよくあります。たとえば、映画のレコメンデーションシステムのターゲットマトリックスは次のようになります。正の整数はユーザー評価、0 はユーザーが映画を評価していないことを意味します。

	カサブランカ	フィラデルフィア物語	Black Panther（「ブラックパンサー」）	ワンダーウーマン	パルプフィクション
ユーザー 1	5.0	3.0	0.0	2.0	0.0
ユーザー 2	4.0	0.0	0.0	1.0	5.0
ユーザー 3	3.0	1.0	4.0	5.0	0.0

映画のレコメンデーションシステムは、評価されていない映画に対するユーザーの評価を予測することを目的としています。たとえば、ユーザー 1 は ブラックパンサーを気に入るでしょうか？

レコメンデーションシステムのアプローチの 1 つとして、行列分解を使用して次の 2 つの行列を生成する方法があります。

ユーザー行列。ユーザー数 × 埋め込みディメンション数の形状。
エンベディングディメンションの数 × アイテムの数で表されるアイテム行列。

たとえば、3 人のユーザーと 5 つのアイテムに対して行列分解を行うと、次のようなユーザー行列とアイテム行列が得られます。

User Matrix                 Item Matrix

1.1   2.3           0.9   0.2   1.4    2.0   1.2
0.6   2.0           1.7   1.2   1.2   -0.1   2.1
2.5   0.5

ユーザー行列とアイテム行列の内積により、元のユーザー評価だけでなく、各ユーザーがまだ見ていない映画の予測も含むおすすめ行列が生成されます。たとえば、ユーザー 1 の カサブランカの評価が 5.0 であったとします。推奨事項マトリックスのそのセルに対応するドット積は、5.0 前後になるはずです。

(1.1 * 0.9) + (2.3 * 1.7) = 4.9

さらに重要なのは、ユーザー 1 が ブラックパンサーを気に入るかどうかです。1 行目と 3 列目に対応する内積を計算すると、予測評価は 4.3 になります。

(1.1 * 1.4) + (2.3 * 1.2) = 4.3

通常、行列分解では、ターゲット行列よりもはるかにコンパクトなユーザー行列とアイテム行列が生成されます。

平均絶対誤差（MAE）

#Metric

L₁ 損失が使用されている場合の、例あたりの平均損失。平均絶対誤差は次のように計算します。

バッチの L₁ 損失を計算します。
L₁ 損失をバッチ内のサンプル数で割ります。

アイコンをクリックすると、正式な数式が表示されます。

$$\text{Mean Absolute Error} = \frac{1}{n}\sum_{i=0}^n | y_i - \hat{y}_i |$$

ここで

$n$ はサンプル数です。
$y$ はラベルの実際の値です。
$\hat{y}$ は、モデルが $y$ に対して予測する値です。

たとえば、次の 5 つの例のバッチで L₁ 損失を計算することを考えます。

例の実際の値	モデルの予測値	損失（実測値と予測値の差）
7	6	1
5	4	1
8	11	3
4	6	2
9	8	1
		8 = L₁ 損失

したがって、L₁ 損失は 8 で、サンプル数は 5 です。したがって、平均絶対誤差は次のようになります。

Mean Absolute Error = L₁ loss / Number of Examples
Mean Absolute Error = 8/5 = 1.6

平均絶対誤差と平均二乗誤差、二乗平均平方根誤差を比較します。

k での平均適合率の平均（mAP@k）

#generativeAI

#Metric

検証データセット全体でのすべてのk における平均適合率スコアの統計的平均。k における平均適合率の用途の 1 つは、レコメンデーションシステムによって生成された推奨事項の品質を判断することです。

「平均値」というフレーズは冗長に聞こえますが、指標の名前としては適切です。この指標は、複数の k における平均適合率の値の平均を求めるためです。

アイコンをクリックすると、例が表示されます。

各ユーザーにパーソナライズされたおすすめの小説のリストを生成するレコメンデーションシステムを構築するとします。選択したユーザーからのフィードバックに基づいて、次の 5 つの平均適合率（k）スコア（ユーザーごとに 1 つのスコア）を計算します。

0.73
0.77
0.67
0.82
0.76

したがって、K における平均適合率の平均は次のようになります。

$$\text{mean } = \frac{\text{0.73 + 0.77 + 0.67 + 0.82 + 0.76}} {\text{5}} = \text{0.75}$$

平均二乗誤差（MSE）

#Metric

L₂ 損失が使用されている場合の例あたりの平均損失。平均二乗誤差は次のように計算します。

バッチの L₂ 損失を計算します。
L₂ 損失をバッチ内のサンプル数で割ります。

アイコンをクリックすると、正式な数式が表示されます。

$$\text{Mean Squared Error} = \frac{1}{n}\sum_{i=0}^n {(y_i - \hat{y}_i)}^2$$ ここで:

$n$ はサンプル数です。
$y$ はラベルの実際の値です。
$\hat{y}$ は $y$ に対するモデルの予測です。

たとえば、次の 5 つの例のバッチの損失について考えてみましょう。

実際の値	モデルの予測	損失	二乗損失
7	6	1	1
5	4	1	1
8	11	3	9
4	6	2	4
9	8	1	1
			16 = L₂ 損失

したがって、平均二乗誤差は次のようになります。

Mean Squared Error = L₂ loss / Number of Examples
Mean Squared Error = 16/5 = 3.2

平均二乗誤差は、特に線形回帰でよく使用されるトレーニング オプティマイザーです。

平均二乗誤差と平均絶対誤差、二乗平均平方根誤差を比較します。

TensorFlow Playground では、平均二乗誤差を使用して損失値を計算します。

アイコンをクリックすると、外れ値の詳細が表示されます。

外れ値は平均二乗誤差に大きな影響を与えます。たとえば、損失が 1 の場合、二乗損失は 1 ですが、損失が 3 の場合、二乗損失は 9 になります。上の表では、3 つのアカウントの損失がある例は平均二乗誤差の約 56% を占めていますが、1 つのアカウントの損失がある例はそれぞれ平均二乗誤差の 6% しか占めていません。

外れ値は、平均二乗誤差ほど平均絶対誤差に影響しません。たとえば、3 つのアカウントの損失は、平均絶対誤差の約 38% にすぎません。

クリッピングは、極端な外れ値によってモデルの予測能力が損なわれるのを防ぐ方法の 1 つです。

メッシュ

#TensorFlow

#GoogleCloud

ML 並列プログラミングで、データとモデルを TPU チップに割り当て、これらの値をシャーディングまたは複製する方法を定義することに関連する用語。

メッシュは、次のいずれかを意味するオーバーロードされた用語です。

TPU チップの物理レイアウト。
データとモデルを TPU チップにマッピングするための抽象的な論理構造。

どちらの場合も、メッシュはシェイプとして指定されます。

メタラーニング

学習アルゴリズムを発見または改善する ML のサブセット。メタ学習システムは、少量のデータや以前のタスクで得られた経験から新しいタスクを迅速に学習するようにモデルをトレーニングすることも目的としています。メタ学習アルゴリズムは通常、次のことを実現しようとします。

手動で設計された特徴（イニシャライザやオプティマイザーなど）を改善または学習します。
データ効率とコンピューティング効率を高めます。
一般化を改善します。

メタ学習は少数ショット学習に関連しています。

指標

#TensorFlow

#Metric

重視すべき統計情報。

目標は、ML システムが最適化しようとする指標です。

指標 API（tf.metrics）

#Metric

モデルを評価するための TensorFlow API。たとえば、tf.metrics.accuracy は、モデルの予測がラベルと一致する頻度を決定します。

ミニバッチ

#fundamentals

1 回のイテレーションで処理されるバッチのランダムに選択された小さなサブセット。ミニバッチのバッチサイズは、通常 10 ～ 1,000 サンプルです。

たとえば、トレーニングセット全体（フルバッチ）が 1,000 個のサンプルで構成されているとします。さらに、各ミニバッチのバッチサイズを 20 に設定したとします。したがって、各イテレーションでは、1,000 個の例のうち 20 個をランダムに選択して損失を特定し、それに応じて重みとバイアスを調整します。

ミニバッチの損失を計算する方が、フルバッチのすべての例の損失を計算するよりもはるかに効率的です。

詳細については、ML 集中講座の線形回帰: ハイパーパラメータをご覧ください。

ミニバッチ確率的勾配降下法

ミニバッチを使用する勾配降下法アルゴリズム。つまり、ミニバッチ確率的勾配降下法では、トレーニングデータの小さなサブセットに基づいて勾配を推定します。通常の確率的勾配降下法では、サイズ 1 のミニバッチを使用します。

ミニマックス損失

#Metric

生成されたデータと実際のデータの分布間のクロスエントロピーに基づく、敵対的生成ネットワークの損失関数。

ミニマックス損失は、最初の論文で敵対的生成ネットワークを説明するために使用されています。

詳細については、Generative Adversarial Networks コースの損失関数をご覧ください。

少数派クラス

#fundamentals

クラス不均衡データセットで頻度の低いラベル。たとえば、99% のネガティブラベルと 1% のポジティブラベルを含むデータセットの場合、ポジティブラベルは少数クラスです。

多数派クラスと比較してください。

アイコンをクリックすると、追加のメモが表示されます。

100 万個のサンプルを含むトレーニングセットは、印象的です。ただし、少数派クラスの表現が不十分な場合は、トレーニングセットが非常に大きくても不十分な可能性があります。データセット内のサンプルの総数ではなく、少数派のクラスのサンプル数に注目します。

データセットに少数派クラスのサンプルが十分にない場合は、ダウンサンプリング（2 つ目の箇条書きの定義）を使用して少数派クラスを補完することを検討してください。

詳細については、ML 集中講座のデータセット: 不均衡なデータセットをご覧ください。

mixture of experts

#generativeAI

ニューラルネットワークのパラメータのサブセット（エキスパートと呼ばれる）のみを使用して、特定の入力トークンまたは例を処理することで、ニューラルネットワークの効率を高めるスキーム。ゲーティングネットワークは、各入力トークンまたは例を適切なエキスパートに転送します。

詳細については、次のいずれかの論文をご覧ください。

ML

機械学習の略語。

MMIT

#generativeAI

マルチモーダル指示チューニング済みの略。

MNIST

LeCun、Cortes、Burges がコンパイルしたパブリックドメインのデータセット。60,000 個の画像が含まれており、各画像には人間が 0 ～ 9 の特定の数字を手書きする方法が示されています。各画像は 28x28 の整数の配列として保存されます。各整数は 0 ～ 255 のグレースケール値です。

MNIST は、新しい ML アプローチのテストでよく使用される、ML の標準データセットです。詳細については、手書き数字の MNIST データベースをご覧ください。

モダリティ

上位のデータカテゴリ。たとえば、数字、テキスト、画像、動画、音声は 5 つの異なるモダリティです。

モデル

#fundamentals

一般に、入力データを処理して出力を返す数学的構造を指します。別の言い方をすれば、モデルとは、システムが予測を行うために必要なパラメータと構造のセットです。教師あり機械学習では、モデルは例を入力として受け取り、予測を出力として推論します。教師あり機械学習では、モデルは多少異なります。次に例を示します。

線形回帰モデルは、一連の重みとバイアスで構成されます。
ニューラルネットワーク モデルは、次の要素で構成されます。
- 1 つ以上のニューロンを含む隠れ層のセット。
- 各ニューロンに関連付けられた重みとバイアス。
ディシジョンツリー モデルは、次の要素で構成されます。
- ツリーの形状。つまり、条件とリーフが接続されるパターン。
- 条件とリーフ。

モデルの保存、復元、コピーを作成できます。

教師なし ML もモデルを生成します。通常、入力例を最も適切なクラスタにマッピングできる関数です。

アイコンをクリックして、代数関数とプログラミング関数を ML モデルと比較します。

次のような代数関数はモデルです。

  f(x, y) = 3x -5xy + y² + 17

上記の関数は、入力値（x と y）を出力にマッピングします。

同様に、次のようなプログラミング関数もモデルです。

def half_of_greater(x, y):
  if (x > y):
    return(x / 2)
  else
    return(y / 2)

呼び出し元は、上記の Python 関数に引数を渡し、Python 関数は（return ステートメントを介して）出力を生成します。

ディープニューラルネットワークは、代数関数やプログラミング関数とは数学的構造が大きく異なりますが、入力（例）を受け取って出力（予測）を返すという点は同じです。

人間のプログラマーがプログラミング関数を手動でコーディングします。一方、機械学習モデルは、自動トレーニング中に最適なパラメータを徐々に学習します。

モデル容量

#Metric

モデルが学習できる問題の複雑さ。モデルが学習できる問題が複雑であるほど、モデルの容量は大きくなります。通常、モデルの容量はモデルパラメータの数とともに増加します。分類モデルの容量の正式な定義については、VC 次元をご覧ください。

モデルのカスケード

#generativeAI

特定の推論クエリに最適なモデルを選択するシステム。

非常に大きなモデル（多数のパラメータ）から、はるかに小さなモデル（パラメータが少ない）まで、さまざまなモデルのグループを想像してください。非常に大きなモデルは、小さなモデルよりも推論時に多くのコンピューティングリソースを消費します。ただし、非常に大規模なモデルは、通常、小規模なモデルよりも複雑なリクエストを推論できます。モデルカスケードは、推論クエリの複雑さを判断し、推論を実行する適切なモデルを選択します。モデルカスケードの主な目的は、一般的に小規模なモデルを選択し、より複雑なクエリに対してのみ大規模なモデルを選択することで、推論費用を削減することです。

たとえば、小規模なモデルがスマートフォンで実行され、そのモデルのより大規模なバージョンがリモートサーバーで実行されるとします。適切なモデルカスケードにより、小規模なモデルで単純なリクエストを処理し、複雑なリクエストの処理にのみリモートモデルを呼び出すことができるため、費用とレイテンシを削減できます。

モデルルーターもご覧ください。

モデル並列処理

トレーニングまたは推論をスケーリングする方法の 1 つで、1 つのモデルの異なる部分を異なるデバイスに配置します。モデル並列処理により、単一のデバイスに収まらないほど大きなモデルを使用できます。

モデル並列処理を実装するために、システムは通常次の処理を行います。

モデルを小さな部分に分割します。
これらの小さな部分のトレーニングを複数のプロセッサに分散します。各プロセッサは、モデルの独自の部分をトレーニングします。
結果を組み合わせて 1 つのモデルを作成します。

モデルの並列処理によりトレーニングが遅くなります。

#fundamentals

教師あり学習では、データセットに 3 つ以上のラベルのクラスが含まれている分類問題。たとえば、Iris データセットのラベルは、次の 3 つのクラスのいずれかである必要があります。

Iris setosa
Iris virginica
Iris versicolor

新しい例でアヤメの種類を予測するアヤメデータセットでトレーニングされたモデルは、マルチクラス分類を実行しています。

これに対し、2 つのクラスを区別する分類問題は、バイナリ分類モデルです。たとえば、迷惑メールか迷惑メールではないかを予測するメールモデルは、バイナリ分類モデルです。

クラスタリング問題では、マルチクラス分類は 3 つ以上のクラスタを指します。

詳細については、ML 集中講座のニューラルネットワーク: 多クラス分類をご覧ください。

多クラスロジスティック回帰

多項分類問題でのロジスティック回帰の使用。

マルチヘッドセルフアテンション

入力シーケンス内の各位置に対してセルフアテンションメカニズムを複数回適用する セルフアテンションの拡張。

Transformer では、マルチヘッドセルフアテンションが導入されました。

マルチモーダル指示チューニング

テキスト以外の入力（画像、動画、音声など）を処理できる指示チューニング モデル。

マルチモーダルモデル

入力、出力、またはその両方に複数のモダリティが含まれるモデル。たとえば、画像とテキストキャプション（2 つのモダリティ）の両方を特徴として受け取り、テキストキャプションが画像にどの程度適しているかを示すスコアを出力するモデルについて考えてみましょう。このモデルの入力はマルチモーダルで、出力はユニモーダルです。

多項分類

マルチクラス分類と同義。

多項回帰

多項ロジスティック回帰の同義語。

マルチタスク

1 つのモデルが複数のタスクを実行するようにトレーニングされる ML 手法。

マルチタスクモデルは、さまざまなタスクそれぞれに適したデータでトレーニングすることで作成されます。これにより、モデルはタスク間で情報を共有することを学習し、より効果的に学習できます。

複数のタスク用にトレーニングされたモデルは、一般化能力が向上し、さまざまな種類のデータをより堅牢に処理できることがよくあります。

N

Nano

#generativeAI

デバイス内での使用を想定して設計された、比較的小さな Gemini モデル。詳しくは、Gemini Nano をご覧ください。

Pro と Ultra もご覧ください。

NaN トラップ

トレーニング中にモデル内の 1 つの数値が NaN になり、モデル内の他の数値の多くまたはすべてが最終的に NaN になる場合。

NaN は Not a Number の略です。

自然言語処理

言語規則を使用して、ユーザーが発言または入力した内容をコンピュータに処理させる分野。最新の自然言語処理のほとんどは、ML に依存しています。

自然言語理解

発言または入力された内容の意図を判断する、自然言語処理のサブセット。自然言語理解は、自然言語処理を超えて、コンテキスト、皮肉、感情などの言語の複雑な側面を考慮できます。

陰性クラス

#fundamentals

#Metric

バイナリ分類では、一方のクラスを「陽性」、もう一方のクラスを「陰性」と呼びます。陽性クラスはモデルがテストしているものまたはイベントであり、陰性クラスはそれ以外の可能性です。次に例を示します。

医学検査の陰性クラスは「腫瘍なし」などになります。
メールの分類モデルの負のクラスは「迷惑メールではない」になります。

ポジティブクラスと対照的です。

ネガティブサンプリング

候補サンプリングと同義。

ニューラルアーキテクチャ検索（NAS）

ニューラルネットワークのアーキテクチャを自動的に設計する手法。NAS アルゴリズムを使用すると、ニューラルネットワークのトレーニングに必要な時間とリソースを削減できます。

通常、NAS は次のものを使用します。

検索スペース。可能なアーキテクチャのセットです。
フィットネス関数。特定のアーキテクチャが特定のタスクでどの程度優れたパフォーマンスを発揮するかを測定します。

NAS アルゴリズムは、通常、可能なアーキテクチャの小さなセットから始まり、アルゴリズムが効果的なアーキテクチャについて学習するにつれて、検索スペースを徐々に拡大します。通常、適合度関数はトレーニングセットでのアーキテクチャのパフォーマンスに基づいており、アルゴリズムは通常、強化学習手法を使用してトレーニングされます。

NAS アルゴリズムは、画像分類、テキスト分類、機械翻訳など、さまざまなタスクで高性能なアーキテクチャを見つけるのに効果的であることが証明されています。

ニューラルネットワークの

#fundamentals

隠れ層を 1 つ以上含むモデル。ディープニューラルネットワークは、複数の隠れ層を含むニューラルネットワークの一種です。たとえば、次の図は 2 つの隠れ層を含むディープニューラルネットワークを示しています。

入力層、2 つの隠れ層、出力層があるニューラルネットワーク。

ニューラルネットワークの各ニューロンは、次のレイヤのすべてのノードに接続します。たとえば、上の図では、最初の隠れ層にある 3 つのニューロンが、2 番目の隠れ層にある 2 つのニューロンにそれぞれ個別に接続されています。

コンピュータに実装されたニューラルネットワークは、脳や他の神経系にあるニューラルネットワークと区別するために、人工ニューラルネットワークと呼ばれることがあります。

一部のニューラルネットワークは、さまざまな特徴とラベルの間の非常に複雑な非線形関係を模倣できます。

畳み込みニューラルネットワークと再帰型ニューラルネットワークもご覧ください。

詳細については、ML 集中講座のニューラルネットワークをご覧ください。

ニューロン

#fundamentals

機械学習では、ニューラルネットワークの隠れ層内の個別のユニット。各ニューロンは、次の 2 段階のアクションを実行します。

入力値にそれぞれの重みを掛けた値の重み付き合計を計算します。
加重和を活性化関数の入力として渡します。

最初の隠れ層のニューロンは、入力レイヤの特徴値から入力を受け取ります。最初の隠れ層より後の隠れ層のニューロンは、前の隠れ層のニューロンから入力を受け取ります。たとえば、2 番目の隠れ層のニューロンは、1 番目の隠れ層のニューロンから入力を受け取ります。

次の図は、2 つのニューロンとその入力を示しています。

入力層、2 つの隠れ層、出力層があるニューラルネットワーク。2 つのニューロンがハイライト表示されています。1 つは最初の隠れ層に、もう 1 つは 2 番目の隠れ層にあります。最初の隠れ層のハイライト表示されたニューロンは、入力レイヤの両方の特徴から入力を受け取ります。2 番目の隠れ層でハイライト表示されているニューロンは、最初の隠れ層の 3 つのニューロンそれぞれから入力を受け取ります。

ニューラルネットワークのニューロンは、脳や神経系の他の部分のニューロンの動作を模倣します。

N グラム

N 個の単語の順序付きシーケンス。たとえば、truly madly は 2 グラムです。順序が重要であるため、madly truly は truly madly とは異なる 2 グラムです。

N	この種の N グラムの名前	例
2	バイグラムまたは 2 グラム	to go、go to、eat lunch、eat dinner
3	trigram または 3-gram	食べすぎた、幸せな結末、鐘が鳴る
4	4 グラム	walk in the park, dust in the wind, the boy ate lentils

多くの自然言語理解モデルは、N グラムを使用して、ユーザーが入力または発話する次の単語を予測します。たとえば、ユーザーが「happily ever」と入力したとします。トライグラムに基づく NLU モデルは、ユーザーが次に「after」という単語を入力すると予測する可能性があります。

n-gram は、単語の順序なしセットである bag of words と対照的です。

詳細については、ML 集中講座の大規模言語モデルをご覧ください。

NLP

自然言語処理の略語。

NLU

自然言語理解の略。

ノード（ディシジョンツリー）

#df

決定木の条件またはリーフ。

2 つの条件と 3 つのリーフを含むディシジョンツリー。

詳細については、デシジョンフォレストコースのデシジョンツリーをご覧ください。

ノード（ニューラルネットワーク）

#fundamentals

隠れ層のニューロン。

詳細については、ML 集中講座のニューラルネットワークをご覧ください。

ノード（TensorFlow グラフ）

#TensorFlow

TensorFlow グラフ内のオペレーション。

ノイズ

広義には、データセット内の信号を不明瞭にするあらゆるもの。データにノイズが混入する方法はさまざまです。次に例を示します。

人間の評価者がラベル付けを間違える。
人間や機器が特徴値を誤って記録したり、省略したりする。

非バイナリ条件

#df

2 つ以上の結果が考えられる条件。たとえば、次の非バイナリ条件には 3 つの結果が含まれています。

3 つの結果が考えられる条件（number_of_legs = ?）。1 つの結果（number_of_legs = 8）は、spider という名前のリーフにつながります。2 つ目の結果（number_of_legs = 4）は、dog という名前のリーフにつながります。3 つ目の結果（number_of_legs = 2）は、penguin という名前のリーフにつながります。

詳細については、Decision Forests コースの条件のタイプをご覧ください。

非線形

#fundamentals

加算と乗算のみでは表現できない、2 つ以上の変数間の関係。線形関係は線として表すことができますが、非線形関係は線として表すことができません。たとえば、それぞれが 1 つの特徴を 1 つのラベルに関連付ける 2 つのモデルについて考えてみましょう。左のモデルは線形、右のモデルは非線形です。

2 つのプロット。1 つのプロットは線であるため、これは線形関係です。もう 1 つのプロットは曲線なので、これは非線形関係です。

さまざまな種類の非線形関数を試すには、ML 集中講座のニューラルネットワーク: ノードと隠れ層をご覧ください。

無回答バイアス

#responsible

選択バイアスをご覧ください。

非定常性

#fundamentals

通常は時間など、1 つ以上のディメンションで値が変化する特徴。たとえば、次のような非定常性の例を考えてみましょう。

特定の店舗で販売される水着の数は季節によって異なります。
特定の地域で収穫される特定の果物の量は、1 年のほとんどの期間はゼロですが、短い期間は大量になります。
気候変動により、年間の平均気温が変化しています。

定常性と比較してください。

唯一の正解はない（NORA）

#ジェネレーティブ AI

複数の正解のレスポンスがあるプロンプト。たとえば、次のプロンプトには正解が 1 つありません。

象についての面白いジョークを教えてください。

正解のないプロンプトに対する回答の評価は、通常、正解が 1 つあるプロンプトの評価よりも主観的になります。たとえば、象のジョークを評価するには、ジョークの面白さを判断する体系的な方法が必要です。

NORA

#generativeAI

唯一の正解はないの略語。

正規化

#fundamentals

大まかに言えば、変数の実際の値の範囲を次のような標準的な値の範囲に変換するプロセスです。

-1 ～+1
0 to 1
Z スコア（おおよそ -3 ～+3）

たとえば、特定の特徴の値の実際の範囲が 800 ～ 2,400 であるとします。特徴エンジニアリングの一環として、実際の値を -1 ～+1 などの標準範囲に正規化できます。

正規化は、特徴エンジニアリングの一般的なタスクです。通常、特徴ベクトル内のすべての数値特徴の範囲がほぼ同じである場合、モデルのトレーニングは高速になり（予測の精度も向上します）。

Z スコア正規化も参照してください。

詳細については、ML 集中講座の数値データ: 正規化をご覧ください。

Notebook LM

#generativeAI

ユーザーがドキュメントをアップロードし、プロンプトを使用して、ドキュメントに関する質問をしたり、ドキュメントを要約したり、整理したりできる Gemini ベースのツール。たとえば、著者が複数の短編小説をアップロードして、共通のテーマを見つけるよう NotebookLM に依頼したり、どの短編小説が映画に最適かを特定するよう依頼したりできます。

新規性検出

新しい（新規の）例がトレーニングセットと同じ分布から得られたものかどうかを判断するプロセス。つまり、トレーニングセットでトレーニングした後、新規性検出では、新しい例（推論中または追加のトレーニング中）が外れ値かどうかを判断します。

外れ値検出と比較してください。

数値データ

#fundamentals

整数または実数値として表される特徴。たとえば、住宅評価モデルでは、住宅の広さ（平方フィートまたは平方メートル）は数値データとして表されるでしょう。特徴を数値データとして表すことは、特徴の値がラベルと数学的な関係があることを示します。つまり、家の広さ（平方メートル）と家の価値の間には、数学的な関係があると考えられます。

すべての整数データを数値データとして表す必要はありません。たとえば、世界のいくつかの地域では郵便番号は整数ですが、整数の郵便番号はモデルで数値データとして表すべきではありません。これは、郵便番号 20000 の効果が郵便番号 10000 の 2 倍（または半分）ではないためです。また、郵便番号が異なると不動産価格も異なることは事実ですが、郵便番号 20000 の不動産価格が郵便番号 10000 の不動産価格の 2 倍になるとは限りません。郵便番号は、カテゴリデータとして表す必要があります。

数値特徴は、連続特徴と呼ばれることもあります。

詳細については、機械学習クラッシュコースの数値データの操作をご覧ください。

NumPy

Python で効率的な配列演算を提供するオープンソースの数学ライブラリ。pandas は NumPy 上に構築されています。

O

目標

#Metric

アルゴリズムが最適化しようとしている指標。

目的関数

#Metric

モデルの最適化対象とする数式または指標。たとえば、線形回帰の目的関数は、通常は平均二乗損失です。したがって、線形回帰モデルをトレーニングするときは、平均二乗損失を最小限に抑えることが目標となります。

場合によっては、目的関数を最大化することが目標になります。たとえば、目的関数が精度の場合、目標は精度を最大化することです。

損失もご覧ください。

斜め条件

#df

ディシジョンツリーで、複数の特徴を含む条件。たとえば、高さと幅が両方とも特徴量の場合、次の条件は斜め条件です。

  height > width

軸に沿った条件も参照してください。

詳細については、Decision Forests コースの条件のタイプをご覧ください。

オフライン

#fundamentals

static と同義。

オフライン推論

#fundamentals

モデルが予測のバッチを生成し、その予測をキャッシュに保存するプロセス。これにより、アプリはモデルを再実行するのではなく、キャッシュから推論された予測にアクセスできます。

たとえば、4 時間ごとに地域の天気予報（予測）を生成するモデルについて考えてみましょう。各モデルの実行後、システムはすべての地域の天気予報をキャッシュに保存します。天気アプリはキャッシュから予報を取得します。

オフライン推論は、静的推論とも呼ばれます。

オンライン推論と比較してください。詳細については、ML 集中講座の本番環境の ML システム: 静的推論と動的推論をご覧ください。

ワンホットエンコード

#fundamentals

カテゴリデータをベクトルとして表します。

1 つの要素が 1 に設定されています。
他のすべての要素は 0 に設定されます。

ワンホットエンコードは、利用できる値が有限である文字列や識別子を表すためによく使用されます。たとえば、Scandinavia という名前のカテゴリ特徴に 5 つの可能な値があるとします。

"デンマーク"
"Sweden"
"Norway"
"フィンランド"
「アイスランド」

ワンホットエンコードでは、5 つの値を次のように表すことができます。

国	ベクトル
"デンマーク"	1	0	0	0	0
"Sweden"	0	1	0	0	0
"Norway"	0	0	1	0	0
"フィンランド"	0	0	0	1	0
「アイスランド」	0	0	0	0	1

ワンホットエンコードにより、モデルは 5 つの国それぞれに基づいて異なる接続を学習できます。

特徴を数値データとして表現することは、ワンホットエンコードの代替手段です。残念ながら、スカンジナビア諸国を数値で表すのは適切ではありません。たとえば、次の数値表現について考えてみましょう。

「デンマーク」は 0
「スウェーデン」は 1
「Norway」は 2
「フィンランド」は 3
「アイスランド」は 4

数値エンコードを使用すると、モデルは生数値を数学的に解釈し、それらの数値でトレーニングしようとします。しかし、アイスランドはノルウェーの 2 倍（または半分）の何かがあるわけではないため、モデルは奇妙な結論に達します。

詳細については、ML 集中講座のカテゴリデータ: 語彙とワンホットエンコードをご覧ください。

1 つの正解（ORA）

#generativeAI

単一の正解のレスポンスがあるプロンプト。たとえば、次のプロンプトについて考えてみましょう。

土星は火星よりも大きい。これは正しいでしょうか、誤りでしょうか。

正しいレスポンスは true のみです。

正解は 1 つではないを参照してください。

ワンショット学習

オブジェクト分類でよく使用される ML アプローチ。単一のトレーニング例から効果的な分類モデルを学習するように設計されています。

少数ショット学習とゼロショット学習もご覧ください。

ワンショットプロンプト

#generativeAI

大規模言語モデルにどのように回答すればよいかを示す例を 1 つ含むプロンプト。たとえば、次のプロンプトには、大規模言語モデルがクエリにどのように回答すべきかを示す例が 1 つ含まれています。

1 つのプロンプトの構成要素	メモ
`指定された国の公式通貨は何ですか？`	LLM に回答させたい質問。
`フランス: EUR`	例 1:
`インド:`	実際のクエリ。

ワンショットプロンプトと次の用語を比較対照します。

ゼロショットプロンプト
少数ショットプロンプト

1 対すべて

#fundamentals

N 個のクラスがある分類問題の場合、N 個の個別のバイナリ分類モデルで構成されるソリューション。考えられる結果ごとに 1 つのバイナリ分類モデル。たとえば、例を動物、野菜、鉱物に分類するモデルの場合、一対多のソリューションは次の 3 つの個別のバイナリ分類モデルを提供します。

動物と動物以外
野菜か野菜以外か
ミネラルかミネラル以外か

オンライン

#fundamentals

dynamic と同義。

オンライン推論

#fundamentals

オンデマンドで予測を生成する。たとえば、アプリがモデルに入力を渡し、予測のリクエストを発行するとします。オンライン推論を使用するシステムは、モデルを実行してリクエストに応答します（予測をアプリに返します）。

オフライン推論と比較してください。

詳細については、ML 集中講座の本番環境の ML システム: 静的推論と動的推論をご覧ください。

オペレーション（op）

#TensorFlow

TensorFlow で、Tensor を作成、操作、破棄するプロシージャ。たとえば、行列乗算は 2 つの Tensor を入力として受け取り、1 つの Tensor を出力として生成するオペレーションです。

Optax

JAX の勾配処理と最適化のライブラリ。Optax は、ディープニューラルネットワークなどのパラメトリックモデルを最適化するためにカスタム方法で再結合できる構成要素を提供することで、研究を促進します。その他の目標:

コアコンポーネントの読みやすく、十分にテストされた効率的な実装を提供します。
低レベルの要素をカスタムオプティマイザー（または他のグラデーション処理コンポーネント）に組み合わせることで、生産性を向上させます。
誰でも簡単に貢献できるようにすることで、新しいアイデアの導入を加速します。

optimizer

勾配降下法アルゴリズムの特定の実装。よく使用されるオプティマイザーには、次のようなものがあります。

AdaGrad（ADAptive GRADient descent の略）。
Adam（ADAptive with Momentum の略）。

ORA

#generativeAI

1 つの正解の略語。

自分が属していないグループに対する均一性のバイアス

#responsible

態度、価値観、性格特性などの特性を比較する際に、内集団のメンバーよりも外集団のメンバーをより類似しているとみなす傾向。内集団とは、定期的に交流する人々のことです。外集団とは、定期的に交流しない人々のことです。アウトグループに関する属性を回答者に提供してもらうことでデータセットを作成した場合、その属性は、参加者がイングループのメンバーについて挙げる属性よりも、ニュアンスが少なく、ステレオタイプ化されている可能性があります。

たとえば、リリパット人は、他のリリパット人の家について、建築様式、窓、ドア、サイズなどの小さな違いを挙げて、詳細に説明するかもしれません。しかし、同じリリパット人は、ブロブディンナグ人はすべて同じ家に住んでいると宣言するかもしれません。

自分が属していないグループに対する均一性のバイアスは、グループ帰属バイアスの一種です。

内集団バイアスもご覧ください。

外れ値検出

特定するプロセス外れ値でトレーニングセット。

特異点検知との違いをご覧ください。

考慮する

他のほとんどの値から離れた値。ML では、次のいずれかが外れ値になります。

値が平均値から約 3 標準偏差以上離れている入力データ。
絶対値が大きい重み。
予測値が実測値から比較的離れている。

たとえば、widget-price が特定のモデルの特徴であるとします。平均 widget-price は 7 ユーロ、標準偏差は 1 ユーロとします。したがって、widget-price が 12 ユーロまたは 2 ユーロの例は、それぞれの価格が平均値から 5 標準偏差離れているため、外れ値と見なされます。

外れ値は、タイプミスやその他の入力ミスが原因で発生することがよくあります。他のケースでは、外れ値は間違いではありません。平均値から 5 標準偏差離れた値はまれですが、不可能ではありません。

外れ値は、モデルのトレーニングで問題を引き起こすことがよくあります。クリッピングは、外れ値を管理する方法の 1 つです。

詳細については、ML 集中講座の数値データの操作をご覧ください。

アウトオブバッグ評価（OOB 評価）

#df

各ディシジョンツリーを、そのディシジョンツリーのトレーニングで使用されなかった例に対してテストすることで、ディシジョンフォレストの品質を評価するメカニズム。たとえば、次の図では、システムが約 3 分の 2 の例で各決定木をトレーニングし、残りの 3 分の 1 の例で評価していることがわかります。

3 つのディシジョンツリーで構成されるディシジョンフォレスト。1 つのディシジョンツリーは、サンプルの 3 分の 2 でトレーニングを行い、残りの 3 分の 1 を OOB 評価に使用します。2 番目のディシジョンツリーは、前のディシジョンツリーとは異なる 3 分の 2 の例でトレーニングされ、前のディシジョンツリーとは異なる 3 分の 1 を OOB 評価に使用します。

アウトオブバッグ評価は、交差検証メカニズムの計算効率が高く、保守的な近似です。交差検証では、交差検証ラウンドごとに 1 つのモデルがトレーニングされます（たとえば、10 分割交差検証では 10 個のモデルがトレーニングされます）。OOB 評価では、単一のモデルがトレーニングされます。バギングでは、トレーニング中に各ツリーから一部のデータが保持されるため、OOB 評価でそのデータを使用して交差検証を近似できます。

詳細については、意思決定フォレストコースのバッグ外評価をご覧ください。

出力レイヤ

#fundamentals

ニューラルネットワークの「最終」レイヤ。出力レイヤには予測が含まれます。

次の図は、入力レイヤ、2 つの隠れレイヤ、出力レイヤを含む小さなディープニューラルネットワークを示しています。

過学習

#fundamentals

トレーニングデータにあまりにも適合しすぎて、新しいデータに対して正しい予測を行えないモデルを作成する。

正則化により、過剰適合を減らすことができます。大規模で多様なトレーニングセットでトレーニングすることも、過学習を減らすことができます。

アイコンをクリックすると、追加のメモが表示されます。

過剰適合は、お気に入りの教師の助言にのみ厳密に従うようなものです。その教師のクラスでは成功するかもしれませんが、その教師のアイデアに「過剰適合」してしまい、他のクラスでは成功しない可能性があります。さまざまな教師からのアドバイスに従うことで、新しい状況にうまく適応できるようになります。

詳細については、機械学習クラッシュコースの過学習をご覧ください。

オーバーサンプリング

クラス不均衡データセットの少数派クラスの例を再利用して、よりバランスの取れたトレーニングセットを作成します。

たとえば、多数派クラスと少数派クラスの比率が 5,000:1 のバイナリ分類問題を考えてみましょう。データセットに 100 万件の例が含まれている場合、少数派のクラスの例は 200 件程度しか含まれていません。これは、効果的なトレーニングを行うには少なすぎる可能性があります。この欠点を克服するために、200 個の例を複数回オーバーサンプリング（再利用）して、有用なトレーニングに十分な例を生成することがあります。

オーバーサンプリングを行う場合は、過適合に注意する必要があります。

アンダーサンプリングも参照してください。

P

パックされたデータ

データをより効率的に保存するためのアプローチ。

パックされたデータは、圧縮形式を使用するか、より効率的にアクセスできる他の方法でデータを保存します。パックされたデータは、アクセスに必要なメモリと計算量を最小限に抑え、トレーニングの高速化とモデル推論の効率化につながります。

パックされたデータは、データ拡張や正則化などの他の手法と組み合わせて使用されることが多く、モデルのパフォーマンスをさらに向上させます。

PaLM

Pathways Language Model の略。

pandas

#fundamentals

numpy 上に構築された列指向のデータ分析 API。TensorFlow を含む多くの ML フレームワークは、入力として pandas データ構造をサポートしています。詳しくは、pandas のドキュメントをご覧ください。

パラメータ

#fundamentals

モデルがトレーニング中に学習する重みとバイアス。たとえば、線形回帰モデルでは、パラメータは次の式でバイアス（b）とすべての重み（w₁、w₂ など）で構成されます。

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

一方、ハイパーパラメータは、ユーザー（またはハイパーパラメータチューニングサービス）がモデルに提供する値です。たとえば、学習率はハイパーパラメータです。

パラメータ効率チューニング

#generativeAI

完全なファインチューニングよりも効率的に、大規模な事前トレーニング済み言語モデル（PLM）をファインチューニングする一連の手法。パラメータ効率チューニングでは、通常、完全なファインチューニングよりもはるかに少ないパラメータがファインチューニングされますが、一般的に、完全なファインチューニングで構築された大規模言語モデルと同等（またはほぼ同等）のパフォーマンスを発揮する大規模言語モデルが生成されます。

パラメータ効率チューニングと次のものを比較対照します。

指示チューニング
プロンプトチューニング

パラメータ効率チューニングは、パラメータ効率ファインチューニングとも呼ばれます。

パラメータサーバー（PS）

#TensorFlow

分散設定でモデルのパラメータを追跡するジョブ。

パラメータの更新

トレーニング中にモデルのパラメータを調整するオペレーション。通常は、勾配降下法の 1 回の反復内で行われます。

偏微分

1 つの変数を除き、すべての変数が定数と見なされる導関数。たとえば、x に関する f(x, y) の偏導関数は、f を x の関数としてのみ（つまり、y を定数として）扱う場合の f の導関数です。x に関する f の偏微分は、x の変化のみに注目し、方程式内の他のすべての変数を無視します。

参加バイアス

#responsible

無回答のバイアスと同義。選択バイアスをご覧ください。

パーティショニング戦略

変数がパラメータサーバー間で分割されるアルゴリズム。

k での合格率（pass@k）

#Metric

大規模言語モデルが生成するコード（Python など）の品質を判断する指標。具体的には、pass at k は、生成された k 個のコードブロックのうち、少なくとも 1 つのコードブロックがすべての単体テストに合格する可能性を示します。

大規模言語モデルは、複雑なプログラミング問題に対して適切なコードを生成するのに苦労することがよくあります。ソフトウェアエンジニアは、大規模言語モデルに同じ問題に対する複数の（k 個の）ソリューションを生成するように指示することで、この問題に対応します。次に、ソフトウェアエンジニアが各ソリューションを単体テストに対してテストします。k での合格の計算は、単体テストの結果によって異なります。

これらのソリューションのいずれかが単体テストに合格した場合、LLM はそのコード生成チャレンジに合格します。
どのソリューションも単体テストに合格しなかった場合（いずれも）、LLM はそのコード生成チャレンジに不合格となります。

k でのパスの式は次のとおりです。

\[\text{pass at k} = \frac{\text{total number of passes}} {\text{total number of challenges}}\]

一般に、k の値が大きいほど、k での合格スコアが高くなります。ただし、k の値が大きいほど、大規模言語モデルと単体テストのリソースが必要になります。

アイコンをクリックして例を確認します。

ソフトウェアエンジニアが大規模言語モデルに、n=50 個の難しいコーディング問題に対する k=10 個のソリューションを生成するように依頼したとします。結果は次のとおりです。

30 枚のパス
20 件の不合格

したがって、スコア 10 の合格は次のようになります。

$$\text{pass at 10} = \frac{\text{30}} {\text{50}} = 0.6$$

Pathways Language Model（PaLM）

Gemini モデルの古いモデルであり、前身となるモデル。

Pax

#generativeAI

複数の TPU アクセラレータチップ スライスまたは Pod にまたがるほど大規模な ニューラルネットワーク モデルのトレーニング用に設計されたプログラミングフレームワーク。

Pax は JAX 上に構築された Flax 上に構築されています。

ソフトウェアスタックにおける Pax の位置を示す図。Pax は JAX 上に構築されています。Pax 自体は 3 つのレイヤで構成されています。最下層には TensorStore と Flax が含まれています。中間レイヤには Optax と Flaxformer が含まれています。最上位のレイヤには、Praxis モデリングライブラリが含まれています。Fiddle は Pax を基盤として構築されています。

パーセプトロン

1 つ以上の入力値を受け取り、入力の重み付き合計に対して関数を実行し、単一の出力値を計算するシステム（ハードウェアまたはソフトウェア）。機械学習では、この関数は通常、ReLU、シグモイド、tanh などの非線形関数です。たとえば、次のパーセプトロンはシグモイド関数を使用して 3 つの入力値を処理します。

$$f(x_1, x_2, x_3) = \text{sigmoid}(w_1 x_1 + w_2 x_2 + w_3 x_3)$$

次の図では、パーセプトロンは 3 つの入力を受け取ります。各入力は、パーセプトロンに入る前に重みによって変更されます。

3 つの入力を受け取り、それぞれが個別の重みで乗算されるパーセプトロン。パーセプトロンは単一の値を出力します。

パーセプトロンは、ニューラルネットワークのニューロンです。

パフォーマンス

#Metric

次の意味を持つオーバーロードされた用語:

ソフトウェアエンジニアリングにおける標準的な意味。つまり、このソフトウェアはどのくらいの速さ（または効率）で実行されるかということです。
ML における意味。ここで、パフォーマンスは「このモデルはどの程度正確か」という質問に答えます。つまり、モデルの予測はどの程度正確かということです。

permutation variable importances

#df

#Metric

特徴量の値を並べ替えた後に、モデルの予測誤差の増加を評価する変数重要度の一種。順列変数重要度は、モデルに依存しない指標です。

パープレキシティ

#Metric

モデルがタスクをどの程度達成しているかを測定する指標の 1 つ。たとえば、ユーザーがスマートフォンのキーボードで入力している単語の最初の数文字を読み取り、候補となる補完単語のリストを表示するタスクがあるとします。このタスクの複雑度 P は、ユーザーが入力しようとしている実際の単語をリストに含めるために必要な推測の数にほぼ等しくなります。

パープレキシティは、次のように交差エントロピーに関連しています。

$$P= 2^{-\text{cross entropy}}$$

パイプライン

ML アルゴリズムを取り巻くインフラストラクチャ。パイプラインには、データの収集、トレーニングデータファイルへのデータの格納、1 つ以上のモデルのトレーニング、モデルの本番環境へのエクスポートが含まれます。

詳細については、ML プロジェクトの管理コースの ML パイプラインをご覧ください。

パイプライン

モデルの処理を連続したステージに分割し、各ステージを異なるデバイスで実行するモデル並列処理の一種。ステージが 1 つのバッチを処理している間、前のステージは次のバッチを処理できます。

段階的トレーニングもご覧ください。

pjit

複数のアクセラレータチップで実行するようにコードを分割する JAX 関数。ユーザーは関数を pjit に渡します。pjit は、同等のセマンティクスを持ちながら、複数のデバイス（GPU や TPU コアなど）で実行される XLA コンピューティングにコンパイルされる関数を返します。

pjit を使用すると、SPMD パーティショナーを使用して、計算を書き換えることなくシャード化できます。

2023 年 3 月の時点で、pjit は jit に統合されています。詳細については、分散配列と自動並列化をご覧ください。

PLM

#generativeAI

事前トレーニング済み言語モデルの略語。

pmap

複数の基盤となるハードウェアデバイス（CPU、GPU、TPU）で、異なる入力値を使用して入力関数のコピーを実行する JAX 関数。pmap は SPMD に依存します。

ポリシー

強化学習では、状態から行動へのエージェントの確率的マッピング。

プーリング

以前の畳み込みレイヤによって作成された行列をより小さな行列に縮小します。通常、プーリングでは、プーリングされた領域の最大値または平均値を取得します。たとえば、次のような 3x3 行列があるとします。

3x3 の行列 [[5,3,1], [8,2,5], [9,4,3]]。

プーリングオペレーションは、畳み込みオペレーションと同様に、行列をスライスに分割し、畳み込みオペレーションをストライドでスライドさせます。たとえば、プーリングオペレーションで、畳み込み行列が 1x1 ストライドの 2x2 スライスに分割されるとします。次の図に示すように、4 つのプーリングオペレーションが行われます。各プーリングオペレーションが、そのスライスの 4 つの最大値を選択するとします。

入力行列は 3x3 で、値は [[5,3,1], [8,2,5], [9,4,3]] です。入力行列の左上 2x2 サブ行列は [[5,3], [8,2]] であるため、左上のプーリングオペレーションは値 8 を生成します（5、3、8、2 の最大値）。入力行列の右上 2x2 サブ行列は [[3,1], [2,5]] であるため、右上プーリングオペレーションは値 5 を生成します。入力行列の左下の 2x2 サブ行列は [[8,2], [9,4]] であるため、左下のプーリングオペレーションは値 9 を生成します。入力行列の右下の 2x2 サブ行列は [[2,5], [4,3]] であるため、右下のプーリングオペレーションは値 5 を生成します。要約すると、プーリングオペレーションは 2x2 行列 [[8,5], [9,5]] を生成します。

プーリングは、入力行列で並進不変性を適用するのに役立ちます。

ビジョンアプリケーションのプーリングは、正式には空間プーリングと呼ばれます。時系列アプリケーションでは、通常、プーリングは時間プーリングと呼ばれます。正式な表現ではありませんが、プーリングはサブサンプリングまたはダウンサンプリングと呼ばれることもあります。

ML 実習: 画像分類コースの畳み込みニューラルネットワークの紹介をご覧ください。

位置エンコーディング

シーケンス内のトークンの位置に関する情報をトークンのエンベディングに追加する手法。Transformer モデルは、位置エンコードを使用して、シーケンス内の異なる要素間の関係をより深く理解します。

位置エンコーディングの一般的な実装では、正弦関数が使用されます。（具体的には、正弦波関数の周波数と振幅は、シーケンス内のトークンの位置によって決まります）。この手法により、Transformer モデルは位置に基づいてシーケンスのさまざまな部分に注意を払うことを学習できます。

陽性クラス

#fundamentals

#Metric

テスト対象のクラス。

たとえば、がんモデルのポジティブクラスは「腫瘍」になります。メールの分類モデルでは、ポジティブクラスは「迷惑メール」になる可能性があります。

陰性クラスと対照的です。

アイコンをクリックすると、追加のメモが表示されます。

多くのテストでは「陽性」の結果は望ましくない結果であることが多いため、「陽性クラス」という用語は混乱を招く可能性があります。たとえば、多くの医学検査では、陽性クラスは腫瘍や病気に対応します。一般的に、医師には「おめでとうございます。検査結果は陰性でした。」いずれにしても、テストで検出するイベントがポジティブクラスになります。

確かに、同時にポジティブクラスとネガティブクラスの両方をテストしています。

後処理

#responsible

#fundamentals

モデルの実行後にモデルの出力を調整する。後処理を使用すると、モデル自体を変更せずに公平性制約を適用できます。

たとえば、バイナリ分類モデルに後処理を適用して、分類しきい値を設定し、真陽性率がその属性のすべての値で同じであることを確認することで、一部の属性で機会の平等を維持できます。

事後トレーニング済みモデル

#generativeAI

一般的に、次のような後処理を経た事前トレーニング済みモデルを指す、あいまいに定義された用語です。

蒸留
微調整
命令の調整

PR AUC（PR 曲線の下の面積）

#Metric

異なる値の分類しきい値に対して（再現率、適合率）ポイントをプロットすることによって取得された、補間された適合率-再現率曲線の下の領域。

Praxis

Pax のコアとなる高性能 ML ライブラリ。Praxis は「レイヤライブラリ」と呼ばれることがよくあります。

Praxis には、Layer クラスの定義だけでなく、次のものを含むほとんどのサポートコンポーネントも含まれています。

データ入力
構成ライブラリ（HParam と Fiddle）
オプティマイザー

Praxis は、Model クラスの定義を提供します。

precision

#fundamentals

#Metric

「全陽性のラベルの中でモデルが正しく識別したラベルの数は？」という質問に回答する分類モデルの指標。

モデルが陽性クラスを予測したとき、予測が正しかった割合はどのくらいですか？

式は次のとおりです。

$$\text{Precision} = \frac{\text{true positives}} {\text{true positives} + \text{false positives}}$$

ここで

真陽性とは、モデルが陽性のクラスを正しく予測したことを意味します。
偽陽性とは、モデルが陽性クラスを誤って予測したことを意味します。

たとえば、モデルが 200 件のポジティブな予測を行ったとします。この 200 件の正の予測のうち:

150 件が真陽性でした。
50 件は誤検出でした。

この例の場合は、次のようになります。

$$\text{Precision} = \frac{\text{150}} {\text{150} + \text{50}} = 0.75$$

精度と再現率と比較してください。

詳細については、ML 集中講座の分類: 正確度、再現率、適合率、関連指標をご覧ください。

k での適合率（precision@k）

#Metric

ランク付けされた（順序付けされた）アイテムのリストを評価するための指標。Precision at k は、そのリストの最初の k 個の項目のうち「関連性がある」項目の割合を示します。具体的には、次のことが求められます。

\[\text{precision at k} = \frac{\text{relevant items in first k items of the list}} {\text{k}}\]

k の値は、返されるリストの長さ以下にする必要があります。返されるリストの長さは計算に含まれません。

関連性は主観的なことが多く、人間の評価者の間でも、どの項目が関連性があるかについて意見が分かれることがよくあります。

比較対象日:

k における平均適合率
k における平均適合率

アイコンをクリックすると、例が表示されます。

大規模言語モデルに次のクエリが与えられたとします。

List the 6 funniest movies of all time in order.

大規模言語モデルは、次の表の最初の 2 つの列に示すリストを返します。

位置	映画	関連性があるか？
1	全般	○
2	Mean Girls	○
3	Platoon	いいえ
4	ブライズメイズ史上最悪のウェディングプラン	○
5	Citizen Kane	いいえ
6	This is Spinal Tap	○

最初の 3 本の映画のうち 2 本が関連性があるため、3 における精度は次のようになります。

$$\text{precision at 3} = \frac{\text{2}} {\text{3}} = 0.67$$

最初の 5 本の映画のうち 3 本が非常に面白いので、精度 @ 5 は次のようになります。

$$\text{precision at 5} = \frac{\text{3}} {\text{5}} = 0.6$$

適合率と再現率の曲線

#Metric

さまざまな分類しきい値における適合率と再現率の曲線。

予測

#fundamentals

モデルの出力。次に例を示します。

バイナリ分類モデルの予測は、正クラスまたは負クラスのいずれかになります。
マルチクラス分類モデルの予測は 1 つのクラスです。
線形回帰モデルの予測は数値です。

予測バイアス

#Metric

データセット内の予測の平均値とラベルの平均値の差を示す値。

ML モデルのバイアス項や、倫理と公平性のバイアスと混同しないでください。

予測 ML

標準（「クラシック」）の機械学習システム。

予測 ML という用語には正式な定義はありません。この用語は、生成 AI に基づかない ML システムのカテゴリを区別するものです。

予測のパリティ

#responsible

#Metric

特定の分類モデルについて、考慮対象のサブグループの適合率が同等かどうかをチェックする公平性指標。

たとえば、大学の合格を予測するモデルの適合率がリリパット人とブロブディンナグ人に対して同じであれば、国籍に関する予測パリティを満たします。

予測パリティは、予測率パリティとも呼ばれます。

予測パリティの詳細については、「公平性の定義の説明」（セクション 3.2.1）をご覧ください。

予測レートパリティ

#responsible

#Metric

予測パリティの別名。

前処理

#responsible

モデルのトレーニングに使用する前にデータを処理すること。前処理は、英語の辞書にない単語を英語のテキストコーパスから削除するような単純なものから、機密属性と相関関係のある属性をできるだけ排除するようにデータポイントを再表現するような複雑なものまであります。前処理は、公平性制約を満たすのに役立ちます。

事前トレーニング済みモデル

#generativeAI

この用語は、トレーニング済みのモデルまたはトレーニング済みのエンベディングベクトルを指すこともありますが、現在では通常、トレーニング済みの大規模言語モデルまたはトレーニング済みの生成 AI モデルを指します。

ベースモデルと基盤モデルもご覧ください。

事前トレーニング

#generativeAI

大規模なデータセットでのモデルの最初のトレーニング。一部の事前トレーニング済みモデルは、扱いにくい巨大なモデルであり、通常は追加のトレーニングで改良する必要があります。たとえば、ML エキスパートは、Wikipedia のすべての英語ページなど、膨大なテキストデータセットで大規模言語モデルを事前トレーニングする場合があります。事前トレーニングの後、次のいずれかの手法でモデルをさらに調整できます。

蒸留
ファインチューニング
指示チューニング
パラメータ効率チューニング
prompt-tuning

事前分布

トレーニングを開始する前にデータについて想定していること。たとえば、L₂ 正則化は、重みは小さく、ゼロを中心に正規分布しているという事前分布に依存しています。

Pro

#generativeAI

Ultra よりも少ないが、Nano よりも多いパラメータを備えた Gemini モデル。詳細については、Gemini Pro をご覧ください。

確率的回帰モデル

各特徴の重みだけでなく、それらの重みの不確実性も使用する回帰モデル。確率的回帰モデルは、予測とその予測の不確実性を生成します。たとえば、確率的回帰モデルでは、標準偏差 12 で 325 の予測が得られることがあります。確率的回帰モデルの詳細については、tensorflow.org の Colab をご覧ください。

確率密度関数

#Metric

特定の値を正確に持つデータサンプルの頻度を特定する関数。データセットの値が連続する浮動小数点数の場合、完全一致はほとんど発生しません。ただし、値 x から値 y までの確率密度関数を積分すると、x と y の間のデータサンプルで予想される頻度が得られます。

たとえば、平均が 200 で標準偏差が 30 の正規分布を考えてみましょう。211.4 ～ 218.7 の範囲に収まるデータサンプルが予想される頻度を特定するには、正規分布の確率密度関数を 211.4 ～ 218.7 の範囲で積分します。

プロンプト

#generativeAI

大規模言語モデルに入力として入力されるテキスト。モデルが特定の動作をするように条件付けます。プロンプトは、フレーズのように短くすることも、任意に長くすることもできます（小説の全文など）。プロンプトは、次の表に示すカテゴリなど、複数のカテゴリに分類されます。

プロンプトカテゴリ	例	メモ
質問	`ハトはどれくらいの速さで飛ぶことができますか？`
手順	`アービトラージについての面白い詩を書いて。`	大規模言語モデルに何かを実行するように求めるプロンプト。
例	`Markdown コードを HTML に変換します。例: マークダウン: * リスト項目 HTML: <ul> <li>リスト項目</li> </ul>`	この例のプロンプトの最初の文は指示です。プロンプトの残りの部分は例です。
ロール	`物理学の博士号取得者に、機械学習のトレーニングで勾配降下法が使用される理由を説明します。`	文の前半は指示、後半の「物理学の博士号を取得した」は役割の部分です。
モデルが完了する部分入力	`英国首相の官邸は`	部分入力プロンプトは、この例のように突然終了するか、アンダースコアで終了します。

生成 AI モデルは、テキスト、コード、画像、エンベディング、動画など、ほぼすべてのプロンプトに応答できます。

プロンプトベースの学習

#generativeAI

特定のモデルの機能で、任意のテキスト入力（プロンプト）に応じて動作を適応させることができます。一般的なプロンプトベースの学習パラダイムでは、大規模言語モデルがテキストを生成してプロンプトに応答します。たとえば、ユーザーが次のプロンプトを入力したとします。

ニュートンの運動の第 3 法則を要約してください。

プロンプトベースの学習が可能なモデルは、以前のプロンプトに回答するように特別にトレーニングされていません。モデルは、物理学に関する多くの事実、一般的な言語規則に関する多くのこと、一般的に有用な回答を構成する多くのことを「知っている」のです。この知識があれば、有用な回答を提供できます。人間からの追加のフィードバック（「回答が複雑すぎる」、「リアクションとは何ですか？」など）により、一部のプロンプトベースの学習システムは回答の有用性を徐々に向上させることができます。

プロンプトデザイン

#generativeAI

プロンプトエンジニアリングの同義語。

プロンプトエンジニアリング

#generativeAI

大規模言語モデルから望ましいレスポンスを引き出すプロンプトを作成する技術。人間がプロンプトエンジニアリングを行います。適切に構造化されたプロンプトを作成することは、大規模言語モデルから有用な回答を得るために不可欠な要素です。プロンプトエンジニアリングは、次のような多くの要因に左右されます。

大規模言語モデルの事前トレーニングと、場合によってはファインチューニングに使用されるデータセット。
モデルが応答を生成するために使用する温度とその他のデコードパラメータ。

プロンプト設計は、プロンプトエンジニアリングの同義語です。

役立つプロンプトの作成方法の詳細については、プロンプト設計の概要をご覧ください。

プロンプトセット

#generativeAI

大規模言語モデルを評価するためのプロンプトのグループ。たとえば、次の図は 3 つのプロンプトで構成されるプロンプトセットを示しています。

LLM への 3 つのプロンプトから 3 つのレスポンスが生成されます。3 つのプロンプトがプロンプトセットです。3 つのレスポンスがレスポンスセットです。

優れたプロンプトセットは、大規模言語モデルの安全性と有用性を徹底的に評価するのに十分な「幅広い」プロンプトのコレクションで構成されています。

レスポンスセットもご覧ください。

プロンプトチューニング

#generativeAI

システムが実際のプロンプトの先頭に追加する「プレフィックス」を学習するパラメータ効率の高いチューニング メカニズム。

プロンプトチューニングの一種（プレフィックスチューニングと呼ばれることもあります）では、すべてのレイヤにプレフィックスを追加します。一方、ほとんどのプロンプトチューニングでは、入力レイヤに接頭辞を追加するだけです。

アイコンをクリックすると、接頭辞の詳細が表示されます。

プロンプトチューニングの場合、「接頭辞」（「ソフトプロンプト」とも呼ばれます）は、実際のプロンプトのテキストトークン埋め込みの先頭に追加される、学習済みのタスク固有のベクトルの集まりです。システムは、他のすべてのモデルパラメータをフリーズし、特定のタスクでファインチューニングすることで、ソフトプロンプトを学習します。

プロキシ（機密属性）

#responsible

機密属性の代わりとして使用される属性。たとえば、個人の郵便番号は、その人の収入、人種、民族の代理として使用されることがあります。

プロキシラベル

#fundamentals

データセットで直接利用できないラベルを近似するために使用されるデータ。

たとえば、従業員のストレスレベルを予測するモデルをトレーニングする必要があるとします。データセットには予測特徴が多数含まれていますが、ストレスレベルというラベルは含まれていません。そこで、ストレスレベルのプロキシラベルとして「職場での事故」を選択します。ストレスの多い従業員は、落ち着いた従業員よりも事故を起こす可能性が高くなります。それとも、そうなのでしょうか？労働災害は、実際にはさまざまな理由で増減しているのかもしれません。

2 つ目の例として、データセットのブール値ラベルとして is it raining? を使用したいが、データセットに雨のデータが含まれていないとします。写真が利用可能な場合は、傘をさしている人の写真を「雨が降っているか？」のプロキシラベルとして設定できます。これは適切なプロキシラベルですか？可能性はありますが、文化によっては、雨ではなく日差しから身を守るために傘をさす人が多いかもしれません。

プロキシラベルは完全ではないことがよくあります。可能な場合は、プロキシラベルではなく実際のラベルを選択します。ただし、実際のラベルがない場合は、最も悪い候補ではないプロキシラベルを慎重に選択してください。

詳細については、ML 集中講座のデータセット: ラベルをご覧ください。

純粋関数

出力が入力のみに基づいており、副作用がない関数。具体的には、純粋関数は、ファイルの内容や関数外の変数の値などのグローバル状態を使用したり変更したりしません。

純粋関数を使用してスレッドセーフなコードを作成できます。これは、複数のアクセラレータチップに モデルコードをシャーディングする場合に役立ちます。

JAX の関数変換メソッドでは、入力関数が純粋関数である必要があります。

Q

Q 関数

強化学習では、状態で行動を取り、指定されたポリシーに従った場合の期待される収益を予測する関数。

Q 関数は、状態行動値関数とも呼ばれます。

Q 学習

強化学習では、エージェントが ベルマン方程式を適用して マルコフ決定プロセスの最適な Q 関数を学習できるようにするアルゴリズム。マルコフ決定プロセスは環境をモデル化します。

分位数

分位バケット内の各バケット。

分位点バケット化

各バケットに同じ（またはほぼ同じ）数の例が含まれるように、特徴の値をバケットに分散します。たとえば、次の図では、44 個のポイントを 4 つのバケットに分割し、各バケットに 11 個のポイントが含まれています。図の各バケットに同じ数のポイントが含まれるように、一部のバケットは x 値の幅が異なります。

44 個のデータポイントが、それぞれ 11 個のポイントを含む 4 つのバケットに分割されます。各バケットには同じ数のデータポイントが含まれていますが、一部のバケットには他のバケットよりも広い範囲の特徴値が含まれています。

詳細については、ML 集中講座の数値データ: ビン分割をご覧ください。

量子化

次のいずれかの意味で使用される可能性のある、オーバーロードされた用語。

特定の特徴に分位バケットを実装する。
データを 0 と 1 に変換して、保存、トレーニング、推論を高速化します。ブール値データは他の形式よりもノイズやエラーに強いため、量子化によってモデルの正確性を向上させることができます。量子化手法には、丸め、切り捨て、ビン分割などがあります。
モデルのパラメータの保存に使用されるビット数を減らします。たとえば、モデルのパラメータが 32 ビットの浮動小数点数として保存されているとします。量子化では、これらのパラメータを 32 ビットから 4 ビット、8 ビット、16 ビットに変換します。量子化により、次のものが削減されます。
- コンピューティング、メモリ、ディスク、ネットワークの使用量
- 予測の推論時間
- 消費電力
ただし、量子化によってモデルの予測の正確性が低下することがあります。

キュー

#TensorFlow

キューデータ構造を実装する TensorFlow オペレーション。通常、I/O で使用されます。

R

RAG

#fundamentals

検索拡張生成の略語。

ランダムフォレスト

#df

各ディシジョンツリーが特定のランダムノイズ（バギングなど）でトレーニングされる、ディシジョンツリーのアンサンブル。

ランダムフォレストは、デシジョンフォレストの一種です。

詳細については、ディシジョンフォレストコースのランダムフォレストをご覧ください。

ランダムポリシー

強化学習では、アクションをランダムに選択するポリシー。

ランク（順序）

クラスを高い順に分類する ML 問題におけるクラスの順序。たとえば、行動ランキングシステムでは、犬の報酬を最高（ステーキ）から最低（しおれたケール）までランク付けできます。

rank（Tensor）

#TensorFlow

Tensor のディメンションの数。たとえば、スカラーのランクは 0、ベクトルのランクは 1、行列のランクは 2 です。

ランク（順序性）と混同しないでください。

rater

#fundamentals

例にラベルを付ける人。「アノテーター」は、評価者の別の名前です。

詳細については、ML 集中講座のカテゴリデータ: 一般的な問題をご覧ください。

recall

#fundamentals

#Metric

「全陽性のラベルの中でモデルが正しく識別したラベルの数は？」という質問に回答する分類モデルの指標。

グラウンドトゥルースが陽性クラスだった場合、モデルは予測の何パーセントを陽性クラスとして正しく識別しましたか。

式は次のとおりです。

\[\text{Recall} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}} \]

ここで

真陽性とは、モデルが陽性のクラスを正しく予測したことを意味します。
偽陰性は、モデルが陰性クラスを誤って予測したことを意味します。

たとえば、モデルがグラウンドトゥルースが陽性クラスである例に対して 200 件の予測を行ったとします。これらの 200 個の予測のうち:

180 件が真陽性でした。
20 件が偽陰性でした。

この例の場合は、次のようになります。

\[\text{Recall} = \frac{\text{180}} {\text{180} + \text{20}} = 0.9 \]

クラス不均衡データセットに関する注記についてはアイコンをクリックしてください。

再現率は、陽性クラスがまれな分類モデルの予測能力を判断するのに特に役立ちます。たとえば、特定の病気の陽性クラスが 100 万人の患者のうち 10 人にしか発生しないクラス不均衡データセットを考えてみましょう。モデルが 500 万件の予測を行い、次の結果が得られたとします。

30 件の真陽性
20 個の偽陰性
4,999,000 件の真陰性
950 件の誤検出

したがって、このモデルの再現率は次のようになります。

recall = TP / (TP + FN)
recall = 30 / (30 + 20) = 0.6 = 60%

一方、このモデルの精度は次のとおりです。

accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (30 + 4,999,000) / (30 + 4,999,000 + 950 + 20) = 99.98%

この高い精度は印象的ですが、本質的には意味がありません。再現率は、クラスの不均衡なデータセットでは精度よりもはるかに有用な指標です。

詳細については、分類: 精度、再現率、適合率、関連指標をご覧ください。

上位 k 個の再現率（recall@k）

#Metric

ランク付けされた（順序付けされた）アイテムのリストを出力するシステムを評価するための指標。再現率（k）は、返された関連アイテムの総数のうち、リストの最初の k 個のアイテムに含まれる関連アイテムの割合を示します。

\[\text{recall at k} = \frac{\text{relevant items in first k items of the list}} {\text{total number of relevant items in the list}}\]

k での精度と対照します。

アイコンをクリックすると、例が表示されます。

大規模言語モデルに次のクエリが与えられたとします。

List the 10 funniest movies of all time in order.

大規模言語モデルは、最初の 2 つの列に示すリストを返します。

位置	映画	関連性があるか？
1	全般	○
2	Mean Girls	○
3	Platoon	いいえ
4	ブライズメイズ史上最悪のウェディングプラン	○
5	This is Spinal Tap	○
6	飛行機！	○
7	Groundhog Day	○
8	モンティ・パイソン・アンド・ホーリー・グレイル	○
9	Oppenheimer	いいえ
10	Clueless	○

上記のリストにある 8 本の映画は非常に面白いので、「リスト内の関連アイテム」です。したがって、k でのリコールのすべての計算で、8 が分母になります。分子はどうでしょうか。最初の 4 つのアイテムのうち 3 つが関連性があるため、再現率（4）は次のようになります。

$$\text{recall at 4} = \frac{\text{3}} {\text{8}} = 0.375$$

最初の 8 本の映画のうち 7 本が非常に面白かったため、8 本目の映画の再現率は次のようになります。

$$\text{recall at 8} = \frac{\text{7}} {\text{8}} = 0.875$$

推奨システム

大規模なコーパスから、各ユーザーにとって望ましい比較的少数のアイテムを選択するシステム。たとえば、動画レコメンデーションシステムが 10 万本の動画のコーパスから 2 本の動画をおすすめする場合、あるユーザーには『カサブランカ』と『フィラデルフィア物語』を選択し、別のユーザーには『ワンダーウーマン』と『ブラックパンサー』を選択することがあります。動画のおすすめシステムは、次のような要素に基づいておすすめを表示することがあります。

類似のユーザーが評価または視聴した映画。
ジャンル、監督、俳優、ターゲット層...

詳細については、レコメンデーションシステムのコースをご覧ください。

正規化線形ユニット（ReLU）

#fundamentals

次の動作を行うアクティベーション関数:

入力が負の値またはゼロの場合、出力は 0 になります。
入力が正の場合、出力は入力と同じになります。

次に例を示します。

入力が -3 の場合、出力は 0 になります。
入力が +3 の場合、出力は 3.0 になります。

以下は ReLU のプロットです。

ReLU は非常に人気のある活性化関数です。単純な動作にもかかわらず、ReLU はニューラルネットワークの学習を可能にする。非線形間の関係特徴そしてラベル。

再帰型ニューラルネットワーク

意図的に複数回実行されるニューラルネットワーク。各実行の一部が次の実行にフィードされます。具体的には、前の実行の隠れ層が、次の実行の同じ隠れ層への入力の一部を提供します。再帰型ニューラルネットワークは、シーケンスの評価に特に役立ちます。これにより、隠れ層はシーケンスの前の部分に対するニューラルネットワークの以前の実行から学習できます。

たとえば、次の図は 4 回実行される再帰型ニューラルネットワークを示しています。最初の実行で隠れ層から学習した値は、2 回目の実行で同じ隠れ層への入力の一部になります。同様に、2 回目の実行の隠れ層で学習された値は、3 回目の実行の同じ隠れ層への入力の一部になります。このようにして、リカレントニューラルネットワークは、個々の単語の意味だけでなく、シーケンス全体の意味を徐々にトレーニングして予測します。

4 つの入力単語を処理するために 4 回実行される RNN。

参照テキスト

#ジェネレーティブ AI

プロンプトに対するエキスパートの回答。たとえば、次のプロンプトを指定します。

「あなたの名前は何ですか？」という質問を英語からフランス語に翻訳してください。

専門家の回答は次のようになります。

Comment vous appelez-vous?

さまざまな指標（ROUGE など）は、参照テキストが ML モデルの生成テキストと一致する度合いを測定します。

reflection

#ジェネレーティブ AI

ステップの出力を次のステップに渡す前に、その出力を検査（反映）することで、エージェントワークフローの品質を向上させる戦略。

多くの場合、審査員は回答を生成した LLM と同じです（別の LLM の場合もあります）。回答を生成した LLM が、その回答を公平に判断できるのでしょうか？「コツ」は、LLM を批判的（反射的）な考え方にすることです。このプロセスは、クリエイティブな考え方で下書きを作成し、批判的な考え方で編集する作家に似ています。

たとえば、最初のステップとしてコーヒーマグのテキストを作成するエージェントワークフローを想像してください。このステップのプロンプトは次のようになります。

あなたはクリエイターです。コーヒーマグカップに適した、50 文字未満のユーモラスでオリジナルのテキストを生成します。

次の内省的なプロンプトを考えてみましょう。

あなたはコーヒーを飲む人です。上記の回答はユーモラスだと思いますか？

ワークフローでは、高いリフレクションスコアを受け取ったテキストのみを次のステージに渡すことができます。

回帰モデル

#fundamentals

数値予測を生成するモデル。（これに対し、分類モデルはクラス予測を生成します）。たとえば、次のすべてが回帰モデルです。

特定の住宅の価値をユーロで予測するモデル（423,000 など）。
特定の樹木の寿命を年単位で予測するモデル（23.2 など）。
特定の都市で今後 6 時間に降る雨の量をインチ単位で予測するモデル（0.18 など）。

一般的な回帰モデルには次の 2 種類があります。

線形回帰: ラベル値を特徴に最もよく適合させる線を見つけます。
ロジスティック回帰。0.0 ～ 1.0 の確率を生成します。システムは通常、この確率をクラス予測にマッピングします。

数値予測を出力するモデルがすべて回帰モデルであるとは限りません。数値予測は、数値クラス名を持つ分類モデルにすぎない場合があります。たとえば、数値の郵便番号を予測するモデルは、回帰モデルではなく分類モデルです。

正則化

#fundamentals

過適合を軽減するメカニズム。正則化の一般的なタイプは次のとおりです。

L₁ 正則化
L₂ 正則化
ドロップアウト正則化
早期停止（正式な正則化手法ではありませんが、過適合を効果的に制限できます）

正則化は、モデルの複雑さに対するペナルティとして定義することもできます。

アイコンをクリックすると、追加のメモが表示されます。

正則化は直感に反するものです。通常、正則化を増やすとトレーニング損失が増加します。トレーニング損失を最小化することが目標ではないため、混乱が生じます。

実際には、トレーニング損失を最小限に抑えることが目標ではありません。目標は、実際の例で優れた予測を行うことです。驚くべきことに、正則化を増やすとトレーニング損失が増加しますが、通常はモデルが実際の例でより良い予測を行うのに役立ちます。

詳細については、ML 集中講座の過剰適合: モデルの複雑さをご覧ください。

正則化率

#fundamentals

トレーニング中の正則化の相対的な重要度を指定する数値。正則化率を上げると、過剰適合が軽減されますが、モデルの予測能力が低下する可能性があります。逆に、正則化率を減らしたり省略したりすると、過適合が増加します。

アイコンをクリックすると、計算結果が表示されます。

正則化率は通常、ギリシャ文字のラムダで表されます。次の簡略化された損失方程式は、ラムダの影響を示しています。

$$\text{minimize(loss function + }\lambda\text{(regularization))}$$

ここで、正則化は、次のような任意の正則化メカニズムです。

L₁ 正則化
L₂ 正則化

詳細については、機械学習集中講座の過学習: L2 正則化をご覧ください。

強化学習（RL）

最適なポリシーを学習するアルゴリズムのファミリー。目標は、環境とやり取りする際に収益を最大化することです。たとえば、ほとんどのゲームの最終的な報酬は勝利です。強化学習システムは、最終的に勝利につながった過去のゲームの動きのシーケンスと、最終的に敗北につながったシーケンスを評価することで、複雑なゲームのプレイの専門家になることができます。

人間からのフィードバックを用いた強化学習（RLHF）

#generativeAI

人間の評価者からのフィードバックを使用して、モデルの回答の品質を向上させます。たとえば、RLHF メカニズムでは、モデルのレスポンスの品質を 👍 または 👎 の絵文字で評価するようユーザーに求めることができます。システムは、そのフィードバックに基づいて今後のレスポンスを調整できます。

ReLU

#fundamentals

正規化線形ユニットの略。

リプレイバッファ

DQN のようなアルゴリズムでは、エージェントが状態遷移を保存してエクスペリエンスリプレイで使用するメモリ。

レプリカ

通常は別のマシンに保存されている、トレーニングセットまたはモデルのコピー（または一部）。たとえば、システムは次の戦略を使用して データ並列処理を実装できます。

既存のモデルのレプリカを複数のマシンに配置します。
トレーニングセットの異なるサブセットを各レプリカに送信します。
パラメータの更新を集計します。

レプリカは、推論サーバーの別のコピーを参照することもできます。レプリカの数を増やすと、システムが同時に処理できるリクエストの数が増えますが、サービング費用も増加します。

報告バイアス

#responsible

アクション、結果、プロパティについて人々が記述する頻度が、実世界の頻度や、プロパティが個人のクラスの特徴である程度を反映していない。報告バイアスは、ML システムが学習するデータの構成に影響する可能性があります。

たとえば、書籍では「笑った」という単語は「呼吸した」という単語よりも一般的です。書籍コーパスから笑いと呼吸の相対頻度を推定する ML モデルは、笑いの方が呼吸よりも一般的であると判断するでしょう。

詳細については、ML 集中講座の公平性: 偏りの種類をご覧ください。

「bank」が

データを有用な特徴にマッピングするプロセス。

再ランキング

レコメンデーションシステムの最終段階。この段階では、スコアリングされたアイテムが他の（通常は ML 以外の）アルゴリズムに従って再評価されることがあります。再ランキングでは、スコアリング フェーズで生成されたアイテムのリストを評価し、次のようなアクションを実行します。

ユーザーがすでに購入したアイテムを削除する。
より新鮮なアイテムのスコアを高めます。

詳細については、レコメンデーションシステムコースの再ランキングをご覧ください。

レスポンス

#generativeAI

生成 AI モデルが推論するテキスト、画像、音声、動画。つまり、プロンプトは生成 AI モデルへの入力であり、レスポンスは出力です。

レスポンスセット

#generativeAI

大規模言語モデルが入力プロンプトセットに返すレスポンスのコレクション。

検索拡張生成（RAG）

#fundamentals

モデルのトレーニング後に取得されたナレッジソースを使用してグラウンディングすることで、大規模言語モデル（LLM）の出力の品質を向上させる手法。RAG は、信頼できるナレッジベースやドキュメントから取得した情報へのアクセスをトレーニング済みの LLM に提供することで、LLM の回答の精度を向上させます。

検索拡張生成を使用する一般的な動機は次のとおりです。

モデルの生成された回答の事実の正確性を高める。
モデルにトレーニングされていない知識へのアクセス権を付与する。
モデルが使用する知識を変更する。
モデルがソースを引用できるようにする。

たとえば、化学アプリが PaLM API を使用して、ユーザーのクエリに関連する要約を生成するとします。アプリのバックエンドがクエリを受信すると、バックエンドは次の処理を行います。

ユーザーのクエリに関連するデータを検索（取得）します。
関連する化学データをユーザーのクエリに追加（「拡張」）します。
追加されたデータに基づいて要約を作成するように LLM に指示します。

リターン

強化学習では、特定のポリシーと特定の状態が与えられた場合、リターンは、状態からエピソードの終わりまでポリシーに従うときにエージェントが受け取ると予想されるすべての報酬の合計です。エージェントは、報酬を獲得するために必要な状態遷移に応じて報酬を割り引くことで、期待される報酬の遅延を考慮します。

したがって、割引率が $\gamma$、そして $r_0, \ldots, r_{N}$エピソードの終了までの報酬を示す場合、リターンの計算は次のようになります。

$$\text{Return} = r_0 + \gamma r_1 + \gamma^2 r_2 + \ldots + \gamma^{N-1} r_{N-1}$$

特典

強化学習では、環境によって定義された、状態でアクションを実行した結果の数値。

リッジ正則化

L₂ 正則化と同義。リッジ正則化という用語は、純粋な統計のコンテキストでより頻繁に使用されますが、L₂ 正則化は ML でより頻繁に使用されます。

RNN

回帰型ニューラルネットワークの略語。

ROC（受信者操作特性）曲線

#fundamentals

#Metric

バイナリ分類におけるさまざまな分類しきい値に対する真陽性率と偽陽性率のグラフ。

ROC 曲線の形状は、陽性クラスと陰性クラスを分離するバイナリ分類モデルの能力を示します。たとえば、バイナリ分類モデルがすべての陰性クラスとすべての陽性クラスを完全に分離するとします。

右側に 8 個の正の例、左側に 7 個の負の例がある数直線。

上記のモデルの ROC 曲線は次のようになります。

ROC 曲線。X 軸は偽陽性率、Y 軸は真陽性率です。曲線は逆 L 字型になります。曲線は (0.0,0.0) から始まり、(0.0,1.0) までまっすぐ上に伸びます。その後、曲線は (0.0,1.0) から (1.0,1.0) に移動します。

一方、次の図は、負のクラスと正のクラスをまったく分離できないひどいモデルのロジスティック回帰の生値をグラフ化したものです。

正の例と負のクラスが完全に混在している数直線。

このモデルの ROC 曲線は次のようになります。

ROC 曲線。実際には、(0.0,0.0) から (1.0,1.0) までの直線です。

一方、現実の世界では、ほとんどのバイナリ分類モデルは陽性クラスと陰性クラスをある程度分離しますが、完全に分離することは通常ありません。したがって、一般的な ROC 曲線は、次の 2 つの極端なケースの中間に位置します。

ROC 曲線。X 軸は偽陽性率、Y 軸は真陽性率です。ROC 曲線は、西から北にコンパスのポイントを横切る不安定な弧を近似します。

ROC 曲線上の点のうち、(0.0,1.0) に最も近い点は、理論的には理想的な分類しきい値を特定します。ただし、理想的な分類しきい値の選択には、他のいくつかの現実世界の問題が影響します。たとえば、偽陰性の方が偽陽性よりもはるかに大きな問題を引き起こす可能性があります。

AUC という数値指標は、ROC 曲線を単一の浮動小数点値に要約します。

ロールプロンプト

#generativeAI

プロンプト。通常は代名詞の「あなた」で始まり、生成 AI モデルに、回答を生成する際に特定の人物や役割を演じるよう指示します。ロールプロンプトを使用すると、生成 AI モデルが適切な「マインドセット」になり、より有用なレスポンスを生成できます。たとえば、求める回答の種類に応じて、次のロールプロンプトのいずれかが適切である可能性があります。

コンピュータサイエンスの博士号を取得している。

あなたは、プログラミングを始めたばかりの学生に Python について丁寧に説明するのが好きなソフトウェアエンジニアです。

あなたは、非常に特殊なプログラミングスキルを持つアクションヒーローです。Python リストで特定のアイテムを見つけることを保証してください。

root

#df

決定木の開始ノード（最初の条件）。慣例により、図ではルートがディシジョンツリーの上部に配置されます。次に例を示します。

2 つの条件と 3 つのリーフを含むディシジョンツリー。開始条件（x > 2）がルートです。

ルートディレクトリ

#TensorFlow

複数のモデルの TensorFlow チェックポイントとイベントファイルのサブディレクトリをホストするために指定するディレクトリ。

二乗平均平方根誤差（RMSE）

#fundamentals

#Metric

平均二乗誤差の平方根。

回転不変性

画像分類問題において、画像の向きが変わっても画像を正しく分類できるアルゴリズムの能力。たとえば、アルゴリズムは、テニスラケットが上向き、横向き、下向きのいずれであっても、テニスラケットを識別できます。回転不変性が常に望ましいとは限りません。たとえば、逆さまの 9 は 9 として分類されるべきではありません。

並進不変性とサイズ不変性もご覧ください。

ROUGE（Recall-Oriented Understudy for Gisting Evaluation の略）

#Metric

自動要約モデルと機械翻訳モデルを評価する指標のファミリー。ROUGE 指標は、参照テキストが ML モデルの生成テキストとどの程度重複しているかを判断します。ROUGE ファミリーの各メンバーは、重複を異なる方法で測定します。ROUGE スコアが高いほど、参照テキストと生成されたテキストの類似性が高いことを示します。

各 ROUGE ファミリメンバーは通常、次のメトリックを生成します。

適合率
再現率
F₁

詳細と例については、以下をご覧ください。

ROUGE-L
ROUGE-N
ROUGE-S

ROUGE-L

#Metric

ROUGE ファミリーのメンバーで、参照テキストと生成されたテキストの最長共通部分列の長さに焦点を当てています。次の式は、ROUGE-L の再現率と適合率を計算します。

$$\text{ROUGE-L recall} = \frac{\text{longest common sequence}} {\text{number of words in the reference text} }$$

$$\text{ROUGE-L precision} = \frac{\text{longest common sequence}} {\text{number of words in the generated text} }$$

次に、F₁ を使用して、ROUGE-L 再現率と ROUGE-L 適合率を 1 つの指標にロールアップできます。

$$\text{ROUGE-L F} {_1} = \frac{\text{2} * \text{ROUGE-L recall} * \text{ROUGE-L precision}} {\text{ROUGE-L recall} + \text{ROUGE-L precision} }$$

ROUGE-L の計算例のアイコンをクリックします。

次の参照テキストと生成されたテキストについて考えてみましょう。

カテゴリ	制作会社	テキスト
参照テキスト	人間の翻訳者	さまざまなことを理解したい。
生成されたテキスト	ML モデル	たくさんのことを学びたいです。

したがって、次のコマンドを実行します。

最長共通部分列は 5（I want to of things）
参照テキストの単語数は 9 です。
生成されたテキストの単語数は 7 です。

したがって、次のようになります。

$$\text{ROUGE-L recall} = \frac{\text{5}} {\text{9} } = 0.56$$

$$\text{ROUGE-L precision} = \frac{\text{5}} {\text{7} } = 0.71$$

$$\text{ROUGE-L F} {_1} = \frac{\text{2} * \text{0.56} * \text{0.71}} {\text{0.56} + \text{0.71} } = 0.63$$

ROUGE-L は、参照テキストと生成されたテキストの改行を無視するため、最長共通部分列が複数の文にまたがる可能性があります。参照テキストと生成されたテキストに複数の文が含まれている場合は、一般的に ROUGE-Lsum という ROUGE-L のバリエーションの方が優れた指標になります。ROUGE-Lsum は、パッセージ内の各文の最長共通部分列を特定し、それらの最長共通部分列の平均を計算します。

ROUGE-Lsum の計算例のアイコンをクリックします。

次の参照テキストと生成されたテキストについて考えてみましょう。

カテゴリ	制作会社	テキスト
参照テキスト	人間の翻訳者	火星の表面は乾燥しています。水はほとんどが地下深くにあります。
生成されたテキスト	ML モデル	火星の表面は乾燥しています。ただし、水の大部分は地下にあります。

そのため、以下のコマンドを実行します。

	First sentence	2 文目
最長共通シーケンス	2（火星の乾燥）	3（水が地下にある）
参照テキストの文の長さ	6	7
生成されたテキストの文の長さ	5	8

したがって、次のようになります。

$$\text{recall of first sentence} = \frac{\text{2}} {\text{6}} = 0.33 $$

$$\text{recall of second sentence} = \frac{\text{3}} {\text{7}} = 0.43 $$

$$\text{ROUGE-Lsum recall} = \frac{\text{0.33} + \text{0.43}} {\text{2}} = 0.38 $$

$$\text{precision of first sentence} = \frac{\text{2}} {\text{5}} = 0.4 $$

$$\text{precision of second sentence} = \frac{\text{3}} {\text{8}} = 0.38 $$

$$\text{ROUGE-Lsum precision} = \frac{\text{0.4} + \text{0.38}} {\text{2}} = 0.39 $$

$$\text{ROUGE-Lsum F}{_1} = \frac{\text{2} * \text{0.38} * \text{0.39}} {\text{0.38} + \text{0.39}} = 0.38 $$

ROUGE-N

#Metric

ROUGE ファミリー内の指標のセット。参照テキストと生成されたテキストの特定のサイズの共有 N グラムを比較します。次に例を示します。

ROUGE-1 は、参照テキストと生成されたテキストで共有されているトークンの数を測定します。
ROUGE-2 は、参照テキストと生成されたテキストで共有されるバイグラム（2 グラム）の数を測定します。
ROUGE-3 は、参照テキストと生成されたテキストで共有されているトライグラム（3 グラム）の数を測定します。

次の数式を使用すると、ROUGE-N ファミリーの任意のメンバーの ROUGE-N 再現率と ROUGE-N 適合率を計算できます。

$$\text{ROUGE-N recall} = \frac{\text{number of matching N-grams}} {\text{number of N-grams in the reference text} }$$

$$\text{ROUGE-N precision} = \frac{\text{number of matching N-grams}} {\text{number of N-grams in the generated text} }$$

次に、F₁ を使用して、ROUGE-N 再現率と ROUGE-N 適合率を 1 つの指標にロールアップできます。

$$\text{ROUGE-N F}{_1} = \frac{\text{2} * \text{ROUGE-N recall} * \text{ROUGE-N precision}} {\text{ROUGE-N recall} + \text{ROUGE-N precision} }$$

アイコンをクリックして例を確認します。

ROUGE-2 を使用して、ML モデルの翻訳の有効性を人間の翻訳者と比較するとします。

カテゴリ	制作会社	テキスト	バイグラム
参照テキスト	人間の翻訳者	さまざまなことを理解したい。	さまざまなことを理解したい
生成されたテキスト	ML モデル	たくさんのことを学びたいです。	I want, want to, to learn, learn plenty, plenty of, of things

したがって、次のコマンドを実行します。

一致する 2 グラムの数は 3 個（I want、want to、of things）です。
参照テキスト内の 2 グラムの数は 8 です。
生成されたテキストの 2 グラムの数は 6 です。

したがって、次のようになります。

$$\text{ROUGE-2 recall} = \frac{\text{3}} {\text{8} } = 0.375$$

$$\text{ROUGE-2 precision} = \frac{\text{3}} {\text{6} } = 0.5$$

$$\text{ROUGE-2 F}{_1} = \frac{\text{2} * \text{0.375} * \text{0.5}} {\text{0.375} + \text{0.5} } = 0.43$$

ROUGE-S

#Metric

スキップグラムのマッチングを可能にする ROUGE-N の寛容な形式。つまり、ROUGE-N は完全に一致する N グラムのみをカウントしますが、ROUGE-S は 1 つ以上の単語で区切られた N グラムもカウントします。たとえば、次の点を考えます。

参照テキスト: 白い雲
生成されたテキスト: 白い雲が湧き上がっている

ROUGE-N を計算する場合、2 グラムの「白い雲」は「白いもくもくとした雲」と一致しません。ただし、ROUGE-S を計算する際は、白い雲は白い積雲と一致します。

決定係数

#Metric

ラベルの分散に個々の特徴量または特徴量セットがどの程度寄与したかを示す回帰指標。決定係数は 0 ～ 1 の値をとります。その解釈は次のとおりです。

決定係数 0 は、その特徴量セットがラベルの分散にまったく寄与していないことを意味します。
決定係数 1 は、ラベルの分散のすべてがその特徴量セットによるものであることを意味します。
0 ～ 1 の決定係数は、ラベルの分散が特定の特徴量または特徴量セットからどの程度予測可能であるかを示します。たとえば、決定係数が 0.10 の場合、ラベルの分散の 10% が特徴量セットによるものであることを意味します。決定係数が 0.20 の場合は、20% が特徴量セットによるものであることを意味します。

決定係数は、モデルが予測した値とグラウンドトゥルースの間のピアソン相関係数の 2 乗です。

S

サンプリングバイアス

#responsible

選択バイアスをご覧ください。

復元抽出

#df

候補アイテムのセットからアイテムを選択する方法。同じアイテムを複数回選択できます。「with replacement」というフレーズは、選択するたびに、選択したアイテムが候補アイテムのプールに戻されることを意味します。逆の方法である置換なしのサンプリングでは、候補アイテムは 1 回しか選択できません。

たとえば、次の果物のセットについて考えてみましょう。

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

システムが最初に fig をランダムに選択したとします。復元抽出を使用している場合、システムは次のセットから 2 番目のアイテムを選択します。

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

はい。以前と同じセットなので、システムが fig を再び選択する可能性があります。

復元なしのサンプリングを使用する場合、一度選択したサンプルは再度選択できません。たとえば、システムが最初のサンプルとして fig をランダムに選択した場合、fig を再度選択することはできません。そのため、システムは次の（縮小された）セットから 2 番目のサンプルを選択します。

fruit = {kiwi, apple, pear, cherry, lime, mango}

アイコンをクリックすると、追加のメモが表示されます。

復元抽出の「復元」という言葉は、多くの人を混乱させます。英語の replacement は「置換」を意味します。ただし、復元ありのサンプリングでは、実際には復元のフランス語の定義（「何かを元に戻す」）が使用されます。

英語の単語「replacement」は、フランス語の単語「remplacement」に翻訳されます。

SavedModel

#TensorFlow

TensorFlow モデルの保存と復元に推奨される形式。SavedModel は、言語に依存しない復元可能なシリアル化形式です。これにより、高水準のシステムとツールで TensorFlow モデルを生成、使用、変換できます。

詳細については、TensorFlow プログラマーガイドの保存と復元のセクションをご覧ください。

割安便

#TensorFlow

モデルのチェックポイントの保存を担当する TensorFlow オブジェクト。

スカラー

ランク 0 のテンソルとして表すことができる単一の数値または単一の文字列。たとえば、次のコード行はそれぞれ TensorFlow で 1 つのスカラーを作成します。

breed = tf.Variable("poodle", tf.string)
temperature = tf.Variable(27, tf.int16)
precision = tf.Variable(0.982375101275, tf.float64)

スケーリング

ラベル、特徴値、またはその両方の範囲をシフトする数学的変換または手法。一部のスケーリングは、正規化などの変換に非常に役立ちます。

ML で役立つ一般的なスケーリング形式は次のとおりです。

線形スケーリング。通常は減算と除算を組み合わせて、元の値を -1 ～+1 または 0 ～ 1 の数値に置き換えます。
対数スケーリング。元の値をその対数に置き換えます。
Z スコア正規化。元の値を、その特徴の平均からの標準偏差の数を表す浮動小数点値に置き換えます。

scikit-learn

一般的なオープンソースの ML プラットフォーム。scikit-learn.org をご覧ください。

得点

#Metric

候補生成フェーズで生成された各アイテムの値またはランキングを提供するレコメンデーションシステムの一部。

選択バイアス

#responsible

データで観測されたサンプルと観測されなかったサンプルの間に体系的な違いを生み出す選択プロセスが原因で、サンプリングされたデータから導き出された結論に生じるエラー。選択バイアスには次のような形式があります。

カバレッジバイアス: データセットで表される母集団が、ML モデルが予測を行う母集団と一致しない。
サンプリングバイアス: データは対象グループからランダムに収集されません。
無回答バイアス（参加バイアスとも呼ばれます）: 特定のグループのユーザーがアンケートからオプトアウトする割合は、他のグループのユーザーとは異なります。

たとえば、人々が映画を楽しむかどうかを予測する機械学習モデルを作成しているとします。トレーニングデータを収集するには、映画を上映している劇場の最前列に座っている全員にアンケートを配布します。一見すると、これはデータセットを収集する合理的な方法のように思えるかもしれません。ただし、この形式のデータ収集では、次のような選択バイアスが生じる可能性があります。

カバレッジバイアス: 映画を視聴したユーザーの母集団からサンプリングすると、モデルの予測は、映画にそれほど関心を示していないユーザーには一般化されない可能性があります。
サンプリングバイアス: 意図した母集団 (映画館にいたすべての人々) からランダムにサンプリングするのではなく、最前列の人だけをサンプリングしました。最前列に座っていた人たちが、他の列に座っていた人たちよりも映画に興味を持っていた可能性があります。
無回答バイアス: 一般的に、意見が強い人は、意見が弱い人よりも任意回答のアンケートに回答する傾向があります。映画のアンケートは任意であるため、回答は正規分布（ベル型分布）よりも二峰性分布になる可能性が高くなります。

セルフアテンション（セルフアテンションレイヤとも呼ばれます）

エンベディングのシーケンス（トークン エンベディングなど）を別のエンベディングのシーケンスに変換するニューラルネットワークレイヤ。出力シーケンスの各エンベディングは、注意メカニズムを介して入力シーケンスの要素から情報を統合することで構築されます。

自己注意の自己の部分は、他のコンテキストではなく、自分自身に注意を向けるシーケンスを指します。自己注意は Transformer の主要な構成要素の 1 つであり、「クエリ」、「キー」、「値」などの辞書検索用語を使用します。

セルフアテンションレイヤは、各単語に 1 つずつ、入力表現のシーケンスから始まります。単語の入力表現は、単純なエンベディングにすることができます。入力シーケンス内の各単語について、ネットワークは単語と単語シーケンス全体の各要素との関連性をスコアリングします。関連性スコアは、単語の最終表現に他の単語の表現がどの程度組み込まれるかを決定します。

たとえば、次の文について考えてみましょう。

動物は疲れていたため、通りを渡りませんでした。

次の図（Transformer: A Novel Neural Network Architecture for Language Understanding より）は、代名詞 it のセルフアテンションレイヤのアテンションパターンを示しています。各行の濃さは、各単語が表現にどの程度貢献しているかを示しています。

次の文が 2 回表示されます。「The animal didn't cross the street because it was too tired.」線は、ある文の代名詞「it」を別の文の 5 つのトークン（「The」、「animal」、「street」、「it」、ピリオド）に接続しています。代名詞「it」と単語「animal」の間の線が最も強い。

セルフアテンションレイヤは、「それ」に関連する単語をハイライト表示します。この場合、注意レイヤは、参照する可能性のある単語をハイライトするように学習し、動物に最も高い重みを割り当てています。

n 個のトークンのシーケンスの場合、セルフアテンションはエンベディングのシーケンスを n 回変換します。シーケンス内の各位置で 1 回ずつ変換します。

注意とマルチヘッドセルフアテンションもご覧ください。

自己教師学習

ラベルなしの例から代替のラベルを作成することで、教師なし機械学習の問題を教師あり機械学習の問題に変換する一連の手法。

BERT などの一部の Transformer ベースのモデルでは、自己教師あり学習が使用されます。

自己教師ありトレーニングは、半教師あり学習のアプローチです。

セルフトレーニング

次のすべての条件が満たされている場合に特に有用な、自己教師あり学習のバリエーション。

データセット内のラベルなしの例とラベル付きの例の比率が高い。
これは分類問題です。

自己トレーニングは、モデルの改善が止まるまで、次の 2 つのステップを繰り返すことによって機能します。

教師あり ML を使用して、ラベル付きの例でモデルをトレーニングします。
手順 1 で作成したモデルを使用して、ラベルなしの例で予測（ラベル）を生成し、信頼度の高いものを予測ラベルとともにラベル付きの例に移動します。

ステップ 2 の各イテレーションでは、ステップ 1 のラベル付きの例が追加され、トレーニングに使用されます。

半教師あり学習

一部のトレーニング例にはラベルが付いているが、他のトレーニング例にはラベルが付いていないデータでモデルをトレーニングする。半教師あり学習の手法の 1 つに、ラベルなしの例のラベルを推論し、推論されたラベルでトレーニングして新しいモデルを作成する方法があります。ラベルの取得に費用がかかるが、ラベルなしの例が豊富にある場合は、半教師あり学習が役立ちます。

自己トレーニングは半教師あり学習の手法の 1 つです。

センシティブな属性

#responsible

法的、倫理的、社会的、個人的な理由で特別な配慮がなされる人間の属性。

感情分析

統計アルゴリズムまたは機械学習アルゴリズムを使用して、サービス、製品、組織、トピックに対するグループの全体的な態度（ポジティブかネガティブか）を判断します。たとえば、自然言語理解を使用して、アルゴリズムで大学のコースのテキストフィードバックの感情分析を行い、学生がコースをどの程度好んだか嫌ったかを判断できます。

詳細については、テキスト分類ガイドをご覧ください。

シーケンスモデル

入力に順序依存性があるモデル。たとえば、以前に視聴した動画のシーケンスから次に視聴する動画を予測します。

シーケンスツーシーケンスタスク

入力シーケンスのトークンを出力シーケンスのトークンに変換するタスク。たとえば、シーケンスツーシーケンスタスクには次の 2 つの一般的な種類があります。

翻訳者:
- 入力シーケンスの例: 「I love you.」
- 出力シーケンスの例: 「Je t'aime.」
質問応答:
- 入力シーケンスの例: 「ニューヨークで車は必要ですか？」
- 出力シーケンスの例: 「いいえ。車は家に置いておいてください。」

サービングです

トレーニング済みモデルを、オンライン推論またはオフライン推論を通じて予測を提供できるようにするプロセス。

shape（Tensor）

テンソルの各ディメンションの要素数。形状は整数のリストとして表されます。たとえば、次の 2 次元テンソルの形状は [3,4] です。

[[5, 7, 6, 4],
 [2, 9, 4, 8],
 [3, 6, 5, 1]]

TensorFlow では、行優先（C スタイル）形式を使用してディメンションの順序を表します。そのため、TensorFlow の形状は [4,3] ではなく [3,4] になります。つまり、2 次元 TensorFlow テンソルでは、形状は [行数、列数] です。

静的形状は、コンパイル時に判明しているテンソル形状です。

動的シェイプはコンパイル時に不明であるため、ランタイムデータに依存します。このテンソルは、[3, ?] のように、TensorFlow のプレースホルダディメンションで表されることがあります。

シャード

#TensorFlow

#GoogleCloud

トレーニングセットまたはモデルの論理分割。通常、何らかのプロセスによって、例またはパラメータを（通常は）同じサイズのチャンクに分割してシャードが作成されます。各シャードは異なるマシンに割り当てられます。

モデルのシャーディングはモデル並列処理と呼ばれ、データのシャーディングはデータ並列処理と呼ばれます。

収縮

#df

グラデーションブースティングのハイパーパラメータ。過剰適合を制御します。勾配ブースティングの縮小は、勾配降下法の学習率に類似しています。シュリンケージは 0.0 ～ 1.0 の範囲の小数値です。収縮値が小さいほど、収縮値が大きい場合よりも過適合が軽減されます。

比較評価

同じプロンプトに対するレスポンスを判定して、2 つのモデルの品質を比較します。たとえば、次のプロンプトが 2 つの異なるモデルに渡されたとします。

3 つのボールをジャグリングしているかわいい犬の画像を作成して。

並列評価では、評価者はどちらの画像が「優れているか」（より正確か、より美しくなったか？Cuter か、など）。

シグモイド関数

#fundamentals

入力値を制約された範囲（通常は 0 ～ 1 または -1 ～+1）に「圧縮」する数学関数。つまり、シグモイドには任意の数（2、100 万、マイナス 10 億など）を渡すことができ、出力は制約された範囲内に収まります。シグモイド活性化関数のプロットは次のようになります。

シグモイド関数は、機械学習で次のような用途に使用されます。

ロジスティック回帰モデルまたは多項回帰モデルの未加工の出力を確率に変換します。
一部のニューラルネットワークで活性化関数として機能します。

アイコンをクリックすると、計算結果が表示されます。

入力数値 x のシグモイド関数は次の式で表されます。

$$ sigmoid(x) = \frac{1}{1 + e^{-\text{x}}} $$

ML では、x は通常、重み付きの合計です。

類似性指標

#clustering

#Metric

クラスタリング アルゴリズムで、2 つの例がどの程度類似しているかを判断するために使用される指標。

単一プログラム / 複数データ（SPMD）

同じ計算を異なるデバイス上の異なる入力データに対して並列に実行する並列処理手法。SPMD の目的は、結果をより迅速に取得することです。これは、並列プログラミングの最も一般的なスタイルです。

サイズ不変性

画像分類問題において、画像のサイズが変化しても画像を正しく分類できるアルゴリズムの能力。たとえば、アルゴリズムは 2M ピクセルを消費しても 200K ピクセルを消費しても、猫を識別できます。最高の画像分類アルゴリズムでも、サイズ不変性には実用的な限界があります。たとえば、20 ピクセルしか使用していない猫の画像をアルゴリズム（または人間）が正しく分類することは難しいでしょう。

並進不変性と回転不変性もご覧ください。

詳細については、クラスタリングコースをご覧ください。

スケッチ

#clustering

教師なし MLでは、例に対して予備的な類似性分析を行うアルゴリズムのカテゴリ。スケッチアルゴリズムは、局所性鋭敏ハッシュ関数を使用して類似している可能性の高いポイントを特定し、それらをバケットにグループ化します。

スケッチにより、大規模なデータセットで類似度を計算するのに必要な計算量が削減されます。データセット内のすべての例のペアの類似度を計算するのではなく、各バケット内のポイントのペアの類似度のみを計算します。

skip-gram

元のコンテキストから単語を省略（スキップ）できる n グラム。つまり、N 個の単語が元々隣接していない可能性があります。より正確に言うと、k-skip-n-gram は、最大 k 個の単語がスキップされた可能性がある n グラムです。

たとえば、「the quick brown fox」には次の 2 グラムがあります。

「the quick」
「quick brown」
"茶色のキツネ"

「1-skip-2-gram」は、間に 1 語以下の単語がある 2 語のペアです。したがって、「the quick brown fox」には次の 1 スキップ 2 グラムがあります。

「the brown」
「quick fox」

また、スキップできる単語の数は 1 つ未満であるため、すべての 2 グラムは 1 スキップ 2 グラムでもあります。

スキップグラムは、単語の周囲のコンテキストをより深く理解するのに役立ちます。この例では、「fox」は 1-skip-2-gram のセットでは「quick」に直接関連付けられていますが、2-gram のセットでは関連付けられていません。

スキップグラムは、単語エンベディング モデルのトレーニングに役立ちます。

Softmax

#fundamentals

マルチクラス分類モデルで、考えられる各クラスの確率を決定する関数。確率の合計は 1.0 になります。たとえば、次の表は、ソフトマックスがさまざまな確率をどのように分布させるかを示しています。

画像は...	確率
犬	.85
猫	.13
馬	.02

ソフトマックスはフルソフトマックスとも呼ばれます。

候補サンプリングと比較してください。

アイコンをクリックすると、計算結果が表示されます。

softmax の方程式は次のとおりです。

$$\sigma_i = \frac{e^{\text{z}_i}} {\sum_{j=1}^{j=K} {e^{\text{z}_j}}} $$

ここで:

$\sigma_i$ は出力ベクトルです。出力ベクトルの各要素は、この要素の確率を指定します。出力ベクトルのすべての要素の合計は 1.0 です。出力ベクトルには、入力ベクトル $z$ と同じ数の要素が含まれます。
$z$ は入力ベクトルです。入力ベクトルの各要素には浮動小数点値が含まれます。
$K$ は入力ベクトル（および出力ベクトル）の要素数です。

たとえば、入力ベクトルが次のようになっているとします。

[1.2, 2.5, 1.8]

したがって、softmax は次のように分母を計算します。

$$\text{denominator} = e^{1.2} + e^{2.5} + e^{1.8} = 21.552$$

したがって、各要素のソフトマックス確率は次のようになります。

$$\sigma_1 = \frac{e^{1.2}}{21.552} = 0.154 $$ $$\sigma_2 = \frac{e^{2.5}}{21.552} = 0.565 $$ $$\sigma_1 = \frac{e^{1.8}}{21.552} = 0.281 $$

したがって、出力ベクトルは次のようになります。

$$\sigma = [0.154, 0.565, 0.281]$$

$\sigma$ の 3 つの要素の合計は 1.0 です。さて、

詳細については、ML 集中講座のニューラルネットワーク: 多クラス分類をご覧ください。

ソフトプロンプトチューニング

#generativeAI

リソースを大量に消費するファインチューニングを行わずに、特定のタスク用に大規模言語モデルをチューニングする手法。ソフトプロンプトチューニングでは、モデル内のすべての重みを再トレーニングする代わりに、同じ目標を達成するためにプロンプトが自動的に調整されます。

通常、ソフトプロンプトチューニングでは、テキストプロンプトが指定されると、追加のトークンエンベディングがプロンプトに追加され、逆伝播を使用して入力が最適化されます。

「ハード」プロンプトには、トークンエンベディングではなく実際のトークンが含まれます。

スパースな特徴

#fundamentals

値の大部分がゼロまたは空の特徴。たとえば、1 つの 1 の値と 100 万個の 0 の値を含む特徴はスパースです。一方、密な特徴は、ゼロまたは空ではない値が大部分を占めています。

ML では、驚くほど多くの特徴量がスパース特徴量です。カテゴリ特徴は通常、スパース特徴です。たとえば、森に 300 種類の樹木が生息している場合、1 つの例で カエデの木だけが特定されることがあります。また、動画ライブラリ内の数百万もの動画の中から、1 つの例として「カサブランカ」だけが特定されることもあります。

通常、モデルではスパース特徴をワンホットエンコーディングで表します。ワンホットエンコードが大きい場合は、効率を高めるために、ワンホットエンコードの上にエンベディングレイヤーを配置することがあります。

スパース表現

#fundamentals

スパース特徴でゼロ以外の要素の位置のみを保存します。

たとえば、species という名前のカテゴリ特徴が、特定の森林の 36 種類の樹木を識別するとします。また、各例は 1 つの種のみを識別するとします。

ワンホットベクトルを使用して、各例の樹種を表すことができます。ワンホットベクトルには、1 つの 1（その例の特定の樹種を表す）と 35 個の 0（その例にない 35 個の樹種を表す）が含まれます。したがって、maple のワンホット表現は次のようになります。

位置 0 ～ 23 の値が 0、位置 24 の値が 1、位置 25 ～ 35 の値が 0 のベクトル。

一方、スパース表現では、特定の種の場所を特定するだけです。maple が位置 24 にある場合、maple のスパース表現は次のようになります。

スパース表現は、ワンホット表現よりもはるかにコンパクトです。

アイコンをクリックすると、少し複雑な例が表示されます。

モデル内の各例は、英語の文の単語（単語の順序は除く）を表す必要があります。英語は約 17 万語で構成されているため、英語は約 17 万個の要素を持つカテゴリカル特徴です。ほとんどの英文では、17 万語のうちのほんのわずかな単語しか使用されないため、1 つの例に含まれる単語のセットはほぼ確実にスパースデータになります。

次の文を考えてみましょう。

My dog is a great dog

この文の単語を表すために、ワンホットベクトルのバリアントを使用できます。このバリアントでは、ベクトルの複数のセルにゼロ以外の値を含めることができます。さらに、このバリアントでは、セルに 1 以外の整数を含めることができます。「my」、「is」、「a」、「great」という単語は文中に 1 回しか出現しませんが、「dog」という単語は 2 回出現します。この文の単語をこの形式のワンホットベクトルで表すと、次の 170,000 要素のベクトルになります。

同じ文のスパース表現は次のようになります。

ご不明な点がある場合は、アイコンをクリックしてください。

「スパース表現」という用語は、スパース表現自体がスパースベクトルではないため、多くの人を混乱させます。実際には、スパース表現はスパースベクトルの密表現です。同義語の「インデックス表現」は、「スパース表現」よりも少しわかりやすいです。

詳細については、ML 集中講座のカテゴリデータの操作をご覧ください。

スパースベクトル

#fundamentals

値のほとんどがゼロのベクトル。スパース特徴とスパース性もご覧ください。

スパース性

#Metric

ベクトルまたは行列でゼロ（または null）に設定された要素の数を、そのベクトルまたは行列のエントリの総数で割った値。たとえば、98 個のセルに 0 が含まれる 100 要素の行列について考えてみましょう。スパース性の計算は次のとおりです。

$$ {\text{sparsity}} = \frac{\text{98}} {\text{100}} = {\text{0.98}} $$

特徴量のスパース性は特徴ベクトル内のスパース性を指し、モデルのスパース性はモデルの重みのスパース性を指します。

空間プーリング

プーリングをご覧ください。

specificational coding

#generativeAI

ソフトウェアを説明するファイルを人間言語（英語など）で作成して維持するプロセス。次に、生成 AI モデルまたは別のソフトウェアエンジニアに、その説明を満たすソフトウェアの作成を依頼します。

自動生成されたコードには通常、反復処理が必要です。仕様コーディングでは、説明ファイルを繰り返し処理します。一方、会話型コーディングでは、プロンプトボックス内で反復処理を行います。実際には、自動コード生成には、仕様コーディングと会話型コーディングの両方が組み合わされることがあります。

分割

#df

決定木では、条件の別の名前。

スプリッタ

#df

決定木のトレーニング中に、各ノードで最適な条件を見つけるルーティン（およびアルゴリズム）。

SPMD

単一プログラム / 複数データの略語。

SQuAD

#Metric

SQuAD: 100,000+ Questions for Machine Comprehension of Text という論文で紹介された Stanford Question Answering Dataset の頭字語。このデータセットの質問は、Wikipedia の記事について質問するユーザーから寄せられたものです。SQuAD の質問には回答があるものと、意図的に回答がないものがあります。したがって、SQuAD を使用して、LLM が次の両方を行う能力を評価できます。

回答できる質問に回答します。
回答できない質問を特定します。

完全一致と F₁ の組み合わせは、SQuAD に対して LLM を評価する最も一般的な指標です。

二乗ヒンジ損失

#Metric

ヒンジ損失の二乗。2 乗ヒンジ損失は、通常のヒンジ損失よりも外れ値に厳しいペナルティを課します。

二乗損失

#fundamentals

#Metric

L₂ 損失と同義。

段階的トレーニング

モデルを個別のステージのシーケンスでトレーニングする戦術。目標は、トレーニングプロセスの高速化またはモデル品質の向上です。

プログレッシブスタッキングアプローチの図を以下に示します。

ステージ 1 には 3 つの隠れ層、ステージ 2 には 6 つの隠れ層、ステージ 3 には 12 個の隠れ層が含まれています。
ステージ 2 では、ステージ 1 の 3 つの隠しレイヤで学習した重みを使用してトレーニングを開始します。ステージ 3 では、ステージ 2 の 6 つの隠しレイヤで学習した重みを使用してトレーニングを開始します。

3 つのステージ（ステージ 1、ステージ 2、ステージ 3）。各ステージには異なる数のレイヤが含まれています。ステージ 1 には 3 つのレイヤ、ステージ 2 には 6 つのレイヤ、ステージ 3 には 12 個のレイヤが含まれています。ステージ 1 の 3 つのレイヤは、ステージ 2 の最初の 3 つのレイヤになります。同様に、ステージ 2 の 6 つのレイヤはステージ 3 の最初の 6 つのレイヤになります。

パイプラインもご覧ください。

state

非定常性と比較してください。

解説

1 つのバッチのフォワードパスとバックワードパス。

フォワードパスとバックワードパスの詳細については、バックプロパゲーションをご覧ください。

ステップサイズ

学習率と同義。

確率的勾配降下法（SGD）

#fundamentals

バッチサイズが 1 の勾配降下法アルゴリズム。つまり、SGD はトレーニングセットから一様にランダムに選択された単一の例でトレーニングします。

詳細については、ML 集中講座の線形回帰: ハイパーパラメータをご覧ください。

ストライド

畳み込み演算またはプーリングにおける、次の入力スライスの各次元のデルタ。たとえば、次のアニメーションは、畳み込み演算中の（1,1）ストライドを示しています。そのため、次の入力スライスは前の入力スライスの 1 つ右の位置から始まります。オペレーションが右端に達すると、次のスライスは左端まで移動し、1 つ下の位置に移動します。

5x5 の入力行列と 3x3 の畳み込みフィルタ。ストライドが（1,1）であるため、畳み込みフィルタは 9 回適用されます。最初の畳み込みスライスは、入力行列の左上の 3x3 サブ行列を評価します。2 番目のスライスは、上中央の 3x3 サブ行列を評価します。3 番目の畳み込みスライスは、右上隅の 3x3 サブ行列を評価します。4 番目のスライスは、左中央の 3x3 サブマトリックスを評価します。5 番目のスライスは、中央の 3x3 サブマトリックスを評価します。6 番目のスライスは、右中央の 3x3 サブマトリックスを評価します。7 番目のスライスは、左下の 3x3 サブマトリックスを評価します。8 番目のスライスは、下中央の 3x3 サブ行列を評価します。9 番目のスライスは、右下の 3x3 サブ行列を評価します。

上記の例は、2 次元のストライドを示しています。入力行列が 3 次元の場合、ストライドも 3 次元になります。

構造リスク最小化（SRM）

次の 2 つの目標のバランスを取るアルゴリズム。

最も予測精度の高いモデル（損失が最小のモデルなど）を構築する必要がある。
モデルをできるだけシンプルに保つ必要がある（強力な正則化など）。

たとえば、トレーニングセットで損失と正則化を最小限に抑える関数は、構造リスク最小化アルゴリズムです。

経験損失最小化と比較してください。

サブサンプリング

プーリングをご覧ください。

サブワードトークン

言語モデルでは、単語の部分文字列であるトークン。単語全体の場合もあります。

たとえば、「itemize」という単語は、「item」（語根）と「ize」（接尾辞）に分割され、それぞれが独自のトークンで表されます。一般的でない単語をサブワードと呼ばれるこのような部分に分割することで、言語モデルは接頭辞や接尾辞など、単語のより一般的な構成要素を操作できます。

逆に、「going」のような一般的な単語は分割されず、1 つのトークンで表されることがあります。

概要

#TensorFlow

TensorFlow では、特定のステップで計算された値または値のセット。通常は、トレーニング中にモデル指標を追跡するために使用されます。

教師あり機械学習

#fundamentals

特徴とその対応するラベルからモデルをトレーニングします。教師あり ML は、一連の質問とその対応する回答を学習して科目を学習することに似ています。質問と回答のマッピングを習得すると、生徒は同じトピックに関する新しい（初めて見る）質問に回答できるようになります。

教師なし機械学習と比較します。

詳細については、ML の概要コースの教師あり学習をご覧ください。

合成特徴

#fundamentals

入力特徴には存在しないが、入力特徴の 1 つ以上から組み立てられた特徴。合成特徴を作成する方法は次のとおりです。

連続する特徴を範囲ビンにバケット化します。
特徴クロスを作成する。
1 つの特徴量の値を他の特徴量の値またはそれ自体で乗算（または除算）します。たとえば、a と b が入力特徴の場合、次の特徴は合成特徴の例です。
- ab
- a²
特徴値に超越関数を適用する。たとえば、c が入力特徴の場合、合成特徴の例は次のようになります。
- sin(c)
- ln(c)

正規化またはスケーリングのみで作成された特徴量は、合成特徴量とは見なされません。

T

T5

2020 年に Google AI によって導入された、テキストからテキストへの転移学習 モデル。T5 は、Transformer アーキテクチャに基づいて、非常に大規模なデータセットでトレーニングされたエンコーダ-デコーダモデルです。テキストの生成、言語の翻訳、会話形式での質問応答など、さまざまな自然言語処理タスクで効果を発揮します。

T5 の名前は、「Text-to-Text Transfer Transformer」の 5 つの T に由来しています。

T5X

大規模な自然言語処理（NLP）モデルを構築してトレーニングするために設計された、オープンソースの機械学習フレームワーク。T5 は、T5X コードベース（JAX と Flax 上に構築）で実装されています。

表形式の Q 学習

強化学習では、テーブルを使用して、状態とアクションのすべての組み合わせの Q 関数を保存することで、Q 学習を実装します。

ターゲット

ラベルと同義。

ターゲットネットワーク

Deep Q-learning では、メインのニューラルネットワークの安定した近似であるニューラルネットワークを使用します。メインのニューラルネットワークは、Q 関数またはポリシーのいずれかを実装します。その後、ターゲットネットワークによって予測された Q 値に基づいてメインネットワークをトレーニングできます。したがって、メインネットワークが自身で予測した Q 値でトレーニングするときに発生するフィードバックループを防ぐことができます。このフィードバックを回避することで、トレーニングの安定性が向上します。

タスク

機械学習の手法を使用して解決できる問題。例:

分類
回帰
クラスタリング
異常検出

温度

#generativeAI

モデルの出力のランダム性の度合いを制御するハイパーパラメータ。温度が高いほど、ランダムな出力が多くなり、温度が低いほど、ランダムな出力が少なくなります。

#TensorFlow

Tensor に含まれるスカラーの合計数。たとえば、[5, 10] テンソルのサイズは 50 です。

TensorStore

大規模な多次元配列を効率的に読み書きするためのライブラリ。

終了条件

強化学習では、エージェントが特定の状態に達したときや、状態遷移のしきい値を超えたときなど、エピソードの終了条件を決定します。たとえば、三目並べでは、プレイヤーが 3 つの連続したスペースをマークしたとき、またはすべてのスペースがマークされたときにエピソードが終了します。

test

#df

決定木では、条件の別の名前。

テスト損失

#fundamentals

#Metric

テストセットに対するモデルの損失を表す指標。モデルを構築する際は、通常、テスト損失を最小限に抑えようとします。テスト損失が小さいほど、トレーニング損失や検証損失が小さい場合よりも、品質シグナルが強くなるためです。

テスト損失とトレーニング損失または検証損失の間に大きな差がある場合は、正則化率を上げる必要があることを示していることがあります。

テストセット

トレーニング済みのモデルをテストするために予約されたデータセットのサブセット。

従来、データセット内の例は次の 3 つの異なるサブセットに分割します。

トレーニングセット
検証セット
テストセット

データセット内の各例は、上記のサブセットのいずれか 1 つにのみ属している必要があります。たとえば、1 つの例がトレーニングセットとテストセットの両方に属することはできません。

トレーニングセットと検証セットは、どちらもモデルのトレーニングに密接に関連しています。テストセットはトレーニングと間接的にのみ関連付けられているため、テスト損失は、トレーニング損失や検証損失よりもバイアスが少なく、品質の高い指標です。

詳細については、ML 集中講座のデータセット: 元のデータセットを分割するをご覧ください。

テキストスパン

テキスト文字列の特定のサブセクションに関連付けられた配列インデックススパン。たとえば、Python 文字列 s="Be good now" の単語 good は、3 ～ 6 のテキストスパンを占有します。

tf.Example

#TensorFlow

ML モデルのトレーニングまたは推論用の入力データを記述するための標準のプロトコルバッファ。

tf.keras

#TensorFlow

TensorFlow に統合された Keras の実装。

しきい値（ディシジョンツリーの場合）

#df

軸に沿った条件では、特徴と比較される値。たとえば、次の条件では 75 がしきい値です。

grade >= 75

詳細については、デシジョンフォレストコースの数値特徴量を使用したバイナリ分類の正確な分割ツールをご覧ください。

時系列分析

#clustering

時系列データを分析する ML と統計のサブフィールド。分類、クラスタリング、予測、異常検出など、多くのタイプの ML 問題で時系列分析が必要です。たとえば、時系列分析を使用して、過去の販売データに基づいて冬物コートの将来の販売数を月単位で予測できます。

timestep

回帰型ニューラルネットワーク内の「展開」された 1 つのセル。たとえば、次の図は 3 つのタイムステップ（添え字 t-1、t、t+1 でラベル付け）を示しています。

回帰型ニューラルネットワークの 3 つのタイムステップ。最初のタイムステップの出力が 2 番目のタイムステップの入力になります。2 番目のタイムステップの出力が 3 番目のタイムステップの入力になります。

token

言語モデルで、モデルがトレーニングと予測を行う場合の原子単位。通常、トークンは次のいずれかです。

単語。たとえば、「犬は猫が好き」というフレーズは、「犬」、「は」、「猫」という 3 つの単語トークンで構成されています。
文字。たとえば、「bike fish」というフレーズは 9 個の文字トークンで構成されます。（空白もトークンの 1 つとしてカウントされます）。
サブワード - 1 つの単語が 1 つのトークンまたは複数のトークンになることがあります。サブワードは、ルートワード、接頭辞、接尾辞で構成されます。たとえば、サブワードをトークンとして使用する言語モデルは、「dogs」という単語を 2 つのトークン（ルート単語「dog」と複数形の接尾辞「s」）と見なすことがあります。同じ言語モデルでも、「taller」という単語を 2 つのサブワード（ルート単語「tall」と接尾辞「er」）として認識する場合があります。

言語モデル以外のドメインでは、トークンは他の種類の原子単位を表すことができます。たとえば、コンピュータビジョンでは、トークンは画像のサブセットとなる場合があります。

詳細については、ML 集中講座の大規模言語モデルをご覧ください。

tokenizer

入力データのシーケンスをトークンに変換するシステムまたはアルゴリズム。

最新の基盤モデルのほとんどはマルチモーダルです。マルチモーダルシステムのトークナイザーは、各入力タイプを適切な形式に変換する必要があります。たとえば、テキストとグラフィックの両方で構成される入力データが与えられた場合、トークナイザーは入力テキストをサブワードに、入力画像を小さなパッチに変換します。次に、トークナイザーはすべてのトークンを 1 つの統合された埋め込み空間に変換する必要があります。これにより、モデルはマルチモーダル入力のストリームを「理解」できます。

上位 k の精度

#Metric

生成されたリストの最初の k 個の位置に「ターゲットラベル」が表示される割合。リストは、パーソナライズされたおすすめや、softmax で並べ替えられたアイテムのリストなどです。

上位 k の精度は、k での精度とも呼ばれます。

アイコンをクリックして例を確認します。

Softmax を使用して、木の葉の写真に基づいて木の確率を特定する ML システムを考えてみましょう。次の表に、5 つの入力ツリー画像から生成された出力リストを示します。各行には、ターゲットラベルと、最も可能性の高い 5 つのツリーが含まれています。たとえば、ターゲットラベルが maple の場合、機械学習モデルは elm を最も可能性の高い木として、oak を 2 番目に可能性の高い木として識別しました。

ターゲットラベル	1	2	3	4	5
カエデ	elm	オーク	maple	ブナ	ポプラ
ハナミズキ	オーク	dogwood	ポプラ	Hickory	カエデ
オーク	oak	バスウッド	locust	ハンノキ	Linden
Linden	カエデ	paw-paw	オーク	バスウッド	ポプラ
オーク	locust	Linden	オーク	カエデ	paw-paw

ターゲットラベルは最初の位置に 1 回だけ表示されるため、上位 1 の精度は次のようになります。

$$\text{top-1 accuracy} = \frac{\text{1}} {\text{5}} = 0.2$$

ターゲットラベルは上位 3 つの位置のいずれかに 4 回表示されるため、上位 3 つの精度は次のようになります。

$$\text{top-1 accuracy} = \frac{\text{4}} {\text{5}} = 0.8$$

タワー

それ自体がディープニューラルネットワークであるディープニューラルネットワークのコンポーネント。場合によっては、各タワーが独立したデータソースから読み取り、出力が最終レイヤで結合されるまで独立した状態を維持します。他のケース（たとえば、多くの Transformer の エンコーダとデコーダ タワー）では、タワーは相互にクロス接続されています。

#fundamentals

モデルを構成する最適なパラメータ（重みとバイアス）を決定するプロセス。トレーニング中、システムは例を読み込み、パラメータを徐々に調整します。トレーニングでは、各例が数回から数十億回使用されます。

詳細については、ML の概要コースの教師あり学習をご覧ください。

トレーニングの損失

#fundamentals

#Metric

特定のトレーニング反復処理中のモデルの損失を表す指標。たとえば、損失関数が平均二乗誤差であるとします。たとえば、10 回目の反復のトレーニング損失（平均二乗誤差）が 2.2 で、100 回目の反復のトレーニング損失が 1.9 であるとします。

損失曲線は、トレーニングの損失と反復回数をプロットしたものです。損失曲線は、トレーニングについて次のヒントを提供します。

傾きが下向きの場合は、モデルが改善されていることを意味します。
上向きの傾斜は、モデルが悪化していることを意味します。
傾斜が平らな場合は、モデルが収束に達したことを意味します。

たとえば、次のやや理想化された損失曲線は、次のようになります。

初期の反復で急激な下降勾配が見られる。これは、モデルが急速に改善していることを意味します。
トレーニングの終了近くまで徐々に平坦になる（ただし、まだ下降している）勾配。これは、初期の反復処理よりもやや遅いペースでモデルの改善が継続していることを意味します。
トレーニングの終わりに近づくにつれて傾斜が平らになり、収束を示している。

トレーニングの損失とイテレーションのプロット。この損失曲線は、急な下降曲線で始まります。傾斜は徐々に平坦になり、最終的にゼロになります。

トレーニング損失は重要ですが、汎化もご覧ください。

トレーニングサービングスキュー

#fundamentals

トレーニング中のモデルのパフォーマンスと、同じモデルのサービング中のパフォーマンスの差。

トレーニングセット

#fundamentals

モデルのトレーニングに使用されるデータセットのサブセット。

従来、データセット内の例は次の 3 つの異なるサブセットに分割されます。

トレーニングセット
検証セット
テストセット

理想的には、データセット内の各例は上記のサブセットのいずれか 1 つにのみ属している必要があります。たとえば、1 つの例がトレーニングセットと検証セットの両方に属することはできません。

詳細については、ML 集中講座のデータセット: 元のデータセットを分割するをご覧ください。

軌跡

強化学習では、エージェントの一連の状態遷移を表す一連のタプル。各タプルは、特定の状態遷移の状態、アクション、報酬、次の状態に対応します。

転移学習

ある機械学習タスクから別の機械学習タスクに情報を転送すること。たとえば、マルチタスク学習では、単一のモデルが複数のタスクを解決します。たとえば、タスクごとに異なる出力ノードを持つディープモデルなどです。転移学習では、より単純なタスクのソリューションからより複雑なタスクに知識を転送したり、データが多いタスクからデータが少ないタスクに知識を転送したりすることがあります。

ほとんどの ML システムは、単一のタスクを解決します。転移学習は、単一のプログラムで複数のタスクを解決できる AI への第一歩です。

Transformer

Google で開発されたニューラルネットワーク アーキテクチャ。セルフアテンション メカニズムを使用して、畳み込みや再帰型ニューラルネットワークに依存することなく、入力エンベディングのシーケンスを出力エンベディングのシーケンスに変換します。Transformer は、自己注意レイヤのスタックと見なすことができます。

Transformer には次のいずれかを含めることができます。

エンコーダ
デコーダ
エンコーダとデコーダの両方

エンコーダは、エンベディングのシーケンスを同じ長さの新しいシーケンスに変換します。エンコーダには N 個の同一のレイヤが含まれ、各レイヤには 2 つのサブレイヤが含まれます。これら 2 つのサブレイヤは、入力エンベディングシーケンスの各位置に適用され、シーケンスの各要素を新しいエンベディングに変換します。最初のエンコーダサブレイヤは、入力シーケンス全体から情報を集約します。2 番目のエンコーダサブレイヤは、集約された情報を出力エンベディングに変換します。

デコーダは、入力エンベディングのシーケンスを出力エンベディングのシーケンスに変換します。出力エンベディングのシーケンスの長さは、入力エンベディングのシーケンスの長さと異なる場合があります。デコーダには、3 つのサブレイヤを持つ N 個の同一のレイヤも含まれています。そのうち 2 つはエンコーダのサブレイヤに似ています。3 番目のデコーダサブレイヤは、エンコーダの出力を受け取り、セルフアテンション メカニズムを適用して、そこから情報を収集します。

ブログ投稿の Transformer: A Novel Neural Network Architecture for Language Understanding で、Transformer の概要を確認できます。

詳細については、ML 集中講座の LLM: 大規模言語モデルとはをご覧ください。

並進不変性

画像分類の問題において、画像内のオブジェクトの位置が変化しても、画像を正しく分類できるアルゴリズムの能力。たとえば、フレームの中央に犬がいても、フレームの左端に犬がいても、アルゴリズムは犬を識別できます。

サイズ不変性と回転不変性もご覧ください。

trigram

N=3 の N グラム。

真陰性（TN）

#fundamentals

#Metric

モデルが陰性クラスを正しく予測した例。たとえば、特定のメールメッセージが迷惑メールではないとモデルが推論し、そのメールメッセージが実際に迷惑メールではない場合です。

真陽性（TP）

#fundamentals

#Metric

モデルが陽性のクラスを正しく予測した例。たとえば、特定のメールメッセージがスパムであるとモデルが推論し、そのメールメッセージが実際にスパムである場合です。

真陽性率（TPR）

#fundamentals

#Metric

再現率と同義。具体的には、次のことが求められます。

$$\text{true positive rate} = \frac {\text{true positives}} {\text{true positives} + \text{false negatives}}$$

真陽性率は、ROC 曲線の y 軸です。

TTL

有効期間の略。

U

Ultra

#generativeAI

最も多くのパラメータを持つ Gemini モデル。詳しくは、Gemini Ultra をご覧ください。

Pro と Nano もご覧ください。

認識の欠如（機密属性に対して）

#responsible

機密属性が存在するが、トレーニングデータに含まれていない状況。機密属性はデータの他の属性と相関していることが多いため、機密属性を認識せずにトレーニングされたモデルでも、その属性に関して不公平な影響が生じたり、他の公平性制約に違反したりする可能性があります。

アンダーフィット

#fundamentals

モデルがトレーニングデータの複雑さを十分に把握していないため、予測能力の低いモデルが生成される。過小適合を引き起こす問題は多数あります。たとえば、次のようなものがあります。

誤った特徴セットでトレーニングしている。
エポックの数が少なすぎるか、学習率が低すぎる。
正則化率が高すぎるトレーニング。
ディープニューラルネットワークで隠れ層の数が少なすぎる。

詳細については、機械学習集中講座の過剰適合をご覧ください。

アンダーサンプリング

クラス不均衡データセットの多数派クラスからサンプルを削除して、よりバランスの取れたトレーニングセットを作成します。

たとえば、メジャークラスとマイナークラスの比率が 20:1 のデータセットを考えてみましょう。このクラスの不均衡を解消するには、少数派クラスのサンプルをすべて含み、多数派クラスのサンプルを10 分の 1だけ含むトレーニングセットを作成します。これにより、トレーニングセットのクラス比率が 2:1 になります。アンダーサンプリングにより、このよりバランスの取れたトレーニングセットで、より優れたモデルが生成される可能性があります。また、このよりバランスの取れたトレーニングセットには、効果的なモデルをトレーニングするのに十分な例が含まれていない可能性があります。

オーバーサンプリングとの違い。

単一方向

対象のテキストセクションの前にあるテキストのみを評価するシステム。一方、双方向のシステムは、対象のテキストセクションの前にあるテキストと後にあるテキストの両方を評価します。詳しくは、双方向をご覧ください。

単方向言語モデル

確率をターゲットトークンの後ではなく前に出現するトークンのみに基づいて計算する言語モデル。双方向言語モデルと比較してください。

ラベルのない例

#fundamentals

特徴は含まれているが、ラベルは含まれていない例。たとえば、次の表は、住宅評価モデルのラベルなしの 3 つの例を示しています。各例には 3 つの特徴がありますが、住宅の価値はありません。

寝室の数	浴室の数	家の築年数
3	2	15
2	1	72
4	2	34

教師あり機械学習では、モデルはラベル付きの例でトレーニングし、ラベルなしの例で予測を行います。

半教師あり学習と教師なし学習では、トレーニング中にラベルなしの例が使用されます。

ラベルのない例とラベルのある例を比較します。

教師なし機械学習

#clustering

#fundamentals

データセット（通常はラベルなしデータセット）内のパターンを見つけるようにモデルをトレーニングします。

教師なし ML の最も一般的な用途は、類似した例のグループにデータをクラスタリングすることです。たとえば、教師なし ML アルゴリズムは、音楽のさまざまなプロパティに基づいて曲をクラスタリングできます。結果として得られたクラスタは、他の ML アルゴリズム（音楽レコメンデーションサービスなど）への入力として使用できます。クラスタリングは、有用なラベルが不足している場合や存在しない場合に役立ちます。たとえば、不正使用や不正行為などのドメインでは、クラスタリングによってデータをより深く理解できます。

教師あり機械学習と比較してください。

追加のメモについてはアイコンをクリックしてください。

教師なし ML のもう 1 つの例は、主成分分析（PCA）です。たとえば、何百万ものショッピングカートの内容を含むデータセットに PCA を適用すると、レモンを含むショッピングカートには制酸剤も含まれていることが多いことがわかります。

詳細については、ML 入門コースの機械学習とはをご覧ください。

アップリフトモデリング

マーケティングで一般的に使用されるモデリング手法。個々の「トリートメント」の「因果効果」（「増分効果」とも呼ばれます）をモデル化します。次に 2 つの例を示します。

医師は、患者（個人）の年齢や病歴に応じて、医療処置（治療）による死亡率の低下（因果効果）を予測するために、アップリフトモデリングを使用する場合があります。
マーケティング担当者は、アップリフトモデリングを使用して、広告（トリートメント）が個人（個人）に与える購入確率の増加（因果効果）を予測できます。

アップリフトモデリングは、一部のラベル（たとえば、バイナリトリートメントのラベルの半分）が常に欠落しているという点で、分類や回帰とは異なります。たとえば、患者は治療を受けるか受けないかのどちらかであるため、患者が治癒するかしないかは、この 2 つの状況のいずれかでのみ観察できます（両方で観察することはできません）。アップリフトモデルの主な利点は、観測されていない状況（反事実）の予測を生成し、それを使用して因果効果を計算できることです。

アップウェイト

ダウンサンプリングした係数と同じ重みをダウンサンプリングしたクラスに適用します。

ユーザーマトリックス

トレーニング済みのモデルに対して初期評価を行うデータセットのサブセット。通常、トレーニング済みモデルは、テストセットに対して評価する前に、検証セットに対して数回評価します。

通常、データセット内の例は次の 3 つの異なるサブセットに分割します。

トレーニングセット
検証セット
テストセット

詳細については、機械学習クラッシュコースのデータセット: 元のデータセットの分割をご覧ください。

価値の帰属

欠損値を許容可能な代替値に置き換えるプロセス。値が欠落している場合は、例全体を破棄するか、値の補完を使用して例を復元できます。

たとえば、1 時間ごとに記録される temperature 特徴を含むデータセットについて考えてみましょう。ただし、特定の時間帯の温度測定値は利用できませんでした。データセットの一部を次に示します。

タイムスタンプ	温度
1680561000	10
1680564600	12
1680568200	missing
1680571800	20
1680575400	21
1680579000	21

システムは、欠損している例を削除するか、補完アルゴリズムに応じて欠損している温度を 12、16、18、20 のいずれかに補完します。

勾配消失問題

一部のディープニューラルネットワークの初期の隠れ層の勾配が驚くほど平坦（低い）になる傾向。勾配が小さくなるほど、ディープニューラルネットワークのノードの重みの変化が小さくなり、学習がほとんど行われなくなります。勾配消失問題が発生したモデルは、トレーニングが困難または不可能になります。Long Short-Term Memory セルは、この問題に対処します。

比較対象として、「勾配爆発問題」があります。

変数の重要度

#df

#Metric

各特徴のモデルに対する相対的な重要度を示すスコアのセット。

たとえば、住宅価格を推定する決定木について考えてみましょう。この決定木では、サイズ、年齢、スタイルという 3 つの特徴が使用されているとします。3 つの特徴の変数の重要度セットが {size=5.8、age=2.5、style=4.7} と計算された場合、決定木にとってサイズは年齢やスタイルよりも重要です。

さまざまな変数重要度指標があり、ML の専門家はモデルのさまざまな側面について知ることができます。

変分オートエンコーダ（VAE）

入力と出力の不一致を利用して、入力の変更されたバージョンを生成するオートエンコーダの一種。変分オートエンコーダは生成 AI に役立ちます。

VAE は変分推論、つまり確率モデルのパラメータを推定する手法に基づいています。

ベクトル

意味が数学や科学の分野によって異なる、非常に多義的な用語。機械学習では、ベクトルには次の 2 つのプロパティがあります。

データ型: ML のベクトルには通常、浮動小数点数が格納されます。
要素数: これはベクトルの長さ、つまり次元です。

たとえば、8 つの浮動小数点数を保持する特徴ベクトルについて考えてみましょう。この特徴ベクトルの長さ（ディメンション）は 8 です。機械学習ベクトルには、非常に多くの次元が含まれていることがよくあります。

さまざまな種類の情報をベクトルとして表すことができます。次に例を示します。

地球上の任意の位置は、緯度と経度の 2 次元ベクトルで表すことができます。
500 個の株の現在の価格は、500 次元のベクトルとして表すことができます。
有限個のクラスの確率分布はベクトルとして表すことができます。たとえば、3 つの出力色（赤、緑、黄）のいずれかを予測するマルチクラス分類システムは、ベクトル (0.3, 0.2, 0.5) を出力して P[red]=0.3, P[green]=0.2, P[yellow]=0.5 を意味する場合があります。

ベクトルは連結できるため、さまざまなメディアを 1 つのベクトルとして表現できます。一部のモデルは、多くのワンホットエンコーディングの連結を直接処理します。

TPU などの専用プロセッサは、ベクトルに対する数学演算を実行するように最適化されています。

ベクトルは、ランク 1 のテンソルです。

Vertex

#GoogleCloud

#generativeAI

AI と ML 向けの Google Cloud のプラットフォーム。Vertex は、Gemini モデルへのアクセスなど、AI アプリケーションの構築、デプロイ、管理のためのツールとインフラストラクチャを提供します。

バイブコーディング

#generativeAI

生成 AI モデルにプロンプトしてソフトウェアを作成する。つまり、プロンプトでソフトウェアの目的と機能を記述すると、生成 AI モデルがそれをソースコードに変換します。生成されたコードが意図と一致するとは限らないため、バイブコーディングには通常、反復処理が必要です。

Andrej Karpathy は、この X の投稿でバイブコーディングという用語を作りました。Karpathy 氏は X の投稿で、これを「バイブスに完全に身を委ねる新しい種類のコーディング」と説明しています。そのため、この用語は元々、生成されたコードを検査しない可能性もある、ソフトウェア作成に対する意図的に緩いアプローチを意味していました。しかし、多くの分野でこの用語は急速に進化し、現在では AI によって生成されたコーディングのあらゆる形式を意味するようになりました。

バイブスコーディングの詳細については、バイブコーディングとは何ですか？

また、バイブコーディングを次のものと比較対照します。

仕様コーディング
会話型コーディング

W

Wasserstein 損失

#Metric

敵対的生成ネットワークで一般的に使用される損失関数の 1 つ。生成されたデータの分布と実際のデータの間のアースムーバー距離に基づいています。

weight

#fundamentals

モデルが別の値に乗算する値。トレーニングは、モデルの理想的な重みを決定するプロセスです。推論は、学習した重みを使用して予測を行うプロセスです。

アイコンをクリックすると、線形モデルの重みの例が表示されます。

2 つの特徴を持つ線形モデルを考えてみましょう。トレーニングで次の重み（とバイアス）が決定されたとします。

バイアス b の値は 2.2 です。
1 つの特徴に関連付けられた重み w₁ は 1.5 です。
もう一方のフィーチャーに関連付けられた重み w₂ は 0.4 です。

次に、次の特徴値を持つ例を考えてみましょう。

1 つの特徴量 x₁ の値は 6 です。
もう一方の特徴量 x₂ の値は 10 です。

この線形モデルは、次の式を使用して予測 y' を生成します。

$$y' = b + w_1x_1 + w_2x_2$$

したがって、予測は次のようになります。

$$y' = 2.2 + (1.5)(6) + (0.4)(10) = 15.2$$

重みが 0 の場合、対応する特徴はモデルに寄与しません。たとえば、w₁ が 0 の場合、x₁ の値は関係ありません。

詳細については、ML 集中講座の線形回帰をご覧ください。

加重交互最小二乗（WALS）

レコメンデーションシステムの行列分解中に目的関数を最小化するアルゴリズム。欠落した例の重みを減らすことができます。WALS は、行の分解と列の分解を交互に固定することで、元の行列と再構成の間の重み付き二乗誤差を最小限に抑えます。これらの最適化はそれぞれ、最小二乗凸最適化によって解決できます。詳細については、レコメンデーションシステムコースをご覧ください。

加重合計

#fundamentals

関連するすべての入力値に、対応する重みを掛けて合計した値。たとえば、関連する入力が次のもので構成されているとします。

入力値	入力の重み
2	-1.3
-1	0.6
3	0.4

したがって、加重和は次のようになります。

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

加重和は、活性化関数の入力引数です。

ワイドモデル

通常、多くのスパース入力特徴を持つ線形モデル。このようなモデルは、出力ノードに直接接続する多数の入力を持つ特殊なタイプのニューラルネットワークであるため、「ワイド」と呼びます。一般に、ワイドモデルはディープモデルよりもデバッグと検査が容易です。ワイドモデルは隠れ層を使用して非線形性を表現することはできませんが、特徴交差やバケット化などの変換を使用して、さまざまな方法で非線形性をモデル化できます。

ディープモデルと対照的です。

width

ニューラルネットワークの特定のレイヤにあるニューロンの数。

群衆の知恵

#df

大勢の人々（「群衆」）の意見や推定値を平均すると、驚くほど良い結果が得られることが多いという考え方。たとえば、大きな瓶に詰められたジェリービーンズの数を当てるゲームを考えてみましょう。個々の推測はほとんどが不正確ですが、すべての推測の平均は、瓶の中の実際のジェリービーンズの数に驚くほど近いことが経験的に示されています。

アンサンブルは、群衆の知恵のソフトウェアアナログです。個々のモデルの予測が大きく外れていても、多くのモデルの予測を平均すると、驚くほど正確な予測が得られることがよくあります。たとえば、個々のディシジョンツリーの予測は不正確な場合がありますが、ディシジョンフォレストは多くの場合、非常に正確な予測を行います。

単語の埋め込み

単語セット内の各単語をエンベディングベクトルで表します。つまり、各単語を 0.0 ～ 1.0 の浮動小数点値のベクトルとして表します。意味が似ている単語は、意味が異なる単語よりも類似性の高い表現になります。たとえば、ニンジン、セロリ、キュウリはすべて比較的類似した表現になりますが、飛行機、サングラス、歯磨き粉の表現とは大きく異なります。

X

XLA（Accelerated Linear Algebra）

GPU、CPU、ML アクセラレータ用のオープンソースの ML コンパイラ。

XLA コンパイラは、PyTorch、TensorFlow、JAX などの一般的な ML フレームワークからモデルを取得し、GPU、CPU、ML アクセラレータなどのさまざまなハードウェアプラットフォームで高パフォーマンスの実行を実現するように最適化します。

Z

ゼロショット学習

モデルが、まだトレーニングされていないタスクの予測を推論する機械学習のトレーニングの一種。つまり、モデルにはタスク固有のトレーニング例は与えられませんが、そのタスクの推論を行うように求められます。

ゼロショットプロンプト

#generativeAI

大規模言語モデルにどのような応答を期待するかの例を提供しないプロンプト。次に例を示します。

1 つのプロンプトの構成要素	メモ
`指定された国の公式通貨は何ですか？`	LLM に回答させたい質問。
`インド:`	実際のクエリ。

大規模言語モデルは、次のいずれかのレスポンスを返す可能性があります。

ルピー
INR
₹
ルピー（インド）
ルピー
インドルピー

どの形式も正しいですが、特定の形式が好まれる場合があります。

ゼロショットプロンプトと次の用語を比較対照します。

ワンショットプロンプト
少数ショットプロンプト

Z スコアの正規化

#fundamentals

生の特徴値を、その特徴の平均からの標準偏差の数を表す浮動小数点値に置き換えるスケーリング手法。たとえば、平均が 800 で標準偏差が 100 の特徴について考えてみましょう。次の表に、Z スコア正規化で生の値が Z スコアにどのようにマッピングされるかを示します。

Raw 値	Z スコア
800	0
950	+1.5
575	-2.25

その後、機械学習モデルは、生の値ではなく、その特徴の Z スコアに基づいてトレーニングを行います。

詳細については、ML 集中講座の数値データ: 正規化をご覧ください。

この用語集では、機械学習の用語を定義します。

機械学習の用語集 コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

A

アブレーション

A/B テスト

アクセラレータ チップ

accuracy

アイコンをクリックすると、精度とクラス不均衡データセットの詳細が表示されます。

アクション

活性化関数

アイコンをクリックすると、例が表示されます。

能動的学習

AdaGrad

適応

エージェント

エージェントの/代理人の

エージェント ワークフロー

凝集型クラスタリング

AI スロップ

異常検出

AR

PR 曲線下面積

ROC 曲線下面積

汎用人工知能

AI

Attention、

属性

属性サンプリング

AUC（ROC 曲線の下の面積）

アイコンをクリックして、AUC と ROC 曲線の関係を確認します。

アイコンをクリックすると、AUC のより正式な定義が表示されます。

拡張現実

オートエンコーダ

自動評価

自動化バイアス

AutoML

自動評価

自己回帰モデル

補助損失

k における平均適合率

アイコンをクリックして例を確認

軸に沿った条件

B

バックプロパゲーション

バギング

bag of words

ベースライン

ベースモデル

Batch

バッチ推論

バッチ正規化

バッチサイズ

ベイズ ニューラル ネットワーク

ベイズ最適化

ベルマン方程式

BERT（Bidirectional Encoder Representations from Transformers）

バイアス（倫理/公正性）

バイアス（数学）またはバイアス項

双方向

双方向言語モデル

バイグラム

バイナリ分類

バイナリ条件

ビニング

ブラック ボックス モデル

BLEU（Bilingual Evaluation Understudy）

BLEURT（Bilingual Evaluation Understudy from Transformers）

ブースト

境界ボックス

ブロードキャスト

アイコンをクリックして例を確認します。

バケット化、

アイコンをクリックすると、追加のメモが表示されます。

C

キャリブレーション レイヤ

候補の生成

候補サンプリング

カテゴリデータ

因果言語モデル

centroid

重心ベースのクラスタリング

機械学習の用語集

アクセラレータチップ

エージェントワークフロー

ベイズニューラルネットワーク

ブラックボックスモデル

キャリブレーションレイヤ

クラスバランスデータセット

コラボレーションフィルタリング

コンパクトモデル

コンセプトドリフト

コンテキストウィンドウ

畳み込みニューラルネットワーク

カバレッジバイアス

クラッシュブラッサム

デシジョンフォレスト

ディシジョンツリー