このページは Cloud Translation API によって翻訳されました。

機械学習用語集: ML の基礎

このページでは、ML の基礎に関する用語集について説明します。用語集のすべての用語については、こちらをクリックしてください。

A

accuracy

#fundamentals

正しい分類予測の数を予測の総数で割った値。具体的には、次のことが求められます。

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

たとえば、40 件の正しい予測と 10 件の誤った予測を行ったモデルの精度は次のようになります。

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

バイナリ分類は、正しい予測と誤った予測のさまざまなカテゴリに特定の名前を提供します。バイナリ分類の精度式は次のようになります

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

ここで

TP は、真陽性（正しい予測）の数です。
TN は、真陰性（正しい予測）の数です。
FP は、偽陽性（誤った予測）の数です。
FN は、偽陰性（誤った予測）の数です。

精度を適合率および再現率と比較対照する。

アイコンをクリックすると、追加のメモが表示されます。

状況によっては有用な指標ですが、正確性が誤解を招きやすい場合もあります。特に、クラス不均衡なデータセットを処理する分類モデルの評価では、通常、精度は指標として適切ではありません。

たとえば、ある亜熱帯の都市で降雪が 1 世紀あたり 25 日しか降らないとします。降雪日数（陰性クラス）は降雪日数（陽性クラス）を大幅に上回っているため、この都市の降雪データセットはクラス不均衡です。毎日雪か雪が降らないと予測し、毎日「雪なし」とだけ予測するバイナリ分類モデルがあるとします。このモデルは非常に正確ですが、予測能力はありません。次の表は、1 世紀にわたる予測の結果をまとめたものです。

カテゴリ	Number
TP	0
TN	36500
FP	25
FN	0

したがって、このモデルの精度は次のようになります。

accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (0 + 36500) / (0 + 36500 + 25 + 0) = 0.9993 = 99.93%

99.93% の精度というのは驚くべきパーセンテージのように思えますが、このモデルには実際には予測能力はありません。

クラス不均衡なデータセットでトレーニングされたモデルを評価する場合、通常は精度と再現率が精度よりも有用な指標です。

活性化関数

#fundamentals

ニューラルネットワークが特徴とラベル間の非線形（複雑な）関係を学習できるようにする関数。

よく使用される活性化関数は次のとおりです。

ReLU
シグモイド

活性化関数のプロットは一直線ではありません。たとえば、ReLU 活性化関数のプロットは 2 つの直線で構成されています。

2 本の直線のデカルトプロット。最初の線の y 値は 0 で、x 軸に沿って -infinity,0 から 0,-0 まで続きます。2 行目は 0,0 から始まります。この直線の傾きは +1 で、0,0 から +infinity,+infinity になります。

シグモイド活性化関数のプロットは次のようになります。

x 値が領域 -infinity から + 正の値を取り、y 値がほぼ 0 からほぼ 1 の範囲にまたがる 2 次元曲線プロット。x が 0 の場合、y は 0.5 である。曲線の傾きは常に正で、最大の傾きは 0.0.5 で、x の絶対値が増加するにつれて傾きは徐々に減少します。

アイコンをクリックすると例が表示されます。

ニューラルネットワークでは、活性化関数がニューロンへのすべての入力の加重合計を操作します。加重合計を計算するため、ニューロンは関連する値と重みの積を加算します。たとえば、ニューロンへの関連する入力が以下で構成されているとします。

入力値	入力重み
2	-1.3
-1	0.6
3	0.4

加重合計は次のようになります。

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

このニューラルネットワークの設計者が、活性化関数としてシグモイド関数を選択したとします。その場合、ニューロンは -2.0 のシグモイドを計算します。これは約 0.12 です。したがって、ニューロンは（-2.0 ではなく）0.12 をニューラルネットワークの次のレイヤに渡します。次の図は、プロセスの該当部分を示しています。

意思決定の

#fundamentals

高度なタスクを解決できる人間以外のプログラムまたはモデルmodel。たとえば、テキストを翻訳するプログラムやモデル、または放射線画像から疾患を特定するプログラムやモデルはどちらも AI を示しています。

形式的には、機械学習は AI のサブフィールドです。しかし、近年では、「人工知能」と「機械学習」という用語を同じ意味で使用し始めている組織もあります。

AUC（ROC 曲線の下の面積）

#fundamentals

陽性クラスを陰性クラスから分離するバイナリ分類モデルの能力を表す 0.0 ～ 1.0 の数値。AUC が 1.0 に近いほど、モデルがクラスを互いに分離する能力が高くなります。

たとえば、次の図は、正のクラス（緑色の楕円）と負のクラス（紫色の長方形）を完全に分離する分類モデルを示しています。この非現実的に完全なモデルの AUC は 1.0 です。

片側に 8 つの正例、反対側に 9 つの負の例がある数直線。

次の図は、ランダムな結果を生成した分類モデルの結果を示しています。このモデルの AUC は 0.5 です。

6 つの正例と 6 つの負の例を含む数直線。
サンプルの順序は、ポジティブ、ネガティブ、ポジティブ、ネガティブ、ポジティブ、ネガティブ、ポジティブ、ネガティブ、ポジティブ、ネガティブ、ネガティブです。

はい。前のモデルの AUC は 0.0 ではなく 0.5 です。

ほとんどのモデルは、この 2 つの極端の中間にあります。たとえば、次のモデルでは陽性と陰性が多少区別されるため、AUC は 0.5 ～ 1.0 になります。

6 つの正例と 6 つの負の例を含む数直線。
サンプルの順序は、ネガティブ、ネガティブ、ネガティブ、ネガティブ、ポジティブ、ネガティブ、ポジティブ、ポジティブ、ネガティブ、ポジティブ、ポジティブです。

AUC は、分類しきい値に設定した値を無視します。代わりに、AUC は可能性のあるすべての分類しきい値を考慮します。

アイコンをクリックすると、AUC 曲線と ROC 曲線の関係が表示されます。

AUC は、ROC 曲線の下の面積を表します。たとえば、陽性と陰性を完全に分離するモデルの ROC 曲線は次のようになります。

AUC は前の図のグレーの領域の面積です。この特殊なケースでは、面積は単に灰色の領域の長さ（1.0）に灰色の領域の幅（1.0）を掛けたものになります。したがって、1.0 と 1.0 の積の AUC はちょうど 1.0 になります。これは、可能な限り高い AUC スコアになります。

逆に、まったくクラスを分離できない分類器の ROC 曲線は次のようになります。このグレーの領域の面積は 0.5 です。

より典型的な ROC 曲線は次のようになります。

この曲線の下の面積を手動で計算するのは骨が折れるため、通常、プログラムでほとんどの AUC 値を計算します。

アイコンをクリックすると、AUC のより正式な定義が表示されます。

AUC は、無作為に選択された陽性のサンプルが陽性であるという分類器の信頼度が、ランダムに選択された陰性のサンプルを陽性である確率よりも高くなる確率です。

B

誤差逆伝播法

#fundamentals

ニューラルネットワークで勾配降下法を実装するアルゴリズム。

ニューラルネットワークのトレーニングでは、次の 2 パスサイクルを何度も繰り返します。

フォワードパス中に、システムはサンプルのバッチを処理して予測を生成します。システムは、各予測を各ラベル値と比較します。予測とラベル値の差が、この例の損失です。システムはすべての例の損失を集計して、現在のバッチの損失の合計を計算します。
バックワードパス（バックプロパゲーション）の間、システムはすべての隠しレイヤにあるすべてのニューロンの重みを調整することで損失を減らします。

ニューラルネットワークには、多くの場合、多くの隠れ層にまたがって多くのニューロンが含まれています。これらのニューロンはそれぞれ、さまざまな形で全体的な損失に寄与します。誤差逆伝播法により、特定のニューロンに適用される重みを増減するかどうかが決まります。

学習率は、各バックワードパスが各重みをどの程度増減するかを制御する乗数です。学習率を大きくすると、学習率が小さい場合よりも、それぞれの重みが増減します。

微積分の用語では、バックプロパゲーションは微積分から連鎖ルールを実装します。つまり、バックプロパゲーションでは、各パラメータに関して誤差の偏導関数を計算します。

数年前には、ML の実務担当者は誤差逆伝播法を実装するためにコードを記述する必要がありました。TensorFlow などの最新の ML API では、誤差逆伝播法が実装されています。さて、

batch

#fundamentals

1 回のトレーニングのイテレーションで使用される一連の例。バッチサイズにより、バッチのサンプル数が決まります。

バッチとエポックの関係については、エポックをご覧ください。

バッチサイズ

#fundamentals

バッチ内の例の数。たとえば、バッチサイズが 100 の場合、モデルは反復処理ごとに 100 個のサンプルを処理します。

一般的なバッチサイズ戦略は次のとおりです。

確率的勾配降下法（SGD）。バッチサイズは 1 です。
完全なバッチ。バッチサイズはトレーニングセット全体のサンプル数です。たとえば、トレーニングセットに 100 万個のサンプルが含まれている場合、バッチサイズは 100 万サンプルになります。通常、完全なバッチは非効率的な戦略です。
ミニバッチ。バッチサイズは通常 10 ～ 1,000 です。ミニバッチは通常、最も効率的な戦略です。

バイアス（倫理/公平性）

#fairness

#fundamentals

1. 特定のこと、人、グループに対する固定観念、偏見、えこひいき。これらのバイアスは、データの収集と解釈、システムの設計、ユーザーとシステムとのやり取りに影響を与える可能性があります。このタイプのバイアスには次のような形式があります。

2. サンプリングまたは報告の手順で生じる体系的エラー。このタイプのバイアスには次のような形式があります。

ML モデルのバイアス項や予測バイアスと混同しないでください。

バイアス（数学）またはバイアス項

#fundamentals

原点からの切片またはオフセット。バイアスは ML モデルのパラメータで、次のいずれかで表されます。

b
w₀

たとえば、バイアスは次の式の b です。

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

単純な 2 次元の直線では、バイアスは単に「y 切片」を意味します。たとえば、次の図の線のバイアスは 2 です。

傾きが 0.5、バイアス（y 切片）が 2 の直線のプロット。

すべてのモデルが原点（0,0）から始まるわけではないため、バイアスが存在します。たとえば、遊園地の入場料が 2 ユーロ、顧客の 1 時間あたり 0.5 ユーロが加算されたとします。したがって、合計費用をマッピングするモデルでは、最も低い費用が 2 ユーロであるため、バイアスが 2 になります。

バイアスは、倫理と公平性におけるバイアスまたは予測バイアスと混同しないでください。

バイナリ分類

#fundamentals

相互に排他的な 2 つのクラスのいずれかを予測する分類タスクのタイプ。

陽性クラス
陰性クラス

たとえば、次の 2 つの ML モデルは、それぞれバイナリ分類を行います。

メールメッセージが迷惑メール（陽性クラス）か迷惑メールでない（陰性クラス）かを判断するモデル。
医学的症状を評価して、患者が特定の病気（陽性クラス）であるか、その病気にかかっていない（陰性クラス）かを判定するモデル。

マルチクラス分類と対比してください。

ロジスティック回帰と分類しきい値もご覧ください。

バケット化

#fundamentals

通常は値の範囲に基づいて、1 つの特徴をバケットまたはビンという複数のバイナリ特徴に変換します。通常、チョップされた特徴は連続的な特徴です。

たとえば、温度を単一の連続した浮動小数点特徴量として表すのではなく、次のように温度の範囲を個別のバケットに分割できます。

摂氏 10 度以下は「コールド」バケットです。
摂氏 11 ～ 24 度が「温帯」です。
摂氏 25 度以上であれば「ウォーム」バケットです。

このモデルでは、同じバケット内のすべての値が同じように処理されます。たとえば、値 13 と 22 はどちらも一時バケット内にあるため、モデルは 2 つの値を同じように扱います。

アイコンをクリックすると、追加のメモが表示されます。

温度を連続的な特徴として表す場合、モデルは温度を 1 つの特徴として扱います。温度を 3 つのバケットで表すと、モデルは各バケットを個別の特徴として扱います。つまり、モデルは各バケットとラベルの関係を個別に学習できます。たとえば、線形回帰モデルは、バケットごとに個別の重みを学習できます。

バケット数を増やすと、モデルが学習する必要がある関係の数が増え、モデルが複雑になります。たとえば、コールド、温、ウォームのバケットは、モデルのトレーニングに使用する本質的に 3 つの個別の特徴です。さらに 2 つのバケット（フリーズとホットなど）を追加する場合、モデルは 5 つの異なる特徴でトレーニングする必要があります。

作成するバケットの数や、各バケットの範囲をどのように把握するか、通常、この回答を得るにはかなりの量の実験が必要です。

C

カテゴリデータ

#fundamentals

可能な値のセットを持つ特徴。たとえば、traffic-light-state という名前のカテゴリ特徴について考えてみましょう。次の 3 つの値のいずれかしか持つことができません。

red
yellow
green

traffic-light-state をカテゴリ特徴として表すことで、モデルはドライバーの行動に対する red、green、yellow のさまざまな影響を学習できます。

カテゴリ特徴は、離散特徴と呼ばれることもあります。

数値データと対比します。

クラス

#fundamentals

ラベルが属するカテゴリ。次に例を示します。

スパムを検出するバイナリ分類モデルでは、2 つのクラスがスパムと非スパムの 2 つのクラスになります。
犬種を識別するマルチクラス分類モデルでは、クラスはプードル、ビーグル、パグなどです。

分類モデルはクラスを予測します。これに対して、回帰モデルはクラスではなく数値を予測します。

分類モデル

#fundamentals

予測がクラスmodelであるモデルmodel。たとえば、すべて分類モデルは次のとおりです。

入力文の言語を予測するモデル（フランス語はスペイン語ですか？イタリア語？）。
樹種を予測するモデル（カエデ、オーク？バオバブ？）。
特定の病状の陽性クラスまたは陰性クラスを予測するモデル。

これに対して、回帰モデルはクラスではなく数値を予測します。

分類モデルの一般的なタイプは次の 2 つです。

バイナリ分類
マルチクラス分類

分類しきい値

#fundamentals

バイナリ分類では、ロジスティック回帰モデルの生の出力を陽性クラスまたは陰性クラスの予測に変換する 0 ～ 1 の数値を指定します。分類しきい値は、モデルのトレーニングで選択された値ではなく、人間が選択する値であるので注意してください。

ロジスティック回帰モデルは、0 ～ 1 の未加工の値を出力します。この場合、次のようになります。

この未加工の値が分類しきい値より大きい場合、陽性のクラスが予測されます。
この未加工の値が分類しきい値より小さい場合、陰性クラスが予測されます。

たとえば、分類しきい値が 0.8 であるとします。未加工の値が 0.9 の場合、モデルは陽性クラスを予測します。未加工の値が 0.7 の場合、モデルは陰性クラスを予測します。

分類しきい値の選択は、偽陽性と偽陰性の数に大きく影響します。

アイコンをクリックすると、追加のメモが表示されます。

モデルまたはデータセットが進化するにつれて、エンジニアは分類しきい値を変更することもあります。分類しきい値が変わると、陽性のクラス予測が突然負のクラスになり、その逆も同様です。

たとえば、バイナリ分類の疾患予測モデルについて考えてみましょう。1 年目にシステムが稼働したとき、

特定の患者の生の値は 0.95 です。
分類しきい値は 0.94 です。

したがって、陽性クラスが診断されます。（患者は息をのむとともに「おっと！具合が悪い」）

1 年後、値は次のようになります。

同じ患者の生の値は 0.95 のままです。
分類しきい値が 0.97 に変更されます。

システムはその患者を陰性クラスとして再分類します。（「私は病気ではない」）。同じ患者です。診断方法はさまざまです。

クラス不均衡なデータセット

#fundamentals

各クラスのラベルの合計数が大きく異なる分類問題用のデータセット。たとえば、次のように 2 つのラベルが分割されているバイナリ分類データセットについて考えてみましょう。

1,000,000 個の除外ラベル
10 個の肯定的なラベル

負のラベルと正のラベルの比率は 100,000 対 1 であるため、これはクラス不均衡なデータセットとなります。

一方、次のデータセットでは、負のラベルと正のラベルの比率が比較的 1 に近いため、クラス不均衡ではありません。

517 個の除外ラベル
483 個の肯定的なラベル

マルチクラスデータセットもクラス不均衡になる可能性があります。たとえば、次のマルチクラス分類データセットも、1 つのラベルが他の 2 つのラベルよりもはるかに多くの例を持っているため、クラス不均衡になります。

クラス「green」のラベル: 1,000,000 個
クラス「紫」のラベルが 200 個
クラス「orange」の 350 個のラベル

エントロピー、マジョリティクラス、マイノリティクラスもご覧ください。

クリッピング

#fundamentals

外れ値を処理する方法。次のいずれかまたは両方を行います。

最大しきい値を超える特徴値を、その最大しきい値まで減らす。
最小しきい値未満の特徴値をその最小しきい値まで増やす。

たとえば、特定の特徴の値の 0.5% 未満が 40 ～ 60 の範囲外であるとします。この場合、次のことができます。

60（最大しきい値）を超える値はすべてクリップして正確に 60 にします。
40（最小しきい値）未満の値をすべてクリップして、正確に 40 にします。

外れ値によってモデルが損傷し、トレーニング中に重みがオーバーフローすることがあります。外れ値の中には、精度などの指標を大幅に損なう可能性もあります。クリッピングは、損傷を制限する一般的な手法です。

勾配クリップにより、トレーニング中に勾配値が指定された範囲内に強制されます。

混同行列

#fundamentals

分類モデルによる正しい予測と誤った予測の数を要約する NxN テーブル。たとえば、2 項分類モデルについて、次の混同行列について考えてみます。

	腫瘍（予測）	非腫瘍（予測）
腫瘍（正解）	18（TP）	1（FN）
腫瘍以外（正解）	6（FP）	452（TN）

上の混同行列は、次のことを示しています。

グラウンドトゥルースが Tumor である 19 件の予測のうち、モデルは 18 を正しく分類し、1 は誤って分類しました。
グラウンドトゥルースが非腫瘍である 458 件の予測のうち、モデルは 452 件を正しく分類し、6 件を誤って分類しました。

マルチクラス分類の問題の混同行列は、誤りのパターンを特定するのに役立ちます。たとえば、3 つの異なるアヤメの種類（Virginica、Versicolor、Setosa）を分類する 3 クラスマルチクラス分類モデルについて、次の混同行列があるとします。正解がバージニカの場合、混同行列は、モデルが Versicolor を誤って予測する可能性が Setosa よりもはるかに高いことを示しています。

	Setosa（予測）	Versicolor（予測）	バージニカ（予測）
Setosa（グラウンドトゥルース）	88	12	0
Versicolor（正解）	6	141	7
バージニカ（グラウンドトゥルース）	2	27	109

さらに別の例として、混同行列により、手書きの数字を認識するようにトレーニングされたモデルでは、4 ではなく 9 を誤って予測したり、7 ではなく 1 を誤って予測したりする傾向があることがわかります。

混同行列には、適合率や再現率など、さまざまなパフォーマンス指標を計算するために十分な情報が含まれています。

連続的な特徴

#fundamentals

温度や重量など、有効な値の範囲が無限にある浮動小数点特徴。

離散特徴と対比します。

収束

#fundamentals

損失値がそれぞれの反復処理でほとんど変化しない、またはまったく変化しない状態。たとえば、次の損失曲線は、約 700 回の反復処理での収束を示しています。

デカルト図。X 軸は損失です。Y 軸はトレーニングのイテレーション回数です。最初の数回の反復処理で損失は非常に大きいものの、急激に減少します。約 100 回のイテレーションの後、損失はまだ下がっていますが、はるかに緩やかになっています。約 700 回のイテレーション後、損失は平坦なままです。

追加のトレーニングでモデルを改善できない場合、モデルは収束します。

ディープラーニングでは、最終的に減少するまでに多くのイテレーションで損失値が一定またはほぼ一定に保たれることがあります。損失値が一定である期間が長いと、一時的に収束が誤認されることがあります。

早期停止もご覧ください。

D

DataFrame

#fundamentals

メモリ内のデータセットを表すためによく使われる pandas データ型。

DataFrame はテーブルやスプレッドシートに似ています。DataFrame の各列には名前（ヘッダー）があり、各行は一意の番号で識別されます。

DataFrame の各列は 2D 配列のような構造になっていますが、各列に独自のデータ型を割り当てることができる点が異なります。

公式の pandas.DataFrame リファレンスページもご覧ください。

データセットまたはデータセット

#fundamentals

元データの集まり。通常は次のいずれかの形式で編成されます（ただし、これらに限定されません）。

スプレッドシート
CSV（カンマ区切り値）形式のファイル

ディープモデル

#fundamentals

複数の隠しレイヤを含むニューラルネットワーク。

ディープモデルは、ディープニューラルネットワークとも呼ばれます。

ワイドモデルとは対照的です。

密な特徴

#fundamentals

ほとんどまたはすべての値がゼロではない特徴。通常は浮動小数点値の テンソルです。たとえば、次の 10 要素テンソルは、値の 9 個がゼロではないため高密度です。

スパースな特徴と対比します。

深さ

#fundamentals

ニューラルネットワーク内の以下の式の合計。

隠れ層の数
出力レイヤの数。通常は 1
エンベディングレイヤの数

たとえば、5 つの隠れ層と 1 つの出力層を持つニューラルネットワークの深度は 6 です。

なお、入力レイヤは深度に影響しません。

離散特徴

#fundamentals

有限の有効な値のセットを持つ特徴。たとえば、値が動物、野菜、鉱物のみである特徴は、離散（またはカテゴリ）特徴です。

連続機能と対比してください。

動的

#fundamentals

何かが頻繁または継続的に行われた。 ML では「動的」と「オンライン」という用語は同義語です。機械学習における「動的」と「オンライン」の一般的な用途は次のとおりです。

動的モデル（またはオンラインモデル）は、頻繁に、または継続的に再トレーニングされるモデルです。
動的トレーニング（またはオンライントレーニング）は、頻繁または継続的なトレーニングのプロセスです。
動的推論（オンライン推論）は、オンデマンドで予測を生成するプロセスです。

動的モデル

#fundamentals

頻繁に（場合によっては継続的に）再トレーニングされるモデルmodel。動的モデルは、進化するデータに常に適応する「生涯学習者」です。動的モデルは、オンラインモデルとも呼ばれます。

静的モデルと比べます。

E

早期停止

#fundamentals

トレーニングの損失の減少が完了する前にトレーニングを終了する正則化のメソッド。早期停止では、検証用データセットの損失が増加し始めたとき、つまり一般化のパフォーマンスが悪化したときに、モデルのトレーニングを意図的に停止します。

アイコンをクリックすると、追加のメモが表示されます。

早期停止は直感に反しているように思えるかもしれません。損失がまだ減少している間にトレーニングを中止するようモデルに指示することは、デザートが完全に焼く前に調理をやめるようにシェフに指示したように見えるかもしれません。ただし、モデルをトレーニングする時間が長すぎると、過学習につながる可能性があります。つまり、モデルをトレーニングしすぎると、モデルがトレーニングデータにぴったり適合しすぎて、新しい例に対して適切な予測を行えなくなる可能性があります。

Embedding レイヤ

#language

#fundamentals

特別な隠しレイヤ。高次元のカテゴリ特徴でトレーニングし、低次元のエンベディングベクトルを徐々に学習します。エンベディングレイヤを使用すると、高次元のカテゴリ特徴だけを使用してトレーニングする場合よりも、はるかに効率的にトレーニングできます。

たとえば、地球は現在約 73,000 種の樹木に対応しています。樹木の種類がモデルの特徴量である場合、モデルの入力レイヤには 73,000 個の要素からなるワンホットベクトルが含まれます。たとえば、baobab は次のように表されます。

73,000 個の要素の配列。最初の 6,232 個の要素は値 0 を保持します。次の要素は値 1 を保持します。最後の 66,767 個の要素は、値 0 を保持します。

73,000 要素の配列は非常に長いです。モデルにエンベディングレイヤを追加しないと、72,999 個のゼロが乗算されるため、トレーニングに非常に時間がかかります。エンベディングレイヤは 12 次元で構成することもできますが、そのため、エンベディングレイヤは、樹木の種類ごとに新しいエンベディングベクトルを徐々に学習します。

特定の状況では、埋め込みレイヤの代わりにハッシュが合理的です。

エポック

#fundamentals

各例が 1 回処理されるように、トレーニングセット全体に対する完全なトレーニングパス。

エポックは、N/バッチサイズのトレーニング イテレーションを表します。ここで、N はサンプルの総数です。

たとえば、次のような状況を考えます。

このデータセットは 1,000 件のサンプルで構成されています。
バッチサイズは 50 サンプルです。

したがって、1 つのエポックに 20 回の反復処理が必要です。

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

説明します

#fundamentals

特徴量の 1 行の値、場合によってはラベルの値。教師あり学習の例は、次の 2 つの一般的なカテゴリに分類されます。

ラベル付きのサンプルは、1 つ以上の特徴とラベルで構成されています。ラベル付きサンプルはトレーニング中に使用されます。
ラベルのない例は、1 つ以上の特徴で構成されていますが、ラベルは構成されていません。ラベルのないサンプルは推論に使用されます。

たとえば、学生のテストスコアに対する天候の影響を判断するモデルをトレーニングするとします。次に、ラベル付きの例を 3 つ示します。

機能			ラベル
Temperature	湿度	気圧	テストスコア
15	47	998	良好
19	34	1020	非常に良い
18	92	1012	悪い

ラベルのない例を 3 つ紹介します。

Temperature	湿度	気圧
12	62	1014
21	47	1017
19	41	1021

通常、データセットの行はサンプルの元のソースです。つまり、例は通常、データセット内の列のサブセットで構成されます。さらに、例の特徴には、特徴クロスなどの合成特徴を含めることもできます。

F

偽陰性（FN）

#fundamentals

モデルが誤って陰性クラスを予測した例。たとえば、モデルは特定のメールメッセージは迷惑メールではない（陰性クラス）と予測しますが、そのメールメッセージは実際には迷惑メールです。

偽陽性（FP）

#fundamentals

モデルが誤って陽性クラスを予測した例。たとえば、モデルは特定のメールメッセージが迷惑メール（陽性クラス）であると予測しますが、そのメールは実際には迷惑メールではないとします。

偽陽性率（FPR）

#fundamentals

モデルが陽性クラスを誤って予測した実際の陰性例の割合。偽陽性率は次の式で計算されます。

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

偽陽性率は ROC 曲線の X 軸です。

特徴；特徴表現

#fundamentals

ML モデルへの入力変数。サンプルは、1 つ以上の特徴で構成されます。たとえば、生徒のテストの点数に対する天候の影響を判断するモデルをトレーニングするとします。次の表に 3 つの例を示します。それぞれに 3 つの特徴と 1 つのラベルが含まれています。

機能			ラベル
Temperature	湿度	気圧	テストスコア
15	47	998	92
19	34	1020	84
18	92	1012	87

label と対比されます。

特徴クロス

#fundamentals

カテゴリ特徴またはバケット特徴を「交差」することで形成される合成特徴。

たとえば、次の 4 つのバケットのいずれかにある気温を表す「気分予測」モデルについて考えてみます。

freezing
chilly
temperate
warm

風速は、次の 3 つのバケットのいずれかで表します。

still
light
windy

特徴クロスがない場合、線形モデルは上記の 7 つのバケットのそれぞれで独立してトレーニングされます。そのため、モデルは、たとえば windy でのトレーニングとは無関係に、freezing でトレーニングを行います。

または、温度と風速の特徴クロスを作成することもできます。この合成特徴には、次の 12 個の値があります。

freezing-still
freezing-light
freezing-windy
chilly-still
chilly-light
chilly-windy
temperate-still
temperate-light
temperate-windy
warm-still
warm-light
warm-windy

特徴クロスにより、モデルは freezing-windy 日と freezing-still 日の間の気分の違いを学習できます。

多数の異なるバケットを持つ 2 つの特徴から合成特徴を作成した場合、結果として得られる特徴クロスには膨大な組み合わせが存在することになります。たとえば、1 つの特徴に 1,000 バケットがあり、もう 1 つの特徴に 2,000 バケットがある場合、結果として得られる特徴クロスには 2,000,000 バケットが含まれます。

正式には、クロスはデカルト積です。

特徴クロスは主に線形モデルで使用され、ニューラルネットワークではほとんど使用されません。

２つのステップが含まれます

#fundamentals

#TensorFlow

以下のステップを含むプロセス。

モデルのトレーニングに役立つ特徴を決定する。
データセットからの元データを、これらの機能の効率的なバージョンに変換する。

たとえば、temperature が有用な機能であると判断した場合、その後、バケット化を試して、モデルがさまざまな temperature 範囲から学習できる内容を最適化できます。

特徴量エンジニアリングは、特徴量抽出または特徴量化とも呼ばれます。

アイコンをクリックすると、TensorFlow に関する追加情報が表示されます。

TensorFlow で特徴量エンジニアリングとは、多くの場合、未加工のログファイルエントリを tf.Example プロトコルバッファに変換することを意味します。tf.Transform もご覧ください。

機能セット

#fundamentals

ML モデルのトレーニングに使用する特徴のグループ。たとえば、郵便番号、物件の広さ、物件の条件は、住宅価格を予測するモデルの単純な特徴セットで構成されます。

特徴ベクトル

#fundamentals

サンプルを構成する feature 値の配列。特徴ベクトルは、トレーニング時と推論時に入力されます。たとえば、2 つの離散的な特徴を持つモデルの特徴ベクトルは次のようになります。

[0.92, 0.56]

4 つのレイヤ: 入力レイヤ、2 つの隠れレイヤ、1 つの出力レイヤ。入力レイヤには 2 つのノードがあり、1 つは値 0.92 を含み、もう 1 つは値 0.56 を含みます。

それぞれの例で特徴ベクトルに異なる値を指定するため、次の例の特徴ベクトルは次のようになります。

[0.73, 0.49]

特徴量エンジニアリングでは、特徴ベクトルで特徴を表現する方法を決定します。たとえば、5 つの取り得る値を持つバイナリカテゴリ特徴は、ワンホットエンコーディングで表現できます。この場合、特定の例の特徴ベクトルの部分は、次のように 4 つのゼロと 1 つの 1.0 の 3 番目の位置で構成されます。

[0.0, 0.0, 1.0, 0.0, 0.0]

別の例として、モデルが 3 つの特徴で構成されているとします。

ワンホットエンコーディングで表される 5 つの可能な値を持つバイナリカテゴリ特徴。例: [0.0, 1.0, 0.0, 0.0, 0.0]
ワンホットエンコーディングで表現される 3 つの有効な値を持つ別のバイナリカテゴリ特徴。例: [0.0, 0.0, 1.0]
浮動小数点特徴（例: 8.3）。

この場合、各サンプルの特徴ベクトルは 9 個の値で表現されます。上のリストの値の例の場合、特徴ベクトルは次のようになります。

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

フィードバックループ

#fundamentals

ML では、モデルの予測が、同じモデルまたは別のモデルのトレーニングデータに影響する状況。たとえば、映画をおすすめするモデルは、ユーザーが見る映画に影響を与え、その後の映画レコメンデーションモデルに影響します。

1 階

一般化

#fundamentals

未知の新しいデータに対して正しい予測を行うモデルの能力。一般化できるモデルは、その逆の過学習モデルです。

アイコンをクリックすると、追加のメモが表示されます。

トレーニングセット内のサンプルでモデルをトレーニングします。その結果、モデルはトレーニングセット内のデータの特異性を学習します。一般化とは、基本的に、トレーニングセットに含まれていないサンプルに対してモデルが適切な予測を行うことができるかどうかを問うことです。

一般化を促進するために、正則化により、トレーニングセット内のデータの特性に合わせてモデルをトレーニングできます。

一般化曲線

#fundamentals

イテレーション回数の関数としての、トレーニングの損失と検証の損失のプロット。

一般化曲線は、過学習の可能性を検出するのに役立ちます。たとえば、次の一般化曲線は、最終的に検証損失がトレーニングの損失よりも大幅に高くなるため、過学習を示しています。

y 軸に損失のラベル、x 軸に反復回数のラベルが付けられているデカルトグラフ。2 つのプロットが表示されます。1 つのプロットはトレーニングの損失を示し、もう 1 つのプロットは検証の損失を示しています。2 つのプロットも同じように始まりますが、最終的にはトレーニングの損失は検証の損失よりもはるかに小さくなります。

勾配降下法

#fundamentals

損失を最小限に抑える数学的手法。勾配降下法では、重みとバイアスを繰り返し調整し、損失を最小限に抑える最適な組み合わせを徐々に検出します。

勾配降下法は、ML よりもはるかに古い手法です。

正解

#fundamentals

現実。

実際に起こったことです。

たとえば、大学 1 年生の学生が 6 年以内に卒業するかどうかを予測するバイナリ分類モデルについて考えてみましょう。このモデルの正解はその生徒が 6 年以内に実際に卒業したかどうかです

アイコンをクリックすると、追加のメモが表示されます。

正解に照らしてモデルの品質を評価します。しかしグラウンドトゥルースは必ずしも完全に信頼できるとは限りませんたとえば、グラウンドトゥルースの潜在的な不完全な部分の例について考えてみましょう。

卒業の例では、各生徒の卒業記録が常に正しいことが確実ですか？大学の記録保持は完璧ですか？
ラベルが計器（気圧計など）によって測定される浮動小数点値であるとします。各計器が同じように調整されていること、または各測定値が同じ状況で測定されていることを確認するにはどうすればよいでしょうか。
ラベルが人間の意見の問題である場合、各人間の評価者が同じ方法でイベントを評価していることを確認するにはどうすればよいでしょうか。一貫性を高めるために、専門家の評価者が介入することがあります。

H

隠れ層

#fundamentals

入力レイヤ（特徴）と出力レイヤ（予測）の間のニューラルネットワークのレイヤ。各隠れ層は、1 つ以上のニューロンで構成されます。たとえば、次のニューラルネットワークには 2 つの隠しレイヤがあります。1 つ目のレイヤには 3 つのニューロンがあり、2 つ目のレイヤには 2 つのニューロンがあります。

4 つのレイヤ。最初のレイヤは、2 つの特徴を含む入力レイヤです。2 番目のレイヤは、3 つのニューロンを含む隠しレイヤです。3 つ目のレイヤは、2 つのニューロンを含む隠しレイヤです。4 番目のレイヤは出力レイヤです。各特徴には 3 つのエッジがあり、それぞれが 2 番目のレイヤの異なるニューロンを指しています。2 番目のレイヤの各ニューロンには 2 つのエッジがあり、それぞれのエッジが 3 番目のレイヤの異なるニューロンを指しています。3 番目のレイヤの各ニューロンには 1 つのエッジがあり、それぞれが出力レイヤを指しています。

ディープニューラルネットワークには複数の隠れ層が含まれています。たとえば上の図はディープニューラルネットワークですモデルには隠しレイヤが 2 つ含まれているからです

ハイパーパラメータ

#fundamentals

ユーザーまたはハイパーパラメータチューニングサービスは、モデルのトレーニングの連続実行中に変数を調整します。たとえば、学習率はハイパーパラメータです。トレーニングセッションを 1 回開始する前に、学習率を 0.01 に設定できます。0.01 が高すぎると判断した場合は、次のトレーニングセッションの学習率を 0.003 に設定できます。

一方、パラメータは、モデルがトレーニング中に学習するさまざまな重みとバイアスです。

I

独立同分布（i.i.d）

#fundamentals

変化しない分布から描画されるデータで、描画される各値が以前に描画された値に依存しない場合。i.i.d は機械学習の理想気体です。ML は有用な数学的構造ですが、現実世界で正確に見つかることはほとんどありません。たとえば、ウェブページへの訪問者の分布は短い期間にわたって変化している場合があります。つまり、その短い時間枠の間分布は変化せず、あるユーザーの訪問は別のユーザーの訪問とは無関係です。ただし、対象期間を長くすると、ウェブページの訪問者に季節的な違いが生じることがあります。

非定常性もご覧ください。

推論

#fundamentals

ML で、トレーニング済みモデルをラベルのないサンプルに適用して予測を行うプロセス。

統計では、推論の意味が若干異なります。詳しくは、統計的推論に関する Wikipedia の記事をご覧ください。

入力レイヤ

#fundamentals

特徴ベクトルを保持するニューラルネットワークのレイヤ。つまり、入力レイヤは、トレーニングまたは推論の例を提供します。たとえば、次のニューラルネットワークの入力レイヤは 2 つの特徴で構成されています。

4 つのレイヤ: 入力レイヤ、2 つの隠れレイヤ、出力レイヤです。

解釈可能性

#fundamentals

ML モデルの推論を人間にわかりやすい言葉で説明または提示する能力。

たとえば、ほとんどの線形回帰モデルは、非常に解釈しやすくなります。（特徴量ごとにトレーニング済みの重みを確認するだけで済みます）。また、デシジョンフォレストも非常に解釈しやすくなります。ただし、一部のモデルでは、解釈可能にするために高度な可視化が必要になります。

Learning Interpretability Tool（LIT）を使用して ML モデルを解釈できます。

繰り返し

#fundamentals

トレーニング中のモデルのパラメータ（モデルの重みとバイアス）の 1 回の更新。バッチサイズにより、モデルが 1 回のイテレーションで処理するサンプルの数が決まります。たとえば、バッチサイズが 20 の場合、モデルはパラメータを調整する前に 20 個のサンプルを処理します。

ニューラルネットワークをトレーニングする場合、1 回の反復で次の 2 つのパスが発生します。

単一のバッチで損失を評価するフォワードパス。
損失と学習率に基づいてモデルのパラメータを調整するバックワードパス（誤差逆伝播法）。

L

L₀ 正則化

#fundamentals

モデル内のゼロ以外の重みの合計にペナルティを適用する正則化の一種。たとえば、ゼロ以外の重みが 11 個あるモデルには、ゼロ以外の重みが 10 個ある類似モデルよりもペナルティが課されます。

L₀ 正則化は、L0 ノルム正則化と呼ばれることもあります。

アイコンをクリックすると、追加のメモが表示されます。

L₀ 正則化は一般に、大規模モデルでは非現実的です。L₀ 正則化は、トレーニングを凸最適化問題に変えるためです。

L₁ 損失

#fundamentals

実際のラベル値とモデルが予測した値の差の絶対値を計算する損失関数。たとえば、5 つの例のバッチに対する L₁ 損失の計算は次のとおりです。

例の実際の値	モデルの予測値	デルタの絶対値
7	6	1
5	4	1
8	11	3
4	6	2
9	8	1
		8 = L₁ 損失

L₁ 損失は、L₂ 損失よりも外れ値の影響を受けにくくなります。

平均絶対誤差は、サンプルごとの L₁ 損失の平均値です。

アイコンをクリックすると正式な数式が表示されます。

$$ L_1 loss = \sum_{i=0}^n | y_i - \hat{y}_i |$$

ここで

$n$ はサンプル数です。
$y$ はラベルの実際の値です。
$\hat{y}$ は、モデルが $y$ について予測した値です。

L₁ 正則化

#fundamentals

重みの絶対値の合計に比例して重みにペナルティを適用する正則化の一種。L₁ 正則化は、無関係な特徴または関連性がほとんどない特徴の重みをちょうど 0 にします。重みが 0 の特徴はモデルから実質的に削除されます。

L₂ 正則化とは対照的です。

L₂ 損失

#fundamentals

実際のラベル値とモデルが予測した値の差の 2 乗を計算する損失関数。以下に、5 つの例のバッチに対する L₂ 損失の計算例を示します。

例の実際の値	モデルの予測値	デルタの二乗
7	6	1
5	4	1
8	11	9
4	6	4
9	8	1
		16 = L₂ 損失

二乗により、L₂ の損失は外れ値の影響を増幅します。つまり、L₂ 損失は L₁ 損失よりも、不適切な予測に強く反応します。たとえば、前のバッチの L₁ 損失は 16 ではなく 8 になります。16 個のうち 9 個は 1 つの外れ値で占められています。

回帰モデルでは通常、損失関数として L₂ の損失が使用されます。

平均二乗誤差は、サンプルごとの L₂ 損失の平均値です。二乗損失は L₂ 損失の別名です。

アイコンをクリックすると正式な数式が表示されます。

$$ L_2 loss = \sum_{i=0}^n {(y_i - \hat{y}_i)}^2$$

ここで

$n$ はサンプル数です。
$y$ はラベルの実際の値です。
$\hat{y}$ は、モデルが $y$ について予測した値です。

L₂ 正則化

#fundamentals

重みの二乗の合計に比例して重みにペナルティを適用する正則化の一種。L₂ 正則化は、外れ値の重み（正の値が高い値または負の値が低い値）を 0 に近づけますが、0 には近くなりません。値が 0 に非常に近い特徴はモデルに残りますが、モデルの予測にはあまり影響しません。

L₂ 正則化は、線形モデルでの一般化を常に改善します。

L₁ 正則化とは対照的です。

ラベル

#fundamentals

教師あり機械学習において、例の「回答」または「結果」の部分。

各ラベル付きの例は、1 つ以上の特徴とラベルで構成されています。たとえば、スパム検出データセットでは、ラベルはおそらく「Spam」または「Not Spam」のいずれかになります。降水量のデータセットでは、特定の期間に降った雨量がラベルになります。

ラベル付きサンプル

#fundamentals

1 つ以上の特徴とラベルを含む例。たとえば、次の表は、住宅評価モデルの 3 つのラベル付き例を示しています。それぞれに 3 つの特徴と 1 つのラベルがあります。

寝室の数	浴室数	住宅の年数	住宅の価格（ラベル）
3	2	15	34 万 5,000 ドル
2	1	72	17 万 9,000 ドル
4	2	34	39 万 2,000 ドル

教師あり ML では、モデルはラベル付きサンプルでトレーニングし、ラベルなしサンプルで予測を行います。

ラベル付きサンプルとラベルなしサンプルを対比します。

ラムダ

#fundamentals

正則化率と同義です。

ラムダはオーバーロードされた用語です。ここでは、正則化における用語の定義に焦点を当てます。

レイヤ

#fundamentals

ニューラルネットワーク内の一連のニューロン。一般的なレイヤには次の 3 種類があります。

入力レイヤ。すべての特徴量の値を提供します。
1 つ以上の隠しレイヤ。特徴とラベルとの間の非線形関係を見つけます。
出力レイヤ。予測を提供します。

たとえば、次の図は、1 つの入力層、2 つの隠れ層、1 つの出力層を持つニューラルネットワークを示しています。

入力層が 1 つ、隠れ層が 2 つ、出力層が 1 つあるニューラルネットワーク。入力レイヤは 2 つの特徴で構成されています。最初の隠れ層は 3 つのニューロンで構成され、2 番目の隠れ層は 2 つのニューロンで構成されています。出力レイヤは単一のノードで構成されます。

TensorFlow では、レイヤは テンソルと構成オプションを入力として受け取り、他のテンソルを出力として生成する Python 関数でもあります。

学習率

#fundamentals

各反復処理で重みとバイアスをどの程度調整するかを勾配降下法アルゴリズムに指示する浮動小数点数。たとえば、学習率が 0.3 の場合、重みとバイアスが調整される効果は学習率 0.1 の場合の 3 倍になります。

学習率は重要なハイパーパラメータです。学習率の設定が低すぎると、トレーニングに時間がかかります。学習率を高く設定しすぎると、勾配降下法で収束に到達しにくくなることがよくあります。

アイコンをクリックすると、数学的な説明が表示されます。

反復処理のたびに、勾配降下法アルゴリズムが学習率と勾配を乗算します。結果の積を勾配ステップといいます。

リニア

#fundamentals

足し算と乗算だけで表すことができる 2 つ以上の変数間の関係。

線形関係のプロットは線になります。

非線形と対比してください。

線形モデル

#fundamentals

モデルmodel。特徴modelごとに 1 つの重みmodelを割り当て、予測modelを行います。（線形モデルにはバイアスも組み込まれています）。これに対して、ディープモデルにおける特徴と予測の関係は、一般的に非線形です。

線形モデルは通常、ディープモデルよりもトレーニングが簡単で、解釈も簡単です。ただし、ディープモデルでは、特徴間の複雑な関係を学習できます。

線形回帰とロジスティック回帰は、線形モデルの一種です。

アイコンをクリックすると計算が表示されます。

線形モデルは次の式に従います。

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

ここで

y' は未加工の予測です。（特定の種類の線形モデルでは、この未加工の予測がさらに変更されます。例については、ロジスティック回帰をご覧ください）。
b はバイアスです。
w は重みであるため、w₁ は最初の特徴の重み、w₂ は 2 番目の特徴の重みなどとなります。
x は特徴であるため、x₁ は最初の特徴の値、x₂ は 2 番目の特徴の値です。以降も同様です。

たとえば、3 つの特徴の線形モデルが次のバイアスと重みを学習するとします。

b = 7
w₁ = -2.5
w₂ = -1.2
w₃ = 1.4

したがって、3 つの特徴（x₁、x₂、x₃）が与えられると、線形モデルは次の式を使用して各予測を生成します。

y' = 7 + (-2.5)(x₁) + (-1.2)(x₂) + (1.4)(x₃)

特定の例に次の値が含まれているとします。

x₁ = 4
x₂ = -10
x₃ = 5

これらの値を数式に代入すると、この例の予測が得られます。

y' = 7 + (-2.5)(4) + (-1.2)(-10) + (1.4)(5)
y' = 16

線形モデルには、予測を行うために一次方程式のみを使用するモデルだけでなく、予測を行う式の 1 つの構成要素として一次方程式を使用する幅広いモデルが含まれます。たとえば、ロジスティック回帰では、未加工の予測（y'）を後処理して、0 ～ 1 の最終予測値（排他的）を生成します。

線形回帰

#fundamentals

次の両方に該当する ML モデルの一種:

このモデルは線形モデルです。
予測は浮動小数点値です。（これは線形回帰の回帰の部分です）。

線形回帰とロジスティック回帰を対比してください。また、回帰と分類を対比します。

ロジスティック回帰

#fundamentals

確率を予測する回帰モデルの一種。ロジスティック回帰モデルには次の特徴があります。

ラベルはカテゴリです。通常、ロジスティック回帰という用語は、2 項ロジスティック回帰、つまり 2 つの有効な値を持つラベルの確率を計算するモデルを指します。あまり一般的でないバリアントである多項ロジスティック回帰は、取り得る値が 3 つ以上あるラベルの確率を計算します。
トレーニング中の損失関数はログ損失です。（有効な値が 3 つ以上あるラベルの場合、複数のログ損失ユニットを並列に配置できます）。
このモデルは、ディープニューラルネットワークではなく、線形アーキテクチャを備えています。ただし、この定義の残りの部分は、カテゴリラベルの確率を予測するディープモデルにも適用されます。

たとえば、入力メールが迷惑メールまたは迷惑メールでない確率を計算するロジスティック回帰モデルについて考えてみましょう。推論中に、モデルが 0.72 と予測したとします。したがって、このモデルは以下を推定します。

迷惑メールである可能性は 72% です。
28% の確率はスパムメールではない

ロジスティック回帰モデルでは、次の 2 段階のアーキテクチャを使用します。

このモデルは、入力特徴の線形関数を適用して未加工の予測（y'）を生成します。
このモデルは、その未加工の予測をシグモイド関数への入力として使用します。シグモイド関数は、未加工の予測を 0 ～ 1 の範囲外の値に変換します。

他の回帰モデルと同様に、ロジスティック回帰モデルは数値を予測します。ただし、この数値は通常、次のようにバイナリ分類モデルの一部になります。

予測数が分類しきい値よりも大きい場合、バイナリ分類モデルは陽性クラスを予測します。
予測数が分類しきい値よりも小さい場合、バイナリ分類モデルは陰性クラスを予測します。

ログ損失

#fundamentals

2 進ロジスティック回帰で使用される損失関数。

アイコンをクリックすると計算が表示されます。

ログ損失は、次の式で計算されます。

$$\text{Log Loss} = \sum_{(x,y)\in D} -y\log(y') - (1 - y)\log(1 - y')$$

ここで

$(x,y)\in D$ は、多くのラベル付きサンプル（ $(x,y)$ ペア）を含むデータセットです。
ラベル付きサンプルでは、 $y$ はラベルです。これはロジスティック回帰であるため、 $y$ のすべての値は 0 または 1 である必要があります。
$y'$ は、 $x$の特徴セットに基づく予測値です（0 ～ 1 は含みません）。

対数オッズ

#fundamentals

イベントの発生確率の対数。

アイコンをクリックすると計算が表示されます。

イベントがバイナリ確率の場合、オッズは成功確率（p）と失敗確率（1-p）の比率を表します。たとえば、あるイベントの確率が 90% で、失敗の確率が 10% であるとします。この場合、オッズは次のように計算されます。

$$ {\text{odds}} = \frac{\text{p}} {\text{(1-p)}} = \frac{.9} {.1} = {\text{9}} $$

対数オッズは、単純にオッズの対数です。慣例として、「対数」は自然対数を指しますが、実際には 1 より大きい任意の底を指定できます。慣例に従うと、この例の対数オッズは次のようになります。

$$ {\text{log-odds}} = ln(9) ~= 2.2 $$

対数オッズ関数は、シグモイド関数の逆数です。

損失

#fundamentals

教師ありモデルのトレーニング中、モデルの予測がそのラベルからどの程度離れているかを測定します。

損失関数は損失を計算します。

損失曲線

#fundamentals

トレーニングのイテレーション回数の関数としての損失のプロット。次のプロットは、典型的な損失曲線を示しています。

損失とトレーニングのイテレーションのデカルトグラフ。最初のイテレーションで損失が急激に減少し、その後に緩やかに減少し、最後のイテレーションで平坦な傾きが続きます。

損失曲線は、モデルが収束または過学習のタイミングを判断するのに役立ちます。

損失曲線では、次の種類の損失をすべてプロットできます。

トレーニングの損失
検証損失
テスト損失

一般化曲線もご覧ください。

損失関数

#fundamentals

トレーニングまたはテスト中に、サンプルのバッチの損失を計算する数学関数。損失関数は、予測が誤ったモデルよりも低い損失を返します。

トレーニングの目標は通常、損失関数が返す損失を最小限に抑えることです。

損失関数にはさまざまな種類があります。構築するモデルの種類に適した損失関数を選択します。次に例を示します。

L₂ 損失（または平均二乗誤差）は、線形回帰の損失関数です。
ログ損失は、ロジスティック回帰の損失関数です。

M

機械学習

#fundamentals

入力データからモデルをトレーニングするプログラムまたはシステム。トレーニング済みモデルでは、モデルのトレーニングに使用したものと同じ分布から抽出された新しい（未知の）データから有用な予測を行うことができます。

ML はこれらのプログラムやシステムに関する研究分野も意味します

多数派のクラス

#fundamentals

クラス不均衡なデータセット内のより一般的なラベル。たとえば、99% のネガティブのラベルと 1% のポジティブのラベルを含むデータセットの場合、ネガティブのラベルが過半数クラスになります。

マイノリティのクラスと対比してください。

ミニバッチ

#fundamentals

ランダムに選択された小さなバッチのサブセット。1 回のイテレーションで処理されます。ミニバッチのバッチサイズは通常、10 ～ 1,000 サンプルです。

たとえば、トレーニングセット全体（完全なバッチ）が 1,000 件のサンプルで構成されているとします。さらに、各ミニバッチのバッチサイズを 20 に設定したとします。したがって、反復処理ごとに 1,000 個のサンプルのうち 20 個のサンプルで損失が決定され、それに応じて重みとバイアスが調整されます。

完全なバッチ内のすべての例の損失よりも、ミニバッチの損失を計算する方がはるかに効率的です。

マイノリティの階級

#fundamentals

クラス不均衡なデータセット内の一般的でないラベル。たとえば、99% のネガティブラベルと 1% のポジティブのラベルを含むデータセットの場合、ポジティブのラベルは少数派クラスです。

マジョリティクラスと対比してください。

アイコンをクリックすると、追加のメモが表示されます。

100 万件の例を含むトレーニングセットは素晴らしいと思います。ただし、マイノリティのクラスが十分に表現されていない場合は、非常に大きなトレーニングセットでも不十分な場合があります。データセット内のサンプルの合計数よりも少数派クラスのサンプル数を重視します。

データセットに少数派クラスの例が十分に含まれていない場合は、ダウンサンプリング（2 番目の項目の定義）を使用してマイノリティクラスを補完することを検討してください。

model

#fundamentals

一般的に、入力データを処理して出力を返す数学的構造。言い換えると、モデルは、システムが予測を行うために必要なパラメータと構造のセットです。教師あり機械学習では、モデルは例を入力として受け取り、出力として予測を推測します。教師あり ML ではモデルは若干異なります次に例を示します。

線形回帰モデルは、一連の重みとバイアスで構成されます。
ニューラルネットワーク モデルは以下で構成されます。
- 一連の隠しレイヤ。各レイヤには 1 つ以上のニューロンが含まれます。
- 各ニューロンに関連付けられた重みとバイアス。
ディシジョンツリーモデルは、次の要素で構成されます。
- ツリーの形状、つまり条件と葉がつながるパターン。
- 条件と出発。

モデルを保存、復元、またはコピーを作成できます。

教師なし ML ではモデルも生成されます。これは通常、入力例を最適なクラスタにマッピングできる関数です。

アイコンをクリックすると、代数関数やプログラミング関数と ML モデルを比較できます。

次のような代数関数がモデルです。

  f(x, y) = 3x -5xy + y² + 17

上記の関数は入力値（x と y）を出力にマッピングします。

同様に、次のようなプログラミング関数もモデルです。

def half_of_greater(x, y):
  if (x > y):
    return(x / 2)
  else
    return(y / 2)

呼び出し元が上記の Python 関数に引数を渡し、Python 関数が（return ステートメントを介して）出力を生成します。

ディープニューラルネットワークの数学的構造は、代数関数やプログラミング関数とは大きく異なりますが、ディープニューラルネットワークは依然として入力（例）を受け取り、出力（予測）を返します。

人間のプログラマーがプログラミング関数を手動でコーディングします。これに対して、ML モデルは自動トレーニング中に最適なパラメータを徐々に学習します。

マルチクラス分類

#fundamentals

教師あり学習において、データセットにラベルのクラスが 3 つ以上含まれる分類問題。たとえば、Iris データセットのラベルは、次の 3 つのクラスのいずれかである必要があります。

アヤメ
アヤメ
アヤメ

新しいサンプルでアヤメの種類を予測する Iris データセットでトレーニングされたモデルが、マルチクラス分類を実行しています。

一方、2 つのクラスを区別する分類問題はバイナリ分類モデルです。たとえば、迷惑メールまたは迷惑メールではないのいずれかを予測するメールモデルは、バイナリ分類モデルです。

クラスタリングの問題では、マルチクラス分類は 3 つ以上のクラスタを指します。

N

陰性クラス

#fundamentals

バイナリ分類では、一方のクラスは陽性、もう一方は陰性と呼ばれます。陽性のクラスはモデルがテストする対象またはイベントで、陰性のクラスはもう一つの可能性です。次に例を示します。

医学的検査の陰性クラスは「腫瘍ではない」かもしれません。
メール分類器の除外クラスは「迷惑メールではない」場合があります。

陽性クラスと対比してください。

ニューラルネットワークの

#fundamentals

少なくとも 1 つの隠しレイヤmodelを含むモデルmodel。ディープニューラルネットワークは、複数の隠しレイヤを含むニューラルネットワークの一種です。たとえば、次の図は 2 つの隠しレイヤを含むディープニューラルネットワークを示しています。

入力層、2 つの隠れ層、出力層を持つニューラルネットワーク。

ニューラルネットワーク内の各ニューロンは、次のレイヤのすべてのノードに接続します。たとえば、上の図では、最初の隠れ層の 3 つのニューロンのそれぞれが、2 番目の隠れ層の 2 つのニューロンの両方に個別に接続しています。

コンピュータに実装されたニューラルネットワークは、脳や他の神経系にあるニューラルネットワークと区別するために、人工ニューラルネットワークとも呼ばれます。

一部のニューラルネットワークでは、異なる特徴とラベルの間の非常に複雑な非線形関係を模倣することがあります。

畳み込みニューラルネットワークと再帰型ニューラルネットワークもご覧ください。

ニューロン

#fundamentals

ML では、ニューラルネットワークの隠れ層内の個別の単位。各ニューロンは次の 2 段階のアクションを実行します。

入力値に対応する重みを掛けた加重合計を計算します。
加重合計を入力として活性化関数に渡します。

最初の隠れ層のニューロンは、入力層の特徴値から入力を受け取ります。最初の隠れ層にあるニューロンは、前の隠れ層にあるニューロンからの入力を受け入れます。たとえば、2 番目の隠れ層のニューロンは、1 番目の隠れ層のニューロンからの入力を受け入れます。

次の図は、2 つのニューロンとその入力を示しています。

入力層、2 つの隠れ層、出力層を持つニューラルネットワーク。2 つのニューロンがハイライト表示されています。1 つは最初の隠しレイヤにあり、もう 1 つは 2 番目の隠しレイヤにあります。最初の隠れ層にあるハイライト表示されたニューロンは、入力層にある両方の特徴から入力を受け取ります。2 番目の隠れ層にあるハイライト表示されたニューロンは、最初の隠れ層にある 3 つのニューロンのそれぞれから入力を受け取ります。

ニューラルネットワークのニューロンは、脳や神経系の他の部分にあるニューロンの挙動を模倣したものです。

ノード（ニューラルネットワーク）

#fundamentals

隠しレイヤにあるニューロン。

ノンリニア

#fundamentals

足し算とかけ算だけでは表現できない、2 つ以上の変数間の関係。線形関係は線で表すことができます。非線形関係は線で表すことはできません。たとえば、それぞれが 1 つの特徴を 1 つのラベルに関連付ける 2 つのモデルについて考えてみましょう。左側のモデルは線形で右側のモデルは非線形です。

2 つのプロット。1 つのプロットは直線なので、これは線形の関係になります。2 つ目のプロットは曲線なので、非線形の関係になります。

非定常性

#fundamentals

1 つ以上のディメンション（通常は時間）にわたって値が変化する特徴。たとえば、次のような非定常性の例を考えてみます。

特定の店舗で販売されている水着の数は、季節によって変動します。
特定の地域で収穫される特定の果物の量は、年間の大半はゼロですが、短期間では多い場合があります。
気候変動により、年間平均気温が変化しています。

定常性と対比します。

正規化

#fundamentals

大まかに言うと、変数の実際の値範囲を標準的な値範囲に変換するプロセス。以下に例を示します。

-1 ～+1
0～1
正規分布

たとえば、ある特徴の実際の値範囲が 800 ～ 2,400 であるとします。特徴量エンジニアリングの一環として、実際の値を標準的な範囲（-1 ～+1 など）に正規化できます。

正規化は、特徴量エンジニアリングにおける一般的なタスクです。通常、特徴ベクトルのすべての数値特徴がほぼ同じ範囲を持つ場合、モデルのトレーニングが高速になり、予測の精度が向上します。

数値データ

#fundamentals

整数または実数として表される特徴。たとえば、住宅評価モデルでは、住宅の面積（平方フィートまたは平方メートル単位）を数値データとして表すことが考えられます。特徴を数値データとして表すことは、特徴の値がラベルと数学の関係にあることを示します。つまり、住宅の平方メートル数は、おそらく住宅の価格となんらかの数学的関係があります。

すべての整数データを数値データとして表す必要があるわけではありません。たとえば、世界の一部地域の郵便番号は整数です。ただし、整数の郵便番号をモデルで数値データとして表すべきではありません。これは、20000 の郵便番号が 10000 の 2 倍（または半分）有効ではないためです。さらに、郵便番号によって不動産の価値は異なりますが、郵便番号 20000 の不動産の価値は、郵便番号 10000 の不動産の価値の 2 倍であるとは限りません。郵便番号はカテゴリデータとして表す必要があります。

数値特徴は、連続特徴とも呼ばれます。

O

オフライン

#fundamentals

static と同義です。

オフライン推論

#fundamentals

モデルが予測のバッチを生成し、それらの予測をキャッシュに保存（保存）するプロセス。これにより、アプリはモデルを再実行することなく、キャッシュから推定予測にアクセスできます。

たとえば、4 時間に 1 回局所の天気予報（予測）を生成するモデルについて考えてみましょう。各モデルを実行すると、各地域の天気予報がすべてキャッシュに保存されます。天気アプリはキャッシュから天気予報を取得します。

オフライン推論は静的推論とも呼ばれます。

オンライン推論と対比します。

ワンホットエンコーディング

#fundamentals

カテゴリデータをベクトルとして表すと、次のようになります。

1 つの要素が 1 に設定されます。
その他の要素はすべて 0 に設定されます。

ワンホットエンコーディングは、有効な値のセットが有限である文字列または識別子を表現するためによく使用されます。たとえば、Scandinavia という名前のカテゴリ特徴に取り得る値が 5 つあるとします。

「デンマーク」
「スウェーデン」
ノルウェー
フィンランド
アイスランド

ワンホットエンコーディングでは、5 つの値のそれぞれを次のように表すことができます。

country	ベクトル
「デンマーク」	1	0	0	0	0
「スウェーデン」	0	1	0	0	0
ノルウェー	0	0	1	0	0
フィンランド	0	0	0	1	0
アイスランド	0	0	0	0	1

ワンホットエンコーディングにより、モデルは 5 つの国のそれぞれに基づいて異なる接続を学習できます。

特徴を数値データとして表す方法は、ワンホットエンコーディングに代わる方法です。残念ながら、スカンジナビア諸国を数字で表すことはおすすめしません。たとえば、次の数値表現を考えてみましょう。

"Denmark" は 0 です
"Sweden" は 1
「Norway」は 2 です
「Finland」は 3
「アイスランド」は 4

数値エンコードでは、モデルは未加工の数値を数学的に解釈し、その数値でトレーニングを試みます。しかし、アイスランドはノルウェーの 2 倍（半分）ではないので、モデルは奇妙な結論を導き出します。

1 対すべて

#fundamentals

N 個のクラスでの分類問題の場合、N 個の個別のバイナリ分類器（可能な結果ごとに 1 つのバイナリ分類器）で構成されるソリューション。たとえば、サンプルを動物、野菜、鉱物に分類するモデルの場合、1 対 1 のソリューションでは、次の 3 つのバイナリ分類器が提供されます。

動物と動物ではない
野菜かそうでないか
鉱物か非鉱物か

online

#fundamentals

dynamic と同義です。

オンライン推論

#fundamentals

オンデマンドでの予測の生成。たとえば、アプリが入力をモデルに渡し、予測のリクエストを発行するとします。オンライン推論を使用するシステムは、モデルを実行して予測をアプリに返すことにより、リクエストに応答します。

オフライン推論と対比します。

出力層

#fundamentals

ニューラルネットワークの「最終」レイヤ。出力レイヤに予測が含まれます。

次の図は、入力レイヤ、2 つの隠しレイヤ、出力レイヤがある小規模なディープニューラルネットワークを示しています。

過剰適合

#fundamentals

トレーニングデータmodelとほぼ一致するモデルmodelを作成して、モデルが新しいデータに対して正しい予測を行えなくなる。

正則化により過学習を削減できます。大規模で多様なトレーニングセットでトレーニングすることでも、過学習を減らすことができます。

アイコンをクリックすると、追加のメモが表示されます。

過学習とは、好きな教師のアドバイスに厳密に従うようなものです。その教師のクラスでは成功するかもしれませんが、その教師のアイデアに「適応しすぎ」、他のクラスでは失敗する可能性があります。さまざまな教師からのアドバイスに従うことで、新しい状況にうまく適応できるようになります。

P

pandas

#fundamentals

numpy 上に構築された列指向のデータ分析 API。TensorFlow を含む多くの機械学習フレームワークは、入力として pandas データ構造をサポートしています。詳細については、pandas のドキュメントをご覧ください。

パラメータ

#fundamentals

モデルがトレーニング中に学習する重みとバイアス。たとえば、線形回帰モデルでは、パラメータは次の式のバイアス（b）とすべての重み（w₁、w₂ など）で構成されます。

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

一方、ハイパーパラメータは、ユーザー（またはハイパーパラメータターニングサービス）がモデルに提供する値です。たとえば、学習率はハイパーパラメータです。

陽性クラス

#fundamentals

テスト対象のクラス。

たとえば、がんモデルの陽性クラスは「tumor」かもしれません。メールの分類器で陽性のクラスが「迷惑メール」であることもあります。

陰性クラスとは対照的です。

アイコンをクリックすると、追加のメモが表示されます。

陽性のクラスという用語は、多くのテストの「陽性」の結果が望ましくない結果になることが多いため、混乱を招く可能性があります。たとえば、多くの医学的検査の陽性クラスは腫瘍や疾患に対応します。一般的に医師には「おめでとう。テスト結果が陰性でした。」いずれにしても、陽性のクラスはテストで検出しようとしているイベントです。

確かに、正のクラスと負のクラスの両方を同時にテストすることになります。

後処理

#fairness

#fundamentals

モデルの実行後にモデルの出力を調整する。後処理を使用して、モデル自体を変更することなく、公平性の制約を適用できます。

たとえば、属性のすべての値で真陽性率が同じであることを確認することで、なんらかの属性の機会の平等が維持されるように分類しきい値を設定して、バイナリ分類器に後処理を適用できます。

予測

#fundamentals

モデルの出力。次に例を示します。

バイナリ分類モデルの予測は、陽性クラスまたは陰性クラスのいずれかです。
マルチクラス分類モデルの予測は 1 つのクラスです。
線形回帰モデルの予測は数値です。

プロキシラベル

#fundamentals

データセットで直接利用できないラベルを近似するために使用するデータ。

たとえば、従業員のストレスレベルを予測するモデルをトレーニングする必要があるとします。データセットには多くの予測特徴が含まれていますが、ストレスレベルというラベルは含まれていません。ストレスレベルの代理ラベルとして「職場での事故」を選択します。結局のところ、ストレスが強い従業員は落ち着いている従業員よりも多くの事故に遭います。実際に使用されているのか、職場での事故は複数の理由で上下する場合があります

2 つ目の例として、「雨が降っていますか？」をデータセットのブール値ラベルにしたいが、データセットに雨のデータが含まれていないとします。写真がある場合は、「雨が降っているか」の代理ラベルとして、傘を携帯している人の画像を設定するとよいでしょう。これは適切なプロキシラベルでしょうか？おそらく可能ですが、文化によっては雨よりも日差しから守るために傘を持っていく傾向があります。

多くの場合、プロキシラベルは不完全なものです。可能であれば、プロキシラベルではなく実際のラベルを選択します。ただし、実際のラベルがない場合は、最も恐ろしいプロキシラベルの候補を慎重に選択し、プロキシラベルを選択してください。

R

RAG

#fundamentals

取得拡張生成の略語。

評価者

#fundamentals

例にラベルを指定する人間。「Annotator」は評価者の別名です。

正規化線形ユニット（ReLU）

#fundamentals

次の動作をする活性化関数。

入力が負またはゼロの場合、出力は 0 です。
入力が正の場合、出力は入力と等しくなります。

次に例を示します。

入力が -3 の場合、出力は 0 です。
入力が +3 の場合、出力は 3.0 です。

ReLU のプロットを次に示します。

ReLU は、非常に一般的な活性化関数です。ReLU は、単純な動作にもかかわらず、ニューラルネットワークが特徴とラベル間の非線形関係を学習できるようにします。

回帰モデル

#fundamentals

非公式に、数値予測を生成するモデル。（これに対して、分類モデルはクラス予測を生成します）。たとえば、すべて回帰モデルは次のとおりです。

特定の住宅の価格（423,000 ユーロなど）を予測するモデル。

特定の樹木の寿命（23.2 年など）を予測するモデル。

特定の都市で今後 6 時間に降る雨量を予測するモデル（例: 0.18 インチ）。

一般的な回帰モデルには次の 2 種類があります。

線形回帰。ラベル値が特徴に最も適合する直線を検出します。

ロジスティック回帰。これは、通常、システムがクラス予測にマッピングする確率を 0.0 ～ 1.0 の範囲で生成します。

数値予測を出力するすべてのモデルが回帰モデルであるわけではありません。場合によっては、数値予測は、たまたま数値クラス名を持つ単なる分類モデルになります。たとえば、数値の郵便番号を予測するモデルは分類モデルであり、回帰モデルではありません。

正則化

#fundamentals

過学習を減らすメカニズム。一般的な正則化の種類は次のとおりです。

L₁ 正則化

L₂ 正則化

ドロップアウト正則化

早期停止（正式な正則化方法ではありませんが、過学習を効果的に制限できます）

正則化は、モデルの複雑さに対するペナルティとして定義することもできます。

アイコンをクリックすると、追加のメモが表示されます。

正則化は直感に反します。通常、正則化を増やすとトレーニングの損失が増加しますが、混乱を招きます。トレーニングの損失を最小限にすることが目的ではないからです。

不正解です。目標はトレーニングの損失を最小限に抑えることではありません。目標は、実際の例に対して優れた予測を行うことです。驚くべきことに、正則化を増やすとトレーニングの損失が増加しますが、通常はモデルが実際のサンプルに対する予測を改善するのに役立ちます。

正則化率

#fundamentals

トレーニング中の正則化の相対的な重要度を指定する数値。正則化率を上げると過学習は軽減されますが、モデルの予測能力が低下する可能性があります。逆に、正則化率を減らすか省略すると、過学習が増加します。

アイコンをクリックすると計算が表示されます。

正則化率は通常、ギリシャ文字のラムダとして表されます。次の簡略化された損失の式は、ラムダの影響を示しています。

$$\text{minimize(loss function + }\lambda\text{(regularization))}$$

ここで、正則化は次のような正則化メカニズムです。

L₁ 正則化

L₂ 正則化

ReLU

#fundamentals

正規化線形ユニットの略語。

検索拡張生成（RAG）

#fundamentals

大規模言語モデル（LLM）の出力を、モデルのトレーニング後に取得した知識ソースで根拠づけることで品質を向上させる手法。RAG は、トレーニング済みの LLM が信頼できるナレッジベースやドキュメントから取得した情報にアクセスできるようにすることで、LLM の応答の精度を向上させます。

検索拡張生成を使用する一般的な動機は次のとおりです。

モデルによって生成された回答の事実の精度を高める。

モデルがトレーニングされていない知識にアクセスできるようにする

モデルが使用する知識の変更

モデルで出典を引用できるようにする。

たとえば、化学アプリが PaLM API を使用して、ユーザークエリに関連するサマリーを生成するとします。アプリのバックエンドがクエリを受信すると、バックエンドは:

ユーザーのクエリに関連するデータを検索（取得）します。

ユーザーのクエリに、関連する化学データを追加（「拡張」）します。

追加データに基づいてサマリーを作成するよう LLM に指示します。

ROC（受信機動作特性）曲線

#fundamentals

バイナリ分類におけるさまざまな分類しきい値での真陽性率と偽陽性率のグラフ。

ROC 曲線の形状は、陽性クラスと陰性クラスを分離するバイナリ分類モデルの能力を示唆しています。たとえば、バイナリ分類モデルで、すべての負のクラスとすべての正のクラスが完全に分離されているとします。

上のモデルの ROC 曲線は次のようになります。

対照的に、次の図は、負のクラスと正のクラスをまったく分離できない不適切なモデルの未加工のロジスティック回帰値をグラフ化しています。

このモデルの ROC 曲線は次のようになります。

一方、現実の世界では、ほとんどのバイナリ分類モデルで陽性クラスと陰性クラスがある程度分離されますが、通常は完璧ではありません。したがって、一般的な ROC 曲線は両極の中間にあります。

理論的には、ROC 曲線上の（0.0,1.0）に最も近いポイントが理想的な分類しきい値を識別します。ただし、理想的な分類しきい値の選択には、他にもいくつかの現実的な問題があります。たとえば、偽陰性は偽陽性よりもはるかに大きな問題を引き起こすことがあります。

AUCAUC という数値指標は、ROC 曲線を単一の浮動小数点値に要約したものです。

二乗平均平方根誤差（RMSE）

#fundamentals

平均二乗誤差の平方根。

S

シグモイド関数

#fundamentals

入力値を制約された範囲（通常は 0 ～ 1 または -1 ～+1）に「押しつぶ」する数学関数。つまり、任意の数（2、100 万、負の 10 億など）をシグモイドに渡すことができ、出力は引き続き制約された範囲内になります。シグモイド活性化関数のプロットは次のようになります。

ML におけるシグモイド関数は、次のような用途があります。

ロジスティック回帰または多項回帰モデルの生の出力を確率に変換する。

一部のニューラルネットワークで活性化関数として機能する。

アイコンをクリックすると計算が表示されます。

入力数値 x に対するシグモイド関数は次のようになります。

$$ sigmoid(x) = \frac{1}{1 + e^{-\text{x}}} $$

ML では通常、x は加重合計です。

Softmax

#fundamentals

マルチクラス分類モデルに含まれる可能性のある各クラスの確率を決定する関数。確率は合計で 1.0 になりますたとえば、次の表は、ソフトマックスがさまざまな確率を分散する方法を示しています。

画像は... 確率

犬 0.85

猫 0.13

馬 0.02

ソフトマックスは「完全ソフトマックス」とも呼ばれます。

候補のサンプリングとは対照的です。

アイコンをクリックすると計算が表示されます。

ソフトマックスの式は次のとおりです。

$$\sigma_i = \frac{e^{\text{z}_i}} {\sum_{j=1}^{j=K} {e^{\text{z}_j}}} $$
ここで

$\sigma_i$ は出力ベクトルです。出力ベクトルの各要素は、この要素の確率を指定します。出力ベクトル内のすべての要素の合計は 1.0 です。出力ベクトルには、入力ベクトル $z$ と同じ数の要素が含まれます。

$z$ は入力ベクトルです。入力ベクトルの各要素には浮動小数点値が含まれます。

$K$ は、入力ベクトル（および出力ベクトル）の要素数です。

たとえば、入力ベクトルが次のようになっているとします。

[1.2, 2.5, 1.8]

したがって、ソフトマックスは次のように分母を計算します。

$$\text{denominator} = e^{1.2} + e^{2.5} + e^{1.8} = 21.552$$

したがって、各要素のソフトマックス確率は次のようになります。

$$\sigma_1 = \frac{e^{1.2}}{21.552} = 0.154 $$ $$\sigma_2 = \frac{e^{2.5}}{21.552} = 0.565 $$ $$\sigma_1 = \frac{e^{1.8}}{21.552} = 0.281 $$

したがって、出力ベクトルは次のようになります。

$$\sigma = [0.154, 0.565, 0.281]$$

$\sigma$ の 3 つの要素の合計は 1.0 です。さて、

スパースな特徴

#language

#fundamentals

値が主にゼロまたは空である特徴。たとえば、単一の 1 値と 100 万 0 値を含む特徴はスパースです。一方、高密度の特徴は、ゼロや空以外の値が大半を占めます。

ML では、かなりの数の特徴がスパースな特徴です。通常、カテゴリ特徴はスパースな特徴です。たとえば、森にある 300 種類の樹木のうち、1 つのサンプルでカエデの木だけを識別できます。動画ライブラリにある何百万本もの動画のうち、1 つの例で「カサブランカ」だけを識別することもあります。

モデルでは通常、ワンホットエンコーディングでスパースな特徴を表現します。ワンホットエンコードが大きい場合は、効率を高めるために、ワンホットエンコードの上にエンベディングレイヤを配置できます。

スパース表現

#language

#fundamentals

スパースな特徴にゼロ以外の要素の位置のみを格納します。

たとえば、species という名前のカテゴリ特徴によって、特定の森林の 36 種の樹木が識別されたとします。さらに、各例が 1 つの種のみを識別すると仮定します。

各サンプルの樹種を表すために、ワンホットベクトルを使用できます。ワンホットベクトルには、1 つの 1（この例の特定の樹種を表す）と 35 の 0（この例には含まれていない 35 の樹種を表す）が含まれます。そのため、maple のワンホット表現は次のようになります。

または、スパース表現では単に特定の種の位置を識別します。maple が位置 24 にある場合、maple のスパース表現は次のようになります。

24

スパース表現は、ワンホット表現よりもはるかに簡潔です。

注: スパース表現を、モデルに直接特徴入力として渡さないでください。代わりに、トレーニング前にスパース表現をワンホット表現に変換する必要があります。

アイコンをクリックすると、もう少し複雑な例が表示されます。

モデル内の各例が、英語の文において、単語の順序ではなく単語を表す必要があるとします。英語は約 170,000 単語で構成されているため、英語は約 170,000 要素を持つカテゴリ特徴量です。ほとんどの英語の文では 170,000 単語のごく一部が使用されているため、1 つの例に含まれる単語セットはほぼ間違いなくスパースなデータになります。

次の文について考えてみましょう。

My dog is a great dog

この文の単語を表すために、ワンホットベクトルのバリエーションを使用できます。このバリアントでは、ベクトル内の複数のセルにゼロ以外の値を含めることができます。さらに、このバリアントでは、セルに 1 以外の整数を含めることができます。「my」、「is」、「a」、「great」という単語は 1 回だけですが、「dog」は 2 回出現しています。このワンホットベクトルのバリエーションを使用してこの文の単語を表現すると、次の 170,000 要素ベクトルが得られます。

同じ文のスパース表現は、単純に次のようになります。

0: 1 26100: 2 45770: 1 58906: 1 91520: 1

よくわからない場合は、アイコンをクリックします。

「スパース表現」という用語は多くの人々を混乱させます。スパース表現自体がスパースベクトルではないからです。スパース表現は、実際にはスパースベクトルの密表現です。同義語のインデックス表現は、「スパース表現」よりも少し明確になります。

スパースベクトル

#fundamentals

値がほぼ 0 のベクトル。スパースな特徴とスパース性もご覧ください。

二乗損失

#fundamentals

L₂ 損失と同義です。

static

#fundamentals

なんらかの処理が連続的ではなく 1 回実行されること。静的とオフラインという用語は同義語です。ML における静的とオフラインの一般的な使用方法は次のとおりです。

静的モデル（またはオフラインモデル）は、一度トレーニングされた後、しばらく使用されるモデルです。

静的トレーニング（またはオフライントレーニング）は、静的モデルをトレーニングするプロセスです。

静的推論（またはオフライン推論）は、モデルが一度に予測のバッチを生成するプロセスです。

[動的] と対比します。

静的推論

#fundamentals

オフライン推論と同義です。

定常性

#fundamentals

値が 1 つ以上のディメンション（通常は時間）にわたって変化しない特徴。たとえば、2021 年と 2023 年の値がほぼ同じである特徴は、定常性を示します。

実際には、静止している特徴はほとんどありません。安定性と同義の特徴（海面など）でさえも、時間の経過とともに変化します。

非定常性と対比してください。

確率的勾配降下法（SGD）

#fundamentals

バッチサイズが 1 の勾配降下法アルゴリズム。つまり、SGD はトレーニングセットから均一にランダムに選択された 1 つのサンプルを使用してトレーニングを行います。

教師あり機械学習

#fundamentals

modelとそれに対応するmodelからモデルmodelをトレーニングする。教師あり ML は、一連の質問とそれに対応する回答を調べて主題を学ぶことに似ています。質問と回答の対応付けをマスターすると、生徒は同じトピックに関する未知の新しい質問に対して回答できるようになります。

教師なし機械学習と比較してください。

合成特徴

#fundamentals

入力特徴の中に存在しないが、1 つ以上の特徴から組み立てられた特徴。合成特徴を作成する方法は次のとおりです。

連続する特徴を範囲ビンにバケット化する。

特徴クロスを作成する。

1 つの特徴値と他の特徴値との乗算（または除算）、または単独で。たとえば、a と b が入力特徴である場合、合成特徴の例を次に示します。

ab

a²

超越関数を特徴値に適用する。たとえば、c が入力特徴の場合、合成特徴の例を次に示します。

sin(c)

ln(c)

正規化またはスケーリングのみで作成された特徴は合成特徴とはみなされません。

T

テスト損失

#fundamentals

テストセットに対するモデルの損失を表す指標。モデルmodelを構築する場合、通常はテストの損失を最小限に抑えるようにします。これは、トレーニングの損失や検証の損失が低い場合よりも、テスト損失が低いほど品質シグナルが強いためです。

テストの損失とトレーニングの損失または検証の損失との間に大きなギャップがある場合は、正則化率を増やす必要がある可能性があります。

トレーニング

#fundamentals

モデルを構成する理想的なパラメータ（重みとバイアス）を決定するプロセス。トレーニング中、システムは例を読み取り、徐々にパラメータを調整します。トレーニングでは、各例が数回から数十億回まで使用されます。

トレーニングの損失

#fundamentals

特定のトレーニングのイテレーションにおけるモデルの損失を表す指標。たとえば、損失関数が「平均二乗誤差」であるとします。10 回目の反復処理のトレーニング損失（平均二乗誤差）は 2.2 で、100 回目の反復処理のトレーニング損失は 1.9 であるとします。

損失曲線は、トレーニングの損失と反復処理の回数をプロットします。損失曲線から、トレーニングに関する次のヒントが得られます。

傾きが下がっている場合は、モデルが改善していることを意味します。

傾きが上向きであれば、モデルが悪化していることを意味します。

傾きがフラットであれば、モデルが収束に達したことを意味します。

たとえば、次のやや理想的な損失曲線は次のようになります。

最初の反復処理で急激な下降傾向が見られる。これは、モデルの迅速な改善を意味します。

トレーニングの終了近くまで徐々に平坦化する（ただし、まだ下降傾向にある）。これは、最初の反復処理時よりもやや遅いペースでモデルの改善が継続されることを意味します。

トレーニングの終盤に向かって平坦な勾配。収束を示唆している。

トレーニングの損失は重要ですが、一般化もご覧ください。

トレーニングサービングスキュー

#fundamentals

トレーニング中のモデルのパフォーマンスと、同じモデルのサービング中のパフォーマンスの差。

トレーニングセット

#fundamentals

モデルのトレーニングに使用されるデータセットのサブセット。

従来、データセット内の例は、次の 3 つの異なるサブセットに分割されます。

トレーニングセット

検証セット

テストセット

理想的には、データセット内の各サンプルは、前述のサブセットの 1 つのみに属している必要があります。たとえば、1 つのサンプルがトレーニングセットと検証セットの両方に属してはなりません。

真陰性（TN）

#fundamentals

モデルが陰性クラスを正しく予測する例。たとえば、モデルは特定のメールメッセージは迷惑メールではないと推論し、そのメールメッセージは実際には迷惑メールではないと推測します。

真陽性（TP）

#fundamentals

モデルが陽性クラスを正しく予測する例。たとえば、モデルは特定のメールメッセージが迷惑メールであると推測し、そのメールメッセージは実際には迷惑メールであると推測します。

真陽性率（TPR）

#fundamentals

recall と同義です。具体的には、次のことが求められます。

$$\text{true positive rate} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}}$$

真陽性率は ROC 曲線の y 軸です。

U

学習不足

#fundamentals

モデルがトレーニングデータの複雑さを完全にキャプチャしていないため、予測能力が低いモデルmodelを作成する。学習不足を引き起こす可能性のある問題には次のようなものがあります。

間違った特徴のセットでトレーニングする。

エポックが少なすぎるか、学習率が低すぎる場合。

正則化率が高すぎるトレーニング。

ディープニューラルネットワークにおける隠れ層が少なすぎる。

ラベルなしの例

#fundamentals

特徴量を含むが、ラベルを含まない例。たとえば、次の表は、住宅評価モデルの 3 つの例を示しています。それぞれに 3 つの特徴がありますが、住宅価格はありません。

寝室の数浴室数住宅の年数

3 2 15

2 1 72

4 2 34

教師あり ML では、モデルはラベル付きサンプルでトレーニングし、ラベルなしサンプルで予測を行います。

半教師あり学習と教師なし学習では、トレーニング中にラベルなしのサンプルが使用されます。

ラベルのないサンプルとラベル付きのサンプルを対比してください。

教師なし ML

#clustering

#fundamentals

モデルmodelをトレーニングして、データセット（通常はラベルのないデータセット）内のパターンを見つけます。

教師なし ML の最も一般的な用途は、データを類似したサンプルのグループにクラスタ化することです。たとえば、教師なし機械学習アルゴリズムでは、音楽のさまざまな特性に基づいて曲をクラスタ化できます。生成されたクラスタは、他の ML アルゴリズム（音楽レコメンデーションサービスなど）への入力として使用できます。クラスタリングは、有用なラベルが不足している場合、または存在しない場合に役立ちます。たとえば、不正使用対策や不正行為などのドメインでは、クラスタが人間によるデータの理解を深めるのに役立ちます。

教師あり ML と対比します。

アイコンをクリックすると、追加のメモが表示されます。

教師なし ML の別の例として、主成分分析（PCA）があります。たとえば、数百万のショッピングカートの内容を含むデータセットに PCA を適用すると、レモンが入ったショッピングカートにも制酸薬が含まれていることが多いことがわかります。

V

排除できます。

#fundamentals

モデルの品質の初期評価。検証では、モデルの予測の品質を検証セットと照らし合わせて確認します。

検証セットはトレーニングセットと異なるため、検証で過学習を防ぐことができます。

検証セットに照らしてモデルを評価する 1 回目のテストで、テストセットに照らしてモデルを評価すると、2 回目のテストと考えることができます。

検証損失

#fundamentals

トレーニングの特定の反復処理における検証セットに対するモデルの損失を表す指標。

一般化曲線もご覧ください。

検証セット

#fundamentals

トレーニング済みのモデルに対して初期評価を行うデータセットのサブセット。通常、トレーニング済みのモデルを検証セットに照らして評価してから、テストセットでモデルを評価します。

従来は、データセットのサンプルを次の 3 つの異なるサブセットに分割していました。

トレーニングセット

検証セット

テストセット

理想的には、データセット内の各サンプルは、前述のサブセットの 1 つのみに属している必要があります。たとえば、1 つのサンプルがトレーニングセットと検証セットの両方に属してはなりません。

W

weight

#fundamentals

モデルに別の値を乗算する値。トレーニングは、モデルの理想的な重みを決定するプロセスです。推論は、学習した重みを使用して予測を行うプロセスです。

アイコンをクリックすると、線形モデルの重みの例が表示されます。

2 つの特徴を持つ線形モデルがあるとします。トレーニングで次の重み（およびバイアス）が決定されたとします。

バイアス b の値は 2.2 です。

1 つの特徴に関連付けられた重み w₁ は 1.5 です。

もう一方の対象物に関連付けられた重み w₂ は 0.4 です。

次の特徴値を持つ例を考えてみます。

1 つの特徴の値 x₁ は 6 です。

もう一方の特徴の値 x₂ は 10 です。

この線形モデルは、次の式を使用して予測 y' を生成します。

$$y' = b + w_1x_1 + w_2x_2$$

したがって、予測は次のようになります。

$$y' = 2.2 + (1.5)(6) + (0.4)(10) = 15.2$$

重みが 0 の場合、対応する特徴はモデルに影響しません。たとえば、w₁ が 0 の場合、x₁ の値は無関係です。

加重合計

#fundamentals

関連するすべての入力値に、対応する重み付けを掛けた合計。たとえば、関連する入力が以下で構成されているとします。

入力値入力重み

2 -1.3

-1 0.6

3 0.4

加重合計は次のようになります。

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

加重合計は、活性化関数の入力引数です。

Z

Z スコアの正規化

#fundamentals

未加工の特徴値を、その特徴の平均からの標準偏差の数を表す浮動小数点値に置き換えるスケーリング手法。たとえば、平均が 800 で標準偏差が 100 の特徴について考えてみましょう。次の表は、Z スコアの正規化によって未加工の値が Z スコアにどのようにマッピングされるかを示しています。

未加工の値 Z スコア

800 0

950 +1.5

575 -2.25

ML モデルは、未加工の値ではなく、その特徴の Z スコアでトレーニングします。

機械学習用語集: ML の基礎

A

accuracy

アイコンをクリックすると、追加のメモが表示されます。

活性化関数

アイコンをクリックすると例が表示されます。

意思決定の

AUC（ROC 曲線の下の面積）

アイコンをクリックすると、AUC 曲線と ROC 曲線の関係が表示されます。

アイコンをクリックすると、AUC のより正式な定義が表示されます。

B

誤差逆伝播法

batch

バッチサイズ

バイアス（倫理/公平性）

バイアス（数学）またはバイアス項

バイナリ分類

バケット化

アイコンをクリックすると、追加のメモが表示されます。

C

カテゴリデータ

クラス

分類モデル

分類しきい値

アイコンをクリックすると、追加のメモが表示されます。

クラス不均衡なデータセット

クリッピング

混同行列

連続的な特徴

収束

D

DataFrame

データセットまたはデータセット

ディープモデル

密な特徴

深さ

離散特徴

動的

動的モデル

E

早期停止

アイコンをクリックすると、追加のメモが表示されます。

Embedding レイヤ

エポック

説明します

F

偽陰性（FN）

偽陽性（FP）

偽陽性率（FPR）

特徴；特徴表現

特徴クロス

２つのステップが含まれます

アイコンをクリックすると、TensorFlow に関する追加情報が表示されます。

機能セット

特徴ベクトル

フィードバック ループ

1 階

一般化

アイコンをクリックすると、追加のメモが表示されます。

一般化曲線

勾配降下法

正解

アイコンをクリックすると、追加のメモが表示されます。

H

隠れ層

ハイパーパラメータ

I

独立同分布（i.i.d）

推論

入力レイヤ

解釈可能性

繰り返し

L

L0 正則化

アイコンをクリックすると、追加のメモが表示されます。

L1 損失

アイコンをクリックすると正式な数式が表示されます。

L1 正則化

L2 損失

アイコンをクリックすると正式な数式が表示されます。

フィードバックループ

L₀ 正則化

L₁ 損失

L₁ 正則化

L₂ 損失

L₂ 正則化

ニューラルネットワークの

ノード（ニューラルネットワーク）

ワンホットエンコーディング