機械学習の用語集

この用語集では、ML の一般的な用語を定義し、 用語について説明します。

A

アブレーション

特徴の重要性を評価する手法 またはコンポーネントをモデルから一時的に削除します。その後、 特徴やコンポーネントなしでモデルを再トレーニングする。また、再トレーニングされたモデルが 削除された機能やコンポーネントが 重要だと考えられます。

たとえば、30 秒の 分類モデル 88% の適合率を達成し、 テストセット重要 別の 9 個の特徴だけを使ってモデルを再トレーニングできます。 説明します。再トレーニングされたモデルのパフォーマンスが大幅に低下した場合(たとえば、 55% の精度だった)の場合、削除された特徴はおそらく重要でした。逆に 再トレーニングしたモデルのパフォーマンスが同程度であれば、その特徴はおそらく それほど重要ではありません

アブレーションは以下の重要性を判断するのにも役立ちます。

  • 大規模なコンポーネント(大規模な ML システムのサブシステム全体など)
  • データ前処理ステップなどのプロセスまたは手法

どちらの場合も、システムのパフォーマンスの変化(つまり、 変化しない)が表示されます。

A/B テスト

2 つ(またはそれ以上)の手法を比較する統計的手法( 通常、A は既存の手法であり、 B は新しい手法です。 A/B テストでは、どの手法のパフォーマンスが優れているかが判明するだけでなく、 差に統計的有意性があるかどうかも確認します

A/B テストでは通常、1 つの指標を 2 つの手法で比較します。 たとえば、2 つのモデルの accuracy を比較し、 手法は?ただし、A/B テストでは、 できます。

アクセラレータ チップ

#GoogleCloud

重要な機能を実行するように設計された特殊なハードウェア コンポーネントのカテゴリ ディープ ラーニング アルゴリズムに必要な計算量を削減できます。

アクセラレータ チップ(または単にアクセラレータ)を使用すると、 トレーニング タスクと推論タスクの速度と効率を向上させる 汎用 CPU と比較した場合です。トレーニングに最適なモデルであり コンピューティング負荷の高い同様のタスクに 適しています

アクセラレータ チップの例:

  • 専用ハードウェアを備えた Google の Tensor Processing Unit(TPU) ディープ ラーニングに使用しています。
  • NVIDIA の GPU でもあります 並列処理を可能にするように設計されているため、 処理速度を上げることができます

accuracy

#fundamentals

正しい分類予測の数で割った値 割った数値です具体的には、次のことが求められます。

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

例: 正解が 40、不正解が 10 のモデルが 精度:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

バイナリ分類では特定の名前が付けられる さまざまなカテゴリの正しい予測不正確な予測。バイナリ分類の精度式は、 内容は次のとおりです。

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

ここで

  • TP は真陽性(正しい予測)の数です。
  • TN は、真陰性(正しい予測)の数です。
  • FP は偽陽性(誤った予測)の数です。
  • FN は偽陰性(誤った予測)の数です。

2 つのモデルの精度を比較対照する precisionrecall

分類: 精度、再現率、適合率、関連 指標 をご覧ください。

アクション

#rl

強化学習では、 エージェントが 入力シーケンスの状態間の遷移を environment。エージェントは、以下を使用してアクションを選択します。 policy

活性化関数

#fundamentals

ニューラル ネットワークが学習できるようにする機能 特徴間のnonlinear(複雑な)関係 学習します。

よく使用される活性化関数は次のとおりです。

活性化関数のプロットは、一本の直線ではありません。 たとえば、ReLU 活性化関数のプロットは次の要素で構成されます。 2 本の直線:

2 本の直線のデカルト プロット。最初の行には定数が
          x 軸に沿って -infinity,0 から 0,-0 までの y 値が 0。
          2 行目は 0,0 から始まります。この線の傾きは +1 なので、
          0,0 から +infinity,+infinity まで続きます。

シグモイド活性化関数のプロットは次のようになります。

領域をまたがる x 値を持つ 2 次元の曲線プロット
          - 無限大から + 正までの範囲で、y 値はほぼ 0 から正
          ほぼ 1 です。x が 0 の場合、y は 0.5 です。曲線の傾きは常に
          正の値で、最大傾きは 0.0.5 で、徐々に減少する
          x の絶対値が大きくなるにつれて傾きが小さくなります。

ニューラル ネットワーク: 活性化をご覧ください。 関数 をご覧ください。

アクティブ ラーニング

トレーニング アプローチでは、 アルゴリズムが学習に使用したデータの一部を選択します。能動的学習 ラベル付きの例がある場合は特に有用です。 入手するのは困難または高価ですやみくもに多様な情報を探し求めるのではなく、 ラベル付きサンプルの範囲を定め、アクティブ ラーニング アルゴリズムは 学習に必要な特定の範囲のサンプルを示します。

AdaGrad

モデルを再スケーリングする洗練された勾配降下アルゴリズムが 各パラメータの勾配を使用して、各パラメータを実質的に 独立した学習率。詳しくは、 こちらの AdaGrad の論文をご覧ください。

エージェント

#rl

強化学習では、 エンティティです。 お客様の期待する収益を最大化するためのポリシーを策定し、 インフラストラクチャの状態間の environment

より一般的には、エージェントは、アプリケーション コードを自律的に計画し、実行するソフトウェアです。 目標を追求する一連のアクションと、変化に対応する能力 確認できます。たとえば、LLM ベースのエージェントは、 強化学習ポリシーを適用するのではなく、LLM を使用して計画を生成。

集約的クラスタリング

#clustering

階層型クラスタリングをご覧ください。

異常検出

外れ値を特定するプロセス。たとえば、平均値と ある特徴の標準偏差が 10 で 100 である 異常検出で値 200 に不審な点が報告されます。

AR

拡張現実の略語。

PR 曲線の下の面積

PR AUC(PR 曲線の下の領域)をご覧ください。

ROC 曲線の下の面積

AUC(ROC 曲線の下の領域)をご覧ください。

AI 全般

幅広い問題解決能力を提供する、人間に頼らないメカニズム 創造性、適応性ですたとえば、人工ニューラル 一般的なインテリジェンスは、テキストの翻訳、交響曲の作曲、 未知のゲームが登場します

人工知能

#fundamentals

高度なタスクを解決できる、人間以外のプログラムまたはモデル。 たとえば、テキストを翻訳するプログラムまたはモデル、あるいは AI によって示された放射線画像から疾患を特定します。

ML は、正式には AI の一分野である インテリジェンスです。しかし近年、一部の組織では、 「AI」と「ML」を同じ意味で使用します。

Attention、

#language

ニューラル ネットワークで使用されるメカニズムのひとつで、 特定の単語や単語の一部の重要性を示します。Attention は モデルが次のトークン/単語を予測するために必要な情報量。 典型的なアテンション機構は、 一連の入力に対する加重合計です。ここで、 各入力の重みは、 ニューラル ネットワークです。

セルフ アテンションマルチヘッド セルフ アテンション: Transformer の構成要素。

LLM: 大規模言語とは どうでしょうか。 ML 集中講座をご覧ください。

属性

#fairness

機能と同義。

ML の公平性において、属性は多くの場合、 個人に関する特性を指します。

属性サンプリング

#df

ディシジョン フォレストをトレーニングする戦術では、 ディシジョン ツリーでは、候補のうち、 特徴条件を学習する場合) 通常、特徴のサブセットは、モデルごとに node。一方、ディシジョン ツリーをトレーニングする場合は、 属性サンプリングを使用しない場合、ノードごとに考えられるすべての特徴が考慮されます。

AUC(ROC 曲線の下の面積)

#fundamentals

0.0 から 1.0 までの数字は、 バイナリ分類モデルの 正のクラスを分離する機能 ネガティブ クラス。 AUC が 1.0 に近いほど、モデルの 分離します。

たとえば、次の図は分類モデルを示しています。 正のクラス(緑の楕円)と負のクラスを分離する 完全にクエリできましたこの非現実的な完璧なモデルは AUC が 1.0 の場合:

片側に 8 つの正例がある数直線と、
          反対側に 9 つのネガティブ サンプルがあります。

逆に、次の図は分類器の結果を示しています。 モデルを定義します。このモデルの AUC は 0.5 です。

6 つの正例と 6 つの負例からなる数直線。
          サンプルの順序は、ポジティブ、ネガティブ、
          ポジティブ、ネガティブ、ポジティブ、ネガティブ、ポジティブ、ネガティブ、ポジティブ
          ネガティブ、ポジティブ、ネガティブです

はい。前のモデルの AUC は 0.5 です。0.0 ではありません。

ほとんどのモデルは、この 2 つの極端な中間にあります。たとえば、 陽性と陰性をある程度区別するため、 AUC が 0.5 ~ 1.0 の範囲内にある場合:

6 つの正例と 6 つの負例からなる数直線。
          ネガティブ、ネガティブ、ネガティブ、ネガティブ、
          ポジティブ、ネガティブ、ポジティブ、ポジティブ、ネガティブ、ポジティブ、ポジティブ、
          評価します

AUC では、 分類しきい値。AUC は は、可能性のあるすべての分類しきい値を考慮します。

分類: ROC と AUC をご覧ください。

拡張現実

#image

ユーザーが見ている画像に、コンピュータで生成した画像を重ね合わせる技術 複合ビューが得られます

オートエンコーダ

#language
#image

最も重要な情報を抽出することを学習する 表示されます。オートエンコーダは、エンコーダdecoder。オートエンコーダは次の 2 段階のプロセスに依存します。

  1. エンコーダは、入力を(通常は)損失の多い低次元の (中級)形式にします。
  2. デコーダは、元の入力の非可逆バージョンを、 低次元の形式を元の高次元の形式に変換できます。 できます。

オートエンコーダは、デコーダにシーケンスを エンコーダの中間形式から元の入力を再構築する できる限り近い位置に集計します中間形式はサイズが小さいため (低次元)である場合、オートエンコーダは 入力のどの情報が必須であるかを学習し、出力は 入力と完全に同じになります。

例:

  • 入力データがグラフィックの場合、正確なコピーは 若干変更されています。おそらく、 元の画像からノイズを取り除いたり、画像を塗りつぶしたりします。 ドット抜けがあります
  • 入力データがテキストの場合、オートエンコーダは、入力内容に基づいて 元のテキストを模倣している(同じではありません)

変分オートエンコーダもご覧ください。

自動化バイアス

#fairness

人間の意思決定者が、自動システムによる推奨を好む場合 情報に基づいた意思決定システムを実現し、 自動意思決定システムでエラーが発生したとき

公平性: バイアス をご覧ください。

AutoML

ML を構築するための自動プロセス モデル。AutoML は、次のようなタスクを自動的に実行できます。

AutoML はデータ サイエンティストの時間を節約し、 ML パイプラインの開発に多くの労力を費やし 向上しますまた、複雑な構成になるため、専門家でなく ML タスクをより身近なものにします。

自動マシン 学習(AutoML) をご覧ください。

自己回帰モデル

#language
#image
#generativeAI

独自の過去のモデルに基づいて予測を推測するモデル 説明します。たとえば、自己回帰言語モデルは、 トークン: 以前に予測されたトークンに基づきます。 すべて Transformer ベース 大規模言語モデルは自己回帰的です。

対照的に、GAN ベースの画像モデルは通常、自己回帰的ではない 反復処理ではなく、単一のフォワードパスで画像を生成するため できます。ただし、特定の画像生成モデルは自己回帰的です。 段階的に画像を生成します。

予備損失

損失関数 - 関数 ニューラル ネットワーク モデルのメイン トレーニング中にトレーニングを加速させるのに役立つ 初期反復処理を自動化します。

補助損失関数が有効な勾配を push する 前の layers に戻しました。これにより トレーニング中の収束 勾配消失問題に対処する方法を紹介します。

平均適合率

ランク付けされた一連の結果のパフォーマンスを要約するための指標。 平均適合率は、トレーニングデータから 関連する各結果に対する適合率値(各結果は 前の結果と比較して再現率が向上するランキング リスト)。

PR 曲線の下の面積もご覧ください。

軸に揃えられた条件

#df

ディシジョン ツリー条件 単一の特徴のみを含むもの。たとえば、 が特徴の場合、以下は軸に揃えられた条件です。

area > 200

傾斜条件」も参照してください。

B

誤差逆伝播法

#fundamentals

実装するアルゴリズムは、 勾配降下法 ニューラル ネットワーク

ニューラル ネットワークのトレーニングには多数の反復が必要 次の 2 段階のサイクルで行われます。

  1. フォワード パス中に、システムは次のバッチ : 予測を生成します。システムは各トークンを 予測を各ラベル値に付加します。違いは、 予測とラベル値はその例の損失です。 システムはすべてのサンプルの損失を集計して、合計値を計算します。 現在のバッチの損失です
  2. バックワード パス(バックプロパゲーション)の間は、損失が すべてのニューロンの重みを 非表示レイヤ

多くの場合、ニューラル ネットワークは多くの隠れ層にまたがって多くのニューロンを含んでいます。 これらのニューロンはそれぞれ、異なる形で全体的な損失に寄与しています。 誤差逆伝播法により重みの増減 適用できます。

学習率は、学習率を 各バックワード パスが各重みを増減する度合い。 学習率を大きくすると、各重みは 学習します。

計算では、誤差逆伝播法は チェーンルール。 微積分学から得られたものですつまり、誤差逆伝播法では 誤差の偏導関数 指定することもできます

数年前、ML の実務担当者は誤差逆伝播法を実装するためのコードを記述する必要がありました。 Keras などの最新の ML API では、誤差逆伝播法が実装されています。さて、

ニューラル ネットワークをご覧ください。 をご覧ください。

バギング

#df

アンサンブルトレーニングするためのメソッドで、 構成要素のモデルが、トレーニングのランダムなサブセットでトレーニングされる 置換でサンプリングされた例。 たとえば、ランダム フォレストは、 バギングでトレーニングされたディシジョン ツリー

バギングという用語は、ブートストラップ アグリゲーションの短縮形です。

ランダム フォレストをご覧ください。 「デシジョン フォレスト」コースをご覧ください。

言葉のバッグ

#language

フレーズやパッセージ内の単語の表現 表示されます。たとえば、bag of words という単語は、 次の 3 つのフレーズを同じように検索します。

  • 犬がジャンプする
  • 犬をジャンプさせる
  • 犬がジャンプする

各単語はスパース ベクトルのインデックスにマッピングされます。 ベクトルには語彙内のすべての単語に対するインデックスがある。たとえば 「the dog jumps」というフレーズが、ゼロ以外の特徴ベクトルにマッピングされます。 単語 the、および ジャンプ:ゼロ以外の値は次のいずれかです。

  • 1 の場合は単語の存在を示します。
  • バッグの中に単語が出現する回数。たとえば フレーズがマルーンの犬はマルーンの毛皮の犬であるの場合、両方 マルーンは 2 と表され、他の単語は以下のように表現されます。 表します。
  • その他の値(特定のイベントに対する数のカウントの対数など) 出現回数をカウントします。

ベースライン

モデルのパフォーマンスを比較するための基準点として使用されるモデル パフォーマンス データを確認できます。たとえば、 ロジスティック回帰モデルディープモデルのベースラインとして最適です。

ベースラインを使用すると、モデル開発者は特定の問題に対して 新しいモデルに対して新しいモデルで達成しなければならない最低限の期待パフォーマンス 有用とは言えません

batch

#fundamentals

1 回のトレーニングで使用されるのセット iterationバッチサイズにより、 使用します。

バッチがエポックの関係の詳細については、エポックをご覧ください。 示されます。

線形回帰: ハイパーパラメータ をご覧ください。

バッチ推論

#TensorFlow
#GoogleCloud

複数の予測結果の予測 ラベルなしのサンプルを小さなサイズに分割 使用します。

バッチ推論では、BigQuery の並列化機能を アクセラレータ チップ。つまり、複数のアクセラレータ、 ラベルなしデータの異なるバッチで同時に予測を推測できる 1 秒あたりの推論の数が大幅に増加しています。

本番環境 ML システム: 静的と動的 推論 をご覧ください。

バッチ正規化

トレーニング データの入力または出力を正規化し、 活性化関数隠れ層。バッチ正規化では、 次のような利点があります

バッチサイズ

#fundamentals

バッチ内のの数。 たとえば、バッチサイズが 100 の場合、モデルは イテレーションあたり 100 の例。

一般的なバッチサイズ戦略は次のとおりです。

  • Stochastic Gradient Descent(SGD)。バッチサイズは 1 です。
  • フルバッチ。バッチサイズは、全体のサンプル数です。 トレーニング セット。たとえば、トレーニング セットが 100 万個の例が含まれる場合、バッチサイズは 100 万個になります。 説明します。フルバッチは通常、非効率的な戦略です。
  • ミニバッチ。バッチサイズは通常 10 と 1,000 です。ミニバッチは通常、最も効率的な戦略です。

詳しくは以下をご覧ください。

ベイズ ニューラル ネットワーク

次のことを考慮する確率的ニューラル ネットワーク 重みと出力の不確実性。標準的なニューラル ネットワークは、 回帰モデルは通常、スカラー値を予測します。 たとえば、標準モデルは住宅の価格を予測し、 853,000 人です。対照的に、ベイズ ニューラル ネットワークは、 値。たとえば、ベイジアン モデルでは住宅価格が 853,000 67,200 の標準偏差です。

ベイズ ニューラル ネットワークは <ph type="x-smartling-placeholder"></ph> ベイズ定理 重みと予測の不確実性を計算できますベイズニューラル 不確実性を定量化することが重要な場合に役立ちます。 分析することにしましたベイズ ニューラル ネットワークも 過学習を防ぐ。

ベイズ最適化

確率的回帰モデル コンピューティング コストの上昇を 目的関数(サロゲートを最適化) これは、ベイズ学習の手法を使用して不確実性を定量化したものです。以降 ベイズ最適化自体にもコストがかかり、通常は最適化に使用される 評価にコストがかかるタスクで、パラメータの数が少なく、 ハイパーパラメータを選択する。

ベルマン方程式

#rl

強化学習では、最適解で次のアイデンティティが Q 関数:

\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]

強化学習アルゴリズムは、 次の更新ルールで Q-learning を作成します。

\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]

ベルマン方程式は強化学習以外にも応用できる 動的プログラミングです。詳しくは、 <ph type="x-smartling-placeholder"></ph> ベルマン方程式に関する Wikipedia のエントリ。

BERT(双方向エンコーダ) Transformers による表現)

#language

テキスト表現のモデル アーキテクチャ。トレーニング済みの BERT モデルは、テキスト分類用の大規模なモデルの一部として機能できます。 学習します

BERT には次の特徴があります。

BERT の亜種は次のとおりです。

  • ALBERT これは A L BERT の頭字語です。
  • LaBSE
で確認できます。

オープン ソーシング BERT: 自然言語向けの最先端の事前トレーニングをご覧ください。 処理中 をご覧ください。

バイアス(倫理/公平性)

#fairness
#fundamentals

1. 固定観念、偏見やえこひいき 表示することもできます。これらのバイアスは、データ収集や データの解釈、システムの設計、ユーザーとの 考えることができますこのタイプのバイアスには、次のようなものがあります。

2. サンプリングまたは報告手順によって生じる体系的なエラー。 このタイプのバイアスには、次のようなものがあります。

ML モデルのバイアス項と混同しないでください。 または予測バイアス

公平性: バイアス ML 集中講座をご覧ください。

バイアス(数学)またはバイアス項

#fundamentals

原点からの切片またはオフセット。バイアスは モデルです。このアイコンは、名前が 次のとおりです。

  • b
  • W0

たとえば、バイアスは次の式の b です。

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

2 次元の単純な直線では、バイアスは単に「y 切片」を意味します。 たとえば、次の図の線のバイアスは 2 です。

傾きが 0.5、バイアス(y 切片)が 2 の直線のプロット。

すべてのモデルが原点(0,0)から始まるわけではないため、バイアスが発生します。たとえば 遊園地への入場料は 2 ユーロで、 お客様の滞在 1 時間あたり 0.5 ユーロ。したがって、モデルにラベル 最も低いコストは 2 ユーロであるため、総コストのバイアスは 2 になります。

バイアスを倫理や公平性におけるバイアスと混同してはいけません または予測バイアス

線形回帰をご覧ください。 をご覧ください。

双方向

#language

先行するテキストを評価するシステムを表す用語 テキストのターゲット セクションのフォロー。これに対して 単方向システムのみ テキストのターゲット セクションの前のテキストを評価します。

たとえば、マスクされた言語モデルについて考えてみましょう。 確率分布関数で下線を表す単語の確率を 質問です。

あなたの _____ は何ですか?

単方向言語モデルでは、その確率のみに基づいて “What”、“is”、“the”という言葉で与えられる文脈で表現します。一方 双方向の言語モデルは、テキスト メッセージを使って「with」から「あなた」が モデルがより良い予測を生成するのに役立つ場合があります。

双方向言語モデル

#language

言語モデルは、特定の単語が出現する確率を 基づくテキストの抜粋で、特定のトークンが のテキスト。

バイグラム

#seq
#language

N=2 である N グラム

バイナリ分類

#fundamentals

分類タスクの一種で、 次の 2 つの相互に排他的なクラスのいずれかを予測します。

たとえば、次の 2 つの ML モデルは、それぞれが バイナリ分類:

  • メール メッセージが 「迷惑メール」(肯定的なクラス)または「迷惑メール以外」(除外クラス)です。
  • 医学的症状を評価し、患者が 特定の疾患(陽性クラス)を持っているか、ない あります。

一方、マルチクラス分類は、

ロジスティック回帰分類しきい値

分類をご覧ください。 をご覧ください。

バイナリ条件

#df

ディシジョン ツリー条件 通常は「はい」か「いいえ」の 2 つしかありません。 たとえば、バイナリ条件は次のとおりです。

temperature >= 100

ノンバイナリー条件」は、

条件の種類をご覧ください。 「デシジョン フォレスト」コースをご覧ください。

ビニング

バケット化と同義。

BLEU(Bilingual Evaluation Understudy)

#language

翻訳の品質を示す 0.0 ~ 1.0 のスコア (英語とロシア語など)。BLEU スコア 1.0 は完全な翻訳を示します。BLEU スコアが 0.0 の場合は ひどい訳です。

ブースト

一連のシンプルなコンセプトとモデルを繰り返し組み合わせた あまり正確でない分類器(「弱い」分類器と呼ばれます)を する(強力な分類器)を作成することです。 モデルの現在のサンプルの重み付けをします。 できます。

勾配ブースト決定 木? 「デシジョン フォレスト」コースをご覧ください。

境界ボックス

#image

画像内の領域を中心とする長方形の (x, y) 座標は、 下の画像の犬のように入力します。

ソファに座っている犬の写真。緑色の境界ボックス
          座標は左上の (275, 1271)、右下の座標は
          (2954, 2761) の座標が犬の身体に外接する

ブロードキャスト

行列数学演算のオペランドの形状を拡張して、 そのオペレーションと互換性のあるディメンション。たとえば 線形代数では、行列の加算演算で 2 つのオペランドが 同じ次元にする必要があります。そのため、シェイプの行列を追加することは ベクトル(m, n)を長さ n のベクトルに変換します。ブロードキャストにより、この操作は 長さ n のベクトルを形状 (m, n) の行列へと仮想的に展開します。 各列に同じ値を複製します。

たとえば、次のような定義の場合、線形代数では A と B は次元が異なるためです。

A = [[7, 10, 4],
     [13, 5, 9]]
B = [2]

ただし、ブロードキャストにより、B を仮想的に次のように拡張することで、操作 A+B が可能になります。

 [[2, 2, 2],
  [2, 2, 2]]

したがって、A+B は有効なオペレーションとなります。

[[7, 10, 4],  +  [[2, 2, 2],  =  [[ 9, 12, 6],
 [13, 5, 9]]      [2, 2, 2]]      [15, 7, 11]]

詳しくは、 NumPy でのブロードキャストをご覧ください。

バケット化、

#fundamentals

1 つの特徴を複数のバイナリ特徴に変換する 「バケット」と呼び、 通常は値の範囲に基づきます。切り取られた対象物は通常、 継続的な機能

たとえば、温度を 1 つのパラメータで表すのではなく、 連続浮動小数点特徴を使用して、特定の温度範囲を 次のような個別のバケットに分割できます。

  • 摂氏 10 度以下は「寒い」あります。
  • 摂氏 11 ~ 24 度は「温帯」になりますあります。
  • 摂氏 25 度以上は「暖かい」あります。

モデルは、同じバケット内のすべての値を同じように扱います。対象 たとえば、1322 という値はどちらも一時バケット内にあるため、 モデルは 2 つの値を同じように扱います。

数値データ: ビニング をご覧ください。

C

調整レイヤ

予測後の調整(通常は以下を考慮するため) 予測バイアス。調整された予測と 観測されたラベルセットの分布と一致している必要があります。

候補生成

#recsystems

最初に選択された推奨事項は、 レコメンデーション システム。たとえば、 10 万冊の書籍を販売する書店です。候補生成フェーズでは、 特定のユーザーに適した書籍のリスト(500 冊など)に絞ることもできます。しかし、 500 冊は多すぎてユーザーにおすすめできません。その後はより高価ですが レコメンデーション システムの各フェーズ(スコアリング再ランキングなど)です。 役立つことがあります。

詳細については、候補の生成 概要 をご覧ください。

受験者サンプリング

すべての確率分布の確率を計算するトレーニング時間の最適化 のラベル。たとえば、 ソフトマックス。ただし、ランダムな ネガティブラベルのサンプルです。たとえば、ラベル付きの例で、 「beagle」と「dog」の場合、候補サンプリングによって予測確率が計算されます。 および対応する損失項:

  • ビーグル
  • 残りの陰性クラス(cat、 「ロリポップ」、「フェンス」など)。

基本的な考え方は、 負のクラスは頻度の低いものから学習できる いる限りは負の補強が 正のクラスは常に適切な正のクラスになる これは確かに経験的に観測されたものです。

候補のサンプリングはトレーニング アルゴリズムよりも計算効率が高い すべての陰性クラスの予測を計算する、 陰性クラスの数が非常に多くなっています。

カテゴリデータ

#fundamentals

可能な値の特定のセットを持つ特徴量。たとえば traffic-light-state という名前のカテゴリ特徴を考えてみましょう。 次の 3 つの値のいずれかになります。

  • red
  • yellow
  • green

traffic-light-state をカテゴリ特徴として表すことで、 モデルは過去の情報を ドライバの動作に対する redgreenyellow のさまざまな影響。

カテゴリ特徴量は「カテゴリ特徴」とも呼ばれ 離散特徴

数値データは対照的です。

カテゴリ データ をご覧ください。

因果言語モデル

#language

単方向言語モデルと同義。

双方向言語モデルを参照して、 言語モデリングにおけるさまざまな方向性のアプローチを対比します。

centroid

#clustering

K 平均法によって決定されるクラスタの中心 k-median アルゴリズム。たとえば k が 3 の場合、 K 平均法または K 中央値アルゴリズムによって 3 つの重心が特定されます。

クラスタリング アルゴリズムをご覧ください。 をご覧ください。

セントロイド ベースのクラスタリング

#clustering

データを整理するクラスタリング アルゴリズムのカテゴリ 非階層クラスタに分割できます。K 平均法が最も広く、 セントロイドベースのクラスタリング アルゴリズムを使用します。

対比する階層型クラスタリング 学習します。

クラスタリング アルゴリズムをご覧ください。 をご覧ください。

Chain-of-Thought プロンプト

#language
#generativeAI

プロンプト エンジニアリングの手法: 大規模言語モデル(LLM)を使って、 一つひとつ解説しますたとえば、次のプロンプトについて考えてみましょう。 次の文に特に注意を払ってください。

0 から 60 までの自動車では、ドライバーが経験する G フォースはいくつありますか。 マイル/h 7 秒?関連するすべての計算を解答に表示します。

LLM のレスポンスは次のようになると考えられます。

  • 0、60、7 の値を代入して、一連の物理公式を表示する 適切な場所に配置する必要があります。
  • これらの数式を選択した理由と、さまざまな変数の意味を説明してください。

Chain-of-Thought プロンプトにより、LLM はすべての計算を実行せざるを得なくなります。 より正しい回答につながる可能性があります。さらに、Chain-of-Thought、 プロンプトにより、ユーザーは LLM の手順を調べて、 答えが合理的かどうかです

チャット

#language
#generativeAI

ML システムとやり取りされる内容。通常は 大規模言語モデル。 チャットの以前のやり取り (入力した内容と大規模言語モデルがどのように応答したか)が、 コンテキストに基づいて説明します。

chatbot は大規模言語モデルのアプリケーションです。

checkpoint

モデルのパラメータの状態をキャプチャするデータ。次のいずれかです。 トレーニング中または完了後に行われます。たとえば トレーニング中に 次のことが可能です。

  1. トレーニングを意図的に停止する、またはトレーニングを停止した結果として、 表示されます。
  2. チェックポイントをキャプチャします。
  3. 後で、別のハードウェアでチェックポイントを再読み込みします。
  4. トレーニングを再開する。
で確認できます。

クラス

#fundamentals

ラベルが属することができるカテゴリ。 例:

  • バイナリ分類モデルで、 「Spam」の 2 つのクラスを「Spam」と「Not Spam」にできます。
  • マルチクラス分類モデルの場合 犬種を識別する場合、クラスは プードルビーグルパグ、 といった具合です

分類モデルはクラスを予測します。 これに対して、回帰モデルは です。

分類をご覧ください。 をご覧ください。

分類モデル

#fundamentals

予測がクラスであるモデル。 たとえば、すべて分類モデルは次のとおりです。

  • 入力文の言語を予測するモデル(フランス語、スペイン語ですか? イタリア語?)。
  • 樹木の種類(Maple、オーク?Baobab など)?
  • 特定のクラスに対する陽性または陰性のクラスを予測するモデル 健康状態に関するものです。

これに対して、回帰モデルは数値を予測します。 です。

一般的な分類モデルには次の 2 種類があります。

分類しきい値

#fundamentals

バイナリ分類では、 元の数値を変換する 0 ~ 1 の数値で ロジスティック回帰モデル 陽性のクラスの予測に変換する またはネガティブ クラス。 分類しきい値は人間が選択する値ですが、 モデル トレーニングで選択された値ではありません。

ロジスティック回帰モデルは、0 ~ 1 の未加工の値を出力します。以下の手順を行います。

  • この未加工の値が分類しきい値を超える場合: 予測します。
  • この未加工の値が分類しきい値より小さい場合、 予測されます。

たとえば、分類しきい値が 0.8 であるとします。生の値が が 0.9 の場合、モデルは陽性のクラスと予測します。未加工の値が 0.7 の場合、モデルは陰性のクラスを予測します。

分類しきい値の選択は、分類のしきい値に 偽陽性偽陰性

しきい値と混同 マトリックス をご覧ください。

クラス不均衡なデータセット

#fundamentals

分類問題のデータセットで、単語の総数は 各クラスのラベルの数が大きく異なる。 たとえば、2 つのラベルを持つバイナリ分類データセットを考えてみましょう。 次のように分割されます。

  • 1,000,000 個のネガティブラベル
  • 10 個の陽性ラベル

負のラベルと正のラベルの比率は 100,000 対 1 なので、 クラス不均衡なデータセットです

一方、次のデータセットはクラス不均衡ではありません。理由は次のとおりです。 正のラベルに対する負のラベルの比率は比較的 1 に近い:

  • 517 個のネガティブラベル
  • 483 個の陽性ラベル

マルチクラス データセットはクラス不均衡になることもあります。たとえば、次のようになります。 マルチクラス分類データセットもクラス不均衡である 他の 2 つよりもはるかに多くの例があります。

  • クラス「green」のラベル 1,000,000 個
  • クラス「purple」のラベル: 200 個
  • クラス「orange」の 350 個のラベル

エントロピーマジョリティ クラス、 および少数派クラス

クリッピング

#fundamentals

次のようにすることで外れ値を処理する手法 次のいずれかまたは両方を選択できます。

  • 最大値を超える特徴値を削減する 最小しきい値まで下がります
  • 最小しきい値を下回る特徴値の増加 設定します。

たとえば、特定の特徴量の値の 0.5% 未満が 40 ~ 60 の範囲外ですこの場合は、以下のことができます。

  • 60(最大しきい値)を超えるすべての値をクリップして、ちょうど 60 にします。
  • 40(最小しきい値)未満のすべての値をクリップして、ちょうど 40 にします。

外れ値によってモデルが破損することがあり、場合によっては重みの原因となる オーバーフローしますまた、異常値によって、 accuracy などの指標。クリッピングは、 低減します。

勾配のクリッピング力 トレーニング中の指定範囲内の勾配値。

数値データ: 正規化 をご覧ください。

Cloud TPU

#TensorFlow
#GoogleCloud

マシンの高速化を目的として設計された専用のハードウェア アクセラレータ 学びます。

クラスタリング

#clustering

関連するのグループ化(特に 教師なし学習。すべての サンプルをグループ化すると、人間が必要に応じて各クラスタに意味を供給できます。

数多くのクラスタリング アルゴリズムが存在します。たとえば、K 平均法 近接性に基づいてサンプルをクラスタ化し、 セントロイド。次の図のようになります。

X 軸に「木の幅」、
          y 軸に樹木の高さのラベルが付けられています。グラフには 2 つあります
          数十個のデータポイントがありますデータポイントは、
          その近接性に基づいて分類されますつまり
          1 つのセントロイドに最も近いクラスタはクラスタ 1 に、
          クラスタ 2 として分類されます。

人間の研究者がクラスタをレビューして、たとえば クラスタ 1 に「準木」というラベルを付けるクラスタ 2 は「フルサイズのツリー」です。

もう 1 つの例として、画像データに基づくクラスタリング アルゴリズムを 中心点からの距離の例を以下に示します。

多数のデータポイントが同心円状に並んでおり、
          穴のようなものです一番内側のリング
          データポイントのうち、クラスタ 1、中央のリング
          クラスタ 2 に分類されます。最も外側のリングは
          クラスタ 3.

クラスタリングに関するコースをご覧ください。 をご覧ください。

共同適応

ニューロンが、トレーニング データのパターンを 他の特定のニューロンの出力だけに頼るのではなく 全体的な影響を評価できます。共同適応を引き起こすパターンが 検証データに存在しない場合、協調適応は過学習の原因となります。 ドロップアウト正則化により調整適応が減少 ドロップアウトは、ニューロンが特定の他のニューロンだけに依存しないようにするためです。

協調フィルタリング

#recsystems

1 人のユーザーの興味 / 関心に関する予測を行う 自動的に最適化されます。コラボレーション フィルタリング レコメンデーション システムでよく使用されます。

共同編集 フィルタリング をご覧ください。

コンセプト ドリフト

特徴とラベルの間の関係の変化。 コンセプト ドリフトが起こると、モデルの品質が低下します。

トレーニング中に、モデルは特徴量とラベルの関係を トレーニング セットでそのラベルが付けられます。トレーニング セットのラベルが モデルで実際の値を表すことが望ましい モデルです。しかし、コンセプトドリフトにより、モデルの 時間の経過とともに低下する傾向があります

たとえば、バイナリ分類を考えてみましょう。 特定の自動車モデルが「燃費効率」であるかどうかを予測するモデルです。 具体的には、次のような特徴があります。

  • 車重量
  • エンジン圧縮
  • 感染タイプ

ラベルは次のいずれかになります。

  • 燃費効率
  • 燃料効率が悪い

しかし、「燃料効率の高い自動車」というコンセプトは維持 学びます。1994 年に 燃料効率 とラベル付けされた車は、ほぼ間違いなく 「燃料効率が悪い」とラベル付けされる(2024 年)コンセプト ドリフトに悩むモデル 時間の経過とともに、有用性の低い予測を行う傾向があります。

非定常性と比較対照します。

商品の状態(condition)

#df

ディシジョン ツリーで、対象となるノード 式を評価します。たとえば、インフラストラクチャの ディシジョン ツリーには次の 2 つの条件があります。

次の 2 つの条件で構成されるディシジョン ツリー: (x > 0) と
          (y > 0)。

条件はスプリットまたはテストとも呼ばれます。

[] で条件をコントラストにします。

関連項目:

条件の種類をご覧ください。 「デシジョン フォレスト」コースをご覧ください。

打ち合わせ

#language

幻覚と同義。

技術的には、「幻覚」よりも「混同」のほうが正確な用語でしょう。 しかし、ハルシネーションが最初に普及しました。

構成

モデルのトレーニングに使用する初期プロパティ値を割り当てるプロセス。 含まれます。

ML プロジェクトでは、特別なプロトコル ポートを使用して構成を 次のような構成ライブラリを使用します。

確証バイアス

#fairness

特定のコンテキストで情報を検索し、解釈し、好意的に受け止め、想起する傾向は 既存の信念や仮説を裏付けるような 方法を見つけることです ML デベロッパーが誤って収集またはラベル付けする可能性がある データから導き出したデータと 考えています確証バイアスは暗黙的バイアスの一種です。

テスト者バイアスは、確認バイアスの一種で、 モデルのトレーニングを 仮説が正しいことを確認します

混同行列

#fundamentals

正しい予測と誤った予測の数を要約する NxN テーブル 分類モデルで作成されたものです。 たとえば、事前トレーニング済みモデルの次の混同行列について バイナリ分類モデル:

腫瘍(予測) がん以外(予測)
がん(グラウンド トゥルース) 18(TP) 1(FN)
がん以外(グラウンド トゥルース) 6(FP) 452(TN)

上記の混同行列は、次のことを示しています。

  • グラウンド トゥルースが腫瘍であった 19 の予測のうち、 モデルは正しく 18 と分類しましたが、誤って 1 に分類されました。
  • グラウンド トゥルースが非腫瘍であった 458 件の予測のうち、モデルは 正しく分類されたのは 452 で、誤って 6 に分類されました。

マルチクラス分類の混同行列 間違いのパターンを特定できます たとえば、3 つのクラスに対する次の混同行列について考えてみましょう。 3 種類のアヤメの種類を分類するマルチクラス分類モデル (Virginica、Versicolor、Setosa)。グラウンド トゥルースがバージニア州だったとき、 混同行列により、モデルが誤認する可能性が非常に高いことが セトサより Versicolor を予測する:

  セトサ(予測) バーシカラー(予測) バージニカ(予測)
Setosa(グラウンド トゥルース) 88 12 0
Versicolor(グラウンド トゥルース) 6 141 7
バージニカ(グラウンド トゥルース) 2 27 109

さらに別の例として、混同行列を見ると、モデルのトレーニングに 認識しようとすると、誤って 4 ではなく 9 と予測されがちです。 誤って 7 ではなく 1 と予測してしまったりします。

混同行列は、 適合率を含む、さまざまなパフォーマンス指標 再現率

選挙区の解析

#language

文を小さな文法構造(「構成要素」)に分割する。 ML システムの後方の部分(API など)は、 自然言語理解モデル は元の文よりも構成要素を簡単に解析できます。たとえば 次の一文を考えてみましょう。

友だちが 2 匹の猫を育てました。

選挙区パーサーは、この文を次のように分割できます。 2 つの構成要素があります。

  • My Friend は名詞句です。
  • adopted Two cats は動詞句です。

これらの構成要素は、さらに小さな構成要素に細分化できます。 たとえば、動詞フレーズは、

2 匹の猫を飼う

次のようにさらに分類できます。

  • adopted は動詞です。
  • two cats は、名詞句の一つです。

コンテキスト化された言語のエンベディング

#language
#generativeAI

「理解」に近いエンベディング単語 ネイティブな人間の話者と同じような方法で表現できます。コンテキスト化された言語 エンベディングでは、複雑な構文、セマンティクス、コンテキストを理解できます。

たとえば、英語の単語「cow」のエンベディングについて考えてみましょう。古いエンベディング たとえば word2vec は英語を表す エンベディング空間内の距離が から 雄牛までの距離は、ewe(メスの羊)から (オスの羊)またはメスからオスに。コンテキスト化された言語 エンベディングでは、英語を話すユーザーがいることを認識することで、 「牛」または「雄牛」を意味する「cow」はカジュアルな意味で使います。

コンテキスト ウィンドウ

#language
#generativeAI

特定の期間内にモデルが処理できるトークンの数 prompt。コンテキスト ウィンドウが大きいほど、より多くの情報が示されます。 一貫性があり一貫した応答を提供するためにモデルが使用できる 追加します。

連続的な特徴

#fundamentals

可能な範囲が無限にある浮動小数点特徴量 温度や重量などの値を生成します。

離散特徴とは対照的です。

便宜的サンプリング

迅速に実行するために科学的に収集されていないデータセットを使用する 学びました。後で、科学的に収集されたものに切り替える必要が 見てみましょう。

収束

#fundamentals

損失値の変化がほとんどないか、またはほとんど変化していないときに到達する状態 イテレーションごとにはまったくありません。たとえば、次のようになります。 損失曲線は、約 700 回の反復で収束することを示唆しています。

デカルト プロット。X 軸は損失です。Y 軸はトレーニングの数、
          必要があります。最初の数回のイテレーションで損失が非常に大きくなりますが、
          急激に低下します100 回ほど繰り返した後も、損失はまだ
          緩やかなペースで下がります約 700 回のイテレーション後、
          損失は横ばいです

追加のトレーニングが収束しなかった場合にモデルが収束する モデルを改善します

ディープ ラーニングでは、損失値が一定または 最終的には降順になる前に 多くの反復処理でほぼ同じ結果が得られます長期間 収束していると一時的に感じてしまうことがあります。

早期停止もご覧ください。

モデルの収束と損失の 曲線 をご覧ください。

凸関数

関数では、関数のグラフの上の領域が コンベックス セット。プロトタイプの凸関数は、 文字 U のような形にします。たとえば、次のようになります。 すべて凸関数です。

U 字型曲線。各曲線には最小点が 1 つあります。

一方、次の関数は凸ではありません。また、 グラフの上の領域は凸集合ではありません。

2 つの異なる極小点を持つ W 字型曲線。

厳密な凸関数には局所的な最小値が 1 つあり、 グローバルな最小値でもあります。従来の U 字型関数は、 厳密に凸関数にする必要があります。ただし、一部の凸関数は (直線など)は U 字型ではありません。

収束と凸面 関数 をご覧ください。

凸最適化

次のような数学的手法を使用するプロセス 勾配降下法を使って 凸関数の最小値。 ML の多くの研究では、さまざまなアルゴリズムの それらの問題を凸最適化問題として さらに解決することで 支援します

詳細については、 Convex 最適化

凸集合

面内の任意の 2 点を結ぶ線が 完全にサブセット内にとどまりますたとえば、次の 2 つ 図形は凸集合:

長方形のイラスト。楕円形の別のイラスト。

一方、次の 2 つの図形は凸集合ではありません。

スライスが欠落している円グラフのイラスト。
          非常に不規則なポリゴンの別のイラスト。

畳み込み

#image

数学では、さりげなく言うと 2 つの関数が混ざり合っています。マシン内 そこで、畳み込み演算と フィルタと入力マトリックス 重みをトレーニングします。

「畳み込み」という用語は、多くの場合、ML における特定のタスクや 畳み込み演算または または畳み込みレイヤ

畳み込み演算がなければ、ML アルゴリズムは 大規模なテンソル内の各セルに対して、個別の重みを設定します。たとえば 2K x 2K の画像で機械学習アルゴリズムをトレーニングすると、 400 万個の重みがあります。畳み込み演算のおかげで アルゴリズムは、セル内のすべてのセルの重みを 畳み込みフィルタは、 トレーニングに必要なメモリの量です畳み込みフィルタが セル間で複製され、各セルに乗算が行われます。 フィルタで絞り込みます。

「Introduction to Convolutional Neural Introduction to Convolutional Neural ネットワーク 画像分類コースをご覧ください

畳み込みフィルタ

#image

俳優 2 人のうちの 1 人、 畳み込み演算。(相手側のアクターは、 入力行列のスライスです)。畳み込みフィルタは、行列であり、 入力行列と同じ rank ですが、形状は小さくなります。 たとえば、28 x 28 の入力行列の場合、フィルタは任意の 2 次元行列になります。 28x28 未満にします

写真操作では、畳み込みフィルタのすべてのセルが 通常は 1 と 0 の定数パターンに設定されますML では 通常、畳み込みフィルタには乱数がシード化され、 ネットワークが理想的な値をトレーニングします。

畳み込みをご覧ください。 画像分類コースをご覧ください

畳み込み層

#image

ディープ ニューラル ネットワークのレイヤで、 畳み込みフィルタは入力値を渡す 表します。たとえば、次の 3x3 のケースを考えてみましょう。 畳み込みフィルタ:

次の値を持つ 3x3 行列: [[0,1,0], [1,0,1], [0,1,0]]

次のアニメーションは、9 つのレイヤで構成される畳み込みレイヤを 5x5 の入力行列を含む畳み込み演算です。各 畳み込み演算は、入力行列の別の 3x3 スライスで機能します。 結果の 3x3 行列(右側)は、9 つの 畳み込み演算:

2 つの行列を示すアニメーション。1 つ目の行列は 5 行 5 列の
          行列: [[128,97,53,201,198], [35,22,25,200,195],
          [37,24,28,197,182]、[33,28,92,195,179]、[31,40,100,192,177]。
          2 つ目の行列は 3x3 の行列です。
          [[181,303,618]、[115,338,605]、[169,351,560]]
          2 つ目の行列は、畳み込み行列と
          全フィルタ [[0, 1, 0], [1, 0, 1], [0, 1, 0]] を
          5x5 行列の異なる 3x3 サブセットを
生成します

完全に接続済み レイヤ 画像分類コースをご覧ください

畳み込みニューラル ネットワーク

#image

少なくとも 1 つのレイヤが特定の要素で構成されるニューラル ネットワーク 畳み込みレイヤ。典型的な畳み込み演算は ニューラル ネットワークは、次のレイヤの組み合わせで構成されています。

畳み込みニューラル ネットワークはある種で大きな成功を収めている さまざまな問題を取り上げます。

畳み込み演算

#image

次の 2 段階の算術演算:

  1. の要素単位での乗算は 畳み込みフィルタと、 表します。(入力行列のスライスは同じランクで、 畳み込みフィルタとして利用できます)。
  2. 結果の積行列内のすべての値の合計。

たとえば、次の 5x5 の入力マトリックスについて考えてみましょう。

5x5 行列: [[128,97,53,201,198], [35,22,25,200,195],
          [37,24,28,197,182]、[33,28,92,195,179]、[31,40,100,192,177]。

次のような 2x2 の畳み込みフィルタを考えてみます。

2 行 2 行列: [[1, 0], [0, 1]]

各畳み込み演算には、配列の 2x2 スライスが 1 つ含まれます。 表します。たとえば、2x2 スライスを 入力行列の左上ですしたがって、この後の畳み込み演算は このスライスは次のようになります。

左上に畳み込みフィルタ [[1, 0], [0, 1]] を適用する
          入力行列の 2x2 セクション、[[128,97], [35,22]] です。
          畳み込みフィルタでは、128 と 22 はそのままですが、0 になります。
          97 と 35 は除外されますその結果、畳み込み演算の結果、
          値 150 (128+22) となります。

畳み込みレイヤは それぞれ異なるスライスで動作する一連の畳み込み演算 必要があります。

費用

loss と同義。

共同トレーニング

半教師あり学習のアプローチ 以下のすべての条件に該当する場合に特に便利です。

共同トレーニングは基本的に、独立したシグナルを増幅してより強いシグナルにします。 たとえば、分類モデルについて考えてみましょう。 個々の中古車を [Good] または [Bad] に分類します。1 組 年、月、年、年などの集計特性に焦点を当てる 車のメーカー、モデル別の予測機能は 前所有者の運転記録と車のメンテナンス履歴。

共同トレーニングに関する重要な論文は、「ラベル付きデータとラベルなしデータの組み合わせ 共同トレーニング: ブラムとミッチェル。

反事実的公平性

#fairness

公平性指標: 分類器が ある個人に対して、別の個人に対して同じ結果が得られる 1 つ目と同一であることがわかります。ただし、1 つ以上の 機密属性。分類器を評価: 反事実的公平性は 潜在的な脅威や モデル内のバイアスです

詳細については、次のいずれかをご覧ください。

対象範囲のバイアス

#fairness

選択バイアスをご覧ください。

クラッシュ ブラッサム

#language

意味が曖昧な文やフレーズ。 花咲く花は、自然界で重大な問題をもたらします。 言語理解に重点を置いています。 たとえば、「Red Tape Holds Up Skyscraper」という見出しは なぜなら NLU モデルは見出しを文字どおり解釈したり、 表します。

評論家

#rl

Deep Q-Network と同義。

交差エントロピー

ログ損失の一般化は、 マルチクラス分類問題。交差エントロピー 2 つの確率分布の差を定量化します。関連項目 パープレキシティ:

交差検証

モデルがどの程度適切に一般化するかを 重複しない 1 つ以上のデータ サブセットに対してモデルをテストし、新しいデータを作成 トレーニング セットから除外されます。

累積分布関数(CDF)

特定の値以下のサンプルの頻度を定義する関数 ターゲット値。たとえば、連続値の正規分布について考えてみましょう。 CDF では、サンプルの約 50% が サンプルの約 84% がサンプルの約 84% を 平均を上回る標準偏差を 1 つにします

D

データ分析

サンプル、測定、 可視化です。データ分析は、次のような場合に特に有用です。 データセットが最初に受信され、その後で最初のモデルが作成されます。 また、Terraform でのテストを理解し、問題をデバッグするためにも、 制御します。

データの拡張

#image

範囲と数を人為的に増やす トレーニングの例 既存のアプリケーションを examples: 追加の例を作成します。たとえば 画像キャプション モデルが 特徴量はあるものの、データセットに 有用な関連付けを学習するために十分な数の画像サンプルが含まれていること。 必要に応じて ラベルが付けられた画像をデータセットに追加して、 モデルを適切にトレーニングできますこれが不可能な場合はデータの拡張 各画像を回転、伸縮、反射して、画像のさまざまなバリエーションを生成できます。 十分なラベル付きデータが生成される可能性があるため、 説明します。

DataFrame

#fundamentals

モデルを表す一般的な pandas データ型。 メモリ内のデータセット

DataFrame は、テーブルやスプレッドシートに似ています。各列は、 DataFrame には名前(ヘッダー)があり、各行は 一意の番号です。

DataFrame の各列は 2 次元配列のような構造になっていますが、 各列に独自のデータ型を割り当てることができます

公式ガイド pandas.DataFrame リファレンス のページをご覧ください。

データ並列処理

トレーニングまたは推論をスケーリングする方法 複製したモデル全体を 入力データのサブセットを各デバイスに渡す データ並列処理により、非常に大規模なデータセットで バッチサイズ。ただし データ並列処理では あらゆるデバイスに対応する 小型モデルです

データ並列処理では通常、トレーニングと推論が高速化されます。

モデル並列処理もご覧ください。

データセットまたはデータセット

#fundamentals

元データの集まり。通常は(ただしそれに限定されない)が、 使用できます。

  • スプレッドシート
  • CSV(カンマ区切り値)形式のファイル

Dataset API(tf.data)

#TensorFlow

データの読み取りと読み取りのための高レベルの TensorFlow API ML アルゴリズムが必要とする形に変換します tf.data.Dataset オブジェクトは、要素のシーケンスを表します。 各要素には 1 つ以上のテンソルが含まれます。tf.data.Iterator オブジェクトを使用すると、Dataset の要素にアクセスできます。

決定境界

間の区切り文字は クラス: モデルバイナリクラスまたは マルチクラス分類問題。たとえば バイナリ分類問題を表す次の画像では、 決定境界はオレンジ色のクラスと blue クラスを使用します。

クラス間で明確に定義された境界。

デシジョン フォレスト

#df

複数のディシジョン ツリーから作成されたモデル。 デシジョン フォレストは、さまざまな予測を集約して 決定します一般的なタイプのデシジョン フォレストには、 ランダム フォレスト勾配ブースティング ツリー

意思決定 森林 セクションをご覧ください。

判定しきい値

分類しきい値と同義。

ディシジョン ツリー

#df

教師あり学習モデルは、1 対 1 または 2 の 条件を階層的に整理できます。 たとえば、次の図はディシジョン ツリーです。

配置された 4 つの条件で構成されるディシジョン ツリー
          5 つのリーフになります

デコーダ

#language

一般に、処理済み、高密度、高密度モデルからデータを変換する より未加工、スパース、または外部表現に内部表現を変換できます。

デコーダは、多くの場合、大規模なモデルのコンポーネントであり、 エンコーダとペア。

シーケンス ツー シーケンス タスクでは、デコーダは エンコーダによって生成された内部状態から始めて、 あります。

デコーダの定義については、Transformer を参照してください。 Transformer アーキテクチャの概要を説明しています。

大規模言語モデルをご覧ください。 をご覧ください。

ディープモデル

#fundamentals

複数を含むニューラル ネットワーク 隠れ層

ディープモデルは、ディープ ニューラル ネットワークとも呼ばれます。

ワイドモデル」も参照してください。

ネットワークでよく

ディープモデルと同義。

Deep Q-Network(DQN)

#rl

Q-learning: ディープ Q-learning Q 関数を予測する。

Critic は Deep Q-Network の類義語です。

ユーザー属性の同等性

#fairness

次の場合に満たされる公平性指標 モデルの分類結果は、モデルの 指定された機密属性

たとえば、Lilliputians と Brobdingnagians の両方が グラブドブドリブ大学では、回答者の割合が 50% を超えると、 入学を許可されたリリプット人の割合は、ブロブディンナーギャン人の割合と同じ 平均して 1 つのグループの方が有望度が高いかどうかに関係なく、 表します。

対比する「均等オッズ」は、 機会の平等は、 機密性の高い属性に依存するように集約された分類の結果です。 ただし、指定された特定の 機密性の高い属性に依存する正解のラベル。詳しくは、 「 よりスマートな ML による識別」を ユーザー層の同等性を重視した最適化を行う際は、トレードオフを考慮する必要があります。

公平性: ユーザー属性をご覧ください。 同等 をご覧ください。

ノイズ除去

#language

自己教師あり学習への一般的なアプローチ 各要素の意味は次のとおりです。

  1. ノイズは人為的にデータセットに追加されます。
  2. モデルはノイズを除去しようとします。

ノイズを除去することで、ラベルなしのサンプルからの学習が可能になります。 元のデータセットがターゲットまたは ラベルと ノイズの多いデータを入力として受け取ります。

一部のマスクされた言語モデルでノイズ除去を使用 次のとおりです。

  1. ラベルのない文には、ノイズが人為的に追加されます。 作成されます。
  2. モデルは元のトークンを予測しようとします。

密な特徴

#fundamentals

ほとんどまたはすべての値がゼロ以外の特徴量。通常は 浮動小数点値のTensor。たとえば、次のようになります。 10 要素テンソルは密集しています。これは、その値の 9 つがゼロでないためです。

8 3 7 5 2 4 0 4 9 6

一方、スパースな特徴量はスパースな特徴量です。

Dense レイヤ

全結合層と同義。

深さ

#fundamentals

ニューラル ネットワーク内の次の合計:

たとえば、5 つの隠れ層と 1 つの出力層を持つニューラル ネットワークが 深さは 6 です。

なお、入力レイヤは 影響の深さです

深さ方向の分離可能な畳み込みニューラル ネットワーク(sepCNN)

#image

畳み込みニューラル ネットワーク アーキテクチャをベースとし Inception、 Inception モジュールを depthwise separable 畳み込み関数です別名「Xception」。

深さごとの分離可能な畳み込み(分離可能な畳み込み) 標準的な 3D 畳み込みを 2 つの個別の畳み込み演算に因数分解する 計算効率が上がります。1 つ目は、深度畳み込みです。 深さ 1(n × n × 1)で、次にポイントワイズ畳み込みです。 長さと幅が 1(1 × 1 × n)の 2 種類があります。

詳細については、Xception: Depthwise Separable を使用したディープ ラーニングをご覧ください。 畳み込み

派生ラベル

プロキシラベルと同義。

デバイス

#TensorFlow
#GoogleCloud

次の 2 つの定義があるオーバーロードされた用語:

  1. TensorFlow セッションを実行できるハードウェアのカテゴリ。以下が含まれます。 CPU、GPU、TPU
  2. アクセラレータ チップで ML モデルをトレーニングする場合 (GPU または TPU)。実際に操作するシステム部分 テンソルエンベディング。 デバイスはアクセラレータ チップで動作します。これに対して、ホストは CPU で実行されます

差分プライバシー

ML では、センシティブ データを保護するための匿名化アプローチ (たとえば、個人の個人情報)を含むモデルの トレーニング セットの公開を回避するためです。この方法により 特定のトピックについてモデルがあまり学習せず、記憶もしない できます。これは、サンプリングとモデル作成時のノイズの追加によって行われます。 トレーニングによって個々のデータポイントを曖昧にし、 機密性の高いトレーニング データです。

差分プライバシーは ML の外部でも使用されます。たとえば データ サイエンティストは、個人を保護するため、差分プライバシーを さまざまなユーザー属性のプロダクト使用統計情報を計算する際のプライバシーの保護を強化しました。

次元削減

特定の特徴を表すために使用される次元の数を減らす 特徴量ベクトルで計算されます。通常は エンベディング ベクトルに変換します。

寸法

次のいずれかの定義を持つ過負荷の用語:

  • Tensorの座標レベルの数。次に例を示します。

    • スカラーの次元は 0 です。例: ["Hello"]
    • ベクトルは 1 つの次元を持ちます。例: [3, 5, 7, 11]
    • 行列には 2 つの次元があります。例: [[2, 4, 18], [5, 7, 14]] 1 次元ベクトルの特定のセルを一意に指定できる 1 つの座標で表します。座標を一意に指定するには 2 つの座標が必要です。 特定のセルのみを求めることができます。
  • 特徴ベクトル内のエントリ数。

  • エンベディング レイヤ内の要素数。

ダイレクト プロンプト

#language
#generativeAI

ゼロショット プロンプトと同義。

離散特徴

#fundamentals

取り得る値の有限のセットを持つ特徴。たとえば 値が animalvegetablemineral のいずれかの値を持つ特徴は、 離散(またはカテゴリ)特徴量です。

継続的な機能」も参照してください。

識別モデルは、

1 つ以上のラベルのセットからラベルを予測するモデル その他の機能。より正式には、識別モデルでは、 出力に対する条件付き確率が与えられると、 weights;つまり:

p(output | features, weights)

たとえば、特徴量からメールが迷惑メールであるかどうかを予測するモデルは、 識別モデルです。

分類を含む大半の教師あり学習モデルでは、 回帰モデルは識別モデルです。

生成モデル」も参照してください。

識別要素

が本物か偽物かを判定するシステム。

または、生成敵対的グループ内の ネットワークによって、ネットワークが ジェネレータが作成するサンプルは、本物か架空のものです。

識別要素をご覧ください。 ご覧ください

さまざまな影響

#fairness

さまざまな集団に影響を与える人々について意思決定を行う サブグループの割合が高くなりますこれは通常 アルゴリズムによる意思決定プロセスが害や利益をもたらす場合 評価する傾向があります

たとえば、リルプットアンの確率を判定するアルゴリズムを ミニチュア住宅ローンの対象顧客は 「対象外」として分類します郵送先住所に特定の住所が含まれている場合 郵便番号。もしビッグエンディアンのリリプット語が 送付先住所をこの郵便番号のものにしてください このアルゴリズムはばらばらな影響を与える可能性があります。

対照的に、異なる取り扱いがあります。 サブグループの特性によって生じる アルゴリズムによる意思決定プロセスへの明示的な入力です。

さまざまな扱い

#fairness

被写体の因数分解'機密属性 アルゴリズムによる意思決定プロセスに変換し、 扱い方が異なる人の割合

例として、ニューラル ネットワークを リリプティアンの住宅ローンの利用資格 データを保護することです。アルゴリズムで 入力として Lilliputian が Big-Endian または Little-Endian としてのアフィリエーションを使用します。 その側面に沿って異なる扱いをしています

対照的に、異なる効果は サブグループに対するアルゴリズムによる決定の社会的影響の格差 そのサブグループがモデルへの入力であるかどうかにかかわらず、

での精製

#generativeAI

1 つのモデル教師)を、より小さなモデル(生徒)に変換し、 忠実に再現します。精製 が便利です。なぜなら、小規模モデルには大規模モデルより モデル(教師):

  • 推論時間の短縮
  • メモリ使用量とエネルギー使用量の削減

ただし、生徒の予測は一般に、 学習します。

精製によって生徒モデルがトレーニングされ、 出力値の差に基づく損失関数 実装します。

蒸留を以下の用語と比較、対比してください。

LLM: ファインチューニング、抽出、プロンプト エンジニアリング をご覧ください。

配信

特定の値に対する異なる値の頻度と範囲 feature または label。 分布は特定の値の確率を取得します。

次の図は、2 つの異なる分布のヒストグラムを示しています。

  • 左の図は、富のべき乗法分布と人数の割合です。 知っています
  • 右側は、人数に対する身長の正規分布です。 身長と同じ高さです。

2 つのヒストグラム。一方のヒストグラムはべき乗法の分布を示しており
          X 軸にその富、その資産を持つ人の数が
          Y 軸です。ほとんどの人は富裕さがほとんどない
          たくさんあります。もう一方のヒストグラムでは
          身長を X 軸とし、その身長の人の数を示しています
          指定しますほとんどの人は平均に近いところに集まっています。

各特徴量とラベルの分布を把握することで、 値を正規化し、外れ値を検出する。

「分布外」とは、 非常にまれです。たとえば、土星の画像は、 猫の画像で構成されるデータセットで、分布外と見なされます。

除分割クラスタリング

#clustering

階層型クラスタリングをご覧ください。

ダウンサンプリング

#image

次のいずれかを意味する過負荷の用語:

  • 対象物に含まれる情報量を減らすには、 モデルをより効率的にトレーニングするために必要です。たとえば 画像認識モデルをトレーニングする前に、高解像度の画像をダウンサンプリングする 低解像度形式に変換できます。
  • 過剰に扱われているトレーニングの割合が非常に少ない class モデル トレーニングを改善するために、サンプルの過小評価グループを使用します。 たとえば、クラス不均衡な状態では、 データセットでは、モデルは特徴について 多数派のクラスであり、 少数派の階級。ダウンサンプリングは トレーニングの量を多数派と少数派のクラスでバランスが取れるようにします。

データセット: 不均衡 データセット をご覧ください。

DQN

#rl

Deep Q-Network の略語。

ドロップアウト正則化

トレーニングに役立つ正則化の一種 ニューラル ネットワーク。ドロップアウト正則化 ネットワーク内の一定数のユニットをランダムに選択して削除する 単一のグラデーションステップに 使用できます脱落したユニットが多いほど、 行われます。これは、エミュレートするようにネットワークをトレーニングすることに似ています。 指数関数的に大規模なアンサンブルとなる、小規模なネットワークの集合体です。 詳しくは、 Dropout: ニューラル ネットワークが 過学習

動的

#fundamentals

頻繁に、または継続的に行われること。 動的とオンラインという用語は ML の類義語です。 マシンでの動的とオンラインの一般的な用途は次のとおりです。 学習:

  • 動的モデル(またはオンライン モデル)とは、 再トレーニングするデータに適しています
  • 動的トレーニング(またはオンライン トレーニング)はトレーニングのプロセス 向上させることができます
  • 動的推論(またはオンライン推論)は、 オンデマンドで予測を生成する場合などです。

動的モデル

#fundamentals

頻繁に(または継続的に)使用されるモデル 再トレーニングします。動的モデルは「生涯学習者」 進化するデータに絶えず適応します動的モデルは、ML モデルとも呼ばれます オンライン モデル

静的モデル」も参照してください。

E

積極的実行

#TensorFlow

演算を行う TensorFlow プログラミング環境。 すぐに実行されます。対照的に、コンテナで呼び出されるオペレーションは グラフの実行は、明示的に開始されるまで実行されない 評価します。積極的実行は 命令型インターフェースなど、 多くのプログラミング言語で記述されているように、積極的実行プログラムは グラフ実行プログラムよりもはるかに簡単にデバッグできます。

早期停止

#fundamentals

正則化の手法で、 トレーニングの損失が完了する前トレーニング 減少しています早期停止では、モデルのトレーニングを意図的に停止します。 検証データセットの損失が始まった時点 increase;つまり 一般化のパフォーマンスは悪化します。

地球移動距離(EMD)

2 つの分布の相対的な類似性の尺度。 地球移動体の距離が短いほど、分布は類似します。

距離を編集

#language

2 つの文字列が互いにどの程度類似しているかを示す測定値。 ML で距離の編集が役立つのは、 2 つの文字列を比較するための効果的な方法も確認しました。 指定した文字列に類似した文字列を検索したりできます。

編集距離にはいくつかの定義があり、それぞれが異なる文字列を使用しています。 必要があります。たとえば、 <ph type="x-smartling-placeholder"></ph> レーベンシュタイン距離 削除、挿入、置換オペレーションが最小限に抑えられます。

例: 「ハート」という単語間のレーベンシュタイン距離「ダーツ」 3 です。これは、次の 3 つの編集で 1 語になるために必要な変更が少ないためです。 次のように置き換えます。

  1. ハート → deart(「h」を「d」に置き換える)
  2. deart → dart(「e」を削除)
  3. dart → darts("s" を挿入)

Einsum 表記

2 つのテンソルがどのようになるかを説明する効率的な表記 組み合わせたものです1 つのテンソルの要素を乗算して、テンソルを結合する 他のテンソルの要素で掛けて、その積を合計します。 Einsum 表記では記号を使って各テンソルの軸を識別し、 同じ記号が再配置され、生成される新しいテンソルの形状が指定されます。

NumPy は、一般的な Einsum 実装を提供します。

エンベディング レイヤ

#language
#fundamentals

トレーニング用の特別な隠れ層 高次元カテゴリ特徴を作成して、 下位次元のエンベディング ベクトルを徐々に学習します。「 エンべディング レイヤを使用することで、ニューラル ネットワークは 高次元カテゴリ特徴量だけをトレーニングするよりも効率的です。

たとえば、地球は現在約 73,000 種の樹木をサポートしています。仮説 樹木の種類はモデルの特徴量であるため、モデルの ワンホット ベクトルを含む 73,000 指定することもできます。 たとえば、baobab は次のように表されます。

73,000 個の要素からなる配列。最初の 6,232 個の要素が値を保持
     0.次の要素には値 1 が保持されます。残りの 66,767 個の要素は
     表示されます。

73,000 要素からなる配列は非常に長いです。エンベディング レイヤを追加しない場合 トレーニングに膨大な時間がかかります。 72,999 個のゼロを乗算しますエンベディング レイヤを 1 つのレイヤに 12 次元です。その結果、エンベディング レイヤは徐々に学習し、 新しいエンベディング ベクトルを作成します。

状況によっては、ハッシュ化が妥当な代替手段である エンベディング レイヤに渡します。

エンベディングをご覧ください。 をご覧ください。

エンベディング空間

#language

高次元の特徴を持つ d 次元ベクトル空間は、 ベクトル空間にマッピングされます。エンべディング空間には、入力シーケンスが 意味のある数学的結果が得られる構造たとえば 理想的なエンベディング空間でのエンベディングの加算と減算 文章にたとえて単語を解き放つことができます。

ドット積 その類似性の尺度となります。

エンベディング ベクトル

#language

大まかに言うと、any から取得した浮動小数点数の配列 隠れ層への入力を記述する隠れ層。 多くの場合、エンベディング ベクトルは Google Cloud でトレーニングされた浮動小数点数の配列 エンベディング レイヤです。たとえば、エンベディング レイヤが新しいパターンを学習し、 エンべディング ベクトルを作成します。おそらく、 次の配列は、バオバブの木のエンベディング ベクトルです。

浮動小数点数を保持する 12 個の要素の配列
          0.0 ~ 1.0 の範囲で設定できます

エンベディング ベクトルは乱数の集まりではありません。エンベディング レイヤ トレーニングによってこれらの値を決定します。これは、 トレーニング中に他の重みも学習します。各要素の 配列は、樹木種の特性に沿った評価です。対象 どの樹木種がどうすればよいでしょうか。それはすごく難しい 判断できます

エンべディング ベクトルの数学的に注目すべき点は、エンべディング ベクトルが アイテムには同様の浮動小数点数のセットがあります。たとえば、 浮動小数点数のセットは、樹木の種類のほうが 異なる種類の樹木のことです。セコイアとセコイアは関連する樹種です。 浮動小数点数と浮動小数点数のセットが セコイアやヤシの木などで育ちますエンべディング ベクトルの数値は、 再トレーニングのたびに変化する値の変化に 使用します。

経験累積分布関数(eCDF または EDF)

累積分布関数 実際のデータセットからの経験的な測定に基づきます。「 x 軸上の任意の点における観測値の割合、 データセットを検索します。

経験的リスク最小化(ERM)

トレーニング セットでの損失を最小限に抑える関数を選択する。コントラスト 構造リスクの最小化です。

エンコーダ

#language

一般に、未加工、スパース、または外部からデータを変換する より処理済み、高密度、または内部的な表現に変換できます。

エンコーダは、多くの場合、大規模なモデルのコンポーネントであり、 デコーダとペアリングします。一部の Transformer 対になりますが、他の Transformer では、エンコーダとデコーダを デコーダのみを指定できます。

一部のシステムでは、エンコーダの出力を分類システムへの入力として使用し、 ネットワークです

シーケンス ツー シーケンス タスクでは、エンコーダは 入力シーケンスを受け取り、内部状態(ベクトル)を返します。次に、 decoder はその内部状態を使用して次のシーケンスを予測します。

エンコーダの定義については、Transformer を Transformer アーキテクチャの概要を説明しています。

LLM: 大規模言語とは モデル をご覧ください。

アンサンブル

予測を持つ独立したトレーニング対象のモデルのコレクション 平均化または集計されます多くの場合、アンサンブルを使用すると、 単一モデルよりも高い精度ですたとえば、 ランダム フォレストは、複数のソースから構築された複数の ディシジョン ツリー。ただし、 ディシジョン フォレストはアンサンブルです。

ランダム 森 をご覧ください。

エントロピー

#df

イン <ph type="x-smartling-placeholder"></ph> 情報理論 ある確率がどれだけ予測不能か、 説明しますまた、エントロピーは、生成する出力が 各に含まれる情報。ディストリビューションには 確率変数のすべての値が 可能性があります。

取り得る 2 つの値「0」を持つ集合のエントロピーと「1」(例: バイナリ分類問題のラベル) 次の式になります。

<ph type="x-smartling-placeholder"></ph> H = -p log p - q log q = -p log p - (1-p) * log (1-p)

ここで

  • H はエントロピーです。
  • p は「1」の分数説明します。
  • q は「0」の分数説明します。q = (1 - p) であることに注意してください。
  • log は通常 log2 です。この場合 エントロピーは 単位です。

たとえば、次のように仮定します。

  • 100 個の例に値「1」が含まれています
  • 300 個の例に値「0」が含まれています

したがって、エントロピー値は次のようになります。

  • p = 0.25
  • q = 0.75
  • H = (-0.25)log2(0.25) - (0.75)log2(0.75) = 0.81 ビット/例

完全にバランスの取れた集合(例: 「0」が 200 個と「1」が 200 個) エントロピーは 1 例あたり 1.0 ビットですセットが 不均衡の場合、エントロピーは 0.0 に向かって動きます。

ディシジョン ツリーでは、エントロピーによって 情報利得に協力して [スプリッター] で条件を選択します 重要な役割を果たします

エントロピーを次と比較:

エントロピーはシャノンのエントロピーと呼ばれます。

数値によるバイナリ分類用の正確なスプリッターをご覧ください。 機能 「デシジョン フォレスト」コースをご覧ください。

環境

#rl

強化学習では、エージェントを含む世界 エージェントはその環境の状態を監視できます。たとえば 表現される世界はチェスのようなゲームでも、チェスのような現実世界でもかまいません。 迷路です。エージェントが環境にアクションを適用すると、 環境は状態間で遷移します。

エピソード

#rl

強化学習では、モデルによって反復される エージェント: 環境を学習します。

エポック

#fundamentals

トレーニング セット全体にわたるフル トレーニング パス 各 example が 1 回処理されるようにします。

エポックは N/バッチサイズを表す トレーニングの iterationsN は 例の総数です。

たとえば、次のように仮定します。

  • このデータセットは 1,000 件のサンプルで構成されています。
  • バッチサイズは 50 サンプルです。

したがって、1 回のエポックで 20 回の反復が必要になります。

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

線形回帰: ハイパーパラメータ をご覧ください。

イプシロン欲張りポリシー

#rl

強化学習では、ポリシーは イプシロン確率または特定の値を持つランダム ポリシー そうでない場合は欲張りなポリシー。たとえば、イプシロンが 0.9 の場合、ポリシーは 90% の確率でランダムなポリシーに従っていますが、 ポリシーの 10% を占めていました

連続するエピソードでは、アルゴリズムによりイプシロンの値が 無作為なポリシーから、貪欲なポリシーに従うようになっています。方法 ポリシーを変更する場合、エージェントはまず環境をランダムに調査し、 無作為に抽出された結果を利用しようとします。

機会の平等

#fairness

モデルが順調かどうかを評価するための公平性指標 望ましい結果を同等に予測する 機密属性。つまり、 モデルに望ましい結果が陽性クラス、 目標は、真陽性率を すべてのグループで共通です。

機会の平等はオッズの均等に関連しています。 これには真陽性率と真陽性率の両方偽陽性率は、すべてのグループで同じです。

グルブドゥブドリブ大学がリルプート派とブロブディングナギー派の両方を認めると仮定する 難易度も高まりますリリプティアン中等教育機関は カリキュラムが充実しており、大多数の生徒が数学の授業に 取得しているとしますブロブディングナギアンスの中学校では 数学の授業をまったく行っていないため、 あります。希望するラベル「 「承諾済み」国籍(リリプート派またはブロブディンナージー派) 有資格の学生であれば、次の 2 点に関係なく、 リルプート派かブロブディンナーギア派です。

例えば、100 人のリルプット人と 100 人のブロブディングナギー人が グラブダブドリブ大学。入学決定は次のように行われます。

表 1. リルプット出願者(90% が適格)

  リードの精査が完了 制限なし
許可 45 3
不承認 45 7
合計 90 10
入学を認められた適格な学生の割合: 45/90 = 50%
不適格な生徒の割合: 7/10 = 70%
リリプット人の学生の合計パーセンテージ: (45 + 3) ÷ 100 = 48%

 

表 2. Brobdingnagian の応募者(10% が適格):

  リードの精査が完了 制限なし
許可 5 9
不承認 5 81
合計 10 90
入学を認められた適格な学生の割合: 5/10 = 50%
不適格な生徒の割合: 81÷90 = 90%
ブロブディンナージ語の学生の割合の合計: (5+9)÷100 = 14%

上記の例は、受け入れる機会の平等を満たしています。 Lilliputians と Brobdingnagians のどちらも認定されたため、 50% の確率で承認されます

機会の平等は満たされているが、次の 2 つの公平性指標 満たしていない:

  • 人口統計的平等: リリプート派と Brobdingnagians はさまざまな率で大学に入学できる。 リリプット語の学生の 48% が入学を許可しているが、入学を許可しているのは 14% のみ ブロブディングナージ語の学生は入学可能。
  • 均等オッズ: ブロブディングナージアンとブロブディングナージアンの学生はどちらも入学確率が同じであるため、 不適格なリリプット人およびキャパシティを Brobdingnagians はどちらも却下される可能性は高くないが、 できます。不適格なリリプティアンは拒否率が 70% ですが、 不承認率が 90% でした

公平性: 平等性 機会 をご覧ください。

均等オッズ

#fairness

モデルが結果を等しく予測しているかどうかを評価するための公平性指標 機密属性のすべての値に適しています。 陽性のクラスネガティブ クラス - どちらか一方のクラスではない あります。つまり、真陽性率と と偽陰性率は、 すべてのグループに適用されます。

均等オッズは以下に関連しています 機会の平等は、 (正または負)のエラー率に対して課金されます。

例えば、グルブドゥブドリブ大学がリリプート派と 厳しい数学のプログラムに挑戦しよう。リリプティアンセカンダリ 数学クラスの堅牢なカリキュラムを提供しており、 の学生が大学プログラムの資格を取得している。ブロブディングナギアンスのセカンダリ 学校では数学の授業が一切行われておらず 特定します。均等な確率は、次の条件が満たされない場合に 出願者がリルプット派であるかブロブディンナーギア派であるかにかかわらず、 プログラムへの参加が認められる可能性は 等しく高く 不適格と判定された場合も、同様に不承認となる可能性が高くなります。

100 名のリリプティアンと 100 人のブロブディングナギンがグルブドゥブドリブに申し込んだとします。 大学と入学に関する決定は、次のように行われます。

表 3: リルプット出願者(90% が適格)

  リードの精査が完了 制限なし
許可 45 2
不承認 45 8
合計 90 10
入学を認められた適格な学生の割合: 45/90 = 50%
不適格な生徒の割合: 8/10 = 80%
リリプット人の学生の合計パーセンテージ: (45 + 2) ÷ 100 = 47%

 

表 4. Brobdingnagian の応募者(10% が適格):

  リードの精査が完了 制限なし
許可 5 18
不承認 5 72
合計 10 90
入学を認められた適格な学生の割合: 5/10 = 50%
不適格な生徒の割合: 72÷90 = 80%
ブロブディンナージ語の学生の割合の合計: (5 + 18) ÷ 100 = 23%

資格のある Lilliputian および Brobdingnagian であるため、均等にオッズが満たされている 50% の確率で合格となり、 拒否される確率は 80% です

均等オッズは正式には 「 Opportunity in Supervised Learning」を以下に示します。 "predictor ® は、各要素について Ж と A が独立している場合、保護属性 A と結果 Y に対応する Y を条件としています

Estimator

#TensorFlow

非推奨の TensorFlow API。代わりに tf.keras を使用してください。 使用できます。

評価

#language
#generativeAI

主に LLM 評価の略語として使用されます。 より広義には、evals評価

評価

#language
#generativeAI

モデルの品質を測定したり、異なるモデルを比較したりするプロセス お互いに競わせます。

教師あり ML を評価するには 通常は検証セットと照らし合わせて判断する とテストセットLLM の評価 通常は、より広範な品質と安全性の評価が関係します。

#fundamentals

1 行の特徴量の値。場合によっては特徴量 ラベル。例 教師あり学習は 2 種類に分類できます。 一般カテゴリ:

  • ラベル付きサンプルは 1 つ以上の特徴で構成される です。ラベル付きサンプルはトレーニング中に使用されます。
  • ラベルなしのサンプルは、1 つ以上のサンプルで構成されます。 ラベルはありません。推論時にはラベルのないサンプルが使用されます。

たとえば、影響を判断するためにモデルをトレーニングするとします。 気象条件を可視化しますラベル付きの例を 3 つ示します。

機能 ラベル
温度 湿度 気圧 テストスコア
15 47 998 良い
19 34 1020 非常に良い
18 92 1012 悪い

ラベルのない例を 3 つ示します。

温度 湿度 気圧  
12 62 1014  
21 47 1017  
19 41 1021  

データセットの行は通常、サンプルの元のソースです。 つまり、例は通常、テーブル内の列のサブセットで構成されます。 表示されます。さらに、サンプルの特徴には、 合成特徴: 例: 特徴クロス

教師あり学習をご覧ください。 「Introduction to Machine Learning」コースを受講してください。

もう一度体験する

#rl

強化学習では、以下に使用される DQN 手法が 時間的な相関関係を減らすことができますエージェント 状態遷移をリプレイ バッファに格納し、 サンプルの遷移がリプレイ バッファからトレーニング データを作成します。

テスト者のバイアス

#fairness

確認バイアスをご覧ください。

勾配爆発問題

#seq

勾配の傾向は、 ディープ ニューラル ネットワーク(特に 回帰型ニューラル ネットワーク)が、 非常に急になります(高)。急な勾配は、多くの場合、非常に大規模な更新を引き起こす 各ノード重みに ディープ ニューラル ネットワークです。

勾配爆発問題の影響を受けているモデルは困難になる トレーニングが不可能になります勾配のクリップ この問題を軽減できます

勾配消失の問題と比較してください。

F

F1

「統合」バイナリ分類指標 適合率再現率の両方に依存します。 式は次のとおりです。

$$F{_1} = \frac{\text{2 * precision * recall}} {\text{precision + recall}}$$

たとえば、次の場合を考えてみましょう。

  • 適合率 = 0.6
  • 再現率 = 0.4
$$F{_1} = \frac{\text{2 * 0.6 * 0.4}} {\text{0.6 + 0.4}} = 0.48$$

適合率と再現率がかなり似ている場合(上記の例を参照)、 F1 は平均に近い。適合率と再現率が異なる場合 F1 が小さい値に近づきます。例:

  • 適合率 = 0.9
  • 再現率 = 0.1
$$F{_1} = \frac{\text{2 * 0.9 * 0.1}} {\text{0.9 + 0.1}} = 0.18$$

公平性の制約

#fairness
アルゴリズムに制約を適用して 1 つ以上の定義を確保する 公平性が満たされることになります。公平性に関する制約の例:

公平性の指標

#fairness

「公平性」の数学的定義あります 一般的に使用される公平性の指標には、次のようなものがあります。

公平性に関する多くの指標は相互に排他的です。 公平性に関する指標の非互換性

偽陰性(FN)

#fundamentals

モデルが誤った予測結果を提示した例は、 ネガティブ クラス。たとえば、モデルの 特定のメール メッセージが迷惑メールではないと予測する (否定クラス)であるにもかかわらず、そのメール メッセージは実際には迷惑メールです。

偽陰性率

モデルが誤って正例(ポジティブ サンプル)を入力した割合 予測できました。次の数式は、偽 陰性率:

$$\text{false negative rate} = \frac{\text{false negatives}}{\text{false negatives} + \text{true positives}}$$

しきい値と混同 マトリックス をご覧ください。

偽陽性(FP)

#fundamentals

モデルが誤った予測結果を提示した例は、 陽性クラス。たとえば、このモデルは 特定のメールが迷惑メール(ポジティブ クラス)であると同時に、 メールが実際には迷惑メールではないと判断される

しきい値と混同 マトリックス をご覧ください。

偽陽性率(FPR)

#fundamentals

モデルが誤ってネガティブ サンプルを検出した割合 予測値を返します。次の数式は、偽 陽性率:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

偽陽性率は ROC 曲線の X 軸です。

分類: ROC と AUC をご覧ください。

特徴;特徴表現

#fundamentals

ML モデルへの入力変数。 は 1 つ以上の特徴で構成されますたとえば、モデルのトレーニング中に 気象条件が生徒のテストスコアに及ぼす影響を判断しました。 次の表に 3 つの例を示します。それぞれに 3 つの特徴量と 1 つのラベルです。

機能 ラベル
温度 湿度 気圧 テストスコア
15 47 998 92
19 34 1020 84
18 92 1012 87

label」は対照的です。

教師あり学習をご覧ください。 をご覧ください。

特徴クロス

#fundamentals

「交差」によって形成される合成特徴 カテゴリ特徴またはバケット化された特徴。

たとえば、「ムード予測」機能をトレーニング データを表す temperature を、次の 4 つのバケットのいずれかに分類します。

  • freezing
  • chilly
  • temperate
  • warm

風速を次の 3 つのバケットのいずれかで表します。

  • still
  • light
  • windy

特徴クロスを使用しない場合、線形モデルは 先行しますたとえば、モデルはトレーニング トレーニングとは無関係に freezing を使用します。たとえば、 windy

別の方法として、温度と時間、ラベルの 風速ですこの合成特徴量には、次の 12 の可能な特徴があります。 values:

  • freezing-still
  • freezing-light
  • freezing-windy
  • chilly-still
  • chilly-light
  • chilly-windy
  • temperate-still
  • temperate-light
  • temperate-windy
  • warm-still
  • warm-light
  • warm-windy

特徴クロスにより、モデルは気分の違いを学習できる freezing-windyfreezing-still 日の間。

それぞれ多くの要素を持つ 2 つの特徴から合成特徴を作成する場合 結果として得られる特徴クロスには、非常に多くの できます。たとえば、1 つの特徴に 1,000 個のバケットがあり、 もう 1 つの特徴のバケットは 2,000 で、結果として得られる特徴クロスは 2,000,000 説明します。

十字形は デカルト積

特徴クロスは主に線形モデルで使用され、ほとんど使用されない 説明します

カテゴリデータ: 特徴 十字 をご覧ください。

2つのステップが含まれます

#fundamentals
#TensorFlow

以下のステップを含むプロセス。

  1. 有用と思われる特徴を判断する 重要な役割を果たします
  2. データセットに含まれる元データを、 利用できます。

たとえば、temperature が有用であると判断できます。 機能。その後、バケット化の実験を行ってもかまいません。 モデルがさまざまな temperature 範囲から学習できる内容を最適化します。

特徴量エンジニアリングは 特徴抽出または 特徴量化

数値データ: モデルが特徴量を使用してデータを取り込む方法 ベクトル をご覧ください。

特徴抽出

次のいずれかの定義を持つ過負荷の用語:

特徴の重要度

#df

変数の重要度と同義。

機能セット

#fundamentals

ML で使用する特徴のグループ model がトレーニングするデータ。 たとえば、郵便番号、物件の規模、物件の条件は、 住宅価格を予測するモデル用のシンプルな特徴セットで構成されています。

機能仕様

#TensorFlow

特徴データの抽出に必要な情報について説明します。 tf.Example プロトコル バッファから記述します。これは、 tf.Example プロトコル バッファは単なるデータのコンテナであり、 次のとおりです。

  • 抽出するデータ(つまり、特徴のキー)
  • データ型(float、int など)
  • 長さ(固定または可変)

特徴ベクトル

#fundamentals

次の要素を構成する特徴値の配列 。特徴ベクトルは入力シーケンスの トレーニングおよび推論の際に使用します。 例: 2 つの個別の特徴を持つモデルの特徴ベクトル 例:

[0.92, 0.56]

4 つのレイヤ: 入力レイヤ、2 つの非表示レイヤ、1 つの出力レイヤ。
          入力レイヤには 2 つのノードがあり、1 つは値
          0.92 と 0.56 を含む 2 つのテーブルが作成されます。

特徴ベクトルの値は例ごとに異なるため、 特徴ベクトルは次のようになります。

[0.73, 0.49]

特徴量エンジニアリングでは、 予測します。たとえば、2 項カテゴリ特徴量とラベルが 5 つの可能な値が ワンホット エンコーディング。この場合、 特徴ベクトルは 4 つのゼロと 次のように、3 番目の位置に 1.0 を 1 つ作成します。

[0.0, 0.0, 1.0, 0.0, 0.0]

別の例として、モデルが次の 3 つの特徴で構成されているとします。

  • バイナリ カテゴリ特徴量で、次のラベルで表される 5 つの可能な値が ワンホット エンコーディング例: [0.0, 1.0, 0.0, 0.0, 0.0]
  • 3 つの可能な値が表現されている別のバイナリ カテゴリ特徴 ワンホット エンコーディングを使用します。例: [0.0, 0.0, 1.0]
  • 浮動小数点特徴例: 8.3

この場合、各サンプルの特徴ベクトルは 9 の値で表します。上のリストの値の例の場合、 特徴ベクトルは次のようになります。

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

数値データ: モデルが特徴量を使用してデータを取り込む方法 ベクトル をご覧ください。

特徴量化

入力ソースから特徴を抽出するプロセス それらの特徴を UDM イベントにマッピングし、 特徴ベクトル

一部の ML エキスパートは、特徴量化を特徴量化を 特徴量エンジニアリング 特徴抽出

フェデレーション ラーニング

トレーニングを行う分散型 ML アプローチ 分散型モデルを使用した ML モデル スマートフォンなどのデバイスに存在する。 フェデレーション ラーニングでは、一部のデバイスが現在のモデルをダウンロードする 中央の調整サーバーからもリクエストできますデバイスは、保存されているサンプルを使用して モデルを改善しますデバイスがアップロードされます。 調整と調整に対するモデルの改善点(トレーニング サンプルは除く)が 他の更新と一緒に集約され、 グローバルなモデルです。集計後、デバイスによって計算されたモデルが更新される 不要になった場合は破棄できます。

トレーニング サンプルはアップロードされないため、フェデレーション ラーニングは 焦点を絞ったデータ収集とデータ最小化のプライバシー原則。

フェデレーション ラーニングについて詳しくは、 こちらのチュートリアルをご覧ください。

フィードバック ループ

#fundamentals

ML において、モデルの予測がモデルのパフォーマンスに 同じモデルまたは別のモデルのトレーニング用データです。たとえば、あるモデルは おすすめの映画は ユーザーが見る映画に影響を及ぼし 後続の映画のレコメンデーション モデルに影響を与える。

本番環境 ML システム: 質問への 質問 をご覧ください。

フィードフォワード ニューラル ネットワーク(FFN)

巡回接続や再帰接続のないニューラル ネットワーク。たとえば 従来のディープ ニューラル ネットワークは、 ニューラル ネットワークです。対して、反復型ニューラル 循環型ネットワークです。

少数ショット学習

オブジェクト分類によく使用される ML アプローチ。 少数のモデルのみから効果的な分類器をトレーニングするために トレーニング例です

ワンショット学習ゼロショット学習

少数ショット プロンプト

#language
#generativeAI

複数(「少数」の)例を含むプロンプト 大規模言語モデルが 応答が必要です。たとえば、次の長いプロンプトには 2 つの 大規模言語モデルでクエリに応答する方法を示す例。

1 つのプロンプトを構成する要素 メモ
指定された国の公式通貨は何ですか? LLM に回答させたい質問。
フランス: EUR 一例です。
英国: GBP 別の例を見てみましょう。
インド: 実際のクエリ。

一般的に、少数ショット プロンプトのほうが望ましい結果が ゼロショット プロンプトワンショット プロンプト。ただし、少数ショット プロンプトは 長いプロンプトが必要です。

少数ショット プロンプトは少数ショット学習の一種 プロンプトベースの学習に適用しました。

プロンプトを参照してください。 エンジニアリング をご覧ください。

フィドル

#language

Python ファーストの構成ライブラリで、 関数やクラスの価値をモニタリングできます。 Pax や他の ML コードベースの場合、これらの関数と クラスはモデルトレーニングを表す ハイパーパラメータ

フィドル 通常、ML コードベースは次のように分割されることを想定しています。

  • レイヤとオプティマイザを定義するライブラリ コード。
  • データセット「glue」このコードでは、ライブラリを呼び出して、すべてをつなぎ合わせます。

Fiddle は、未評価のグルーコードの呼び出し構造をキャプチャし、 あります。

ファインチューニング

#language
#image
#generativeAI

2 つ目のタスク固有のトレーニング パスは、 事前トレーニング済みモデルを使って、特定のタスクのためにパラメータを 判断できますたとえば、一部のトレーニング シーケンスは、 大規模言語モデルは次のとおりです。

  1. 事前トレーニング: 大規模な言語モデルを大規模な一般データセットでトレーニングします。 たとえば英語版のウィキペディアの すべてのページなどです
  2. ファインチューニング: 特定のタスクを実行するように事前トレーニング済みモデルをトレーニングします。 医療質問への対応などですファインチューニングでは通常 特定のタスクに焦点を当てた何百、何千ものサンプルが存在します。

別の例として、大規模な画像モデルの完全なトレーニング シーケンスは次のようになります。 次のようになります。

  1. 事前トレーニング: 巨大な一般的な画像で大規模な画像モデルをトレーニングする Wikimedia Commons 内のすべての画像などのデータセットを収集します。
  2. ファインチューニング: 特定のタスクを実行するように事前トレーニング済みモデルをトレーニングします。 シャチの画像を生成するなどです。

ファインチューニングでは、次の戦略を任意に組み合わせて行うことができます。

  • 事前トレーニング済みモデルのすべての変更 パラメータ。これはフル ファインチューニングとも呼ばれます。
  • 事前トレーニング済みモデルの既存のパラメータの一部のみを変更する (通常は出力レイヤに最も近いレイヤ)。 他の既存のパラメータ(通常は 入力レイヤに最も近いもの)。詳しくは、 パラメータ効率チューニング
  • レイヤを追加する(通常は、レイヤに最も近い既存のレイヤの上に) 出力レイヤです。

ファインチューニングは転移学習の一種です。 そのため、ファインチューニングでは異なる損失関数や別のモデルが使用される場合があります。 使用するものよりも望ましい方法です。たとえば、 トレーニング済みの大規模画像モデルをファインチューニングして、 入力画像に含まれる鳥の数を返します。

ファインチューニングを次の用語と比較してください。

ファインチューニングをご覧ください。 をご覧ください。

亜麻

#language

高パフォーマンスのオープンソース ライブラリ JAX 上に構築されたディープ ラーニング。Flax が提供する関数 トレーニング ニューラル ネットワーク用 パフォーマンスを評価する手段として利用できます

Flaxformer

#language

オープンソースの Transformer library 主に自然言語処理用に設計された Flax 上に構築 多岐にわたります。

ワーキングゲート

#seq

長・短期記憶の一部 セル内の情報の流れを規制するセルです。 忘れるゲートは、破棄する情報を決定することでコンテキストを維持する セルの状態から変更できます。

フルソフトマックス

ソフトマックスと同義です。

一方、候補サンプリングでは、

全結合層

隠しレイヤ。各ノードには、 後続の隠れ層のすべてのノードに接続される

全結合レイヤは、密レイヤとも呼ばれます。

関数の変換

関数を入力として受け取り、変換された関数を返す関数 渡します。JAX は関数変換を使用します。

G

GAN

生成敵対的の略語 提供します

一般化

#fundamentals

新しいモデルに対して正しい予測を行うモデルの能力 未知のデータを取り込むことができます一般化できるモデルはその逆 過学習しているモデルの

Gemini

#language
#image
#generativeAI

Google の最先端の AI で構成されるエコシステム。このエコシステムの要素 たとえば、

  • さまざまな Gemini モデル
  • Gemini モデルへのインタラクティブな会話インターフェース。 ユーザーがプロンプトを入力すると、Gemini がプロンプトに応答します。
  • さまざまな Gemini API。
  • Gemini モデルに基づくさまざまなビジネス向けプロダクトたとえば Gemini for Google Cloud
で確認できます。

Gemini モデル

#language
#image
#generativeAI

Google の最先端の Transformer ベースの マルチモーダル モデル。Gemini モデルは Google Cloud の エージェントと統合するように設計されている。

ユーザーはさまざまな方法で Gemini モデルを操作できます。たとえば、 インタラクティブなダイアログインターフェースと SDK を介して連携できます

一般化曲線

#fundamentals

トレーニング損失検証損失iterations

一般化曲線は、潜在的なリスクや 過学習。たとえば、次のようになります。 過学習が示唆されます。これは検証データの損失が 最終的にトレーニングの損失よりも 大幅に高くなります

Y 軸に損失と X 軸がラベル付けされたデカルトグラフ
          反復処理というラベルが付けられます2 つのプロットが表示されます。一方のプロットでは
          もう 1 つは検証の損失です
          2 つのプロットの初めは似ていますが、トレーニングの損失は最終的に
          下がります。

一般化線形モデル

最小二乗回帰の一般化 基盤モデルに基づいて ガウス ノイズ、 ノイズの除去、フィルタ、モデル化などの ポアソンノイズ または ノイズを除去できます。一般化された線形モデルの例を以下に示します。

一般化された線形モデルのパラメータは、 凸最適化

一般化線形モデルには、次のような特性があります。

  • 最適な最小二乗回帰モデルの平均予測は、 平均ラベルと等しいことを確認します
  • 最適ロジスティック回帰によって予測された平均確率 平均ラベルと等しいことを確認します

一般化された線形モデルの能力は、その特徴によって制限されます。高評価を取り消す 一般化された線形モデルでは「新しい特徴を学習」できません。

敵対的生成ネットワーク(GAN)

ジェネレータが新しいデータを作成するシステム 識別要素が、そのデータが 有効または無効です。

生成 AI

#language
#image
#generativeAI

正式な定義のない、新たな革新的分野。 とはいえ、ほとんどの専門家は、生成 AI モデルは 以下のすべてを満たすコンテンツを作成(「生成」)します。

  • 複雑
  • 一貫性がある
  • オリジナル

たとえば、生成 AI モデルでは高度な エッセイや画像などです

LSTMs などの以前のテクノロジー RNN など)を使用して、元の画像とテキスト、 明確で一貫性のあるコンテンツです。一部の専門家は、こうした初期のテクノロジーを 真の生成 AI にはより複雑なものが必要だと考える人もいます。 生成できるものはありません。

予測 ML も参照してください。

生成モデル

実際には、次のいずれかを行うモデルです。

  • トレーニング データセットから新しいサンプルを作成(生成)します。 たとえば、生成モデルでは、トレーニング後に詩を作成できます。 入力文が決まりました。ジェネレータ部分は、 敵対的生成ネットワーク このカテゴリに分類されます
  • 確率分布から新しい例が出力される確率を 作成されたか、トレーニング セットの作成と同じメカニズムから 必要があります。たとえば、事前トレーニング済みモデルの データセットの場合、生成モデルでは、 新しい入力が有効な英語の文である確率を判定する。

生成モデルは理論的にサンプルの分布を識別できる 特定の特徴を抽出できます具体的には、次のことが求められます。

p(examples)

教師なし学習モデルは生成モデルです。

識別モデルは、

ジェネレータ

生成敵対的内部のサブシステム ネットワーク 新しいを作成します。

識別モデルは、

ジニ不純物

#df

エントロピーに似た指標。スプリッター ギニ不純度またはエントロピーから導出された値を使用して 分類用の条件 ディシジョン ツリー情報利得はエントロピーから導出されます。 算出される指標と同等の意味で普遍的に認められている用語はない 不純物から抽出されます。この名前のない指標は 情報利得

ジニ不純度は、ギニ指数(または単にギニ)とも呼ばれます。

ゴールデン データセット

正解を取得する、手動でキュレートされた一連のデータ。 チームは 1 つ以上のゴールデン データセットを使用してモデルの品質を評価できます。

一部のゴールデン データセットは、グラウンド トゥルースの異なるサブドメインをキャプチャします。たとえば 画像分類用のゴールデン データセットが照明条件をキャプチャする場合 3 種類あります

GPT(Generative Pre-trained Transformer)

#language

Transformer ベースのファミリー Google Cloud が開発した大規模言語モデル OpenAI

GPT のバリエーションは、次のような複数のモダリティに適用できます。

  • 画像生成(ImageGPT など)
  • テキストから画像を生成する(例: DALL-E)。

グラデーション

次に関する部分微分のベクトル すべての独立変数を指定します。ML では、勾配は モデル関数の偏導関数のベクトル。グラデーション ポイント 急勾配の傾斜を定めます

勾配累積

誤差逆伝播法では、 パラメータは、エポックごとに 1 回ではなく、エポックごとに 1 回のみ使用する 必要があります。各ミニバッチを処理した後、勾配は 累積勾配は単に勾配の累積合計を更新しますその後 エポック内の最後のミニバッチを処理すると、システムは すべての勾配変化の合計に基づいて パラメータを計算します

勾配累積は、バッチサイズが トレーニングに使用できるメモリ量に比べると かなり大きくなります メモリが問題になる場合、通常はバッチサイズを縮小する傾向があります。 ただし、通常の誤差逆伝播法ではバッチサイズを小さくすると増加します パラメータの更新回数などです勾配累積によって メモリの問題を回避しながらも効率的にトレーニングできます

勾配ブースト(決定)ツリー(GBT)

#df

ディシジョン フォレストの一種で、次のような特徴があります。

グラデーション ブースト

#df

弱いモデルが繰り返しトレーニングされるトレーニング アルゴリズム 強力なモデルの品質を改善(損失を低減)します。たとえば 線形モデルまたは小さなディシジョン ツリー モデルが弱いモデルになります。 強力なモデルは、以前にトレーニングされた弱いモデルをすべて合計した値になります。

最も単純な形式の勾配ブースティングでは、反復処理のたびに弱いモデルが 強モデルの損失勾配を予測するようにトレーニングされます。次に、 強いモデルの出力は、予測された勾配を引いて更新され、 勾配降下法と似ています。

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

ここで

  • $F_{0}$ が開始のストロング モデルです。
  • $F_{i+1}$ が次に強力なモデルです。
  • $F_{i}$ は現在、強力なモデルです。
  • $\xi$ は 0.0 ~ 1.0 の値で、収縮と呼ばれます。 これは UDM イベントに 学習率: 勾配降下法の一種です。
  • $f_{i}$ は、モデルの損失勾配を予測するようにトレーニングされた弱いモデルです。 $F_{i}$。

勾配ブースティングの最新のバリエーションには、二次微分係数も (Hessian)です。

ディシジョン ツリーは、 調整することもできます詳しくは、 勾配ブースト(決定)ツリー

グラデーションのクリップ

#seq

リスクを緩和するためによく使用されるメカニズムは、 勾配爆発問題」を 使用時の勾配の最大値の制限(クリッピング) モデルをトレーニングするための勾配降下法

勾配降下法

#fundamentals

損失を最小限に抑える数学的手法。 勾配降下法は反復的に調整 重みバイアス 損失を最小限に抑えるため、徐々に最適な組み合わせを見つけ出します。

勾配降下法は、ML よりもずっと古い手法です。

グラフ

#TensorFlow

TensorFlow では計算仕様。グラフ内のノード 演算を表しますエッジは有向で、結果を渡すことを表します。 演算(Tensor)の オペランドを別の演算に引き出せます使用 TensorBoard を使用してグラフを可視化します。

グラフ実行

#TensorFlow

このプログラムが最初に構成を行う TensorFlow プログラミング環境 グラフを作成し、そのグラフのすべてまたは一部を実行します。グラフ 実行モードは、TensorFlow 1.x のデフォルトの実行モードです。

一方、積極的実行は有効です。

貪欲なポリシー

#rl

強化学習では、常に特定のリソースを選択するポリシー 期待される収益が最も高いアクション。

グラウンド トゥルース

#fundamentals

現実。

実際に起こったことです。

たとえば、バイナリ分類を考えてみましょう。 大学 1 年生の学生が 6 年以内に卒業するでしょうこのモデルのグラウンド トゥルースは、 6 年以内に卒業したとは違います

グループ帰属バイアス

#fairness

個人にとって真実がすべての人にも当てはまると仮定する そのグループを選択します。グループ帰属バイアスの影響が悪化する可能性がある コンビニエンス サンプリングが データ収集に使用されます代表的でない例の場合、アトリビューションは 現実を反映していない可能性があります。

群外の均一性バイアスもご覧ください。 グループ内バイアスです。

H

ハルシネーション

#language

一見、もっともらしく見えても事実に反する出力を、 生成 AI モデルであり、 アサーションが必要です。 例: バラク オバマが 1865 年に亡くなったと主張する生成 AI モデル ハルシネーションを起こします。

ハッシュ ; ハッシュ化

ML では、バケット化のメカニズムを カテゴリデータです。特に数が カテゴリの数は多いが、実際に表示されるカテゴリの数は データセット内の比較的小さいサイズです。

たとえば、地球には約 73,000 種類の樹木が生息しています。方法 73,000 種の樹種を 73,000 の異なるカテゴリカル 説明します。または、200 種の樹木が実際に出現した場合、 ハッシュを使用して、樹木の種類を 500 バケットほどです

1 つのバケットに複数の種類の樹木を含めることもできます。たとえば 遺伝子的に異なるバオバブレッドカエデが生息する可能性がある 同じバケットに入れることができます。いずれにせよ、ハッシュ化は依然として 大規模なカテゴリセットを、選択された数のバケットにマッピングします。ハッシュ化は、 多数の取り得る値を持つカテゴリ特徴量を 1 つのブロックに値をグループ化することで、 決定論的な方法で取り組みます。

ヒューリスティック

問題に対するシンプルで迅速に実装されたソリューション。たとえば 「ヒューリスティックを使用して、86% の精度を達成しました。Google が ディープ ニューラル ネットワークでは、精度が 98% に向上しました。」

隠れ層

#fundamentals

レイヤの間のニューラル ネットワークのレイヤは、 入力レイヤ(特徴量)と、 出力レイヤ(予測)。 各隠れ層は 1 つ以上のニューロンで構成されています。 たとえば、次のニューラル ネットワークには、隠れ層が 2 つ含まれています。 1 つ目には 3 つのニューロンがあり、2 つ目には 2 つのニューロンがあります。

4 つのレイヤ。最初のレイヤは 2 つのレイヤを含む入力レイヤで、
          説明します。第 2 層は隠れ層で、3 つの
          あります。3 つ目のレイヤは、2 つのレイヤを含む隠れ層で、
          あります。4 番目のレイヤは出力レイヤです。各特徴
          3 つのエッジがあり、それぞれが異なるニューロンを指している
          レイヤに配置されます。第 2 レイヤの各ニューロンは、
          2 つのエッジがあり、それぞれが異なるニューロンを指している
          レイヤに配置されます。第 3 階層の各ニューロンには、
          1 つのエッジが出力レイヤを指しています。

ディープ ニューラル ネットワークは複数の 隠されています。たとえば、上の図は、ディープ ニューラル ネットワーク 隠れ層が 2 つあるためです。

階層型クラスタリング

#clustering

ツリーを作成するクラスタリング アルゴリズムのカテゴリ 説明します。階層型クラスタリングは階層データに適しています。 さまざまなパターンを学習します。階層型には 2 つの種類があります。 クラスタリング アルゴリズム:

  • 集約型クラスタリングでは、まずすべてのサンプルを独自のクラスタに割り当てます。 最も近いクラスタを繰り返し統合して、階層 1 と 2 の 表示されます。
  • 分割クラスタリングでは、まずすべてのサンプルを 1 つのクラスタにグループ化してから、 クラスタを階層ツリーに繰り返し分割します。

セントロイド ベースのクラスタリングとは対照的です。

ヒンジの損失

次の一連の損失関数群: 分類を使用して、 できるだけ遠くにある決定境界 各トレーニングサンプルの サンプルと境界の間のマージンを最大化します。 KSVM: ヒンジの損失(または ヒンジ損失の 2 乗など)。バイナリ分類の場合、ヒンジ損失関数は 次のように定義されます。

$$\text{loss} = \text{max}(0, 1 - (y * y'))$$

ここで、y は真のラベル(-1 または +1)、y' は未加工の出力 分類器モデルの予測を行います。

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

したがって、ヒンジの損失と (y * y') をプロットすると次のようになります。

結合された 2 つの線分で構成されるデカルト プロット。最初の
          線分は (-3, 4) で始まり (1, 0) で終わります。2 行目
          セグメントは (1, 0) から始まり、傾きをもって無期限に続く
          0 です。

歴史的バイアス

#fairness

世界に存在するバイアスの一種で、 変換されたことを示しています。こうしたバイアスは 社会的固定観念、人口統計の不平等、特定の組織に対する偏見 できます。

たとえば、分類モデルについて考えてみましょう。 ローン申請者がローンを債務不履行するかどうかを予測します。 2 つの地域で地方銀行の 1980 年代のローン債務不履行履歴データに基づいてトレーニング できます。もし、過去のコミュニティ A からの応募者が 6 倍以上だったら コミュニティ B の申請者よりもローンを債務不履行する可能性が高く、 モデルが学習する可能性が低くなるという 過去の条件があっても、コミュニティ A のローンを承認 そのコミュニティで高いデフォルト率を もはや関連しなくなりました

ホールドアウト データ

トレーニング中に意図的に使用しなかった (「保留」) 検証データセットテスト データセットは、ホールドアウト データの例です。ホールドアウト データ は、他のデータに対してモデルが一般化する能力を評価するのに役立ちます。 基づいて取得されます。ホールドアウト セットの損失により、 未知のデータセットでの損失の推定値と トレーニングセットを使用します

ホスト

#TensorFlow
#GoogleCloud

アクセラレータ チップで ML モデルをトレーニングする場合 (GPU または TPU): システムの一部 次の両方を制御します。

  • コードの全体的なフロー。
  • 入力パイプラインの抽出と変換。

ホストは通常、アクセラレータ チップではなく CPU で実行されます。 device: テンソルを操作します。 実装されています。

ハイパーパラメータ

#fundamentals

ハイパーパラメータ調整サービスによって実行される変数は、 モデルを継続的に調整する必要がありますたとえば 学習率はハイパーパラメータです。方法 トレーニング セッションの前に学習率を 0.01 に設定する。もし 0.01 が高すぎると判断した場合は、 トレーニング セッションでは 0.003 に設定します。

一方、パラメータは、 モデルに与えられた重みバイアス トレーニング中に学習します。

超平面

1 つのスペースを 2 つのサブスペースに分割する境界です。たとえば、直線は 平面は 2 次元の超平面であり、平面は 3 次元の超平面です。 ML でより一般的には、超平面とは、複数の異なる 高次元空間です。カーネル サポート ベクター マシン 正のクラスと負のクラスを分離する超平面。 高次元空間です。

I

i.i.d.

独立および同分布の略語。

画像認識

#image

画像内のオブジェクト、パターン、またはコンセプトを分類するプロセス。 画像認識は画像分類とも呼ばれます。

詳細については、次をご覧ください: ML Practicum: Image Classification

不均衡なデータセット

クラス不均衡なデータセットと同義。

暗黙のバイアス

#fairness

自分の心に基づいて自動的に関連付けや仮定を立てる 生成 AI です。暗黙的なバイアスは、以下に影響する可能性があります。

  • データの収集方法と分類方法。
  • ML システムの設計と開発の方法。

たとえば、結婚式の写真を識別するための分類器を作成する場合、 エンジニアは、写真の中の白いドレスを特徴として利用できます。 しかし、白いドレスが慣例となっていたのは特定の時代に限定され、 文化もあります

確認バイアスもご覧ください。

補完

値の補完の短縮形。

公平性に関する指標の非互換性

#fairness

公平性の概念の中には相互に相反するものがあり、 同時に満たすことはできませんそのため、1 つの Terraform 構成ファイルが 公平性を定量化するための普遍的な指標 すべての ML 問題に適用できるモデルです。

これは好ましくないと思われるかもしれませんが、公平性に関する指標に互換性がないのは 公平性への取り組みが実を結んでいないことを意味するわけではありません。代わりに 公平性は特定の ML 問題のコンテキストに沿って定義され、 そのユースケースに特有の害が及ぶことを防ぐことが目標です。

「 (不)公平性の可能性」をご覧ください。

コンテキスト内学習

#language
#generativeAI

少数ショット プロンプトと同義。

独立同分布(i.i.d)

#fundamentals

変化しない分布から取得されたデータと、各値が 描画されるものは、以前に描画された値に依存しません。ID 理想的なガスとは マシンの 有用な数学的構成要素だが、正確には いくつかあります。たとえば ウェブページにアクセスしたユーザーの分布や ID を指定できます。ごく短時間に測定されます分布は変化しません 1 人の訪問は一般的に 別のユーザーの訪問とは関係ありませんただし、その時間枠を広げると、 ウェブページの訪問者に季節的な差異が生じることがあります。

非定常性もご覧ください。

個人の公平性

#fairness

類似した個人が分類されるかどうかを確認する公平性指標 使用できます。たとえば、Brobdingnagian Academy は、 同じ学年の 2 人の生徒が確実に参加できるようにし、 テストの点数も共通で入学できる可能性も同程度です。

個々の公平性は、完全に「類似性」をどのように定義するかに左右されることに注意してください。 (この場合は成績とテストの点数)ため、 類似性指標が重要性を見落としている場合に、新たな公平性の問題を引き起こす (生徒のカリキュラムの厳格さなど)に注意する必要があります。

「Fairness Through Awareness のコメントを参照。

推論

#fundamentals

ML において、予測を行うプロセスは、 ラベルなしのサンプルにトレーニング済みモデルを適用する。

推論は、統計では若干異なる意味があります。 詳しくは、 <ph type="x-smartling-placeholder"></ph> 詳しくは、統計的推論に関するウィキペディアの記事をご覧ください。

推論パス

#df

ディシジョン ツリー推論を行う際、 特定のroot を他の条件に追加し、 リーフ。たとえば、次のディシジョン ツリーでは、 太い矢印は、次のサンプルの推論パスを示しています。 特徴値:

  • x = 7
  • y = 12
  • z = -3

次の図の推論パスは、3 つの 条件が満たされていることを表します(Zeta)。

4 つの条件と 5 つのリーフで構成されるディシジョン ツリー。
          ルート条件は (x > 0) です。答えはイエスなので、
          推論パスは、ルートから次の条件まで進む(y > 0)。
          答えが「はい」なので、推論パスは
          次の条件(z > 0)です。答えがノーであるため、推論パスは
          その終端ノード、つまりリーフ(ゼータ)にたどり着きます。

3 つの太い矢印は、推論パスを示しています。

情報利得

#df

デシジョン フォレストでは、 ノードのエントロピーと重み付け(サンプル数による) その子ノードのエントロピーの和です。ノードのエントロピーとは、ノードの 表示されます。

たとえば、次のエントロピー値について考えてみましょう。

  • 親ノードのエントロピー = 0.6
  • 関連する 16 個のサンプルを持つ 1 つの子ノードのエントロピー = 0.2
  • 関連する 24 個のサンプルを持つ別の子ノードのエントロピー = 0.1

つまり、サンプルの 40% が 1 つの子ノードに、60% が 子ノードを指定します。そのため、次のようになります。

  • 子ノードの加重エントロピー合計 = (0.4 * 0.2) + (0.6 * 0.1) = 0.14

したがって、情報取得は次のように行われます。

  • 情報ゲイン = 親ノードのエントロピー - 子ノードの加重エントロピー合計
  • 情報ゲイン = 0.6 - 0.14 = 0.46

ほとんどのスプリッター条件の作成を試みます。 情報を最大限に得るためのシステムです。

群内バイアス

#fairness

自分の集団や特徴に対する偏見を示すこと。 テスターまたは評価担当者が機械学習の開発者の友人である場合は、 製品テストが無効になる場合がある 表します

グループ内バイアスは グループ帰属バイアスグループ外の均一性バイアスもご覧ください。

入力生成ツール

データを Google Cloud Storage に読み込んで ニューラル ネットワーク

入力生成ツールは、処理を行うコンポーネントと 元データをテンソルに変換し、それを反復してバッチを生成 トレーニング、評価、推論です

入力層

#fundamentals

ニューラル ネットワークレイヤは、 は特徴ベクトルを保持します。つまり、入力レイヤが トレーニングを提供します。 推論。たとえば、次の入力レイヤでは、 ニューラル ネットワークは、

4 つのレイヤ: 入力レイヤ、2 つの非表示レイヤ、出力レイヤ。

セット内の条件

#df

ディシジョン ツリー条件 一連のアイテム内に 1 つのアイテムが存在するかどうかをテストします。 たとえば、インセット条件の例を次に示します。

  house-style in [tudor, colonial, cape]

推論中に、家スタイルの特徴の値が tudorcolonialcape のいずれかである場合、この条件は Yes と評価されます。条件 家スタイルの対象物の値が上記以外の値(例: ranch)である。 この条件は No と評価されます

セット内の条件は通常よりも効果的なディシジョン ツリーを ワンホット エンコード機能をテストする条件。

インスタンス

example と同義。

指示チューニング

#generativeAI

ファインチューニングの一種で、 生成 AI モデルの学習能力 できます。指示チューニングには、一連のデータでモデルをトレーニング 指示プロンプトが多数用意されており、通常はさまざまな 多岐にわたります。その結果、指示用にチューニングされたモデルは、 ゼロショット プロンプトに対する有用なレスポンスを生成する 学習しました。

以下と比較対照します。

解釈可能性

#fundamentals

ML モデルの推論を 人間が理解できる用語で表現します。

たとえば、ほとんどの線形回帰モデルは、 作成します。(各トレーニング済み重みを参照するだけで済みます。 feature.)デシジョン フォレストも非常に解釈しやすいものです。ただし一部のモデルでは 解釈可能にするには高度な可視化が必要です。

こちらの Learning Interpretability Tool(LIT) ML モデルを解釈します

評価者間合意

タスクを実施するときに人間の評価者が同意する頻度の測定値。 評価担当者が同意しない場合、タスクの手順の改善が必要になることがあります。 アノテーター間合意とも呼ばれます。 評価者間信頼性。関連項目 Cohen's kappa これは、評価者間の一致の最も一般的な測定値の一つです。

Intersection over union(IoU)

#image

2 つのセットの積を和で割ったものです。ML 画像検出タスクでは、IoU を使用してモデルの 境界に関して予測される境界ボックス グラウンド トゥルースの境界ボックス。この場合の IoU は 2 つのボックスは重なり合う領域と総面積の比率で、 値の範囲は 0(予測された境界ボックスとグラウンド トゥルースの重複なし) 1(予測された境界ボックスとグラウンド トゥルースの境界ボックス)が、 (座標はまったく同じになります)。

たとえば、次の画像をご覧ください。

  • 予測された境界ボックス(モデルの位置を区切る座標 と予測します)が紫色で示されています。
  • グラウンド トゥルースの境界ボックス(夜間、 が緑色の枠線で囲まれています。

アルルのフィンセントの寝室を描いたゴッホの絵
          ベッドサイドテーブルを囲むように境界ボックスを配置しています。グラウンド トゥルース
          境界ボックス(緑色)が夜間テーブルを完全に囲む。「
          予測境界ボックス(紫色)が右下隅の 50% オフセット
          グラウンド トゥルースの境界ボックスの右下 4 分の 1 を囲む
          残りのテーブルは見逃します

ここでは、予測とグラウンド トゥルースの境界ボックスの交差点になります。 (左下)は 1 で、予測と予測の境界ボックスの グラウンド トゥルース(右下)は 7 なので、IoU は \(\frac{1}{7}\)です。

上記と同じ画像。ただし、各境界ボックスが 4 つに分割されている
          考えてみましょう全部で 7 つの象限があります
          グラウンド トゥルースの境界ボックスと左上の象限
          予測された境界ボックスの象限が互いに重なっている。この
          重なっている部分(緑色でハイライト)は
          面積は 1 です 上記と同じ画像。ただし、各境界ボックスが 4 つに分割されている
          考えてみましょう全部で 7 つの象限があります
          グラウンド トゥルースの境界ボックスと左上の象限
          予測された境界ボックスの象限が互いに重なっている。
          両方の境界ボックスで囲まれた内部全体
          (緑色でハイライト表示)はユニオンを表し、
          面積は 7 です

IoU

Intersection over union の略語。

アイテム マトリックス

#recsystems

レコメンデーション システムでは、 次によって生成されるエンベディング ベクトルの行列 行列分解アイテムに関する潜在シグナルを保持する。 アイテム マトリックスの各行は 1 つの潜在値の値を保持する すべてのアイテムに適用されます。 たとえば、映画のレコメンデーション システムについて考えてみましょう。各列 アイテム マトリックスで 1 つの映画を表しています。潜在シグナル ジャンルを表している、または解釈しにくいものが使われている可能性がある 複雑な相互作用を含むシグナル おすすめします

アイテム マトリックスの列数がターゲットと同じ数である 行列を返します。たとえば、ある映画が 10,000 本の映画タイトルを評価するレコメンデーション システム、 アイテム マトリックスは 10,000 列になります。

アイテム

#recsystems

レコメンデーション システムでは、 表示されます。たとえば動画は 動画を保存するアイテムで 一方、本は書店が推奨するアイテムです。

繰り返し

#fundamentals

モデルのパラメータ(モデルのパラメータ)を 1 回更新すると、 重みバイアス - トレーニングをご覧ください。バッチサイズによって、 モデルが 1 回の反復で処理するサンプルの数。たとえば バッチサイズが 20 の場合、モデルは 調整する必要があります。

ニューラル ネットワークをトレーニングする場合は、1 回の反復処理 次の 2 つのパスがあります。

  1. 単一のバッチで損失を評価するためのフォワードパス。
  2. バックプロパゲーション(バックプロパゲーション)により、 モデルのパラメータを調整する必要があります。

J

JAX

アレイ コンピューティング ライブラリは、 XLA(Accelerated Linear Algebra)と自動微分 高パフォーマンスの数値計算に最適ですJAX はシンプルかつ高性能な コンポーズ可能な変換により、高速化された数値コードを記述するための API。 JAX には次のような機能があります。

  • grad(自動微分)
  • jit(ジャストインタイム コンパイル)
  • vmap(自動ベクトル化またはバッチ処理)
  • pmap(並列化)

JAX は数値データの変換を表現して構成するための言語 Python の NumPy に似ていますが、範囲ははるかに大きいコードです。 ライブラリです。(実際、JAX の .numpy ライブラリは機能的に同等です。 完全に書き換えられたバージョンの Python NumPy ライブラリです)。

JAX は多くの ML タスクを高速化するのに特に適している モデルとデータを並列処理に適した形式に変換する GPU と TPU アクセラレータ チップ全体にわたります。

FlaxOptaxPax、その他多数 JAX インフラストラクチャ上に構築されています。

K

Keras

よく利用されている Python の ML API。 Keras 実行日 ディープ ラーニング フレームワークがいくつか用意されています。TensorFlow では、 利用可能 tf.keras を使用します。

カーネル サポート ベクター マシン(KSVM)

次の分類間のマージンを最大化しようとする分類アルゴリズム 肯定的かつ 入力データベクトルのマッピングによる負クラス 高次元の空間に導きます。たとえば、ニューラル ネットワークが 入力データセットが 100 の特徴量があります商品間の利益を最大化するには 分類することで、KSVM でそれらの特徴を内部でマッピングして 100 万次元の空間です。KSVM では、損失関数と呼ばれる ヒンジの損失

キーポイント

#image

画像内の特定の特徴の座標。たとえば 画像認識モデルによって画像を識別し、 重要なポイントが各花びら、幹、 といった具合です

k フォールド交差検証

モデルの性能を予測するためのアルゴリズムは、 新しいデータに一般化する。k-fold の k は、 データセットのサンプルを分割する等しいグループの数トレーニング モデルを k 回テストします。トレーニングとテストの各ラウンドで、 残りのすべてのグループがトレーニング あります。k ラウンドのトレーニングとテストの後、平均と 選択したテスト指標の標準偏差。

たとえば、データセットが 120 個のサンプルで構成されているとします。さらに仮に k を 4 に設定することにしました。サンプルをシャッフルした後、 データセットを 30 個のサンプルからなる 4 つの同等のグループに分け、 4 回目で再確認できます。

サンプルの 4 つの等しいグループに分割されたデータセット。第 1 ラウンドでは
          最初の 3 つのグループがトレーニングに使用され、最後のグループが
          テストに使用されます。第 2 ラウンドでは、最初の 2 つのグループが、
          グループはトレーニングに使用され、3 つ目のグループは
          あります。ラウンド 3 では、最初のグループと最後の 2 つのグループは、
          2 つ目のグループはテストに使用します。
          ラウンド 4 では、最初のグループはテストに、最後のグループはテストに使用され、
          トレーニングには 3 つのグループが使用されます。

たとえば、平均二乗誤差(MSE)が 線形回帰モデルで最も重要な指標といえます。したがって、 4 ラウンドの MSE の平均と標準偏差を求めることになります。

K 平均法

#clustering

サンプルをグループ化する一般的なクラスタリング アルゴリズム 学習します。K 平均法アルゴリズムは、基本的に次の処理を行います。

  • 最も良い k 個の中心点( セントロイド)として扱うことができます。
  • 各サンプルを最も近いセントロイドに割り当てます。最も近くにあるサンプルは 同じセントロイドが同じグループに属する場合です。

K 平均法アルゴリズムは、重心の位置を選択して累積 2 乗。各サンプルから最も近いセントロイドまでの距離の平方根です。

たとえば、次のように犬の高さを犬の幅でプロットするとします。

数十個のデータポイントがあるデカルトグラフ。

k=3 の場合、K 平均法アルゴリズムによって 3 つの重心が決定されます。各例 最も近いセントロイドに割り当てられ、次の 3 つのグループが生成されます。

前のイラストと同じデカルトグラフですが、次の点が異なります。
          3 つのセントロイドが追加されています
          前のデータポイントは 3 つの異なるグループにクラスタ化されています。
          各グループは特定のデータポイントに最も近い
          できます。

あるメーカーが、小型 / 小型のデバイスに最適なサイズを判断 サイズも豊富です3 つのセントロイドは平均値を示します そのクラスタ内の各犬の身長と平均幅です。メーカーは この 3 重心を基準にセーターのサイズを 決めることになります注: クラスタのセントロイドは通常、クラスタ内の例ではありません

上の図は K 平均法を示していますが、 2 つの対象物(高さと幅)を設定します。K 平均法ではサンプルをグループ化できます。 連携しています

k 中央値

#clustering

K 平均法に密接に関連するクラスタリング アルゴリズム。「 この 2 つの実際の違いは次のとおりです。

  • K 平均法では、重みの合計を最小化して 2 乗: セントロイド候補と各 説明します。
  • k 中央値では、セントロイドは セントロイドの候補とその各サンプルの間の距離を 定義します

距離の定義も異なることに注意してください。

  • K 平均法は、モデルに からのユークリッド距離 例に追加します。(2 つの次元では、 距離はピタゴラスの定理を使って 斜辺)です。たとえば、(2,2) の間の K 平均法距離が (5,-2) は以下のようになります。
$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$
  • k 中央値は マンハッタン距離に依存 例に挙げられますこの距離は、トレーニング データの 差分を表示できます。たとえば k-中央値は (2,2) と (5,-2) の間の距離は次のようになります。
$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

L

L0 正則化

#fundamentals

正則化の一種で、 ゼロ以外の重み合計数にペナルティをかける です。たとえば、非ゼロの重みが 11 個あるモデルに ゼロ以外の重みを 10 個も持つ類似モデルよりもペナルティが高くなります。

L0 正則化は、L0 ノルム正則化とも呼ばれます。

L1 損失

#fundamentals

絶対値を計算する損失関数 実際のラベル値と モデルが予測する値。たとえば、ここでは バッチが 5 の場合の L1 損失の計算 :

サンプルの実際の値 モデルの予測値 デルタの絶対値
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = L1 損失

L1 損失は外れ値の影響を受けにくい L2 損失よりも高くなります。

平均絶対誤差は、 例あたり L1 損失。

L1 正則化

#fundamentals

ペナルティを課す正則化の一種 絶対値の合計に比例する重み あります。L1 正則化により、関連性のない要素の重みが促進される ほとんど関連性のない特徴をゼロにします。次の特徴: 重み 0 は、モデルから実質的に削除されます。

対照的に、L2 正則化です。

L2 損失

#fundamentals

二乗を計算する損失関数 実際のラベル値と モデルが予測する値。たとえば、ここでは バッチが 5 の場合の L2 損失の計算 :

サンプルの実際の値 モデルの予測値 三角形
7 6 1
5 4 1
8 11 9
4 6 4
9 8 1
  16 = L2 損失

二乗によって、L2 の損失は 外れ値。 つまり、L2 の損失は、悪い予測に対してよりも強い反応を示す L1 損失。たとえば L1 損失は、 前のバッチでは 16 ではなく 8 になります。1 つの Pod が 外れ値は 16 個のうち 9 個を占めます。

通常、回帰モデルでは L2 損失を使用します。 使用します。

平均二乗誤差は、 例あたり L2 損失。 二乗損失は L2 損失の別名です。

L2 正則化

#fundamentals

ペナルティを課す正則化の一種 重みの二乗の和に比例した重み。 L2 正則化は、外れ値の重み( 0 に近いものの、0 に近い値を指定します。 値が 0 に非常に近い特徴はモデルに残る モデルの予測にはあまり影響しません

L2 正則化は常に 線形モデル

対照的に、L1 正則化です。

ラベル

#fundamentals

教師あり ML では、 「応答」または「result」(の一部)。

ラベル付きサンプルは、1 つ以上の 特徴とラベルです。たとえば 場合、ラベルはおそらく「Spam」かまたは [迷惑メールではない] を選択します。降水量データセットでは、ラベルは降水量 特定期間に降った雨

ラベル付きサンプル

#fundamentals

1 つ以上の特徴量ラベル。たとえば、次の表では 3 つの 住宅評価モデルからラベル付きサンプルを取得、それぞれに 3 つの特徴 1 つのラベル:

寝室の数 浴室数 築年数 住宅価格(ラベル)
3 2 15 345,000 ドル
2 1 72 179,000 ドル
4 2 34 39 万 2,000 ドル

教師あり ML では、 ラベル付きサンプルでトレーニングされ、 ラベルなしのサンプル

ラベル付きサンプルとラベルなしサンプルを対比します。

ラベル漏洩

モデル設計上の欠陥で、特徴ラベル。たとえば、 バイナリ分類モデル 見込み顧客が特定の商品を購入するかどうか モデルの特徴の 1 つがブール値で、 SpokeToCustomerAgent。さらにカスタマーエージェントは 見込み顧客が実際に購入したに割り当てられる 説明します。トレーニング中に、モデルはこの関連性を SpokeToCustomerAgent とラベルの間の値。

ラムダ

#fundamentals

正則化率と同義。

ラムダは過負荷な項です。ここでは、データの有効活用に 正則化で定義できます。

LaMDA(Language Model for Dialogue Applications)

#language

Transformer ベースの トレーニング済みで Google が開発した大規模言語モデル 現実的な会話レスポンスを生成できる大規模な対話データセット。

LaMDA: 画期的な会話 Technology は概要です。

landmarks

#image

キーポイントと同義。

言語モデル

#language

トークンの確率を推定するモデル トークン、つまり、より長いシーケンスのトークンで生成されるシーケンスです。

大規模言語モデル

#language

言語モデルの番号が非常に大きい場合は、少なくとも、 (パラメータ)よりカジュアルな表現で、 Transformer ベースの言語モデル( Gemini または GPT

潜在空間

#language

エンベディング空間と同義。

レイヤ

#fundamentals

一連のニューロンニューラル ネットワーク。一般的な 3 種類のレイヤ 次のとおりです。

たとえば、次の図は、ニューラル ネットワークを 1 つの入力層、2 つの隠れ層、1 つの出力層です。

1 つの入力層、2 つの隠れ層、1 つの隠れ層を持つニューラル ネットワーク
          出力レイヤです。入力レイヤは 2 つの特徴で構成されています。最初の
          隠れ層は 3 つのニューロンと 2 つ目の隠れ層で構成されている
          2 つのニューロンで構成されています出力レイヤは単一のノードで構成されます。

TensorFlow では、レイヤも Python 関数であり、 テンソルと構成オプションを入力および 他のテンソルを出力として生成します。

Layers API(tf.layers)

#TensorFlow

ディープ ニューラル ネットワークを構築するための TensorFlow API レイヤの組み合わせです。Layers API を使用すると、 レイヤ:

Layers API は、Keras レイヤ API の規則に従います。 つまり、別の接頭辞を除き、Layers API 内のすべての関数は、 名前と署名が、Keras アプリケーションのものと レイヤ API です。

#df

ディシジョン ツリー内のエンドポイント。YouTube の condition の場合、リーフはテストを行いません。 むしろ、リーフは可能性のある予測です。リーフは終端でもある 推論パスノード

たとえば、次のディシジョン ツリーには 3 つのリーフが含まれています。

2 つの条件から 3 つのリーフにつながるディシジョン ツリー。

Learning Interpretability Tool(LIT)

視覚的でインタラクティブなモデル理解とデータ可視化ツール。

オープンソースの LIT を使用して、 モデルを解釈したり、テキスト、画像、 表します。

学習率

#fundamentals

勾配降下法を示す浮動小数点数 重みとバイアスをどれだけ強く調整するかを iteration。たとえば、学習率が 0.3 の場合、 重みとバイアスの調整が学習率の 3 倍に向上 0.1 です。

学習率は重要なハイパーパラメータです。次の値を設定した場合: 学習率が低すぎると、トレーニングに時間がかかりすぎます。条件 学習率の設定が高すぎると、勾配降下法で問題が発生することが 収束に到達する。

最小二乗回帰

線形回帰モデルは、トレーニング データの L2 損失

リニア

#fundamentals

単独で表現できる 2 つ以上の変数間の関係 加算と乗算で計算されます

線形関係のプロットは線です。

nonlinear」は対照的です。

線形モデル

#fundamentals

1 つの重みを 1 つ割り当てるモデル 機能: 予測を行います。 (線形モデルにはバイアスも組み込まれています)。一方 ディープモデルでの予測と特徴量の関係 通常はnonlinearです。

線形モデルは通常トレーニングが簡単で、 ディープモデルよりも解釈可能です。ただし、 ディープモデルでは、特徴間の複雑な関係を学習できます。

線形回帰ロジスティック回帰は、2 種類の線形モデルです。

線形回帰

#fundamentals

次の両方に該当する ML モデルのタイプ。

  • このモデルは線形モデルです。
  • 予測は浮動小数点値です。( 線形回帰回帰部分)

線形回帰とロジスティック回帰を比べます。 また、回帰と分類を対比します。

LIT

の略語 Learning Interpretability Tool(LIT) これは以前、言語解釈可能性ツールと呼ばれていました。

LLM

#language
#generativeAI

大規模言語モデルの略語。

LLM 評価(評価)

#language
#generativeAI

インフラストラクチャのパフォーマンスを評価するための一連の指標とベンチマーク 大規模言語モデル(LLM)。大まかに言うと LLM の評価:

  • LLM の改善が必要な分野を研究者が特定できるよう支援します。
  • さまざまな LLM を比較し、モデルに最適な LLM を特定するのに できます。
  • LLM が安全で倫理的に使用できることを保証します。
で確認できます。

ロジスティック回帰

#fundamentals

確率を予測する回帰モデルの一種。 ロジスティック回帰モデルには次の特徴があります。

  • ラベルはカテゴリです。ロジスティックという用語 回帰は通常、二項ロジスティック回帰、つまり 2 つの有効な値を持つラベルの確率を計算するモデルに与えられます。 あまり一般的でないバリアントである多項ロジスティック回帰では、以下を計算します。 取り得る値が 3 つ以上あるラベルの確率です。
  • トレーニング中の損失関数は Log Loss です。 (ラベル用に複数のログ損失ユニットを並行して配置できる 指定することもできます。)
  • このモデルは、ディープ ニューラル ネットワークではなく、線形アーキテクチャを採用しています。 ただし、この定義の残りの部分は、 確率を予測するディープモデル 使用します。

たとえば、ロジスティック回帰モデルで スパムか、そうでないかの確率です。 推論の際に、モデルが 0.72 と予測したとします。したがって、 次を予測:

  • 72% の確率でスパム
  • メールが迷惑メールではない確率は 28%。

ロジスティック回帰モデルでは、次の 2 段階のアーキテクチャを使用します。

  1. モデルは、一次関数を適用して未加工の予測(y')を生成する 学習します。
  2. モデルはその生の予測を入力として シグモイド関数は元のデータを 範囲(0 と 1 は含まない)で表現されます。

他の回帰モデルと同様に、ロジスティック回帰モデルは数値を予測します。 ただし、この数値は通常、バイナリ分類の一部になります。 次のように設定します。

  • 予測された数値が実際の数値よりも大きい場合、 分類しきい値、 バイナリ分類モデルが陽性のクラスを予測します。
  • 予測数が分類しきい値より小さい場合、 バイナリ分類モデルは陰性のクラスを予測します。

ロジット

分類によって生成される未加工の(正規化されていない)予測のベクトル 生成され、通常は正規化関数に渡されます。 モデルがマルチクラス分類を解決する場合 ロジットは通常、モデルに与える softmax 関数。 ソフトマックス関数は、正規化された 可能性のあるクラスごとに 1 つの値を持つ確率です。

ログ損失

#fundamentals

バイナリで使用される損失関数 ロジスティック回帰

対数オッズ

#fundamentals

ある事象が発生する確率の対数。

長・短期記憶(LSTM)

#seq

配列内のセルの種類は 再帰型ニューラル ネットワークがニューラル ネットワークを 手書き入力認識、機械翻訳、ML などのアプリケーションで 多岐にわたります。LSTM は 勾配消失問題 長いデータ シーケンスにより RNN をトレーニングする方法を 前のセルからの新しい入力とコンテキストに基づく内部メモリの状態 学習します。

LoRA

#language
#generativeAI

Low-Rank Adaptability の略語。

損失

#fundamentals

トレーニング教師ありモデル: モデルの予測ラベルから取得されます。

損失関数は損失を計算します。

損失アグリゲータ

機械学習アルゴリズムの一種で、 モデルパフォーマンスを向上させる 複数のモデルの予測を組み合わせて、 単一の予測を行います。その結果 損失アグリゲータを使用すると、予測の分散を 予測の精度を向上させる。

損失曲線

#fundamentals

トレーニング数の関数としての損失のプロット iterations。次のプロットは、一般的な損失 曲線:

損失とトレーニングの反復処理のデカルトグラフ。
          初期のイテレーションで損失が急激に減少し、その後徐々に
          傾きは緩やかで、最後のイテレーションで傾きは緩やかです。

損失曲線は、モデルがトレーニング中に 収束または過学習

損失曲線では、以下のすべての種類の損失をプロットできます。

一般化曲線もご覧ください。

損失関数

#fundamentals

トレーニングまたはテスト中、 次の数値を計算する数学関数では、 例のバッチに対する損失です。損失関数は、1 対 1 の会話から 予測を行うモデルよりも、精度の高い 検出できます。

トレーニングの目標は通常、損失関数によって生成される損失を 返されます。

さまざまな種類の損失関数が存在します。適切な損失を選択する モデルの種類に応じて適切に分類します例:

損失表面

重みと損失のグラフ。勾配降下法が目的 損失表面が極小となる重みを見つけます。

低ランクの適応性(LoRA)

#language
#generativeAI

以下を実行するアルゴリズムは、 パラメータ効率調整により 特定のサブセットのみをファインチューニング 大規模言語モデルのパラメータ。 LoRA には次の利点があります。

  • モデルのすべてのファインチューニングが必要な手法よりも高速にファインチューニング あります。
  • モジュールで推論にかかる計算費用を削減 モデルです。

LoRA でチューニングされたモデルは、予測の品質を維持または改善します。

LoRA を使用すると、モデルの複数の専用バージョンが可能になります。

LSTM

#seq

長・短期記憶の略称。

M

機械学習

#fundamentals

トレーニングするプログラムまたはシステム 入力データからモデルを取得する。トレーニング済みモデルは 生成された新しい(未知の)データから有用な予測を行う モデルのトレーニングに使用したのと同じ分布になります。

ML は、関連する研究分野を指す これらのプログラムやシステムとは 関係ありません

多数派クラス

#fundamentals

より一般的なラベルは、 クラス不均衡なデータセット。たとえば 99% の負のラベルと 1% の正のラベルを含むデータセットを 負のラベルはマジョリティクラスです

少数派」は対照的です。

マルコフ決定プロセス(MDP)

#rl

意思決定モデルを表すグラフは、 (またはアクション状態が維持されることを前提としています。 マルコフの性質。イン 強化学習という、 数値の報酬が返されます。

マルコフの性質

#rl

特定の環境のプロパティで、その環境の状態は、 は、完全に定義された情報によって 現在の状態とエージェントのアクション

マスク言語モデル

#language

次の確率を予測する言語モデル: 候補トークンを順番に並べて空白を埋めます。たとえば、 マスクされた言語モデルで候補単語の確率を計算できる を使用して、次の文の下線を置き換えます。

帽子の ____ が戻ってきた。

文献では通常、文字列「MASK」が使用されています。ハイライト表示されます。 例:

「マスク」戻ってきたわね。

最新のマスク言語モデルのほとんどは双方向です。

matplotlib

オープンソースの Python 2D プロット ライブラリ。 matplotlib を使用すると、 さまざまな側面から説明します

行列分解

#recsystems

数学において、ドット積が近似値を持つ行列を求める ターゲット マトリックス

レコメンデーション システムにおけるターゲット マトリックス しばしばユーザーのitems に対する評価。たとえば、ターゲット 映画のレコメンデーション システムのマトリックスは、 正の整数はユーザーの評価で、0 は 0 です。 ユーザーが映画を評価していないことを意味します。

  カサブランカ フィラデルフィアの事例 Black Panther(「ブラック パンサー」) ワンダーウーマン パルプ・フィクション
ユーザー 1 5.0 3.0 0.0 2.0 0.0
ユーザー 2 4.0 0.0 0.0 1.0 5.0
ユーザー 3 3.0 1.0 4.0 5.0 0.0

映画のレコメンデーション システムは、 未評価の映画があります。たとえば、ユーザー 1 は Black Panther を好むか?

レコメンデーション システムの手法の一つとして、マトリックスを 次の 2 つの行列を生成します。

たとえば、3 人のユーザーと 5 つのアイテムに対して行列分解を使用すると、 この場合、次のようなユーザー マトリックスとアイテム マトリックスが生成されます。

User Matrix                 Item Matrix

1.1   2.3           0.9   0.2   1.4    2.0   1.2
0.6   2.0           1.7   1.2   1.2   -0.1   2.1
2.5   0.5

ユーザー マトリックスとアイテム マトリックスのドット積からレコメンデーションを生成 元のユーザー評価だけでなく予測も含んだ行列です。 各ユーザーがまだ見たことのない映画の タイムスタンプを取得できます。 たとえば、ユーザー 1 のカサブランカの評価は 5.0 でした。点 おすすめ商品マトリックスのそのセルに対応する うまくいけば 5.0 前後になります。

(1.1 * 0.9) + (2.3 * 1.7) = 4.9

さらに重要なことは、ユーザー 1 はブラック パンサーが好きかということです。ドット積を取る 対応する文字が 1 行目の 3 列目に 評価: 4.3:

(1.1 * 1.4) + (2.3 * 1.2) = 4.3

行列分解で生成されるユーザー マトリックスとアイテム マトリックスは通常、 ターゲット マトリックスよりも大幅にコンパクトになります。

平均絶対誤差(MAE)

L1 損失の場合のサンプルあたりの平均損失 分析できます平均絶対誤差は次のように計算します。

  1. バッチの L1 損失を計算します。
  2. L1 の損失をバッチのサンプル数で割ります。

たとえば、入力シーケンスの L1 損失の計算を 5 つの例のバッチに続きます。

サンプルの実際の値 モデルの予測値 損失(実際の値と予測値の差)
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = L1 損失

したがって、L1 の損失は 8、例の数は 5 です。 したがって、平均絶対誤差は次のようになります。

Mean Absolute Error = L1 loss / Number of Examples
Mean Absolute Error = 8/5 = 1.6

平均絶対誤差を平均二乗誤差で対比する。 二乗平均平方根誤差

平均二乗誤差(MSE)

L2 損失の場合の 1 サンプルあたりの平均損失 分析できます平均二乗誤差は次のように計算します。

  1. バッチの L2 損失を計算します。
  2. L2 の損失をバッチのサンプル数で割ります。

たとえば、次の 5 つの例からなるバッチでの損失について考えてみましょう。

実際の値 モデルの予測 損失 二乗損失
7 6 1 1
5 4 1 1
8 11 3 9
4 6 2 4
9 8 1 1
16 = L2 損失

したがって、平均二乗誤差は次のようになります。

Mean Squared Error = L2 loss / Number of Examples
Mean Squared Error = 16/5 = 3.2

平均二乗誤差は一般的なトレーニング オプティマイザーです。 特に線形回帰で使用します。

対比平均二乗誤差 平均絶対誤差二乗平均平方根誤差

TensorFlow Playground: 平均二乗誤差を使用 損失値を計算します。

メッシュ

#TensorFlow
#GoogleCloud

ML 並列プログラミングでは、データの割り当てと TPU チップにマッピングし、これらの値のシャーディングまたは複製方法を定義します。

メッシュは過負荷状態にある用語で、次のいずれかを意味します。

  • TPU チップの物理レイアウト。
  • データとモデルを TPU にマッピングするための抽象的な論理構造 できます。

いずれの場合も、メッシュは形状として指定されます。

メタラーニング

#language

学習アルゴリズムを検出または改善する ML のサブセット。 メタラーニング システムでは、新しい情報をすばやく学習するようにモデルをトレーニングすることも 少量のデータやこれまでのタスクで得た経験から トレーニングすることもできます 一般的に、メタ学習アルゴリズムは次のことを実現しようとします。

  • 手動で設計された機能(イニシャライザや オプティマイザー)です。
  • データ効率とコンピューティング効率を高める。
  • 一般化を改善する。

メタラーニングは少数ショット学習に関連しています。

指標

#TensorFlow

重視する統計。

目標とは、ML システムが 最適化を試みます。

Metrics API(tf.metrics)

モデルを評価するための TensorFlow API。例: tf.metrics.accuracy モデルの予測がラベルと一致する頻度を決定します。

ミニバッチ

#fundamentals

バッチの小さなランダムに選択されたサブセットを 1 つのバッチで処理する iteration。 ミニバッチのバッチサイズは通常、 10 ~ 1,000 サンプル。

たとえば、トレーニング セット全体(完全なバッチ)があるとします。 1,000 個の例で構成されています。さらに、先ほど定義した値に 各ミニバッチのバッチサイズを 20 にします。したがって、 反復処理により、1,000 個のサンプルのうちランダムな 20 個に対する損失が それに応じて重みバイアスを調整します。

ミニバッチでの損失を計算する方が、 サンプル全体の損失が わかります

ミニバッチ確率的勾配降下法

勾配降下法アルゴリズムでは、 ミニバッチ。言い換えれば、ミニバッチの確率的 勾配降下法は、予測されたモデルの小さなサブセットに基づいて 生成します。通常の確率的勾配降下法では、 サイズ 1 のミニバッチです。

ミニマックス損失

モデルの損失関数は、 敵対的生成ネットワーク 分布間の交差エントロピーに基づいて、 生成データと実際のデータの両方が含まれます。

最小損失損失が 最初の論文で 生成敵対的ネットワークです。

少数派の階級

#fundamentals

カテゴリではあまり一般的でないラベルが クラス不均衡なデータセット。たとえば 99% の負のラベルと 1% の正のラベルを含むデータセットを 正のラベルは少数派のクラスです

マジョリティ クラス」は対照的です。

専門家の組み合わせ

#language
#generativeAI

ニューラル ネットワークの効率を向上させるスキームは、 パラメータのサブセットのみ(エキスパート)のみを使用して 特定の入力 token または exampleゲーティング ネットワークは、各入力トークンやサンプルを適切なエキスパートにルーティングします。

詳細については、次のいずれかのホワイトペーパーをご覧ください。

ML

ML の略語。

MMIT

#language
#image
#generativeAI

略語: マルチモーダル指示用調整済み

MNIST

#image

LeCun、Cortes、Burges がコンパイルした、 60,000 点の画像で、それぞれが人間がどのようにして特定の言葉を手作業で書いたか 0 ~ 9 の数字。各画像は 28x28 の整数の配列として保存されます。 各整数は 0 ~ 255 のグレースケール値です。

MNIST は機械学習の正規のデータセットであり、多くの場合、新しい 構築する方法についても学びました詳しくは、 <ph type="x-smartling-placeholder"></ph> The MNIST Database of Handwriting Digits(手書き数字の MNIST データベース)。

モダリティ

#language

大まかなデータのカテゴリ。たとえば、数値、テキスト、画像、動画、 5 つの異なるモダリティです。

モデル

#fundamentals

一般に、入力データを処理して結果を返す数学的構造は 出力です。言い換えると、モデルとは一連のパラメータと構造を指す 必要な時間を表します。 教師あり ML では、 モデルはを入力として受け取り、 出力としての予測。教師あり ML では、 若干異なります。例:

  • 線形回帰モデルは一連の重み バイアス
  • ニューラル ネットワーク モデルは、次の要素で構成されます。 <ph type="x-smartling-placeholder">
      </ph>
    • 一連の非表示レイヤ。各レイヤには 1 つまたは複数のレイヤが含まれます。 より多くのニューロン
    • 各ニューロンに関連付けられた重みとバイアス。
  • ディシジョン ツリー モデルは次の要素で構成されます。 <ph type="x-smartling-placeholder">
      </ph>
    • 木の形状つまり、条件が満たされるパターン 葉がつながっています
    • 条件と出発。

モデルを保存、復元、コピーできます。

教師なし ML にも モデルを生成します。通常は、入力サンプルをモデルに 最適なクラスタを選択する。

モデルの容量

モデルが学習できる問題の複雑さ。データが複雑になるほど 学習できる問題が多いほど、モデルのキャパシティは高くなります。モデルの 容量は、通常、モデル パラメータの数に応じて増加します。1 つの 分類器の容量の正式な定義については、以下をご覧ください。 VC ディメンション

モデルのカスケード

#generativeAI

特定の推論に最適なモデルを選択するシステム なります。

非常に大規模なものから多数の(多数の)モデルまで、 パラメータ)をはるかに小さくします(パラメータの数を大幅に減らします)。 非常に大規模なモデルでは、多くのコンピューティング リソースを 推論時間を短縮できます。しかし、非常に大規模な モデルは通常、小規模なモデルよりも複雑なリクエストを推測できます。 モデルのカスケードにより推論クエリの複雑さが決定され、 推論を実行する適切なモデルを選択します。 モデルをカスケードする主な動機は、複数の Google Cloud リソースを 一般的には小規模なモデルが選択され、より大規模なモデルのみが 複雑なクエリも処理できます

小さなモデルがスマートフォンで動作し、そのモデルの大きなバージョンがスマートフォンで実行されているとします。 リモート サーバーで実行されます。適切なモデルのカスケードにより、費用とレイテンシが 小規模なモデルがシンプルなリクエストを処理できるようにし、 リモートモデルを使用して複雑なリクエストを処理できます。

モデルルーターもご覧ください。

モデル並列処理

#language

トレーニングまたは推論をスケーリングする方法 model をさまざまなデバイスにモデル化。モデル並列処理 1 台のデバイスには収まらない大きすぎるモデルにも対応できます。

モデル並列処理を実装するために、システムは通常、次のことを行います。

  1. モデルを小さな部分にシャーディング(分割)します。
  2. これらの小さな部分のトレーニングを複数のプロセッサに分散します。 各プロセッサは、モデルの独自の部分をトレーニングします。
  3. 結果を結合して 1 つのモデルを作成します。

モデル並列処理によってトレーニングが遅くなる。

データ並列処理もご覧ください。

モデルルーター

#generativeAI

理想的なモデルを決定するアルゴリズム モデルのカスケードにおける推論。 モデルルーター自体が、通常はそのルーター自体が 与えられた入力に対して最適なモデルを選択する方法を徐々に学習します。 ただし、モデルルーターのほうが、 アルゴリズムです。

モデルのトレーニング

最適なモデルを決定するプロセス。

モメンタム

学習ステップが依存する高度な勾配降下アルゴリズム 現在のステップの導関数だけでなく、導関数についても 直前のステップの結果を出力できますMomentum には、 経時的な勾配の指数加重移動平均、類似 物理学の運動量に応用できますモメンタムによって学習が妨げられることがある 局所的な最小値にとどまるようになります。

MOE

#language
#image
#generativeAI

専門家の組み合わせの略語。

マルチクラス分類

#fundamentals

教師あり学習における分類の問題 データセットに含まれるラベルの クラス3 つ以上である。 たとえば、Iris データセットのラベルは次のいずれかである必要があります。 3 つのクラスがあります。

  • アヤメ属セトサ
  • アイリス バージニカ
  • アイリス ベルシカラー

新しいサンプルでアヤメの種類を予測する、虹彩データセットでトレーニングされたモデル マルチクラス分類です。

対照的に、正確に 2 つを区別する分類問題は、 クラスはバイナリ分類モデルです。 たとえば、迷惑メールか非迷惑メールかを予測するメールモデルなど バイナリ分類モデルです。

クラスタリング問題では、マルチクラス分類とは 2 つのクラスタがあります。

多クラス ロジスティック回帰

ロジスティック回帰マルチクラス分類の問題。

マルチヘッド セルフ アテンション

#language

セルフ アテンションを、 自己注意機構は入力シーケンスの位置ごとに複数回出現します。

Transformers は、マルチヘッド セルフ アテンションを導入しました。

マルチモーダル モデル

#language

入力と出力のいずれかまたは両方に複数の値が含まれるモデル モダリティです。たとえば、入力文と出力値の両方を受け取る 特徴量としてのテキスト キャプション(2 つのモダリティ) は、画像に対するテキスト キャプションがどの程度適切かを示すスコアを出力します。 つまり、このモデルの入力はマルチモーダルであり、出力はユニモーダルです。

マルチモーダル、指示用調整モデル

#language

入力を処理できる指示調整済みモデル テキスト以外の画像、動画、音声などです。

多項分類

マルチクラス分類と同義。

多項回帰

同義語 多クラス ロジスティック回帰

マルチタスク

ML の手法では、単一のモデルを 複数のタスクを実行するようにトレーニングされています。

マルチタスク モデルは、アプリケーションに適したデータでトレーニング 学習します。これにより、モデルはトレーニングに使われた モデルがより効率的に学習できるよう支援します。

複数のタスク用にトレーニングされたモデルは一般化能力が向上することが多い さまざまな種類のデータをより堅牢に処理できます。

N

NaN トラップ

モデル内の 1 つの数値が NaN になる場合 モデル内の他の多くの数値またはすべての数値が NaN になります。

NaN は「いいえ」の略です。「Number」の略語です。

自然言語理解

#language

ユーザーの入力内容や発言に基づいてユーザーの意図を判断します。 たとえば、検索エンジンは自然言語理解を使用して ユーザーの入力内容や発言内容から、ユーザーが検索している内容を判別する。

陰性クラス

#fundamentals

バイナリ分類では、1 つのクラス これをと呼び、もう一方を負と呼びます。陽性のクラスは ネガティブ クラスとは、モデルがテストする対象やイベント、 可能性があります。例:

  • 医学的検査の陰性クラスは「がんでない」かもしれません。
  • メール分類器のネガティブクラスは「迷惑メールではない」かもしれません。

一方、ポジティブ クラスは、

ネガティブ サンプリング

候補サンプリングと同義。

ニューラル アーキテクチャ検索(NAS)

アプリケーションのアーキテクチャを自動的に設計する手法は、 ニューラル ネットワーク。NAS のアルゴリズムにより、ストレージ内の 膨大な時間とリソースが必要です。

NAS では通常、以下のものが使用されます。

  • 検索スペース。可能なアーキテクチャのセットです。
  • フィットネス関数。特定の特徴がどの程度良好に 実行するタスクを実行できます。

NAS のアルゴリズムは多くの場合、少数のアーキテクチャ セットと 学習する内容がアルゴリズムが学習するにつれて、検索空間を徐々に拡張していきます。 アーキテクチャが効果的であることです。フィットネス関数は、一般的に トレーニング セットでのアーキテクチャの性能、 通常は 強化学習手法で使用されることもあります。

NAS のアルゴリズムは、パフォーマンスの高い アーキテクチャをさまざまなタスク向けに構築しました。 分類、テキスト分類、 多岐にわたります。

ニューラル ネットワークの

#fundamentals

少なくとも 1 つを含むモデル 隠れ層ディープ ニューラル ネットワークは、ニューラル ネットワークの一種である 隠れ層を含んでいます。たとえば、次の図では 2 つの隠れ層を含むディープ ニューラル ネットワークを示しています。

入力層、2 つの隠れ層、1 つの隠れ層を持つニューラル ネットワーク
          出力レイヤです。

ニューラル ネットワーク内の各ニューロンは、次のレイヤのすべてのノードに接続します。 たとえば、上の図では、3 つのニューロンのそれぞれが 最初の隠れ層にある 2 つのニューロンに個別に接続し、 レイヤに分割されます。

コンピュータに実装されたニューラル ネットワークは、 人工ニューラル ネットワークによって、 脳や他の神経系で見られるニューラル ネットワークです。

非常に複雑な非線形関係を模倣できるニューラル ネットワークもある モデルに与える影響です

畳み込みニューラル ネットワークもご覧ください。 回帰型ニューラル ネットワーク

ニューロン

#fundamentals

ML における隠れ層内の個別の単位 ニューラル ネットワークのものです。各ニューロンは次の処理を実行する 2 段階の対策:

  1. 入力値に掛け合わせた加重合計を計算します 重み付けされます。
  2. 入力として加重合計を 活性化関数

最初の隠れ層のニューロンは特徴値からの入力を受け入れる 入力レイヤ:隠れ層のニューロンは 前者は前の隠れ層のニューロンからの入力を受け入れます。 たとえば、2 つ目の隠れ層のニューロンは、 隠れ層にあるニューロンのみです。

次の図では、2 つのニューロンと できます。

入力層、2 つの隠れ層、1 つの隠れ層を持つニューラル ネットワーク
          出力レイヤです。2 つのニューロンがハイライト表示されています(最初のニューロンが 1 つ)。
          もう 1 つは隠れ層です。ハイライト表示された
          最初の隠れ層のニューロンは両方の特徴からの入力を受け取る
          渡されます。2 番目の隠れ層でハイライト表示されたニューロン
          最初の隠れ層で 3 つのニューロンのそれぞれから入力を受け取り、
          レイヤです。

ニューラル ネットワークのニューロンは、脳の中のニューロンの挙動を模倣しています。 神経系のその他の部分にも影響します。

N グラム

#seq
#language

N 単語の順序付きシーケンス。たとえば、truly madly は 2 グラムです。なぜなら、 order が関連性である場合、madly realtruly madly とは異なる 2 グラムです。

N この種の N グラムの名前
2 バイグラムまたは 2 グラム 行く、行く、ランチを食べる、ディナーを食べる
3 トライグラムまたは 3 グラム 食べすぎ、目が覚めた 3 匹のネズミ、鐘の死、
4 4 グラム 公園を歩く、風に吹いた塵、少年はレンズ豆を食べた

多くの自然言語理解 モデルは N グラムを使用して、ユーザーが次に入力する単語を予測します。 できます。たとえば、ユーザーが「スリーブラインド」と入力したとします。 トライグラムに基づく NLU モデルでは、 次に「mice」と入力します。

N グラムとバッグ オブ ワードを対比します。 順序付けられていない単語の集合です。

NLU

#language

自然言語の略語 説明します

ノード(ディシジョン ツリー)

#df

ディシジョン ツリーでは、 condition または leaf

2 つの条件と 3 つのリーフを持つディシジョン ツリー。

ノード(ニューラル ネットワーク)

#fundamentals

隠れ層ニューロン

ノード(TensorFlow グラフ)

#TensorFlow

TensorFlow グラフ内の演算。

ノイズ

大まかに言うと、データセット内のシグナルを不明瞭にするもの。ノイズ さまざまな方法でデータに導入できます例:

  • 評価担当者はラベル付けを誤る。
  • 人間と計器が特徴値の記録を誤る、または省略している。

ノンバイナリー状態

#df

3 つ以上の結果を含む条件。 たとえば、次のノンバイナリー条件には、可能性のある 3 つの条件が含まれます。 成果:

条件(number_of_legs = ?)は、次の 3 つの可能性を
          向上します1 つの結果(number_of_legs = 8)がリーフにつながる
          表示されます。2 回目の結果(number_of_legs = 4)では、
          犬という名の葉です。3 番目の結果(number_of_legs = 2)では、
          「penguin」という名付けの葉です。

nonlinear

#fundamentals

単独では表現できない 2 つ以上の変数間の関係 加算と乗算で計算されます線形関係 線で表すことができます。nonlinearの関係は 線で表されます。たとえば、2 つのモデルはそれぞれ 1 つのラベルにマッピングできます左側のモデルは線形モデルで 右のモデルは非線形です。

2 つのプロット。一方のプロットは直線であるため、これは直線関係です。
          もう 1 つのプロットは曲線なので、これは非線形の関係です。

無回答バイアス

#fairness

選択バイアスをご覧ください。

非定常性

#fundamentals

1 つ以上のディメンションで値が変化する特徴(通常は時間)。 たとえば、次のような非定常性について考えてみましょう。

  • 特定の店舗で販売されている水着の数は、季節によって異なります。
  • 特定の地域での特定の果物の収穫量 ほとんどの期間はゼロですが、短期間では大きな値になります。
  • 気候変動により、年間平均気温は変化しています。

一方、定常性とは対照的です。

正規化

#fundamentals

大まかに言うと、変数の実際の範囲を変換するプロセスが 値を標準の値範囲に変換できます。

  • -1 ~+1
  • 0 to 1
  • Z スコア(おおよそ -3 ~+3)

たとえば、ある特徴の値の実際の範囲が 800 ~ 2,400 人。特徴量エンジニアリングの一環として 実際の値を標準範囲に正規化できます。たとえば、 -1 ~+1 の範囲で設定できます

正規化は、データ アナリストが 特徴量エンジニアリング。通常はモデルのトレーニングが速く 予測の精度を上げることができます。 特徴ベクトルの範囲はほぼ同じです。

特異点検知

新しい(斬新な)事例が同じものから得られたものかどうかを判断するプロセス トレーニング セットとして指定します。つまり、 特異点検出は、トレーニング セットで新しい サンプル(推論または追加トレーニング)は、 外れ値

外れ値検出」も参照してください。

数値データ

#fundamentals

整数または実数として表される特徴量。 たとえば住宅の評価モデルでは、 数値データとして収集されます。表現 数値データは特徴値の値が変化したときに ラベルとの数学的関係。 つまり、1 つの住宅の平方メートル数は、 住宅の価値と数学的な関係です

すべての整数データを数値データとして表す必要はありません。たとえば 一部の地域では、郵便番号は整数です。ただし 整数の モデルで数値データとして表現すべきではありませんなぜなら、 郵便番号(20000)は、郵便番号(20000)の 2 倍(または半分)にはなりません 10,000。さらに、郵便番号には違いがあることに相関関係がありますが、 郵便番号の不動産価格が 20,000 は、郵便番号 10,000 では不動産価格の 2 倍の価値があります。 郵便番号はカテゴリデータで表す必要があります。 してください。

数値特徴量は特徴量エンジニアリングで 継続的な機能

NumPy

<ph type="x-smartling-placeholder"></ph> オープンソースの数学ライブラリ では、Python で効率的な配列操作を行うことができます。 pandas は NumPy で構築されています。

O

目標

アルゴリズムが最適化しようとしている指標。

目的関数

モデルの最適化対象とする数式または指標。 たとえば、ラベル内の目的関数を 線形回帰は通常、 平均二乗損失。そのため、モデルのトレーニングでは、 線形回帰モデルの場合、トレーニングの目的は平均二乗損失を最小限に抑えることです。

目的関数を最大化することが目標である場合もあります。 たとえば、目的関数が精度の場合、目標は 精度を最大化できます

損失もご覧ください。

傾斜条件

#df

ディシジョン ツリーでは、 複数の関係を含む条件 feature:たとえば高さと幅が両方とも特徴量の場合 傾斜条件は次のとおりです。

  height > width

軸揃えの条件」も参照してください。

オフライン

#fundamentals

静的と同義。

オフライン推論

#fundamentals

モデルが予測のバッチを生成するプロセス 予測をキャッシュに保存(保存)します。これにより、アプリは推測された キャッシュから予測を行う方が効率的です。

たとえば、地域の天気予報を生成するモデルについて考えてみましょう。 (予測)を 4 時間に 1 回実行します。モデルが実行されるたびにシステムは すべての現地天気予報をキャッシュに保存します。天気アプリが天気予報を取得する キャッシュから取り出します。

オフライン推論は静的推論とも呼ばれます。

対照的に、オンライン推論は、

ワンホット エンコード

#fundamentals

カテゴリデータをベクトルとして表現すると、次のようになります。

  • 1 つの要素は 1 に設定されます。
  • その他の要素はすべて 0 に設定されます。

ワンホット エンコーディングは、文字列や識別子を表すために 取り得る値の集合が限られています。 たとえば、この名前が付いた特定のカテゴリ特徴を Scandinavia には次の 5 つの値があります。

  • "デンマーク"
  • "スウェーデン"
  • 「ノルウェー」
  • 「フィンランド」
  • 「アイスランド」

ワンホット エンコーディングでは、5 つの値をそれぞれ次のように表すことができます。

country ベクトル
"デンマーク" 1 0 0 0 0
"スウェーデン" 0 1 0 0 0
「ノルウェー」 0 0 1 0 0
「フィンランド」 0 0 0 1 0
「アイスランド」 0 0 0 0 1

ワンホット エンコーディングにより、モデルはさまざまなつながりを 5 か国それぞれについて予測しています

特徴を数値データとして表現することは、 ワンホット エンコーディングの代替手段です。残念ながら、 スカンジナビアの国は、数値的には良い選択ではありません。たとえば 次の数値表現を考えてみましょう。

  • "デンマーク"0
  • "スウェーデン"は 1
  • 「ノルウェー」は 2
  • 「フィンランド」3
  • 「アイスランド」4

数値エンコードの場合、モデルは生の数値を解釈します。 それらの数値でトレーニングを試みます しかし、アイスランドの人口の 2 倍(または半分)はありません。 そのため、モデルは奇妙な結論を導き出します。

ワンショット学習

オブジェクト分類によく使用される ML アプローチ。 1 つのトレーニング例から効果的な分類器を学習するよう設計されています。

少数ショット学習ゼロショット学習

ワンショット プロンプト

#language
#generativeAI

プロンプト - 1 つの例を含む 大規模言語モデルで応答する必要があります。たとえば 次のプロンプトには、大規模言語モデルの例を示しています。 クエリに応答するはずです

1 つのプロンプトを構成する要素 メモ
指定された国の公式通貨は何ですか? LLM に回答させたい質問。
フランス: EUR 一例です。
インド: 実際のクエリ。

ワンショット プロンプトを以下の用語と比較します。

1 対すべて

#fundamentals

N 個のクラスを含む分類問題の場合、 N 個の個別の バイナリ分類器 - 特定のタイプに対する 1 つのバイナリ分類器 可能性があります。たとえば、サンプルを分類するモデルがあるとします。 すべてのソリューションが 次の 3 つの独立したバイナリ分類器です。

  • 動物か、動物ではないか
  • 野菜 vs 野菜なし
  • ミネラルと非ミネラル

online

#fundamentals

動的と同義。

オンライン推論

#fundamentals

オンデマンドで予測を生成する。たとえば アプリが入力をモデルに渡して、 できます。 オンライン推論を使用するシステムは、次を実行してリクエストに応答します。 (そして予測をアプリに返す)。

対照的なオフライン推論は、

オペレーション(op)

#TensorFlow

TensorFlow では、パイプラインを Tensor を操作、破棄します。対象 行列乗算は 2 つのテンソルを 1 つのテンソルを出力として生成します。

オプタックス

JAX 用の勾配処理および最適化ライブラリ。 Optax は以下の構成要素を提供することで研究を促進 をカスタムに組み合わてパラメータ モデルを最適化 ディープ ニューラル ネットワークです。その他の目標:

  • 読みやすく、十分にテストされた、効率的な実装を実現するには 説明します。
  • 低含有成分の組み合わせを可能にすることで生産性を向上 カスタム オプティマイザー(またはその他の勾配処理コンポーネント)に読み込みます。
  • 誰でも簡単に新しいアイデアの導入を加速 できます。

オプティマイザー

勾配降下法の具体的な実装 アルゴリズムです。一般的なオプティマイザーは次のとおりです。

  • AdaGrad: ADAptive GRADient descent の略。
  • Adam は「ADAptive with Momentum」の略です。

群外の均一性バイアス

#fairness

グループ内のメンバーよりもグループ外のメンバーを似ているとみなす傾向 態度、価値観、個性、特性などについて 説明します。グループ内とは、定期的に交流するユーザーのことです。 アウトグループとは、普段やりとりしないユーザーを指します。もし 関連する属性を提供するようユーザーに依頼して、 それらの属性の微妙な違いや固定観念が 属性が、グループ内のユーザーについて参加者がリストする属性よりも高くなります。

たとえば、リリプート派の人は他のリリプート人の家について記述できます。 建築様式、窓、設計の微妙な違いについて ドア、サイズ。しかし、同じリリプティアンは単純に、 ブロブディングナギンたちは皆、同じ家に住んでいる。

群外の均一性バイアスは、 グループ帰属バイアス

グループ内バイアスもご覧ください。

外れ値検出

パフォーマンス指標の外れ値を特定するプロセスは トレーニング セット

一方、特異点検知は重要です。

考慮する

他のほとんどの値から離れた値。ML では、モデルに 外れ値があります。

  • 値が約 3 標準偏差を超える入力データ 平均値を計算します。
  • 絶対値が大きい重み
  • 実際の値から比較的遠い予測値。

たとえば、widget-price が特定のモデルの特徴であるとします。 平均 widget-price が標準偏差で 7 ユーロであると仮定します 1 ユーロです。12 ユーロまたは 2 ユーロの widget-price を含む例 外れ値とみなされます。これは、それぞれの価格が 平均から 5 標準偏差を測定します。

外れ値の多くは入力ミスやその他の入力ミスが原因です。あるいは 外れ値は間違いではありません。5 つの標準偏差を求める 平均値から外れることはまれですが、ほとんど不可能です。

多くの場合、外れ値はモデルのトレーニングに問題を引き起こします。クリップ 外れ値を管理する方法の一つです。

out-of-bag 評価(OOB 評価)

#df

サービスの品質を評価するメカニズムは、 ディシジョン フォレスト ディシジョン ツリー 使用されない そのディシジョン ツリーのトレーニングを行います。たとえば、 図では、システムが各ディシジョン ツリーをトレーニング サンプルの約 3 分の 2 をモデルに 3 分の 1 で済みます。

3 つのディシジョン ツリーで構成されるデシジョン フォレスト。
          1 つのディシジョン ツリーは 3 分の 2 のサンプルでトレーニング
          残りの 1/3 を OOB 評価に使用します。
          2 つ目のディシジョン ツリーは、それぞれ異なる 3 分の 2 でトレーニング
          示されたものを確認し、
          OOB 評価に 3 分の 1 を
          決定します

袋外評価は計算効率が高く、保守的 交差検証メカニズムの近似値。 交差検証では、交差検証ラウンドごとに 1 つのモデルがトレーニングされる (たとえば、10 回の交差検証で 10 個のモデルがトレーニングされます)。 OOB 評価では、単一のモデルがトレーニングされます。バギングのため トレーニング中に各ツリーから一部のデータを保留します。OOB 評価では、 そのデータを近似クロス検証します。

出力層

#fundamentals

「ファイナル」学びます。出力レイヤには予測が含まれます。

次の図は、入力を使用した小規模なディープ ニューラル ネットワークを示しています。 2 つの隠れ層、出力層の 1 つです。

1 つの入力層、2 つの隠れ層、1 つの隠れ層を持つニューラル ネットワーク
          出力レイヤです。入力レイヤは 2 つの特徴で構成されています。最初の
          隠れ層は 3 つのニューロンと 2 つ目の隠れ層で構成されている
          2 つのニューロンで構成されています出力レイヤは単一のノードで構成されます。

過学習

#fundamentals

モデルトレーニング データが近すぎるほど、モデルがトレーニングに失敗する 新しいデータに対して正しい予測を行うことができます。

正則化によって過学習を減らすことができます。 大規模で多様なトレーニング セットでトレーニングすると、過学習を減らすこともできます。

オーバーサンプリング

少数派のクラスを再利用する クラス不均衡なデータセットに置いて、 よりバランスの取れたトレーニング セットを作成する。

たとえば、バイナリ分類を考えてみましょう。 母集団に対する過半数のクラスと 5,000:1 です。データセットに 100 万の例が含まれている場合は、 データセットには少数派のクラスのサンプルが約 200 個しか含まれていないため、 サンプルが少なすぎて効果的なトレーニングが できない場合もありますこの不備を克服するために 200 のサンプルが複数回オーバーサンプリング(再利用)され、その結果、 十分な数のサンプルが必要です。

次の場合に過学習に注意する必要があります。 オーバーサンプリングします

一方、アンダーサンプリングは有効です。

P

パックデータ

データをより効率的に保存するためのアプローチ。

パッケージ化されたデータは、圧縮形式か より効率的にアクセスできるようにします。 データをパックすることで、必要なメモリ量と計算量を最小限に抑える アクセスできるため、トレーニングの高速化とモデルの推論の効率化につながります。

パックデータは、次のような他の手法でよく使用されます。 データの拡張正則化し、モデルの性能を モデル

pandas

#fundamentals

numpy 上に構築された列指向のデータ分析 API。 多くの ML フレームワーク Pandas データ構造を入力としてサポートします。詳しくは、 pandas のドキュメント をご覧ください。

パラメータ

#fundamentals

モデルが学習する重みバイアス トレーニング。たとえば、 線形回帰モデルの場合、パラメータは次の要素で構成されます。 バイアス(b)とすべての重み(w1w2)を など)を次の式に代入します。

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

これに対して、ハイパーパラメータは ハイパーパラメータ チューニング サービス。 たとえば、学習率はハイパーパラメータです。

パラメータ効率チューニング

#language
#generativeAI

大規模なイベントをファインチューニングする一連の手法 事前トレーニング済み言語モデル(PLM) 完全なファインチューニングよりも効率的です。パラメータ効率 一般に、フル チューニングよりもはるかに少ないパラメータを微調整できる 微調整されていますが、通常は 優れたパフォーマンスを備えた大規模言語モデル 完全な言語から構築された大規模言語モデルや 微調整できます。

パラメータ効率チューニングと以下を比較対照します。

パラメータ効率チューニングは、パラメータ効率ファインチューニングとも呼ばれます。

パラメータ サーバー(PS)

#TensorFlow

モデルのパラメータを 分散設定です。

パラメータの更新

モデルの使用中にモデルのパラメータを調整する操作 通常は 1 回の反復処理で 勾配降下法

偏微分係数

1 つの変数を除くすべての変数が定数とみなされる微分係数。 たとえば、x に関する f(x, y) の偏微分係数は、 f の導関数を x のみの関数と見なす(つまり、y 定数)。x に関する f の偏微分係数では、次のみに焦点が当てられます。 x がどのように変化するかを調べ、方程式内の他の変数はすべて無視します。

参加バイアス

#fairness

無回答バイアスと同義。選択バイアスをご覧ください。

パーティショニング戦略

変数を分割するアルゴリズムは、 パラメータ サーバー

Pax

大規模なトレーニングのために設計されたプログラミング フレームワーク 非常に大規模なニューラル ネットワーク モデル 複数の TPU にまたがっています。 アクセラレータ チップ スライス Pod を使用します。

Pax は、JAX 上に構築された Flax 上に構築されています。

ソフトウェア スタックにおける Pax の位置を示す図。
          Pax は JAX 上に構築されています。Pax は 3 つの要素で構成されています
          レイヤです。一番下のレイヤには TensorStore と Flax が含まれます。
          中央の層にはオプタックスとフラックスフォーマーが含まれています。トップ
          Praxis Modeling Library を含むFiddle は
          導入しました

パーセプトロン

1 つ以上の入力値を受け取るシステム(ハードウェアまたはソフトウェア)。 入力の加重合計に対して関数を実行し、 出力値を指定します。ML では、関数は非線形であるのが一般的です。 ReLUシグモイドtanh。 たとえば、次のパーセプトロンは、シグモイド関数を使用して 3 つの入力値があります。

$$f(x_1, x_2, x_3) = \text{sigmoid}(w_1 x_1 + w_2 x_2 + w_3 x_3)$$

次の図では、パーセプトロンは 3 つの入力を受け取り、 パーセプトロンに入る前に、重みで書き換えられます。

3 つの入力を受け取り、それぞれに個別の値を乗算するパーセプトロン
          トレーニングされます。Perceptron は単一の値を出力します。

パーセプトロンは、Google の中のニューロン ニューラル ネットワーク

パフォーマンス

次の意味を持つ過負荷の用語:

  • ソフトウェア エンジニアリングにおける標準的な意味。つまり、どのくらい速く このソフトウェアは(または効率的に)実行されますか?
  • ML における意味。ここで パフォーマンスは 次の質問です。このモデルはどの程度適切ですか?つまり モデルの予測の質はどうでしょうか

並べ替え変数の重要度

#df

評価される変数の重要度の一種 並べ替えた後のモデルの予測誤差の増加 必要があります。並べ替え変数の重要度は、モデルに依存しない 表示されます。

パープレキシティ

モデルがタスクをどの程度適切に遂行しているかを示す尺度です。 たとえば、単語の最初の数文字を読むことがタスクだとします。 ユーザーがスマートフォンのキーボードで入力し、 補完する単語です。このタスクのパープレキシティ、P は、 必要な推測をリストにまとめます。 表示されます。

パープレキシティは、次のように交差エントロピーに関連しています。

$$P= 2^{-\text{cross entropy}}$$

pipeline

ML アルゴリズムを取り巻くインフラストラクチャ。パイプライン これには、データの収集、トレーニング データファイルへの入力、 1 つ以上のモデルのトレーニング、本番環境へのモデルのエクスポートです。

パイプライン化

#language

モデル並列処理の一形態であり、 処理は連続したステージに分割され、各ステージは ダウンロードします。ステージが 1 つのバッチを処理している間、前の 次のバッチで処理できます

段階的なトレーニングもご覧ください。

プジット

複数のコードで実行されるようにコードを分割する JAX 関数 アクセラレータ チップ。ユーザーが pjit に関数を渡します。 これは同等のセマンティクスを持つ関数を返すが、 複数のデバイスで実行される XLA 計算への変換 (GPU や TPU コアなど)。

pjit を使用すると、 SPMD パーティション分割機能を使用します。

2023 年 3 月に pjitjit と統合されました。詳しくは、 分散配列と自動 並列化 をご覧ください。

PLM

#language
#generativeAI

事前トレーニング済み言語モデルの略語。

Pmap

入力関数のコピーを実行する JAX 関数 基盤となる複数のハードウェア デバイスに (CPU、GPU、または TPU)を使用し、入力値が異なります。 pmap は SPMD に依存します。

ポリシー

#rl

強化学習では、エージェントの確率的マッピングが 状態からアクションに変換できます。

プーリング

#image

以前に生成された行列を削減する 畳み込み層を小さな行列に変換する。 プーリングでは通常、最大値または平均値を取る 移動できますたとえば、 次の 3x3 マトリックス:

3 行 3 行列 [[5,3,1], [8,2,5], [9,4,3]]。

プーリング演算は、畳み込み演算と同様に、 スライスに変換してから畳み込み演算を ストライド。たとえば、2 つの Cloud Storage バケットを 畳み込み行列を 1x1 ストライドの 2x2 スライスに分割します。 次の図に示すように、4 つのプーリング オペレーションが行われます。 各プーリング演算で、モデルの最大値が 次の 4 つです

入力行列は [[5,3,1], [8,2,5], [9,4,3]] の値を持つ 3x3 です。
          入力行列の左上の 2x2 サブ行列は [[5,3], [8,2]] なので、
          左上のプーリング演算により、値 8(
          5、3、8、2 以下にする必要があります。入力の右上の 2x2 サブマトリックス
          行列は [[3,1], [2,5]] なので、右上のプーリング演算は
          値 5入力行列の左下にある 2x2 サブ行列は、
          [[8,2], [9,4]] なので、左下のプーリング演算によって、
          9.入力行列の右下の 2x2 サブ行列は、
          [[2,5], [4,3]] なので、右下のプーリング演算では、
          5.まとめると、プーリング演算により 2x2 の行列が生成されます。
          [[8,5], [9,5]]。

プーリングは 入力行列の翻訳不変性

ビジョン アプリケーションのプーリングは、正式には空間プーリングと呼ばれています。 時系列アプリケーションは通常、プーリングを時間プーリングと呼びます。 それほど形式的ではありませんが、プーリングはサブサンプリングまたはダウンサンプリングと呼ばれることがよくあります。

位置エンコード

#language

シーケンス内のトークンの位置に関する情報を トークンのエンベディング。Transformer モデルでは、位置 異なる部分間の関係をより深く理解するために、 あります。

位置エンコードの一般的な実装では、正弦関数を使用します。 (具体的には、正弦関数の周波数と振幅は、 シーケンス内のトークンの位置によって決まります)。この手法は、 これにより、Transformer モデルはモデルのさまざまな部分に注意を シーケンスを表現します。

陽性クラス

#fundamentals

テスト対象のクラス。

たとえば、がんモデルにおける陽性のクラスは「tumor」となります。 メール分類器における陽性のクラスは「迷惑メール」である可能性があります。

ネガティブ クラス」は対照的です。

後処理

#fairness
#fundamentals

モデルの実行にモデルの出力を調整する。 後処理を使用すると、制限なしで公平性の制約を適用できます。 モデル自体を修正できます

たとえば、バイナリ分類器に後処理を適用できます。 次のような分類しきい値を設定して、 機会の平等が維持される この場合は、真陽性率が その属性のすべての値で同じです。

PR AUC(PR 曲線の下の面積)

補間 適合率と再現率の曲線(プロットして得られる) (再現率、適合率)のポイントが 分類しきい値。どのように PR AUC は モデルの平均適合率

Praxis

Pax の中核となる高性能 ML ライブラリ。プラクシスはしばしば レイヤライブラリと呼ばれます

Praxis には Layer クラスの定義だけでなく、 次のサポート コンポーネントも含まれています。

Praxis は Model クラスの定義を提供しています。

precision

回答となる分類モデルの指標 質問です。

モデルが陽性のクラスを予測したとき、 予測の何パーセントが正しかったでしょうか

式は次のとおりです。

$$\text{Precision} = \frac{\text{true positives}} {\text{true positives} + \text{false positives}}$$

ここで

  • 真陽性は、モデルが陽性のクラスを正しく予測したことを意味します。
  • 偽陽性とは、モデルが陽性のクラスを誤って予測したことを意味します。

たとえば、モデルが 200 件の陽性予測を行ったとします。 これら 200 個の陽性予測のうち:

  • 150 が真陽性でした。
  • 50 は偽陽性でした。

次のような場合があります。

$$\text{Precision} = \frac{\text{150}} {\text{150} + \text{50}} = 0.75$$

一方、accuracyrecall とは対照的です。

分類: 精度、再現率、適合率、関連 指標 をご覧ください。

適合率と再現率の曲線

さまざまな条件での適合率再現率の曲線 分類しきい値

予測

#fundamentals

モデルの出力。例:

  • バイナリ分類モデルの予測は、陽性または 除外します。
  • マルチクラス分類モデルの予測は 1 つのクラスです。
  • 線形回帰モデルの予測は数値です。

予測バイアス

各インスタンスの平均値の間隔を示す 予測ラベルの平均からの値です 必要があります。

ML モデルのバイアス項と混同しないでください。 (倫理や公平性のバイアスを含む)。

予測 ML

すべての標準(「クラシック」)ML システム。

予測 ML という用語には正式な定義はありません。 生成 AI

予測同等性

#fairness

以下を確認する公平性指標適合率、 は、検討中のサブグループで同等です。

たとえば、大学の受け入れを予測するモデルは、 適合率が同じであれば、国籍に関する予測同等性 2 つあります

予測パリティは、予測レートパリティとも呼ばれます。

「公平性の定義」をご覧ください。 Explained」(セクション 3.2.1) をご覧ください。

予測レートの同等性

#fairness

予測同等性の別名。

前処理

#fairness
モデルのトレーニングに使用する前にデータを処理する。前処理では、 単語を含まない単語を英語のテキスト コーパスから削除するのと同じくらい簡単です。 英語の辞書に登場する単語や、単語を再表現するような複雑な単語など、 関連する属性をできるだけ多く排除して 機密属性を可能な限り指定してください。 前処理は、公平性の制約を満たすのに役立ちます。

事前トレーニング済みモデル

#language
#image
#generativeAI

モデルまたはモデル コンポーネント( エンベディング ベクトル)が表示されます。 場合によっては、トレーニング済みのエンベディング ベクトルを ニューラル ネットワーク。逆に、トレーニングしたモデルに、 エンベディング ベクトル自体をトレーニング エンベディング ベクトル自体に変換する方法を学びます。

事前トレーニング済み言語モデルという用語は、 大規模言語モデル 事前トレーニング

事前トレーニング

#language
#image
#generativeAI

大規模なデータセットでのモデルの初期トレーニング。一部の事前トレーニング済みモデルは 不器用な巨人で、通常は追加のトレーニングで洗練させなければなりません。 たとえば、ML エキスパートはモデルを使用して 膨大なテキスト データセット上の大規模言語モデル たとえば ウィキペディアの英語のページが 多数あるとします事前トレーニングの後、 結果として得られるモデルは、次のいずれかによってさらに精緻化される可能性があります。 手法:

信念

トレーニングを開始する前に、データについて信じていること。 たとえば、L2 正則化は、 重みは小さく、 分散されます。

確率的回帰モデル

回帰モデルでは、 各対象物重みに加え、 重みの不確実性を表します確率的回帰モデルでは、 予測とその不確実性が含まれますたとえば、 確率的回帰モデルでは、予測値 325、 12 の標準偏差です確率的回帰について詳しくは、 こちらのColab tensorflow.org.

確率密度関数

データサンプルの頻度を特定する関数は、 表示されます。データセットの値が連続浮動小数点数の場合 完全一致はめったに発生しません。しかし、確率を積分すると、 値 x から値 y までの密度関数から、想定される頻度は次のとおりです。 xy のデータサンプル。

たとえば、平均が 200 で 30 の標準偏差ですデータサンプルの予想される頻度を決定するため 211.4 から 218.7 の範囲内にある場合、確率を 211.4 から 218.7 までの正規分布に対する密度関数。

prompt

#language
#generativeAI

大規模言語モデルへの入力として入力されたテキスト 特定の動作をするようモデルに与えますプロンプトは、出力シーケンスの 任意の長さ(小説の本文全体など)。プロンプト 次の表に示す複数のカテゴリに分類できます。

プロンプトのカテゴリ メモ
質問 ハトはどれくらいの速さで飛べますか?
手順 アービトラージについて面白い詩を書いて。 大規模言語モデルに何かを行うように求めるプロンプト。
マークダウン コードを HTML に変換します。次に例を示します。
マークダウン: * リストアイテム
HTML: <ul><li>リストアイテム</li>&lt;/ul&gt;
このサンプル プロンプトの最初の文は指示です。 プロンプトの残りの部分が例です。
ロール ML のトレーニングで勾配降下法を使用する理由を説明し、 物理学の博士号を取得しています 文章の最初の部分は指示です。フレーズ "物理学の博士号へ"ロールの部分です
モデルへの入力の一部のみを完了 英国首相は 部分入力プロンプトは(この例のように)突然終了することも、 末尾にアンダースコアを付けます。

生成 AI モデルは、テキストでプロンプトに応答できます。 コード、画像、エンベディング、動画など、あらゆるものに対応します。

プロンプト型学習

#language
#generativeAI

適応を可能にする特定のモデルの機能 任意のテキスト入力(プロンプト)に応答する動作。 典型的なプロンプトベースの学習パラダイムでは、 大規模言語モデル: プロンプトに 生成します。たとえば、ユーザーが次のプロンプトを入力したとします。

ニュートンの運動の第 3 法則を要約してください。

プロンプトベースの学習が可能なモデルが、回答するように特別にトレーニングされていない 使用します。むしろ、モデルは、物理学に関する多くのことを 一般的な言語ルールや、一般的な言語ルールの 答えが得られます。その知識は、(うまくいけば)役に立つ あります。人間による追加のフィードバック(「回答が複雑すぎた」、 「リアクションとは何ですか?」など、プロンプトベースの学習システムは、 回答の有用性を高めることができます。

プロンプト設計

#language
#generativeAI

プロンプト エンジニアリングと同義。

プロンプト エンジニアリング

#language
#generativeAI

望ましいレスポンスを引き出すプロンプトを作成する技術 大規模言語モデルから作成されました。人間がプロンプトを実行する 学びました適切に構造化されたプロンプトを記述することは、 有用なレスポンスを返すことができます。プロンプト エンジニアリングは、 次のようなさまざまな要因があります。

詳しくは、 プロンプト設計の概要 を参照してください。

プロンプト設計は、プロンプト エンジニアリングと同義です。

プロンプト調整

#language
#generativeAI

パラメータ効率調整メカニズム 単語の「接頭辞」を先頭に「」が付加され、 実際のプロンプト

プロンプト調整のバリエーションの 1 つ(プレフィックス チューニングとも呼ばれます)があります。 すべてのレイヤで接頭辞を付けます。対照的に、ほとんどのプロンプト調整は、 入力レイヤに接頭辞を追加します。

プロキシラベル

#fundamentals

ラベルを近似するために使用されるデータは、データセットでは直接利用できません。

たとえば、従業員を予測するモデルをトレーニングする必要があるとします。 ストレスレベル。データセットには多くの予測特徴が含まれていますが、 ストレスレベルというラベルが含まれていません。 気軽に「職場での事故」を選んでくださいプロキシラベルとして ストレスレベル。結局、強いストレスにさらされている従業員は、 落ち着いて働く従業員より事故です。それともそのとおりですか?職場での事故や 実際には複数の原因で 増減しています

2 つ目の例として、「雨が降っていますか?」をブール値ラベルにするとします。 データセットに降雨データが含まれていませんでした。条件 写真がある場合は、 「雨は降っていますか?」の代用ラベルとして「傘を持ってる」そうか 適切なプロキシラベルでしょうか。その可能性はあるが、文化によっては 日光から身を守るため、雨よりも傘を持って行く傾向にあります。

多くの場合、プロキシのラベルは完全ではありません。可能な場合は、実際のラベルではなく、 プロキシラベルです。ただし、実際のラベルが存在しない場合は、プロキシを選択する 慎重に検討し、最も影響の低いプロキシラベル候補を選択します。

プロキシ(機密属性)

#fairness
属性の代わりとして使用される属性 機密属性。たとえば、 収入の代用として個人の郵便番号が使用されることがあります。 考慮する必要があります。

純関数

出力が入力のみに基づいていて、副次を持たない関数 できます。具体的には、純粋な関数はグローバルな状態を使用または変更しません。 たとえばファイルの内容や関数外の変数の値などです

純粋な関数を使用すると、スレッドセーフなコードを作成できます。これは、 モデルのコードを複数の アクセラレータ チップ

JAX の関数変換メソッドには、 入力関数が純粋な関数であることです

Q

Q 関数

#rl

強化学習では、モデルに 予測値を取得することで期待されるリターンを予測する アクション: state を実行してから、特定の ポリシーに従います。

Q 関数は、状態アクション値関数とも呼ばれます。

Q-learning

#rl

強化学習では、教師あり学習で エージェントを許可する モデルの最適な Q 関数マルコフ決定プロセスベルマン方程式。マルコフ決定過程モデルは、 環境

分位数

分位バケット化の各バケット。

分位バケット化

特徴の値をバケットに分布して、 同じ(またはほぼ同じ)数のサンプルが格納されています。たとえば 次の図では、44 ポイントが 4 つのバケットに分割されています。 11 ポイントあります。図中の各バケットに IP アドレスが含まれるため、 バケットによっては、異なる幅の x 値の範囲がある場合があります。

44 個のデータポイントを 11 個のポイントの 4 つのバケットに分割。
          各バケットに格納されるデータポイントの数は
同じですが
          一部のバケットには、他のバケットよりも広い範囲の特徴値が含まれている
          説明します。

量子化

次のいずれかの方法で使用できるオーバーロードされた用語:

  • 分位バケット化の実装 特定の特徴に対する度合いを表します。
  • データを 0 と 1 に変換して保存、トレーニング、 学習します。ブール値データは、ノイズやエラーに対する耐性が 量子化によってモデルの正確性が向上します。 量子化技術には、丸め、切り捨て、 binning します。
  • モデルの特徴量の格納に使用するビット数を削減すると、 パラメータ。たとえば、モデルのパラメータが 32 ビット浮動小数点数として格納されます。量子化はそれらを 32 ビットから 4、8、16 ビットに 変換できます量子化は、入力シーケンスの 次のとおりです。

    • コンピューティング、メモリ、ディスク、ネットワークの使用量
    • 予測を推測するまでの時間
    • 消費電力

    ただし、量子化により、モデルの予測結果の正確性が低下することがあります。 説明します。

キュー

#TensorFlow

キューデータを実装する TensorFlow Operation 構成します。通常は I/O で使用されます。

R

RAG

#fundamentals

略語: 検索拡張生成

ランダム フォレスト

#df

複数のディシジョン ツリーアンサンブル 特定のランダムノイズで各ディシジョン ツリーをトレーニングする (Baging など)。

ランダム フォレストは、ディシジョン フォレストの一種です。

ランダム ポリシー

#rl

強化学習では、 ポリシー: action

ランキング

教師あり学習の一種で、次の特徴があります。 アイテムのリストを並べ替えることを目標としています。

順位(序数)

ML の問題におけるクラスの順序位置で、 クラスを降順に並べ替えます。たとえば行動ランキングや システムは犬の報酬を最高のもの(ステーキ)から 低い(しおれたケール)。

階数(テンソル)

#TensorFlow

Tensorの次元数。たとえば スカラーはランク 0、ベクトルはランク 1、行列はランク 2 です。

ランク(序数)と混同しないでください。

評価者

#fundamentals

ラベルを指定する人間。 "アノテーション作成者"評価者とも呼ばれます。

recall

回答となる分類モデルの指標 質問です。

グラウンド トゥルース陽性クラス(予測の何パーセントが実行されたか) モデルは陽性クラスとして正しく識別したでしょうか

式は次のとおりです。

\[\text{Recall} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}} \]

ここで

  • 真陽性は、モデルが陽性のクラスを正しく予測したことを意味します。
  • 偽陰性とは、モデルが誤った予測を ネガティブ クラス

たとえば、200 回分の予測をモデルで行ったとします。 グラウンド トゥルースは陽性のクラスでした。この 200 件の予測のうち:

  • 180 が真陽性でした。
  • 20 は偽陰性でした。

次のような場合があります。

\[\text{Recall} = \frac{\text{180}} {\text{180} + \text{20}} = 0.9 \]

分類: 精度、再現率、適合率、関連 指標 をご覧ください。

レコメンデーション システム

#recsystems

比較的少ない数の望ましい会話セットを各ユーザーについて選択し、 大規模なコーパスからのアイテム。 たとえば、動画のおすすめシステムで 2 本の動画がおすすめとして 10 万本の動画コーパスから [Casablanca] を選択し、 The Philadelphia Story(1 人のユーザー)、Wonder Womanブラックパンサー。動画のおすすめシステムは 次のような要素に基づいて推奨事項が表示されます。

  • 類似のユーザーが評価または視聴した映画。
  • ジャンル、ディレクター、俳優、ターゲット層...

正規化線形ユニット(ReLU)

#fundamentals

次の動作の活性化関数:

  • 入力が負またはゼロの場合、出力は 0 です。
  • 入力が正の場合、出力は入力と等しくなります。

例:

  • 入力が -3 の場合、出力は 0 です。
  • 入力が +3 の場合、出力は 3.0 です。

ReLU のプロットを以下に示します。

2 本の直線のデカルト プロット。最初の行には定数が
          x 軸に沿って -infinity,0 から 0,-0 までの y 値が 0。
          2 行目は 0,0 から始まります。この線の傾きは +1 なので、
          0,0 から +infinity,+infinity まで続きます。

ReLU はよく使われる活性化関数です。その単純な動作にもかかわらず ReLU によってニューラル ネットワークは依然としてnonlinearを学習できる 特徴量ラベルの関係

回帰型ニューラル ネットワーク

#seq

意図的に複数の実行されるニューラル ネットワーク 各実行の一部が次の実行にフィードされます。具体的には 隠しレイヤから生成されたレイヤの一部は、 再計算が行われます。再帰型ニューラル ネットワーク 特にシーケンスの評価に有用であるため、隠れ層は 以前のニューラル ネットワークの実行から学習し、 必要があります。

たとえば、次の図は、再帰型ニューラル ネットワークを 4 回実行されます。モデルの隠れ層で学習した値は 初回実行が、同じ隠れ層への入力の一部になる 表示されます。同様に隠れ層で学習した値は、 2 回目の実行は、同じ隠れ層への入力の一部になり、 3 回目。このようにして、回帰型ニューラル ネットワークは、ニューラル ネットワークが だけではなく、数列全体の意味を予測する できます。

4 つの入力単語を処理するために 4 回実行される RNN。

回帰モデル

#fundamentals

非公式には数値予測を生成するモデル。(これとは対照的に、 分類モデルがクラスを生成 prediction.)たとえば、以下はすべて回帰モデルです。

  • 特定の住宅の価値(423,000 ユーロなど)を予測するモデル。
  • ある樹木の寿命を予測するモデル(23.2 年など)。
  • 特定の都市の雨量を予測するモデル 0.18 インチなど、今後の 6 時間にわたって大幅に改善されます。

一般的な回帰モデルには次の 2 種類があります。

  • 線形回帰。最適な線を見つけます。 ラベル値を特徴に合わせます
  • ロジスティック回帰。 その後、システムが通常、クラスにマップする確率は 0.0 ~ 1.0 できます。

数値予測を出力するすべてのモデルが回帰モデルというわけではありません。 場合によっては、数値予測が実際には単なる分類モデルになる 数値のクラス名が含まれます。たとえば あるトピックについて 数値の郵便番号は分類モデルであり、回帰モデルではありません。

正則化

#fundamentals

過学習を減らすメカニズム。 よく使用される正則化のタイプは次のとおりです。

正則化は、モデルの複雑さに対するペナルティとしても定義できます。

正則化率

#fundamentals

この数値は、各指標の相対的な重要度を指定する 正則化。 正則化率は過学習を低減しますが、 モデルの予測能力を低下させます逆に、1 対 1 の会話の 正則化率は過学習が増えます

強化学習(RL)

#rl

最適なポリシーを学習するアルゴリズム ファミリー。目標は、 インタラクションの収益を最大化することが 環境。 たとえば、ほとんどのゲームの最終的な報酬は勝利です。 強化学習システムは、複雑な学習システムに精通できる 直前のゲームのムーブのシーケンスを評価して、 勝敗につながり、最終的に負けました。

人間からのフィードバックを用いた強化学習(RLHF)

#generativeAI
#rl

人間の評価者からのフィードバックを使用して、モデルのレスポンスの品質を向上させる。 たとえば、RLHF メカニズムを使用して、モデルの品質を評価して ” ” または ” ” という絵文字を付けますシステムはその後のレスポンスを調整 生成 AI です。

ReLU

#fundamentals

正規化線形ユニットの略語。

リプレイ バッファ

#rl

DQN のようなアルゴリズムでは、エージェントが使用するメモリ 状態遷移をストレージ オペレーションで 視聴体験のリプレイ

レプリカ

トレーニング セットまたはモデルのコピー 通常は別のマシン上にありますたとえば、システムは データ並列処理を実装するための戦略について説明します。

  1. 既存のモデルのレプリカを複数のマシンに配置します。
  2. 各レプリカにトレーニング セットの異なるサブセットを送信する。
  3. パラメータの更新を集計します。

報告バイアス

#fairness

人々が行動について書く頻度は または特性は、実世界を反映していない 頻度またはプロパティの特性の度合い 学習します。報告バイアスが構成に影響する可能性がある ML システムが学習するためのデータです

たとえば、書籍では「笑った」という言葉が 呼吸します。ユーザーの相対的な頻度を推定する機械学習モデル 本のコーパスから笑いと呼吸をすることで、 呼吸より笑いのほうがよく見られます。

「bank」が

データを有用な特徴にマッピングするプロセス。

再ランキング

#recsystems

レコメンデーション システムの最終段階である スコア付きの項目が、他のステータスに基づいて再採点される場合があります。 (通常は ML 以外の)アルゴリズムを使用します。再ランキングで項目のリストが評価される スコアリング フェーズで生成されたものであり、次のアクションを実行します。

  • ユーザーがすでに購入した商品を削除する。
  • 新しいアイテムのスコアを上げる。

検索拡張生成(RAG)

#fundamentals

予測結果の質を改善するための手法は、 大規模言語モデル(LLM)の出力 モデルのトレーニング後に取得した知識のソースでグラウンディングします。 RAG は、トレーニング済みの LLM に次のものを提供することで、LLM の応答の精度を向上させます。 信頼できるナレッジベースまたはドキュメントから取得した情報へのアクセス。

検索拡張生成を使用する一般的な動機は次のとおりです。

  • モデルで生成されるレスポンスの事実に基づく精度を高める。
  • トレーニングされていない知識へのアクセスをモデルに与える。
  • モデルが使用する知識を変更する。
  • モデルによるソースの引用を有効にする

たとえば、化学アプリが PaLM API を使用して要約を生成 分析できますアプリのバックエンドがクエリを受信すると、バックエンドは次のことを行います。

  1. ユーザーのクエリに関連するデータを検索(「取得」)します。
  2. 関連する化学データをユーザーのクエリに追加(「拡張」)します。
  3. 追加されたデータに基づいて要約を作成するように LLM に指示します。

リターン

#rl

強化学習では、特定のポリシーと特定の状態が与えられ、 リターンは、エージェントが受け取るすべての報酬の合計です。 適用されるのは、ポリシー エピソードの終わりまでの状態。エージェント 報酬を割引することで、期待される報酬の遅延の性質を考慮する ステータス遷移に応じて、最適な時間間隔を選択する必要があります。

したがって、割引率が \(\gamma\)で、かつ \(r_0, \ldots, r_{N}\)であるとします。 エピソードの最後まで報酬を示し、収益の計算 内容は次のとおりです。

$$\text{Return} = r_0 + \gamma r_1 + \gamma^2 r_2 + \ldots + \gamma^{N-1} r_{N-1}$$

特典

#rl

強化学習では、入力シーケンスの アクション: 状態環境

リッジ正則化

L2 正則化と同義。キーワード リッジ正則化は純粋な統計でより頻繁に使用されます。 L2 正則化がより頻繁に使用されます。 学びます

RNN

#seq

再帰型ニューラル ネットワークの略語。

ROC(受信者動作特性)曲線

#fundamentals

真陽性率偽陽性率: バイナリ形式の分類しきい値 あります。

ROC 曲線の形状は、バイナリ分類モデルの能力を 陽性クラスと陰性クラスを分離します。たとえば バイナリ分類モデルでは、すべてのネガティブな すべての正のクラスからすべてのクラスから取得します。

右側に 8 個の正例と、
          左側にネガティブ サンプルが 7 個。

上のモデルの ROC 曲線は次のようになります。

ROC 曲線。X 軸は偽陽性率、Y 軸は
          真陽性率です。曲線は逆 L 字型です。曲線
          (0.0,0.0)から始まり、(0.0,1.0)まで直線的に立ち上がります。次に、曲線
          (0.0,1.0)から(1.0,1.0)に移動します。

対照的に、次の図は、生のロジスティック回帰をグラフ化したものです。 陰性クラスと陰性クラスを分離できない すべて肯定的なクラス:

正の例と負のクラスを含む数直線
          完全に混在しています

このモデルの ROC 曲線は次のようになります。

ROC 曲線。実際には (0.0,0.0) からの直線である
          (1.0,1.0)に変更します。

一方、現実の世界では、ほとんどのバイナリ分類モデルが ある程度は検出できますが、通常は完璧ではありません。したがって、 典型的な ROC 曲線は、

ROC 曲線。X 軸は偽陽性率、Y 軸は
          真陽性率です。ROC 曲線は不安定な円弧に近似する
          コンパスポイントを西から北に横断します。

理論的には、(0.0,1.0)に最も近い ROC 曲線上の点は、 理想的な分類しきい値ですしかし現実には 理想的な分類しきい値の選択に影響を与えます。たとえば おそらく偽陰性の方が偽陽性よりもはるかに苦労するでしょう。

AUC と呼ばれる数値指標は、ROC 曲線を 単一の浮動小数点値を返します

ロール プロンプト

#language
#generativeAI

対象グループを識別するプロンプトのオプション部分 生成 AI モデルのレスポンスに対して使用します。ロールなし 大規模言語モデルは、有用な回答とは言えない回答を提供する 答えるのに役立ちます。ロール プロンプトを使用すると、 より適切で有用な回答を 返すことができます 特定のターゲットオーディエンスに リーチできますたとえば、次のロール プロンプト部分は、 プロンプトは太字で表示されています。

  • 経済学の博士号を取得するためのこの記事を要約してください。
  • 10 歳の子どもの潮流がどのように変化するか説明する。
  • 2008 年の金融危機について説明します。幼い子どもに語りかける。 ゴールデンレトリバーです

#df

開始ノード(最初のノード 条件)をディシジョン ツリーに含めます。 慣例として、図ではルートをディシジョン ツリーの最上部に配置します。 例:

2 つの条件と 3 つのリーフを持つディシジョン ツリー。「
          開始条件 (x > 2) はルートです。

ルート ディレクトリ

#TensorFlow

TensorFlow のサブディレクトリをホストするために指定するディレクトリ 複数のモデルのチェックポイント ファイルとイベント ファイル。

二乗平均平方根誤差(RMSE)

#fundamentals

平均二乗誤差の平方根。

回転不変性

#image

画像分類問題で、画像分類問題でアルゴリズムが 画像の向きが変わっても画像を分類できます。たとえば アルゴリズムはテニスラケットが上向き、 使用できます。回転の不変性は必ずしも望ましいとは限りません。 たとえば、逆さまの 9 は 9 に分類されません。

翻訳不変性サイズの不変性

決定係数

回帰指標では、一定の期間における ラベルは個々の機能または機能セットによって異なります。 R 2 乗は 0 ~ 1 の値で、次のように解釈できます。

  • R 2 乗が 0 であれば、ラベルのバリエーションが 説明します。
  • R 2 乗が 1 なら、ラベルのバリエーションはすべて 説明します。
  • 0 ~ 1 の R 二乗はラベルがどの程度 特定の特徴または特徴セットから変動を予測できます たとえば、決定係数が 0.10 であれば、分散の 10% である 特徴量のセットによるものである場合、決定係数が 0.20 であれば その 20% は機能セットによるものです。

R の 2 乗は、 ピアソン相関 係数 モデルによって予測された値とグラウンド トゥルースの差を測定します。

S

サンプリング バイアス

#fairness

選択バイアスをご覧ください。

置換によるサンプリング

#df

同じ名前が使われている一連の候補項目から 複数回選択できます。「置換あり」というフレーズ意味 選択するたびに、選択されたアイテムがプールに返されます 検証します。その逆の置換なしのサンプリングでは、 は、候補アイテムを 1 回だけ選択できることを意味します。

たとえば、次のフルーツセットについて考えてみましょう。

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

システムが最初のアイテムとして fig をランダムに選択するとします。 置換によるサンプリングを使用する場合、 次のセットから 2 番目のアイテムです。

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

はい、これは前のセットと同じです。したがって、 もう一度figを選択します。

置換なしのサンプリングを使用する場合、一度選択したサンプルは 選択します。たとえば、システムが fig をラベルとしてランダムに選択し、 最初のサンプルでは、fig を再度選択することはできません。そのためシステムは 次の(縮小された)セットから 2 番目のサンプルを選択します。

fruit = {kiwi, apple, pear, cherry, lime, mango}

SavedModel

#TensorFlow

TensorFlow モデルの保存と復元に推奨される形式。SavedModel 言語に依存しない復元可能なシリアル化形式であるため、 TensorFlow を生成、使用、変換するための高レベルのシステムとツール 構築できます

保存と復元の章をご覧ください。 をご覧ください。

割安便

#TensorFlow

TensorFlow オブジェクト モデルのチェックポイントの保存を担います

スカラー

値として表現できる 1 つの数値または 1 つの文字列 階数が 0 のテンソル。たとえば、次のようになります。 数行のコードによって、TensorFlow に 1 つのスカラーが作成されます。

breed = tf.Variable("poodle", tf.string)
temperature = tf.Variable(27, tf.int16)
precision = tf.Variable(0.982375101275, tf.float64)

スケーリング

ラベルの範囲をシフトする任意の数学的変換または手法 特徴値などですスケーリングの中には、変換に非常に便利なものがあります 正規化などを使用します。

ML で役立つスケーリングの一般的な形式は次のとおりです。

  • 線形スケーリングでは、一般的に、減算と 除算を使用して、元の値を -1 ~+1 の範囲の数値に置き換えるか、 0 ~ 1 の範囲で設定できます
  • 対数スケーリング: 元の値が 対数。
  • Z スコア正規化は、 元の値に、元の値と元の値に その特徴量の平均からの標準偏差です

scikit-learn

よく利用されているオープンソースの ML プラットフォーム。詳しくは、 scikit-learn.org

得点

#recsystems

レコメンデーション システムの一部は、 によって生成される各アイテムの値またはランキングが 候補生成フェーズでは、

選択バイアス

#fairness

選択プロセスに起因するサンプリング データから引き出された結論のエラー データで観測されたサンプル間の体系的な差異を生成する モニタリングします。選択バイアスには次の形式があります。

  • カバレッジ バイアス: データセットで表される母集団は、 母集団を一致させることができます 学習します
  • サンプリング バイアス: データは、ターゲット グループからランダムに収集されません。
  • 非回答バイアス(参加バイアスとも呼ばれる): オプトアウト率が異なる一部のグループは、 できます。

たとえば、予測を行う ML モデルを作成するとします。 達成するためですトレーニングデータを収集するには 映画館の最前列にいる全員にアンケートを配る 表示されます。一見すると、これは妥当な方法のように聞こえるかもしれませんが、 データセットを収集します。ただし、この形式のデータ収集では、 次のような形式の選択バイアスを導入します。

  • カバレッジ バイアス: モデルの予測が一般化しない可能性があります 関心を示していませんでした
  • サンプリング バイアス: サンプルからランダムに 対象人口(映画に登場するすべての人)、サンプリングした 最前列の人々にリーチできます座っている人たちは 映画に興味を持った人が 表示されます。
  • 非回答バイアス: 一般に、強い意見を持つ人は、 任意のアンケートに、軽度の回答者よりも頻繁に回答する割合 意見を求めます。映画に関するアンケートは任意であるため、 特定の行動を起こす可能性が高く 二モーダル分布 通常の(ベル型)分布よりも高くなることが予想されます。

セルフ アテンション(セルフ アテンション レイヤ)

#language

一連のニューラル ネットワークを エンベディング(token エンベディングなど) 別のエンベディング シーケンスに変換できます。出力シーケンスの各エンベディングは、 入力シーケンスの要素からの情報を統合して構築 アテンション機構によって実現されます。

セルフ アテンション自己部分は、 他のコンテキストに与えません。セルフアテンションは、 Transformers の構成要素であり、辞書検索を使用 「query」、「key」、「value」などの用語を使用します。

自己注意レイヤは、入力表現のシーケンスから始まります。 表示されます。単語の入力表現は単純なもので、 説明します。入力シーケンスの各単語に対して、 シーケンス全体のすべての要素に対する単語の関連性をスコア付けします。 あります。関連性スコアによって、その単語の最終的な表現がどの程度 他の単語の表現が組み込まれています。

たとえば、次の文について考えてみましょう。

動物は疲れすぎていたため、通りを渡らなかった。

次の図( Transformer: 言語のための新しいニューラル ネットワーク アーキテクチャ 理解) 代名詞 it に対する自己注意レイヤのアテンション パターンを示します。 各単語がパフォーマンスに及ぼす影響の度合いを 表現:

次の文は 2 回表示されます。「動物は横から渡りませんでした。
          疲れすぎていたから。代名詞を線で結ぶ
          5 つのトークン(The、動物、street、it、
          となります。代名詞を結ぶ線は、
          動物という言葉が一番強いです

セルフ アテンション レイヤは、「it」に関連する単語をハイライト表示します。この 場合、アテンション レイヤは、 animal に最大の重みを割り当てます。

n 個のトークンのシーケンスに対して、セルフ アテンションはシーケンスを変換します。 n 回(シーケンス内の各位置で 1 回ずつ)のエンベディングを作成します。

注意マルチヘッド セルフ アテンション

自己教師あり学習

エンティティを変換するための一連の手法は、 教師なし ML の問題 教師あり ML 問題に サロゲート ラベルを作成して、 ラベルなしのサンプル

BERT などの一部の Transformer ベースのモデルでは、 自己教師あり学習です。

自己教師ありトレーニングは、 半教師あり学習のアプローチです。

自己トレーニング

次の自己教師あり学習のバリアント 以下のすべての条件に該当する場合に特に便利です。

自己トレーニングは、モデルが完成するまで次の 2 つのステップを反復して行います。 改善しなくなる:

  1. 教師あり ML を使用して以下を行います。 ラベル付きサンプルでモデルをトレーニングします
  2. ステップ 1 で作成したモデルを使用して、予測(ラベル)を ラベルなしのサンプルを移行し、信頼度の高いサンプルを ラベルが付けられた例を予測ラベルで返します。

ステップ 2 の各イテレーションごとに、ステップ 1 のラベル付きサンプルが追加され、 学習します

半教師あり学習

一部のトレーニング サンプルにラベルがあり、 そうでない人もいるでしょう半教師あり学習の手法の一つとして、 ラベルのないサンプルを出力し、推論されたラベルに基づいて新しいサンプルを モデルです。半教師あり学習はラベルの取得に費用がかかる場合に便利です。 ラベルなしのサンプルはたくさんあります。

自己トレーニングは、半教師あり学習の 学びます。

機密属性

#fairness
法律、規制、 さまざまな理由が考えられます。

感情分析

#language

統計的アルゴリズムまたは機械学習アルゴリズムを使用して、 サービス、プロダクト、サービスに対する全体的な態度(肯定的か否定的か) できます。たとえば、 自然言語理解、 アルゴリズムでテキスト フィードバックの感情分析を実行できる 大学の講義から得た知識に基づいて、 評価します。

シーケンス モデル

#seq

入力が順次依存するモデル。たとえば 以前に視聴した一連の動画の中で次に視聴された動画。

シーケンス ツー シーケンス タスク

#language

トークンの入力シーケンスを出力に変換するタスク トークンのシーケンスです。たとえば、シーケンスからシーケンスへの変換には、 次のとおりです。

  • 翻訳者: <ph type="x-smartling-placeholder">
      </ph>
    • 入力シーケンスの例: 「I love you」
    • 出力シーケンスの例: 「Je t'aime」
  • 質問応答: <ph type="x-smartling-placeholder">
      </ph>
    • 入力シーケンスの例: 「ニューヨーク市で車は必要ですか?」
    • 出力シーケンス例: 「いいえ。車は自宅に置いてください。」

サービングです

トレーニング済みモデルを使用して予測を提供できるようにするプロセス オンライン推論 オフライン推論

形状(テンソル)

ディメンションに含まれる要素の数。 テンソルです。シェイプは整数のリストとして表されます。たとえば 次の 2 次元テンソルの形状は [3,4] です。

[[5, 7, 6, 4],
 [2, 9, 4, 8],
 [3, 6, 5, 1]]

TensorFlow は行メジャー(C スタイル)形式で、 です。そのため TensorFlow のシェイプが、[3,4] [4,3]。言い換えると、2 次元の TensorFlow Tensor では、形状は [行数列数]です。

静的シェイプは、コンパイル時に既知であるテンソル形状です。

ダイナミック シェイプはコンパイル時には認識されず、 ランタイムデータに依存しますこのテンソルは TensorFlow のプレースホルダ ディメンション([3, ?] など)。

シャード

#TensorFlow
#GoogleCloud

トレーニング セットまたは model。通常、一部のプロセスでは、分割によってシャードを またはパラメータ(通常) チャンクに分割されます。その後、各シャードは異なるマシンに割り当てられます。

モデルのシャーディングはモデル並列処理と呼ばれます。 データのシャーディングはデータ並列処理と呼ばれます。

縮み

#df

ハイパーパラメータ: 勾配ブースティング 過学習。勾配ブースティングの縮小 これは Google の学習率に相当します。 勾配降下法。縮小率は小数である 0.0 ~ 1.0 の範囲で指定してください。収縮値が小さいほど過学習が減少する 収縮率よりも大きくなります

シグモイド関数

#fundamentals

「押しつぶす」数学関数入力値を制約された範囲に入れる、 通常は 0 ~ 1 または -1 ~+1 です。つまり、任意の数(2、100 万、 シグモイドに変換されても、出力は 範囲が制限されています。 シグモイド活性化関数のプロットは次のようになります。

領域をまたがる x 値を持つ 2 次元の曲線プロット
          - 無限大から + 正までの範囲で、y 値はほぼ 0 から正
          ほぼ 1 です。x が 0 の場合、y は 0.5 です。曲線の傾きは常に
          正の値で、最大傾きは 0.0.5 で、徐々に減少する
          x の絶対値が大きくなるにつれて傾きが小さくなります。

シグモイド関数は、ML で次のようないくつかの用途があります。

類似性測定

#clustering

クラスタリング アルゴリズムでは、指標の判断に使用される 2 つの例の類似度(類似度)を確認します。

単一プログラム / 複数データ(SPMD)

異なる入力に対して同じ計算を実行する並列処理手法 複数のデバイスで データを並列処理できますSPMD の目標は結果を得ること 迅速に進めることができます。これは、最も一般的な並列プログラミングのスタイルです。

サイズの不変性

#image

画像分類問題で、画像分類問題でアルゴリズムが 画像のサイズが変わっても画像を分類できます。たとえば アルゴリズムは依然として 使用するのが 2M ピクセルか 200K ピクセルかに関係なく、なお、 画像分類アルゴリズムにも、サイズの不変性に現実的な制限があります。 たとえば、アルゴリズム(または人間)によって、 20 ピクセルしか使用していない猫の画像です。

翻訳不変性回転不変性

スケッチ

#clustering

教師なし ML では、 予備的な類似度分析を行うアルゴリズムのカテゴリ 例で説明します。スケッチ アルゴリズムでは、 <ph type="x-smartling-placeholder"></ph> 局所性のあるハッシュ関数 特徴が似ている点を特定し、その点を バケットに分割できます。

スケッチにより、類似度の計算に必要な計算量を減らす 学習しますすべての単語の類似度を計算する代わりに、 あるため、類似度は各サンプルに対してのみ 各バケット内のデータポイントのペアになります。

skip-gram

#language

元の単語から単語を省略(または「スキップ」)できる N グラム つまり、N 個の単語は元々隣接していない可能性があります。もっと見る 正確には「k-skip-n-gram」です。最大 k 個の単語が持つ可能性がある N グラムです。 スキップされました

例: 「急ぎの茶色のキツネ」次の 2 グラムが考えられます。

  • 「すばやく」
  • 「早い茶色」
  • "茶色のフォックス"

「1 スキップ 2 グラム」単語と単語の間の最大 1 つの単語からなる単語のペアです。 したがって、「the short brown fox」は次の 1 スキップ 2 グラムがあります:

  • 「the brown」
  • 「quick fox」

また、2 グラムはすべて 1 スキップ 2 グラムでもあります。 スキップされる可能性があります。

スキップグラムは、単語の周囲のコンテキストをより深く理解するのに役立ちます。 この例では「fox」です。「quick」に直接関連していた次のセットで 1 スキップ 2 グラムだが、2 グラムの集合には含まれない。

スキップグラムを使用したトレーニング 単語エンベディング モデル。

Softmax

#fundamentals

特定のクラスの確率を マルチクラス分類モデル。各単語の確率は 正確に 1.0 に変更します。たとえば、次の表は、ソフトマックスが分散して 可能性があります。

画像は... 確率
0.85
0.13
0.02

ソフトマックスは、フル ソフトマックスとも呼ばれます。

一方、候補サンプリングでは、

ソフト プロンプト チューニング

#language
#generativeAI

大規模言語モデルのチューニング手法 リソースを大量に消費することなく、特定のタスクに ファインチューニング。すべての特徴量を再トレーニングする代わりに モデル内の重み、ソフト プロンプト チューニング 同じ目標を達成するためにプロンプトを自動的に調整する。

与えられたテキスト プロンプトで、ソフト プロンプト調整 通常はプロンプトに追加のトークン エンベディングを付加し、 入力を最適化します。

「ハード」トークン エンベディングではなく実際のトークンが含まれます。

スパースな特徴

#language
#fundamentals

値がほぼ 0 または空の特徴。 たとえば、1 つの値と 100 万個の値を含む特徴は、 です。一方、密な特徴には、 大部分はゼロや空ではありません

ML では、驚くほど多くの特徴量がスパースな特徴量になっています。 カテゴリ特徴量は通常、スパース特徴量です。 たとえば、ある森林で想定される 300 種類の樹木のうち、 単なるカエデの木を識別できるかもしれません。何百万もの 動画ライブラリに含まれる可能性のある動画の数によって、1 つの例で “カサブランカ”と言います

モデルでは通常 スパースな特徴を ワンホット エンコーディング。ワンホット エンコーディングが大きい場合、 エンベディング レイヤをそのレイヤの上に配置できます。 ワンホット エンコーディングを使用します。

スパース表現

#language
#fundamentals

スパースな特徴にゼロ以外の要素の位置のみを保存する。

たとえば、species という名前のカテゴリ特徴が 36 予測しています。さらに、各データセットが example は 1 種のみを識別します。

それぞれの例で、樹木の種類を表すワンホット ベクトルを使用できます。 ワンホット ベクトルには、単一の 1 が含まれます( と 35 個の 0( 35 種類の樹木。この例では該当なし)。ワンホット表現は、 maple は次のようになります。

位置 0 から 23 が値 0 を保持するベクトルは、
          24 は値 1 を保持し、位置 25 から 35 は値 0 を保持します。

あるいは、スパース表現では単純に画像の位置を特定するだけで 判断できますmaple が 24 番目である場合、スパース表現は maple は、単に次のようになります。

24

スパース表現は、ワンホット表現よりもはるかにコンパクトであることに 必要があります。

スパース ベクトル

#fundamentals

値がほぼゼロであるベクトル。関連情報: スパース featuresparsity

スパース性

ベクトルまたは行列の除算でゼロ(または null)に設定された要素の数 そのベクトルまたは行列のエントリの総数で割ることです。たとえば 98 個のセルにゼロが含まれる 100 要素からなる行列について考えてみましょう。計算 スパース性は次のとおりです。

$$ {\text{sparsity}} = \frac{\text{98}} {\text{100}} = {\text{0.98}} $$

特徴量のスパース性とは、特徴ベクトルのスパース性のことです。 モデルのスパース性とは、モデルの重みのスパース性を指します。

空間プーリング

#image

プーリングをご覧ください。

スプリット

#df

ディシジョン ツリーでは、 condition

スプリッター

#df

ディシジョン ツリーをトレーニングする際、 (とアルゴリズム)に責任を持って 各 ノード条件

SPMD

単一プログラム / 複数データの略称。

ヒンジ損失の 2 乗

ヒンジ損失の 2 乗。二乗ヒンジ減衰によるペナルティ 外れ値をより厳格化します。

二乗損失

#fundamentals

L2 損失と同義。

段階的なトレーニング

#language

一連の個別のステージでモデルをトレーニングする戦術。目標は トレーニング プロセスをスピードアップするか、モデルの品質を向上させるかのいずれかです。

プログレッシブ スタッキング アプローチの図を以下に示します。

  • ステージ 1 には 3 つの隠れ層、ステージ 2 には 6 つの隠れ層、 ステージ 3 には 12 個の隠れ層が含まれています。
  • ステージ 2 では、3 つの隠れ層で学習した重みを使用してトレーニングを開始する 説明しますステージ 3 では、ステップ 6 で学習した重みを使用してトレーニングを開始します。 レイヤに分割されます。

ステージ 1、ステージ 2、ステージ 3 という 3 つのステージ。
          各ステージには異なる数のレイヤが含まれています。ステージ 1 には、
          ステージ 2 には 6 個のレイヤ、ステージ 3 には 12 個のレイヤがあります。
          ステージ 1 の 3 つのレイヤが、ステージ 2 の最初の 3 つのレイヤになります。
          同様に、ステージ 2 の 6 つのレイヤが、最初の 6 つのレイヤになります。
          ステージ 3.

パイプライン処理もご覧ください。

state

#rl

強化学習では、現在のモデルを表す 環境の構成。エージェントはこれを使用して アクションを選択します。

state-action value 関数

#rl

Q 関数と同義。

static

#fundamentals

何かを連続して行うのではなく、一度だけ実行する。 静的とオフラインという用語は同義語です。 マシンでの静的とオフラインの一般的な用途は次のとおりです。 学習:

  • 静的モデル(またはオフライン モデル)は、一度トレーニングされたモデルです。 使用しました。
  • 静的トレーニング(またはオフライン トレーニング)は、トレーニング 静的モデルです。
  • 静的推論(オフライン推論)は、 予測のバッチをモデルが一度に生成するプロセスです。

動的」とは対照的です。

静的推論

#fundamentals

オフライン推論と同義。

静止

#fundamentals

1 つ以上のディメンション(通常は時間)で値が変化しない特徴。 たとえば、2021 年とほぼ同じ値に見える特徴が、 2023 年は静止しています。

実際には、静止している特徴はほとんどありません。均等な特徴 安定性(海面など)の経時的な変化と同義です。

対照的に、非定常性です。

ステップ

1 つのバッチのフォワード パスとバックワード パス。

詳細については、誤差逆伝播をご覧ください。 パフォーマンスの傾向を評価できます

ステップサイズ

学習率と同義。

確率的勾配降下法(SGD)

#fundamentals

勾配降下法アルゴリズムでは、 バッチサイズは 1 です。つまり SGD は 均一に選択された単一の例が トレーニング セットからランダムに抽出します。

ストライド

#image

畳み込み演算またはプーリングでは、入力シーケンスの 入力スライスが作成されます。たとえば、次のアニメーションでは、 畳み込み演算時の(1,1)ストライドを示しています。したがって、 次の入力スライスは、前の入力の 1 位置右から開始 スライス。操作が右端に達すると、次のスライスがすべて 1 つ下の位置になります

入力 5x5 行列と 3x3 畳み込みフィルタ。これは、
     ストライドが (1,1) の場合、畳み込みフィルタが 9 回適用されます。最初の
     畳み込みスライスは、入力の左上の 3x3 サブ行列を評価
     表します。2 番目のスライスでは、上と中央の 3x3 を評価します
     サブ行列です。3 番目の畳み込みスライスは、右上の 3x3 を評価する
     サブ行列です。4 番目のスライスでは、中央左の 3x3 サブ行列を評価します。
     5 番目のスライスでは、中央の 3x3 サブ行列が評価されます。6 番目のスライス
     は、右中央の 3x3 部分行列を評価します。7 番目のスライスは、
     3x3 サブマトリックスを使用します。8 番目のスライスでは、
     サブマトリクスを 3×3 行列に分割します。9 番目のスライスでは、右下の 3x3 を評価する
     サブ行列です。

上記の例は、2 次元のストライドを示しています。入力が 行列が 3 次元の場合、ストライドも 3 次元になります。

構造的リスクの最小化(SRM)

2 つの目標のバランスを取るアルゴリズム:

  • 最も予測力の高いモデル(損失が最も低いモデルなど)を構築する必要性。
  • モデルをできるだけシンプルにしておく必要性(たとえば、 あります。

たとえば、入力シーケンスの損失 + 正則化を 構造リスク最小化アルゴリズムです。

経験的なリスク最小化とは対照的です。

サブサンプリング

#image

プーリングをご覧ください。

サブワード トークン

#language

言語モデルでは、トークン。 単語の部分文字列(単語全体が含まれる場合もあります)

たとえば「itemize」などの単語は「アイテム」という断片に分割されることもあります。 (根語)と「ize」を(サフィックス)。各 ID は、それぞれ固有の名前で表され、 あります。一般的でない単語をサブワードと呼ばれる部分に分割することで、 単語のより一般的な構成部分で動作させることができます。 使用できます

逆に「行く」などの一般的な言葉は分割されていない可能性があり、 単一のトークンで表されます。

概要

#TensorFlow

TensorFlow では、特定の時点で計算された値または値のセットは、 ステップ: 通常は、トレーニング中にモデルの指標を追跡するために使用されます。

教師あり ML

#fundamentals

特徴とその特徴からモデルをトレーニングする 対応するラベル。教師あり ML は類似 主題について学習するために、まず一連の問題と、 対応する回答が返されます。質問と行動の間のマッピングをマスターしたら、 生徒は新しい(未知の)解答に対して 質問できます。

比較対象 教師なし ML

合成特徴

#fundamentals

特徴は入力特徴に含まれないが、 組み合わせたものです合成特徴の作成方法 次の内容が含まれます。

  • 連続する特徴を範囲ビンにバケット化します。
  • 特徴クロスを作成する。
  • 1 つの特徴値を他の特徴値で乗算(または除算)する こともできます。たとえば、ab が入力特徴の場合、 合成特徴の例を次に示します。 <ph type="x-smartling-placeholder">
      </ph>
    • AB
    • A2
  • 特徴値への超越関数の適用。たとえば、c の場合、 が入力特徴の場合、合成特徴の例を次に示します。 <ph type="x-smartling-placeholder">
      </ph>
    • sin(c)
    • ln(c)

正規化またはスケーリングによって作成される特徴 のみでは合成特徴とはみなされません。

T

T5

#language

テキストからテキストへの転移学習 モデル 導入元 2020 年の Google AI。 T5 は、エンコーダ - デコーダ モデルで、 非常に大規模な環境でトレーニングされた Transformer アーキテクチャ 見てみましょう。さまざまな自然言語処理タスクに効果的です。 自然言語によるテキストの生成、言語の翻訳、質問への回答など、 会話形式で学習します。

T5 の名前は、「Text-to-Text Transfer Transformer」にある 5 つの T に由来します。

T5X

#language

設計されたオープンソースの機械学習フレームワーク。 大規模な自然言語処理を構築してトレーニング モデルです。T5 は T5X コードベース( JAXFlax を基盤としている)。

表形式の Q 学習

#rl

強化学習では、次のように Q-learning: テーブルを使用して 次のすべての組み合わせに対応する Q 関数 stateaction

ターゲット

ラベルと同義。

ターゲット ネットワーク

#rl

ディープ Q ラーニングでは、ニューラル ネットワークが ニューラル ネットワークによる近似です。ここで、メイン ニューラル ネットワークは Q 関数または ポリシーを実装する。 次に、ターゲットから予測された Q 値でメイン ネットワークをトレーニングできます。 接続しますそのため、メイン スレッドでのフィードバック ループを Q 値でトレーニングされます。このフィードバックを避けることで トレーニングの安定性が向上します

タスク

次のような ML 手法を使用して解決できる問題:

温度

#language
#image
#generativeAI

ランダム性の度合いを制御するハイパーパラメータ 必要があります。温度を高くすると出力がランダムになり、 温度を低くするとランダムな出力が少なくなります。

最適な温度の選択は、個々の用途や 優先されるプロパティを定義します。たとえば、次のようにします。 温度を上げることをおすすめします。 クリエイティブな出力を生成します。逆に、温度を下げて 画像やテキストを分類するモデルを構築する際に モデルの精度と一貫性を確保します

温度は多くの場合、ソフトマックスとともに使用されます。

時間データ

異なる時点で記録されたデータです。例: 冬用コート セール 時間データになります。

Tensor

#TensorFlow

TensorFlow プログラムの主要なデータ構造。テンソルは N 次元である (N が非常に大きい場合もあります)データ構造、最も一般的なスカラー、ベクトル、 行列ですテンソルの要素には、整数、浮動小数点数、 指定します。

TensorBoard

#TensorFlow

1 つまたは複数の実行中に保存されたサマリーを表示するダッシュボード TensorFlow プログラムがあります

TensorFlow

#TensorFlow

大規模な分散型 ML プラットフォーム。また、 一般的な計算をサポートする TensorFlow スタックのベース API レイヤ 詳しく見ていきます

TensorFlow は主に機械学習に使用されますが、 TensorFlow は、数値計算を必要とする ML 以外のタスクに 構築できます

TensorFlow Playground

#TensorFlow

さまざまな変化を可視化する モデルに影響を与えるハイパーパラメータ (主にニューラル ネットワーク)トレーニングです。 次に移動: <ph type="x-smartling-placeholder"></ph> http://playground.tensorflow.org TensorFlow Playground も試してみましょう。

TensorFlow Serving

#TensorFlow

トレーニング済みモデルを本番環境にデプロイするためのプラットフォーム。

TPU(Tensor Processing Unit)

#TensorFlow
#GoogleCloud

デバイスを最適化する特定用途向け集積回路(ASIC) ML ワークロードのパフォーマンスを 向上させることができますこれらの ASIC は TPU デバイス上の複数の TPU チップ

テンソルのランク

#TensorFlow

ランク(テンソル)をご覧ください。

テンソル形状

#TensorFlow

Tensorがさまざまな次元に含まれる要素の数。 たとえば、[5, 10] テンソルの形状は 1 次元が 5、10 が 使用します。

テンソルサイズ

#TensorFlow

Tensor に含まれるスカラーの総数。たとえば、 [5, 10] Tensor のサイズは 50 です。

TensorStore

効率的に読み取り、実行するためのライブラリ 記述することに集中します

終了条件

#rl

強化学習では、トレーニングに エピソードがいつ終了するかを判断する(エージェントが到達した時間など) しきい値を超えるしきい値を超えた場合に 通知を受け取ることができます たとえば、三目並べ(または (ノートとクロス)を使用すると、プレーヤーがマークをつけるか、 連続する 3 つのスペース、またはすべてのスペースがマークされている場合です。

test

#df

ディシジョン ツリーでは、 condition

テスト損失

#fundamentals

モデルの損失を表す指標 テストセットモデルの構築時は、 通常はテストの損失を最小化しようとします。これは、テストの損失が小さいと、 低いトレーニング損失または低いものよりも強い品質シグナル 低い検証損失

テストの損失とトレーニングの損失または検証の損失との間に大きな差が生じることがある 新しい P-MAX キャンペーンを 正則化率

テストセット

テスト用に予約されたデータセットのサブセット トレーニング済みモデル

これまでは、データセット内のサンプルを次の 3 つに分けていました。 サブセットがあります。

データセット内の各サンプルは、上記のサブセットのいずれか 1 つのみに属している必要があります。 たとえば、1 つのサンプルがトレーニング セットと 作成します。

トレーニング セットと検証セットはどちらもモデルのトレーニングに密接に関連しています。 テストセットはトレーニングに間接的に関連付けられるだけなので、 テスト損失は、 トレーニングの損失または検証の損失

テキストスパン

#language

テキスト文字列の特定のサブセクションに関連付けられた配列インデックス スパン。 たとえば、Python 文字列 s="Be good now" の単語 good が占有されます。 テキストスパンを 3 ~ 6 に設定します。

tf.Example

#TensorFlow

標準 <ph type="x-smartling-placeholder"></ph> プロトコル バッファ モデルをトレーニングまたは推論するための入力データを記述します。

tf.keras

#TensorFlow

統合された Keras の実装、 TensorFlow

しきい値(ディシジョン ツリーの場合)

#df

軸に揃えられた条件で、 特徴の比較対象です。たとえば、75 は、 次の条件でしきい値を指定します。

grade >= 75
<ph type="x-smartling-placeholder">

時系列分析

#clustering

ML および統計のサブフィールドで 時間データ。多種多様な ML 時系列分析が必要です。これには、分類、クラスタリング、 予測、異常検出ですたとえば、 月ごとの冬用コートの将来の売上を予測する時系列分析 基づいています。

タイムステップ

#seq

1 つは「未公開」セル 回帰型ニューラル ネットワーク。 たとえば、次の図では 3 つのタイムステップ(ラベルが 下付き文字 t-1、t、t+1):

反復型ニューラル ネットワークにおける 3 つのタイムステップ。出力は、
          最初のタイムステップが 2 番目のタイムステップの入力になります。出力
          第 2 タイムステップの入力が第 3 タイムステップの入力になります。

token

#language

言語モデルにおいて、モデルを構成する原子単位。 基づいて予測を行いますトークンは通常、 次のとおりです。

  • 単語(例: 「犬が猫のような」というフレーズ)3 つの単語からなる 「dogs」、「like」、「cats」というトークンがあります。
  • 文字(「bike fish」など)9 つの Pod で 使用できます。(空白もトークンの 1 つとしてカウントされます)。
  • サブワードを使用します。このサブワードでは、1 つの単語が 1 つのトークンまたは複数のトークンになります。 サブワードは、語根、接頭辞、または接尾辞で構成されます。たとえば トークンとしてサブワードを使用する言語モデルでは、「dogs」という単語を 2 つのトークン(根語の「dog」と複数形の接尾辞「s」)で表現します。同じ 「taller」という 1 つの単語が2 つのサブワード(「 語根「tall」「er」など)を指定します。

言語モデル以外のドメインでは、トークンは他の種類の です。たとえばコンピュータビジョンでは、トークンは 作成します。

Tower

ディープ ニューラル ネットワークのコンポーネント。 ディープ ニューラル ネットワークです。場合によっては、各タワーが タワーは独立して維持され、最終的に 出力は最終的なレイヤに結合されます。それ以外の場合( EncoderDecoder の各タワー (多数の Transformer)基地局では、 相互に通信します。

TPU

#TensorFlow
#GoogleCloud

Tensor Processing Unit の略称。

TPU チップ

#TensorFlow
#GoogleCloud

オンチップの高帯域幅メモリを備えたプログラマブル線形代数アクセラレータ ML ワークロードに最適化されています 複数の TPU チップが TPU デバイスにデプロイされます。

TPU デバイス

#TensorFlow
#GoogleCloud

複数の TPU チップを搭載したプリント回路基板(PCB) 高帯域幅ネットワークインターフェース システム冷却ハードウェアが含まれます

TPU マスター

#TensorFlow
#GoogleCloud

データの送受信を行うホストマシン上で実行される一元的な調整プロセス データ、結果、プログラム、パフォーマンス、システムの健全性に関する情報を受信 TPU ワーカーに送信されます。TPU マスターは設定も管理します。 TPU デバイスのシャットダウン。

TPU ノード

#TensorFlow
#GoogleCloud

特定のイメージを持つ Google Cloud 上の TPU リソース TPU タイプ。TPU ノードは Compute Engine の VPC ネットワークを VPC ネットワーク ピア VPC ネットワーク。 TPU ノードは、GKE クラスタで定義される Cloud TPU API

TPU Pod

#TensorFlow
#GoogleCloud

Google Cloud 内での TPU デバイスの特定の構成 あります。TPU Pod 内のすべてのデバイスが相互に接続されている 通信できます。TPU Pod は Google Cloud の 特定の TPU バージョンで利用可能な TPU デバイス

TPU リソース

#TensorFlow
#GoogleCloud

お客様が作成、管理、または使用する Google Cloud 上の TPU エンティティ。対象 TPU ノードTPU タイプは TPU リソース。

TPU スライス

#TensorFlow
#GoogleCloud

TPU スライスは、TPU デバイスの小数部分です。 TPU Pod。TPU スライス内のすべてのデバイスが接続されています 専用の高速ネットワークを介して相互に通信できます。

TPU タイプ

#TensorFlow
#GoogleCloud

特定の構成を持つ 1 つ以上の TPU デバイスの構成 TPU ハードウェア バージョン。TPU タイプは作成時に選択し、 Google Cloud 上の TPU ノード。たとえば、v2-8 TPU タイプは、8 コアの単一の TPU v2 デバイスです。v3-2048 TPU タイプは 256 合計 2,048 コアですTPU タイプはリソースであり、 で定義され、 Cloud TPU API

TPU ワーカー

#TensorFlow
#GoogleCloud

ホストマシン上で実行され、ML プログラムを実行するプロセス TPU デバイス

トレーニング

#fundamentals

理想的なパラメータ(重みと バイアスなど)をモデル化します。トレーニング中、システムは を使用して、パラメータを段階的に調整します。トレーニングでは 数千回から数十億回にのぼります

トレーニングの損失

#fundamentals

モデルの損失を表す指標 必要があります。たとえば 損失関数が 平均二乗誤差です。おそらく、トレーニングの損失(平均 二乗誤差)は 2.2 で、トレーニングの損失は 100 回目の反復処理は 1.9 です。

損失曲線は、トレーニングの損失と損失を 必要があります。損失曲線は、トレーニングに関する次のヒントを提供します。

  • 下降する傾きはモデルが改善していることを意味します。
  • 上昇する傾きはモデルが悪化していることを意味します。
  • 傾きが平らな場合 モデルが 収束

たとえば、次のやや理想化された損失曲線は、 表示されます。

  • 初期の反復処理で急な下降傾向にあるため、 モデルを迅速に改善できます
  • 終盤に近づくまで徐々に平坦になっていく(引き続き下向き)傾斜 モデルの改善を続けていくことになりますが、 初期の反復処理よりも遅いペースです。
  • トレーニングの終わりに近づくにつれて傾きが緩やかになり、収束を示しています。

トレーニングの損失と反復のプロット。この損失曲線は
     示しています傾きは徐々に小さくなっていき、
     傾きがゼロになります。

トレーニングの損失は重要ですが、 一般化

トレーニング サービング スキュー

#fundamentals

トレーニング期間中のモデルのパフォーマンスの トレーニングと、同じモデルのパフォーマンスを 配信

トレーニング セット

#fundamentals

モデルのトレーニングに使用されるデータセットのサブセット。

従来、データセット内の例は次の 3 つに サブセットがあります。

理想的には、データセット内の各サンプルは、 サブセットです。たとえば、1 つの例が 2 つのドメインに属する 検証セットの両方が含まれます。

軌道

#rl

強化学習では、次の一連の データを表すタプル エージェントの一連の状態遷移 ここで、各タプルは状態、アクション報酬、特定の状態遷移に対する次の状態。

転移学習

ある ML タスクから別の ML タスクに情報を転送します。 たとえばマルチタスク学習では、1 つのモデルで複数のタスクを解き、 異なる出力ノードを持つディープモデルなど、さまざまな出力 できます。転移学習には知識の習得を伴う場合がある より複雑なタスクへの解決策を変えるか、 データが多いタスクから データが少ないことを示します

ほとんどの ML システムは単一のタスクを解決します。転移学習は 1 つのプログラムで解決できる AI への大きな一歩 複数のタスクを実行できます。

Transformer

#language

Google が開発したニューラル ネットワーク アーキテクチャは、 セルフ アテンションのメカニズムによって、 入力エンべディングのシーケンスを、出力シーケンスの 畳み込みや、ML アルゴリズムに依存しない 再帰型ニューラル ネットワーク。Transformer は 自己注意レイヤの積み重ねと見なされます。

Transformer には次のいずれかを含めることができます。

エンコーダは、エンベディングのシーケンスを新しいシーケンスの 同じ長さにします。エンコーダは N 個の同じレイヤからなり、各レイヤには 2 つのレイヤが サブレイヤです。これら 2 つのサブレイヤは、入力レイヤの各位置に適用されます。 エンベディングシーケンスを作成し、シーケンスの各要素を新しい 説明します。1 つ目のエンコーダ サブレイヤは、エンコーダから出力された 生成します。第 2 のエンコーダ サブレイヤは、集約されたデータを 出力エンべディングに変換されます。

デコーダは、入力エンベディングのシーケンスを 異なる長さのエンべディングがあります。デコーダには、エンコーダと 3 つのサブレイヤを持つ、N 個の同一レイヤ。そのうちの 2 つは あります。3 つ目のデコーダ サブレイヤは、デコーダの出力を セルフ アテンション機構を 情報を集めます。

ブログ投稿 Transformer: A New Neural Network Architecture for Language 理解 Transformers の概要を示しています。

翻訳不変性

#image

画像分類問題で、画像分類問題でアルゴリズムが 画像内のオブジェクトの位置が変化しても画像を分類できます。 たとえば、犬が犬であっても、 位置決めに使用できます

サイズの不変性回転不変性

トライグラム

#seq
#language

N=3 である N グラム

真陰性(TN)

#fundamentals

モデルが正しい予測を ネガティブ クラス。たとえば、モデルは次の単語を 特定のメール メッセージが迷惑メールではない場合、そのメール メッセージが実際に 迷惑メールではない

真陽性(TP)

#fundamentals

モデルが正しい予測を 陽性クラス。たとえば、モデルは次の単語を 特定のメール メッセージが迷惑メールであり、そのメール メッセージが本当に迷惑メールである。

真陽性率(TPR)

#fundamentals

再現率と同義。具体的には、次のことが求められます。

$$\text{true positive rate} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}}$$

真陽性率は ROC 曲線の y 軸です。

U

(機密属性に)気づかない

#fairness

機密性の高い属性が トレーニング データに含まれません。機密属性は しばしばデータの他の属性と相関関係にあります。つまり、 機密属性を知らなかったら その属性に関する影響がばらばらである またはその他の公平性の制約に違反する。

学習不足

#fundamentals

予測能力の低いモデルを生成する。これは、モデルに トレーニング データの複雑さを完全には把握できていません。多くの問題 学習不足を引き起こす可能性があります。

  • 間違った特徴のセットでトレーニングする。
  • トレーニングのエポックが少なすぎるか、低すぎる 学習率
  • 正則化率が高すぎるトレーニング。
  • 1 つのコンテナに隠れ層を提供するのが少なすぎる ディープ ニューラル ネットワークです。

アンダーサンプリング

を 同じクラスの過半数のクラス クラス不均衡なデータセット: よりバランスの取れたトレーニング セットを作成する。

たとえば、データセットに対する多数派のクラスと 少数派のクラスは 20:1 です。このクラスを克服するため 不均衡がある場合は、少数派のすべてで構成されたトレーニング セットを 多数派のクラスのサンプルの 10 分の 1 にすぎません。 トレーニング セットのクラス比を 2:1 にします。アンダーサンプリングのおかげで トレーニング セットのバランスがとれた方がモデルの質が向上する可能性があります。また、 トレーニング セットのバランスがとれていた場合、大量のサンプルを 必要があります。

一方、オーバーサンプリングは有効です。

単方向

#language

テキストの対象セクションの前のテキストのみを評価するシステム。 これに対して双方向システムでは、 テキストの対象セクションの前および後のテキスト。 詳しくは、双方向をご覧ください。

単方向言語モデル

#language

次の確率のみに基づく言語モデル ターゲット トークンの後ではなく、前に出現するトークン 双方向言語モデルも参照してください。

ラベルなしの例

#fundamentals

features は含まれているがラベルがない例。 たとえば、次の表は、家のラベルのない 3 つの例を示しています。 3 つの特徴があり、住宅の価値は考慮しない:

寝室の数 浴室数 築年数
3 2 15
2 1 72
4 2 34

教師あり ML では、 ラベル付きサンプルでトレーニングされ、 ラベルなしのサンプル

半教師あり教師なし学習、 ラベルのないサンプルがトレーニングに使用されます

ラベルなしのサンプルとラベル付きサンプルを対比します。

教師なし ML

#clustering
#fundamentals

モデルをトレーニングして、データセット(通常は データセットを作成します。

教師なし ML の最も一般的な用途は、 クラスタデータ グループ化しますたとえば、教師なしマシンは 学習アルゴリズムは、さまざまなプロパティに基づいて曲をクラスタ化できる あります。結果として得られるクラスタは、他のマシンへの入力として たとえば、音楽レコメンデーション サービスに対して行います。 有用なラベルが不足している場合や存在しない場合は、クラスタリングが役立ちます。 たとえば、不正利用防止や不正行為対策などの分野では、クラスタが 人間がデータをより深く理解できるようになります。

教師あり ML とは対照的です。

アップリフトモデリング

マーケティングで一般的に使用されるモデリング手法の 1 つで、 "因果効果"(いわゆる「増分効果」とも呼ばれる) 「処理」「個人」として識別されます次に 2 つの例を示します。

  • 医師は増加率モデリングを使用して死亡率の減少を予測できる (因果効果)の程度 患者(個人)の年齢と病歴。
  • マーケティング担当者は増加率モデリングを使用して、 広告によって購入される確率(因果効果) 個人に対する治療(施術)などです。

アップリフト モデリングは、分類回帰(一部のラベル(たとえば、 (バイナリ処理のラベルのうち)が、増加率モデリングで常に欠落しています。 たとえば、患者は治療を受けることも受けないこともできます。 したがって、観察できるのは患者が治癒するか、 この 2 つのいずれか一方だけが回復することはありません 増加率モデルの主な利点は、予測を生成できること モデルを使用して、未知の状況(反事実的条件)を 見ていきましょう。

アップウェイト

ダウンサンプリングされたクラスに重みを適用します。 ダウンサンプリングした係数にマッピングします。

ユーザー マトリックス

#recsystems

レコメンデーション システムでは、 エンべディング ベクトル 行列分解 保持します。 ユーザー マトリックスの各行には、関連する属性に関する情報が 1 人のユーザーのさまざまな潜在シグナルの強さ たとえば、映画のレコメンデーション システムについて考えてみましょう。このシステムでは ユーザー マトリックスの潜在シグナルが各ユーザーの興味 / 関心を表している 特定のジャンルの特定のオーディエンスにリーチしたり、 複数の要素にまたがる複雑なやり取りを 効率的に行えます

ユーザー マトリックスには、潜在する特徴の列とユーザーごとの行があります。 ユーザー マトリックスの行数がターゲットと同じである 行列を返します。たとえば、ある映画が 1,000,000 ユーザーを対象とするレコメンデーション システム、 行列は 1,000,000 行になります

V

検証

#fundamentals

モデルの品質の初期評価。 検証では、モデルの予測の品質を、 検証セット

検証セットはトレーニング セットとは異なるため、 検証により、過学習から保護できます。

検証セットに照らしてモデルを評価することは、 モデルに照らしてテストと評価を行います テストセットを 2 回目のテストとして使用します。

検証損失

#fundamentals

モデルの損失を表す指標 特定の期間における検証セット トレーニングの反復

一般化曲線もご覧ください。

検証セット

#fundamentals

初期値を実行するデータセットのサブセット トレーニング済みモデルに対する評価です。通常 トレーニング済みモデルを検証セットと照らし合わせて、 評価してから、テストセットでモデルを評価します。

これまでは、データセット内のサンプルを次の 3 つに分けていました。 サブセットがあります。

理想的には、データセット内の各サンプルは、 サブセットです。たとえば、1 つの例が 2 つのドメインに属する 検証セットの両方が含まれます。

値の補完

欠損値を許容される代替値に置き換えるプロセス。 値がない場合は、サンプル全体を破棄するか、 値の補完を使用して例を救うことができます。

たとえば、次の temperature 特徴を含むデータセットについて考えてみましょう。 1 時間ごとに記録することになっています。しかし、温度の測定値は 特定の時間は利用できません。以下は、データセットのセクションです。

タイムスタンプ 温度
1680561000 10
1680564600 12
1680568200 missing
1680571800 20
1680575400 21
1680579000 21

システムは欠損している例を削除するか、欠損値を代入することができます temperature は、補完アルゴリズムに応じて 12、16、18、20 のいずれかに指定します。

勾配消失問題

#seq

初期の隠れ層の勾配の傾向 いくつかのディープ ニューラル ネットワークを ほぼ水平(低)です勾配が徐々に小さくなるほど ディープ ニューラル ネットワークにおいて、ノードの重みに小さな変化をつけることにより、 ほとんど、またはまったく学習していないからです。勾配消失の問題があるモデル トレーニングが困難または不可能になります 長短期記憶セルがこの問題に対処します。

勾配爆発問題と比較してください。

重要度の変化

#df

各スコアの相対的な重要度を示す一連のスコア feature をモデルに追加します。

たとえば、ディシジョン ツリーを考えてみます。 住宅価格の見積もり。このディシジョン ツリーには 3 つの 特徴(size、age、style)の 3 つです。ある一連の変数の重要度が 3 つの特徴量は {size=5.8, age=2.5, style=4.7} の場合、 年齢やスタイルより決定権があります

重要度が変動するさまざまな指標から情報を得る モデルのさまざまな側面に関する ML エキスパート。

変分オートエンコーダ(VAE)

#language

差異を利用するオートエンコーダの一種 入力と出力の間の変換を行って、入力の変更されたバージョンを生成します。 変分オートエンコーダは、生成 AI に役立ちます。

VAE は、変分推論に基づいています。 確率モデルのパラメータになります。

ベクトル

数学的分野によって意味が異なり、非常に過負荷状態にある用語 多岐にわたります。ML において、ベクトルには次の 2 つの特性があります。

  • データ型: 通常、ML のベクトルは浮動小数点数を保持します。
  • 要素数: ベクトルの長さまたは寸法です。

たとえば、特徴ベクトルに 8 個の 浮動小数点数。この特徴ベクトルの長さまたは次元は 8 です。 多くの場合、ML ベクトルは膨大な数の次元を持ちます。

さまざまな種類の情報をベクトルとして表現できます。例:

  • 地表面上のあらゆる位置を 2 次元の ベクトルに対して行われます。このとき、一方の次元は緯度、他方の次元は経度です。
  • 500 の各株式の現在の価格は、次のように表現できます。 500 次元ベクトル。
  • 有限数のクラスに対する確率分布を表現できる ベクトルとして表されます。たとえば、 マルチクラス分類システムを使用して、 は、3 つの出力色(赤、緑、黄色)のうち 1 つが ベクトル (0.3, 0.2, 0.5)P[red]=0.3, P[green]=0.2, P[yellow]=0.5 を意味します。

ベクトルは連結できます。そのためさまざまなメディアを 単一のベクトルとして表されます。一部のモデルは 多数のワンホット エンコーディングを連結したものです。

TPU などの専用プロセッサは、次の処理を行うように最適化されています。 ベクトルに対する数学演算です。

ベクトルは、階数 1テンソルです。

W

ヴァッサーシュタイン損失

データ アナリストがよく使う損失関数の 敵対的生成ネットワーク 地球移動体の距離に基づいて、 生成データと実データの分布です。

weight

#fundamentals

モデルで別の値と乗算される値。 トレーニングは、モデルの理想的な重みを決定するプロセスです。 推論とは、学習した重みを使用して、 予測を行います。

重み付き交互最小二乗(WALS)

#recsystems

トレーニング中に目的関数を最小化するアルゴリズムは、 行列分解 レコメンデーション システムが導入され、 欠損サンプルの重みが軽減されますWALS は、重みベクトルを 元の行列と 行分解と列分解を交互に分解します。 これらの最適化はそれぞれ最小二乗法によって解くことができる 凸最適化。詳しくは、 レコメンデーション システム コース

加重合計

#fundamentals

関連するすべての入力値の合計に、対応する入力値を掛けた値 トレーニングされます。たとえば、関連する入力が次のように構成されているとします。

入力値 入力の重み
2 -1.3
-1 0.6
3 0.4

したがって、加重合計は次のようになります。

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

加重合計は、入力引数です。 活性化関数

ワイドモデル

一般的に多数のラベルを持つ線形モデルでは、 スパース入力特徴。これは「ワイド」と呼んでいます。以降 このようなモデルは、特徴ベクトルを持つ特別なタイプのニューラル ネットワークです。 出力ノードに直接接続する多数の入力。ワイドモデル 多くの場合、ディープモデルよりもデバッグや検査が簡単です。 ワイドモデルは 隠れ層によって非線形性を表現できない ワイドモデルでは、次のような変換を使用できます。 特徴クロスバケット化を使って非線形性をさまざまな方法でモデル化します。

ディープモデル」も参照してください。

特定のレイヤ内のニューロンの数 ニューラル ネットワークのものです。

観客の知恵

#df

大きなグループの意見や推定を平均化するという考え方は 驚くほど良い結果が得られることが多いです。 たとえば、ユーザーが数字を当てるゲームについて考えてみましょう。 大きな瓶に入ったジェリー豆。個々の要素は 予測が不正確になる場合、すべての推測の平均が 驚くほどに実際の数に近いことが 実証されています 瓶の中にジェリービーンズ。

アンサンブルは、観客の知恵をソフトウェアで表現したものです。 たとえ個々のモデルの予測が非常に不正確な場合でも 多くのモデルの予測を平均すると 学習します。たとえば、ある個人が ディシジョン ツリーを使用すると、予測が不正確になる可能性があります。 多くの場合、ディシジョン フォレストは非常に優れた予測を行います。

単語のエンベディング

#language

ある単語セット内の単語セット内の各単語を表現 エンベディング ベクトル。つまり、各単語を 0.0 ~ 1.0 の浮動小数点値のベクトル。類似する単語 意味の表現は、異なる意味を持つ単語よりも類似しています。 たとえば、「にんじん」、「セロリ」、「きゅうり」は、 実際の表現とはかなり異なるものであるため、 「飛行機」、「サングラス」、「歯磨き粉」

X

XLA(Accelerated Linear Algebra)

GPU、CPU、ML アクセラレータ用のオープンソースの ML コンパイラ。

XLA コンパイラは、一般的な ML フレームワークである PyTorch TensorFlowJAX、これらを連携させて最適化 さまざまなハードウェア プラットフォーム、 GPU、CPU、ML アクセラレータ

Z

ゼロショット学習

ML トレーニングの一種で、 モデルはタスクの予測を推測します まだトレーニングされていないデータです言い換えれば、モデルは タスク固有のトレーニングのが 1 つも与えられていないが、質問された そのタスクの推論を行います。

ゼロショット プロンプト

#language
#generativeAI

希望の例を提供しないプロンプト 大規模言語モデルを使用して対応します。例:

1 つのプロンプトを構成する要素 メモ
指定された国の公式通貨は何ですか? LLM に回答させたい質問。
インド: 実際のクエリ。

大規模言語モデルは、次のいずれかを返すことがあります。

  • ルピー
  • INR
  • ルピー(インド)
  • ルピー
  • インドルピー

すべての選択肢が正解ですが、特定の形式を希望するかもしれません。

ゼロショット プロンプトを以下の用語と比較します。

Z スコア正規化

#fundamentals

スケーリング手法のひとつで、 特徴値を表す浮動小数点値を持つ feature 値 その特徴量の平均からの標準偏差の数。 たとえば、平均が 800 で標準の特徴が 偏差は 100 です次の表に、Z スコアの正規化の仕組みを示します。 次のように、未加工の値を Z スコアにマッピングします。

Raw 値 Z スコア
800 0
950 +1.5
575 -2.25

ML モデルは Z スコアでトレーニングする 未加工の値ではなく特徴に対して トレーニングされます