大規模言語モデルの概要

言語モデルや大規模言語モデルを初めて学習する場合は、以下のリソースをご確認ください。

言語モデルとは

言語モデルは、現実的な言語を予測し、生成することを目指した機械学習モデルです。たとえば、オートコンプリートは言語モデルです。

これらのモデルは、より長いトークン シーケンス内で発生するトークンまたはシーケンスの順序を推定することで機能します。次の文について考えてみましょう。

When I hear rain on my roof, I _______ in my kitchen.

トークンが単語であると仮定すると、言語モデルは、そのアンダースコアを置き換えるさまざまな単語または単語のシーケンスの確率を決定します。たとえば、言語モデルは次の確率を決定できます。

cook soup 9.4%
warm up a kettle 5.2%
cower 3.6%
nap 2.5%
relax 2.2%
...

「トークンのシーケンス」とは、文全体または一連の文のことです。 つまり、言語モデルはさまざまな文全体またはテキストのブロックの可能性を計算できます。

シーケンス内の次の画像の確率の推定は、テキストの生成、言語の翻訳、質問への回答など、あらゆることに役立ちます。

大規模言語モデルとは

人間の言葉を大規模にモデル化するのは、非常に複雑でリソースを大量に費やす労力です。言語モデルと大規模な言語モデルの現在の機能に到達するまでの道のりは、数十年にも及びます。

モデルがどんどん構築されていくにつれて、その複雑さと有効性も増していきます。初期の言語モデルでは、1 つの単語の確率を予測できます。最近の大規模な言語モデルでは、文、段落、さらにはドキュメント全体の確率を予測できます。

コンピュータ メモリ、データセット サイズ、処理能力が増加し、長いテキスト シーケンスをモデル化するためのより効果的な手法が開発され、言語モデルのサイズと機能が爆発的に増加しています。

大きさの大きさ

定義があいまいですが、「大規模」は BERT(1 億 1,000 万パラメータ)と PaLM 2(最大 3,400 億パラメータ)の記述に使用されます。

パラメータは、トレーニング中にモデルが学習した重みであり、シーケンス内の次のトークンを予測するために使用されます。「ラージ」は、モデル内のパラメータの数、またはデータセット内の単語数を表します。

トランスフォーマー

言語モデリングの主な開発は、2017 年、注目という考え方に基づいて設計されたアーキテクチャである Transformer の導入でした。これにより、入力の最も重要な部分に焦点を当て、以前のモデルで見つかったメモリの問題を解決することで、長いシーケンスを処理できるようになりました。

Transformer は、翻訳者など、さまざまな言語モデル アプリケーションの最先端のアーキテクチャです。

入力が「I am a Good dog.」の場合、Transformer ベースの翻訳者がその入力を出力「Je suis un bon chien.」に変換します。これは、フランス語に翻訳された同じ文です。

完全な Transformer は、エンコーダデコーダで構成されます。エンコーダは入力テキストを中間表現に変換し、デコーダはその中間表現を有用なテキストに変換します。

自己注意

変圧器は、自己注意と呼ばれる概念に大きく依存しています。自己注意の自己の部分とは、コーパス内の各トークンの「エゴセントリック」フォーカスを指します。効果的に、入力の各トークンの代わりに、「他のすべての入力トークンはどの程度重要か」と自問します。わかりやすくするために、各トークンが単語で、コンテキスト全体が 1 つの文であると仮定します。次の文章について考えてみましょう。

動物は疲れすぎたため、通りを渡りませんでした。

前の文には 11 語が含まれているため、11 語それぞれが他の 10 語に注意を払っています。たとえば、文に代名詞である「it」が含まれていることに注目してください。代名詞は曖昧になることがよくあります。ジェンダー代名詞は常に最近の名詞を指しますが、サンプルの名詞では動物と道路のどちらを指していますか?

自己注意メカニズムは、各単語の関連性を代名詞と見なします。

LLM のユースケースの例

LLM は、入力に応じて最も妥当なテキストを生成するタスクにおいて、高い効果を発揮します。要約、質問の回答、テキスト分類など、他のタスクでも優れたパフォーマンスを示し始めています。これは緊急能力と呼ばれます。LLM では数学の問題を解決したり、コードを記述したりすることもできます(ただし、結果を確認することをおすすめします)。

LLM は、人間の発話パターンの模倣に最適です。特に、情報をさまざまなスタイルやトーンと組み合わせるのに優れています。

一方、LLM は、テキストを生成するだけでなく、複数の処理を行うモデル コンポーネントになることもあります。最近の LLM は、感情検出器、有害性分類器の構築、画像字幕の生成に使用されてきました。

LLM の考慮事項

この大規模なモデルには欠点がありません。

最大の大規模言語は高額です。トレーニングに数か月かかる場合があり、その結果、多くのリソースが消費されます。

また、通常は他のタスクに再利用することもできます。

1 兆個のパラメータを超えるモデルをトレーニングすると、エンジニアリング上の課題が生じます。チップへのフローを調整し、再び戻すには、特別なインフラストラクチャとプログラミング技術が必要です。

このような大規模なモデルの費用を削減する方法がいくつかあります。2 つの方法は、オフライン推論抽出です。

バイアスは非常に大きなモデルで問題となる可能性があるため、トレーニングとデプロイで考慮する必要があります。

これらのモデルは人間の言語で訓練されているため、言語の誤用、人種、性別、宗教の偏見など、倫理に関するさまざまな問題が発生する可能性があります。

これらのモデルが拡大し続け、パフォーマンスが向上し続ける中、デメリットの把握と軽減に引き続き注力する必要があります。責任ある AI に対する Google のアプローチについて確認する。