大規模言語モデルの概要

言語モデルは何ですか？

言語モデルは、長いトークンシーケンス内でトークンまたはトークンシーケンスが発生する確率を推定します。トークンは、単語、サブワード（単語のサブセット）、または 1 文字にすることができます。

アイコンをクリックすると、トークンの詳細が表示されます。

最近の言語モデルのほとんどは、サブワード（意味論的意味を含むテキストのチャンク）でトークン化します。チャンクの長さは、句読点や所有格の s などの単一の文字から単語全体までさまざまです。接頭辞と接尾辞は、個別のサブワードとして表されることがあります。たとえば、単語「unwatched」は次の 3 つのサブワードで表されます。

un（接頭辞）
watch（ルート）
ed（接尾辞）

単語「cats」は、次の 2 つのサブワードで表されることがあります。

cat（ルート）
s（接尾辞）

「antidisestablishmentarianism」のような複雑な単語は、次のように 6 つのサブワードで表されることがあります。

anti
の
確立する
メント
arian
ism

トークン化は言語固有であるため、トークンあたりの文字数は言語によって異なります。英語の場合、1 つのトークンは約 4 文字、または単語の約 3/4 に相当するため、400 トークンは約 300 語に相当します。

トークンは、言語モデリングの最小単位です。

トークンは、コンピュータビジョンと音声生成にも正常に適用されるようになりました。

次の文と、その文を完成させる可能性のあるトークンについて考えてみましょう。

When I hear rain on my roof, I _______ in my kitchen.

言語モデルは、その空白を埋めるさまざまなトークンまたはトークンシーケンスの確率を決定します。たとえば、次の確率テーブルは、考えられるトークンとその確率を示しています。

確率	トークン
9.4%	スープを作る
5.2%	ケトルを温める
3.6%	cower
2.5%	昼寝
2.2%	リラックス

状況によっては、トークンのシーケンスが文全体、段落全体、エッセイ全体になることもあります。

アプリケーションは確率テーブルを使用して予測を行うことができます。予測は、最も確率の高いもの（「スープを作る」など）である場合もあれば、確率が特定のしきい値を超えるトークンからランダムに選択されたものである場合もあります。

テキストシーケンスの空白を埋める確率の推定は、次のようなより複雑なタスクに拡張できます。

テキストを生成しています。
ある言語から別の言語にテキストを翻訳します。
ドキュメントの要約。

最新の言語モデルは、トークンの統計パターンをモデル化することで、言語の非常に強力な内部表現を開発し、もっともらしい言語を生成できます。

N グラム言語モデル

N グラムは、言語モデルの構築に使用される単語の順序付きシーケンスです。N はシーケンス内の単語数です。たとえば、N が 2 の場合、N グラムは 2 グラム（またはバイグラム）と呼ばれ、N が 5 の場合、N グラムは 5 グラムと呼ばれます。トレーニングドキュメントに次のフレーズがあるとします。

you are very nice

結果の 2 グラムは次のようになります。

あなたは
は非常に
すごくいい

N が 3 の場合、N グラムは 3 グラム（または トライグラム）と呼ばれます。同じフレーズの場合、結果の 3 グラムは次のようになります。

大変
とても良い

3 グラムに基づく言語モデルは、2 つの単語を入力として受け取ると、3 つ目の単語の可能性を予測できます。たとえば、次の 2 つの単語があるとします。

orange is

言語モデルは、トレーニングコーパスから導出された orange is で始まるすべての 3 グラムを調べて、3 番目の単語として最も可能性の高い単語を特定します。orange is という 2 つの単語で始まる 3 グラムは数百個ありますが、次の 2 つの可能性にのみ焦点を当てることができます。

orange is ripe
orange is cheerful

1 つ目の可能性（orange is ripe）は果物のオレンジに関するもので、2 つ目の可能性（orange is cheerful）はオレンジ色に関するものです。

コンテキスト

人間は比較的長いコンテキストを保持できます。劇の第 3 幕を観ている間、第 1 幕で紹介されたキャラクターの知識は保持されます。同様に、長いジョークのオチが面白いのは、ジョークのセットアップからコンテキストを思い出せるからです。

言語モデルでは、コンテキストはターゲットトークンの前後の有用な情報です。コンテキストは、言語モデルが「オレンジ」が柑橘系の果物か色かを判断するのに役立ちます。

コンテキストは言語モデルの予測精度を高めるのに役立ちますが、3 グラムで十分なコンテキストを提供できるでしょうか？残念ながら、3 グラムが提供するコンテキストは最初の 2 つの単語のみです。たとえば、2 つの単語 orange is では、言語モデルが 3 つ目の単語を予測するのに十分なコンテキストが提供されません。3 グラムに基づく言語モデルは、コンテキストが不足しているため、多くの間違いを犯します。

長い N グラムは、短い N グラムよりも多くのコンテキストを提供します。ただし、N が大きくなると、各インスタンスの相対的な発生頻度が減少します。N が非常に大きい場合、言語モデルには通常、N 個のトークンの各出現のインスタンスが 1 つしかありません。これは、ターゲットトークンの予測にはあまり役に立ちません。

再帰型ニューラルネットワーク

再帰型ニューラルネットワークは、N グラムよりも多くのコンテキストを提供します。回帰型ニューラルネットワークは、トークンのシーケンスでトレーニングを行う ニューラルネットワークの一種です。たとえば、回帰型ニューラルネットワークは、文中の各単語から選択されたコンテキストを徐々に学習（および無視するように学習）できます。これは、人が話すのを聞くときに似ています。大規模な再帰型ニューラルネットワークは、複数の文からなる文章からコンテキストを取得できます。

回帰型ニューラルネットワークは N グラムよりも多くのコンテキストを学習しますが、回帰型ニューラルネットワークが直感的に理解できる有用なコンテキストの量は、依然として比較的限られています。回帰型ニューラルネットワークは、情報を「トークン単位」で評価します。一方、次のセクションで説明する大規模言語モデルは、コンテキスト全体を一度に評価できます。

長いコンテキストの再帰型ニューラルネットワークのトレーニングは、勾配消失問題によって制約されます。

演習: 理解度を確認する

英語のテキストの予測精度が高い言語モデルはどれですか？

6 グラムに基づく言語モデル
5 グラムに基づく言語モデル

答えは、トレーニングセットのサイズと多様性によって異なります。

トレーニングセットが数百万の多様なドキュメントに及ぶ場合、6 グラムに基づくモデルは 5 グラムに基づくモデルよりも優れたパフォーマンスを発揮する可能性があります。

6 グラムに基づく言語モデル。

この言語モデルはコンテキストが多いですが、このモデルが大量のドキュメントでトレーニングされていない限り、6 グラムのほとんどはまれなものになります。

5 グラムに基づく言語モデル。

この言語モデルはコンテキストが少ないため、6 グラムに基づく言語モデルよりも優れたパフォーマンスを発揮する可能性は低くなります。

ヘルプセンター

理解度テスト（10 分）

大規模言語モデルとは何ですか？（15 分）