大規模言語モデルの概要

言語モデルは何ですか?

言語モデルは、長いトークン シーケンス内でトークンまたはトークン シーケンスが発生する確率を推定します。トークンは、単語、サブワード(単語のサブセット)、または 1 文字にすることができます。

次の文と、その文を完成させる可能性のあるトークンについて考えてみましょう。

When I hear rain on my roof, I _______ in my kitchen.

言語モデルは、その空白を埋めるさまざまなトークンまたはトークン シーケンスの確率を決定します。たとえば、次の確率テーブルは、考えられるトークンとその確率を示しています。

確率 トークン
9.4% スープを作る
5.2% ケトルを温める
3.6% cower
2.5% 昼寝
2.2% リラックス

状況によっては、トークンのシーケンスが文全体、段落全体、エッセイ全体になることもあります。

アプリケーションは確率テーブルを使用して予測を行うことができます。予測は、最も確率の高いもの(「スープを作る」など)である場合もあれば、確率が特定のしきい値を超えるトークンからランダムに選択されたものである場合もあります。

テキスト シーケンスの空白を埋める確率の推定は、次のようなより複雑なタスクに拡張できます。

  • テキストを生成しています。
  • ある言語から別の言語にテキストを翻訳します。
  • ドキュメントの要約。

最新の言語モデルは、トークンの統計パターンをモデル化することで、言語の非常に強力な内部表現を開発し、もっともらしい言語を生成できます。

N グラム言語モデル

N グラムは、言語モデルの構築に使用される単語の順序付きシーケンスです。N はシーケンス内の単語数です。たとえば、N が 2 の場合、N グラムは 2 グラム(またはバイグラム)と呼ばれ、N が 5 の場合、N グラムは 5 グラムと呼ばれます。トレーニング ドキュメントに次のフレーズがあるとします。

you are very nice

結果の 2 グラムは次のようになります。

  • あなたは
  • は非常に
  • すごくいい

N が 3 の場合、N グラムは 3 グラム(または トライグラム)と呼ばれます。同じフレーズの場合、結果の 3 グラムは次のようになります。

  • 大変
  • とても良い

3 グラムに基づく言語モデルは、2 つの単語を入力として受け取ると、3 つ目の単語の可能性を予測できます。たとえば、次の 2 つの単語があるとします。

orange is

言語モデルは、トレーニング コーパスから導出された orange is で始まるすべての 3 グラムを調べて、3 番目の単語として最も可能性の高い単語を特定します。orange is という 2 つの単語で始まる 3 グラムは数百個ありますが、次の 2 つの可能性にのみ焦点を当てることができます。

orange is ripe
orange is cheerful

1 つ目の可能性(orange is ripe)は果物のオレンジに関するもので、2 つ目の可能性(orange is cheerful)はオレンジ色に関するものです。

コンテキスト

人間は比較的長いコンテキストを保持できます。劇の第 3 幕を観ている間、第 1 幕で紹介されたキャラクターの知識は保持されます。同様に、長いジョークのオチが面白いのは、ジョークのセットアップからコンテキストを思い出せるからです。

言語モデルでは、コンテキストはターゲット トークンの前後の有用な情報です。コンテキストは、言語モデルが「オレンジ」が柑橘系の果物か色かを判断するのに役立ちます。

コンテキストは言語モデルの予測精度を高めるのに役立ちますが、3 グラムで十分なコンテキストを提供できるでしょうか?残念ながら、3 グラムが提供するコンテキストは最初の 2 つの単語のみです。たとえば、2 つの単語 orange is では、言語モデルが 3 つ目の単語を予測するのに十分なコンテキストが提供されません。3 グラムに基づく言語モデルは、コンテキストが不足しているため、多くの間違いを犯します。

長い N グラムは、短い N グラムよりも多くのコンテキストを提供します。ただし、N が大きくなると、各インスタンスの相対的な発生頻度が減少します。N が非常に大きい場合、言語モデルには通常、N 個のトークンの各出現のインスタンスが 1 つしかありません。これは、ターゲット トークンの予測にはあまり役に立ちません。

再帰型ニューラル ネットワーク

再帰型ニューラル ネットワークは、N グラムよりも多くのコンテキストを提供します。回帰型ニューラル ネットワークは、トークンのシーケンスでトレーニングを行う ニューラル ネットワークの一種です。たとえば、回帰型ニューラル ネットワークは、文中の各単語から選択されたコンテキストを徐々に学習(および無視するように学習)できます。これは、人が話すのを聞くときに似ています。大規模な再帰型ニューラル ネットワークは、複数の文からなる文章からコンテキストを取得できます。

回帰型ニューラル ネットワークは N グラムよりも多くのコンテキストを学習しますが、回帰型ニューラル ネットワークが直感的に理解できる有用なコンテキストの量は、依然として比較的限られています。回帰型ニューラル ネットワークは、情報を「トークン単位」で評価します。一方、次のセクションで説明する大規模言語モデルは、コンテキスト全体を一度に評価できます。

長いコンテキストの再帰型ニューラル ネットワークのトレーニングは、勾配消失問題によって制約されます。

演習: 理解度を確認する

英語のテキストの予測精度が高い言語モデルはどれですか?
  • 6 グラムに基づく言語モデル
  • 5 グラムに基づく言語モデル
答えは、トレーニング セットのサイズと多様性によって異なります。
トレーニング セットが数百万の多様なドキュメントに及ぶ場合、6 グラムに基づくモデルは 5 グラムに基づくモデルよりも優れたパフォーマンスを発揮する可能性があります。
6 グラムに基づく言語モデル。
この言語モデルはコンテキストが多いですが、このモデルが大量のドキュメントでトレーニングされていない限り、6 グラムのほとんどはまれなものになります。
5 グラムに基づく言語モデル。
この言語モデルはコンテキストが少ないため、6 グラムに基づく言語モデルよりも優れたパフォーマンスを発揮する可能性は低くなります。