言語モデルは何ですか?
言語モデルは、長いトークン シーケンス内でトークンまたはトークン シーケンスが発生する確率を推定します。トークンは、単語、サブワード(単語のサブセット)、または 1 文字にすることができます。
次の文と、その文を完成させる可能性のあるトークンについて考えてみましょう。
When I hear rain on my roof, I _______ in my kitchen.
言語モデルは、その空白を埋めるさまざまなトークンまたはトークン シーケンスの確率を決定します。たとえば、次の確率テーブルは、考えられるトークンとその確率を示しています。
| 確率 | トークン |
|---|---|
| 9.4% | スープを作る |
| 5.2% | ケトルを温める |
| 3.6% | cower |
| 2.5% | 昼寝 |
| 2.2% | リラックス |
状況によっては、トークンのシーケンスが文全体、段落全体、エッセイ全体になることもあります。
アプリケーションは確率テーブルを使用して予測を行うことができます。予測は、最も確率の高いもの(「スープを作る」など)である場合もあれば、確率が特定のしきい値を超えるトークンからランダムに選択されたものである場合もあります。
テキスト シーケンスの空白を埋める確率の推定は、次のようなより複雑なタスクに拡張できます。
- テキストを生成しています。
- ある言語から別の言語にテキストを翻訳します。
- ドキュメントの要約。
最新の言語モデルは、トークンの統計パターンをモデル化することで、言語の非常に強力な内部表現を開発し、もっともらしい言語を生成できます。
N グラム言語モデル
N グラムは、言語モデルの構築に使用される単語の順序付きシーケンスです。N はシーケンス内の単語数です。たとえば、N が 2 の場合、N グラムは 2 グラム(またはバイグラム)と呼ばれ、N が 5 の場合、N グラムは 5 グラムと呼ばれます。トレーニング ドキュメントに次のフレーズがあるとします。
you are very nice
結果の 2 グラムは次のようになります。
- あなたは
- は非常に
- すごくいい
N が 3 の場合、N グラムは 3 グラム(または トライグラム)と呼ばれます。同じフレーズの場合、結果の 3 グラムは次のようになります。
- 大変
- とても良い
3 グラムに基づく言語モデルは、2 つの単語を入力として受け取ると、3 つ目の単語の可能性を予測できます。たとえば、次の 2 つの単語があるとします。
orange is
言語モデルは、トレーニング コーパスから導出された orange is で始まるすべての 3 グラムを調べて、3 番目の単語として最も可能性の高い単語を特定します。orange is という 2 つの単語で始まる 3 グラムは数百個ありますが、次の 2 つの可能性にのみ焦点を当てることができます。
orange is ripe orange is cheerful
1 つ目の可能性(orange is ripe)は果物のオレンジに関するもので、2 つ目の可能性(orange is cheerful)はオレンジ色に関するものです。
コンテキスト
人間は比較的長いコンテキストを保持できます。劇の第 3 幕を観ている間、第 1 幕で紹介されたキャラクターの知識は保持されます。同様に、長いジョークのオチが面白いのは、ジョークのセットアップからコンテキストを思い出せるからです。
言語モデルでは、コンテキストはターゲット トークンの前後の有用な情報です。コンテキストは、言語モデルが「オレンジ」が柑橘系の果物か色かを判断するのに役立ちます。
コンテキストは言語モデルの予測精度を高めるのに役立ちますが、3 グラムで十分なコンテキストを提供できるでしょうか?残念ながら、3 グラムが提供するコンテキストは最初の 2 つの単語のみです。たとえば、2 つの単語 orange is では、言語モデルが 3 つ目の単語を予測するのに十分なコンテキストが提供されません。3 グラムに基づく言語モデルは、コンテキストが不足しているため、多くの間違いを犯します。
長い N グラムは、短い N グラムよりも多くのコンテキストを提供します。ただし、N が大きくなると、各インスタンスの相対的な発生頻度が減少します。N が非常に大きい場合、言語モデルには通常、N 個のトークンの各出現のインスタンスが 1 つしかありません。これは、ターゲット トークンの予測にはあまり役に立ちません。
再帰型ニューラル ネットワーク
再帰型ニューラル ネットワークは、N グラムよりも多くのコンテキストを提供します。回帰型ニューラル ネットワークは、トークンのシーケンスでトレーニングを行う ニューラル ネットワークの一種です。たとえば、回帰型ニューラル ネットワークは、文中の各単語から選択されたコンテキストを徐々に学習(および無視するように学習)できます。これは、人が話すのを聞くときに似ています。大規模な再帰型ニューラル ネットワークは、複数の文からなる文章からコンテキストを取得できます。
回帰型ニューラル ネットワークは N グラムよりも多くのコンテキストを学習しますが、回帰型ニューラル ネットワークが直感的に理解できる有用なコンテキストの量は、依然として比較的限られています。回帰型ニューラル ネットワークは、情報を「トークン単位」で評価します。一方、次のセクションで説明する大規模言語モデルは、コンテキスト全体を一度に評価できます。
長いコンテキストの再帰型ニューラル ネットワークのトレーニングは、勾配消失問題によって制約されます。
演習: 理解度を確認する
- 6 グラムに基づく言語モデル
- 5 グラムに基づく言語モデル