本頁面由 Cloud Translation API 翻譯而成。

大型語言模型

什麼是語言模型？

語言模型會估算符記或符記序列在較長的符記序列中出現的機率。符記可以是字詞、子字詞 (字詞的子集)，甚至是單一字元。

點選這個圖示即可進一步瞭解符記。

大多數現代語言模型都會按子字詞來標記文字，也就是說包含語意意義的文字片段長度可能會單一字元 (例如標點符號)，或完整的字詞 (s)。前置字尾和後置字尾可能會以個別子字詞表示。舉例來說，「未觀看」一詞可能會以下列方式表示三個子字詞：

un (前置字串)
手錶 (根)
ed (後置字串)

「cats」一詞可能是以下列兩個子字詞表示：

cat (根)
s (後置字串)

較複雜的字詞 (例如「antidisestablishmentarianism」) 可能會以六個子字詞表示：

反抗軍
dis
建立
ment
亞裡亞人
主義

權杖化是依語言而定，因此每個權杖的字元數因為語言不同而有差異如果是英文，一個符記會對應至約 4 個字元也就是一個字詞的 3/4 字，因此 400 個符記 ~= 300 個英文單字。

符記是語言模型的完整單位或最小單位。

憑證現在也成功套用至電腦視覺和音訊生成

請考慮下列句子和可能完成該句子的符記：

When I hear rain on my roof, I _______ in my kitchen.

語言模型會判斷不同符代詞或符代詞序列填入空白的機率。例如，下列機率表會指出一些可能的符記及其機率：

機率	權杖
9.4%	煮湯
5.2%	讓熱水壺變熱
3.6%	科爾
2.5%	小睡片刻
2.2%	放鬆身心

在某些情況下，符記序列可以是整個句子、段落，甚至是整篇文章。

應用程式可以使用機率表進行預測。預測結果可能最高 (例如「烹飪湯」) 或是從機率大於某個字詞的符記中隨機選取門檻。

預估文字序列空白填充的可能性適用於較複雜的工作，包括：

正在產生文字。
將文字翻譯成另一種語言。
產生文件摘要。

現代語言模型會對符記的統計模式建立模型功能極為強大的語言圖解以及負責任的言語

N 元語法語言模型

N-gram 是用於建立語言模型的字詞排序序列，其中 N 是序列中的字詞數量。舉例來說，如果 N 為 2，N-gram 就稱為 2-gram (或 bigram)；如果 N 為 5，N-gram 就稱為 5-gram。訓練文件中的詞組如下：

you are very nice

產生的 2 元組如下所示：

你
非常
非常好

如果 N 為 3，N-gram 就稱為 3-gram (或 trigram)。同樣的詞組，產生的 3 元語法如下：

你非常
非常好

在輸入兩個字詞的情況下，以 3 元組為基礎的語言模型可以預測第三個字詞出現的可能性。舉例來說，假設有以下兩個字詞：

orange is

語言模型會檢查訓練過程中產生的所有 3 公克以 orange is 開頭的語料庫，判斷最有可能的第三個字詞。數百個 3 公克以「orange is」這個字詞開頭，但您可以只著重在下列兩種可能性：

orange is ripe
orange is cheerful

第一個可能性 (orange is ripe) 關於橘色水果，第二個可能性 (orange is cheerful) 則是關於顏色橘色。

背景資訊

人類可以保留相對較長的背景資訊。觀看《Act 3》的賽事時仍然保有 Act 1 中介紹角色的知識。同樣地，笑話可說是笑話，因為你可以記住這邊的脈絡擷取畫面的內容

在語言模型中，背景資訊是相當實用的資訊目標權杖背景資訊可協助語言模型判斷「橘色」是指柑橘類水果或顏色。

情境可協助語言模型做出更準確的預測，但 3 元組是否提供足夠的情境？不過，3 元組提供的唯一上下文只有前兩個字詞。例如，orange is 沒有這兩個字詞為語言模型提供足夠的背景資訊，以便預測第三個字詞。由於缺乏脈絡資訊，以 3 元組為基礎的語言模型會產生許多錯誤。

較長的 N-gram 肯定比較短的 N-gram 提供更多背景資訊。然而，隨著 N 增長，每個執行個體的相對出現次數也會減少。當 N 變得非常大時，語言模型通常只會針對每個 N 符記出現的情況建立單一例項，這對預測目標符記並沒有太大幫助。

循環類神經網路

循環類神經網路提供的背景資訊比 N-gram 更多。循環類神經網路是一種用來訓練的類神經網路 符記序列舉例來說，循環神經網路可以逐漸學習 (並學會忽略) 句子中每個字詞的選定背景，就像您聽人說話時會做的事一樣。大型循環類神經網路可以從多個句子的段落中取得上下文。

雖然循環類神經網路比 N 元語法獲得更多資訊，包含實用背景脈絡的循環類神經網路，仍可推進受到限制。循環神經網路會逐個符號評估資訊。相較之下，大型語言模型區段) - 可以一次評估整個背景資訊。

請注意，長時間的背景訓練循環類神經網路必須遵循 消失的漸層問題。

練習：檢查您的理解程度

哪種語言模型可針對英文文字做出更準確的預測？

以 6-gram 為基礎的語言模型
以 5 公克為基礎的語言模型

答案取決於培訓的規模和多樣性設定。

如果訓練集涵蓋數百萬份不同的文件，以 6 元組為基礎的模型可能會比以 5 元組為基礎的模型更出色。

以 6 公克為基礎的語言模型。

這個語言模型有更多背景資訊，但除非這個模型已訓練大量文件，否則大多數 6-gram 都會很罕見。

以 5 公克為基礎的語言模型。

這個語言模型的上下文較少，因此不太可能勝過以 6-gram 為基礎的語言模型。

說明中心

測驗您的知識 (10 分鐘)

什麼是大型語言模型？(15 分鐘)