機器學習詞彙解釋:語言評估

本頁包含語言評估詞彙解釋。如需所有詞彙表字詞,請按這裡

A

注意力

#language

「類神經網路」中使用的機制,表示特定字詞或部分字詞的重要性。注意力會壓縮模型在預測下一個符記/字詞所需的資訊量。一般注意力機制可能包含一組輸入的「加權總和」,其中每個輸入內容的「權重」會由類神經網路的其他部分計算。

另請參閱自註意力機制多頭自我注意力,兩者是 Transformer 的建構區塊。

自動編碼器

#language
#image

學習從輸入中擷取最重要的資訊的系統。自動編碼器是由編碼器解碼器構成。自動編碼器仰賴下列兩個步驟:

  1. 編碼器會將輸入對應至 (通常) 有損低維 (中間) 格式。
  2. 解碼器會將較低維度格式對應至原始較高維度輸入格式,藉此建構原始輸入的有損版本。

自動編碼器接受端對端訓練,解碼器會盡可能嘗試從編碼器中繼格式重建原始輸入內容。由於中間格式比原始格式小 (較低維度),因此自動編碼器必須學習輸入的哪些資訊為重要,而且輸出結果不一定會與輸入內容完全相同。

例如:

  • 如果輸入資料是圖形,則非完全相同的副本會與原始圖片類似,但會稍有修改。非精確的文案可能會移除原始圖像中的雜訊,或填滿某些缺少的像素。
  • 如果輸入資料是文字,自動編碼器會產生新文字,以模仿 (但不會與) 原始文字完全相同。

另請參閱變化自動編碼器

自動迴歸模型

#language
#image
#生成式 AI

根據先前的預測結果推測預測結果的model。例如,自動迴歸語言模型會根據先前預測的符記預測下一個「權杖」。所有以 Transformer 為基礎的大型語言模型都是自動迴歸。

相反地,GAN 的圖片模型通常不是自動迴歸,因為這些模型是以單一向向傳送 (而非步驟) 產生圖片。不過,某些圖片產生模型「是」自動迴歸,因為模型可逐步產生圖片。

B

字包

#language

詞組或段落中字詞的表示法,無論順序為何。舉例來說,字詞包代表下列三個詞組完全相同:

  • 狗跳躍
  • 跳起來
  • 狗跳起來

每個字詞都會對應至「稀疏向量」中的索引,而向量會有詞彙中每個字詞的索引。例如,「the doghops」詞組對應到一個特徵向量,在三個索引對應的三個索引中,thedogjumps 字詞對應了非零的值。非零值可以是下列任一值:

  • 1 表示字詞是否存在。
  • 特定字詞在包袋中出現的次數。例如,如果這個詞組為「maroon dog is a dog with maroon furs」,則「maroon」和「dog」都會以 2 表示,其他字詞則以 1 表示。
  • 其他值,例如一個字詞在包袋中出現次數的對數。

BERT (基於 Transformer 的雙向編碼器表示法)

#language

文字表示法的模型架構。經過訓練的 BERT 模型可做為大型模型的一部分,用於文字分類或其他機器學習工作。

BERT 具備下列特性:

BERT 的變體包括:

如需 BERT 的簡介,請參閱「Open Sourcing BERT:Natural Language Pre-train for Natural Language Processing」。

雙向

#language

這個字詞是用來描述系統評估文字「之後」和「之後」目標部分文字的系統。相對地,「單向」系統僅會評估文字目標區段「之前」的文字。

舉例來說,假設「遮蓋語言模型必須判定以下問題中代表底線的字詞機率機率:

您覺得 _____?

單向語言模型只能根據「What」、「is」和「the」字詞提供的背景資訊來決定機率。相較之下,雙向語言模型也可從「和」取得背景資訊,協助模型產生更準確的預測結果。

雙向語言模型

#language

「語言模型」:根據前面後面的文字,判斷指定符記在特定位置中的機率。

Bigram

#seq
#language

N=2 的 N-gram

BLEU (雙語評估研究)

#language

介於 0.0 到 1.0 (含) 之間的分數,表示兩種人類語言的翻譯品質 (例如英文和俄文之間的翻譯品質)。BLEU 分數為 1.0 表示是完美的翻譯;BLEU 分數為 0.0 則代表很糟糕的翻譯。

C

因果語言模型

#language

單向語言模型的同義詞。

請參閱雙向語言模型,瞭解語言模型中對比不同的方向方法。

思維鏈提示

#language
#生成式 AI

「提示工程」技術,鼓勵大型語言模型 (LLM) 逐步說明其原因。舉例來說,請考慮下列提示,請特別留意第二句:

車內駕駛在 7 秒內每小時 0 至 60 英里的 g 彈力是多少?在答案中顯示所有相關計算結果。

LLM 的回應可能會:

  • 顯示一系列物理公式,將值 0、60 和 7 插入適當的位置。
  • 說明選用這些公式的原因,以及各種變數代表的意義。

思維鏈提示會強制 LLM 執行所有計算,這或許能產生更正確的答案。此外,思維鏈提示可讓使用者檢查 LLM 的步驟,判斷答案是否合理。

對話

#language
#生成式 AI

與機器學習系統來回對話的內容,通常是大型語言模型。對話中的過往互動 (您輸入的內容與大型語言模型的回應方式) 會成為聊天後續部分的背景資訊。

「聊天機器人」是大型語言模型的應用程式。

衝突

#language

hallucination 的同義詞。

「集會」一詞的技術精確度可能高於幻覺。但幻覺已成為流行。

組成資料剖析

#language

將句子分割為較小的文法結構 (「組成人」)。 機器學習系統的較後部分 (例如自然語言理解模型) 比原始語句更容易剖析組成成員。例如,請思考以下語句:

我的朋友採用了兩隻貓。

組成剖析器可將這個語句分成以下兩個組成部分:

  • 我的朋友是名詞片語,
  • 擁抱兩個貓」是動詞片語。

這些組成可進一步細分為較小的組成項目。 舉例來說

收養兩隻貓

可進一步細分為:

  • adopted 為動詞。
  • 「two cats」是另一個名詞片語。

內容比對語言嵌入

#language
#生成式 AI

一個接近「理解」字詞和詞組的嵌入,供母語人士使用。關聯語言嵌入能夠理解複雜的語法、語意和上下文。

例如,考慮嵌入「牛」這個英文字詞。較舊的嵌入 (例如 word2vec) 可代表英文字詞,因此嵌入空間「火箭」的距離與從「ewe」(女性) (女綿) 到 (男性羊) 到「男性」的距離相近。將特定內容嵌入式語言嵌入能夠更進一步,因為必須瞭解英文使用者有時會使用 cow 一詞來意指牛或公牛。

背景視窗

#language
#生成式 AI

模型可在指定提示中處理的「權杖」數量。背景視窗越大,模型就能運用更多資訊為提示提供一致且一致的回應。

墜落

#language

意思不明確的句子或詞組。 當機的現象在自然語言理解方面是一項重大問題。舉例來說,「Red Tape Holds Up Skyscraper」標題就是當機事件,因為 NLU 模型可能會以字面或實際方式解讀標題。

D

解碼器

#language

一般來說,任何從已處理、稠密或內部表示法轉換成更原始、稀疏或外部表示法的機器學習系統。

解碼器通常是大型模型的元件,經常與編碼器配對。

在「序列至序列任務中,解碼器會以編碼器產生的內部狀態開始預測下一個序列。

如要瞭解 Transformer 架構中的解碼器定義,請參閱 Transformer

雜訊去除

#language

自我監督式學習的常見做法如下:

  1. 人為在資料集中新增雜訊
  2. model會嘗試移除雜訊。

雜訊去除功能可讓您從未加上標籤的範例中學習。原始資料集可做為目標或標籤,用來做為輸入。

部分遮蓋的語言模型使用雜訊去除功能,如下所示:

  1. 藉由遮蓋部分符記,人工為未加上標籤的句子加入雜訊。
  2. 模型會嘗試預測原始符記。

直接提示

#language
#生成式 AI

零樣本提示的同義詞。

E

編輯距離

#language

比較兩個文字字串彼此間的相似程度。在機器學習中,編輯距離很實用,因為它的計算簡單而且有效地比較兩個已知的相似字串,或尋找與指定字串相似的字串。

「編輯距離」有多種定義,每個都使用不同的字串運算。舉例來說, Levenshtein 距離所考慮的刪除、插入和替代運算次數最少。

例如,「heart」和「darts」這兩個字詞之間的 Levenshtein 距離是 3,因為接下來的 3 項編輯是將一個字轉成另一個字的最少變化:

  1. 心形 → deart (以「h」取代「h」)
  2. deart → dart (刪除「e」)
  3. dart → darts (插入「s」)

嵌入層

#language
#fundamentals

一種特殊的「隱藏層」,可在高維度的類別地圖項目上進行訓練,以便逐步學習較低維度嵌入向量。嵌入層可讓類神經網路的訓練更有效率,遠比僅針對高維度類別特徵進行訓練。

舉例來說,Google 地球目前支援約 73,000 棵樹種。假設樹種是模型中的一個特徵,因此模型的輸入層會包含一個長 73,000 個元素的單熱向量。例如,baobab 就能以以下方式表示:

由 73,000 個元素的陣列。前 6,232 個元素的值為 0。下一個元素包含的值 1。最後一個 66,767 元素的值為 0。

73,000 個元素陣列過長。如果沒有為模型新增嵌入層,由於 72, 999 個零乘以 72,999,因此訓練作業會非常耗時。也許您挑選嵌入層包含 12 個維度因此,嵌入層會逐漸學習每個樹種的新嵌入向量。

在某些情況下,雜湊是嵌入層的合理替代方案。

嵌入空間

#language

系統會對應至較高維度空間特徵的 D 維度向量空間。在理想情況下,嵌入空間內含能產生有意義的數學結果的結構;舉例來說,在理想的嵌入空間中,嵌入的加減法則可解決文字類比工作。

兩個嵌入的內積可測量兩者相似度。

嵌入向量

#language

大致來說,這是從任何隱藏層中擷取的浮點數陣列,用於描述隱藏層的輸入內容。嵌入向量通常是在嵌入層中訓練的浮點數陣列。舉例來說,假設嵌入層必須學習為地球上 73,000 種樹木分別學習一個嵌入向量。也許下列陣列是 Baobab 樹的嵌入向量:

12 個元素的陣列,每個元素都有介於 0.0 和 1.0 之間的浮點數。

嵌入向量不是一堆隨機數字。嵌入層會透過訓練決定這些值,這類似於類神經網路在訓練期間學習其他權重的方式。陣列的每一個元素都是沿著樹種的特徵評分。哪一個元素代表了什麼樹種的特徵?這很難由人類判斷

嵌入向量在數學上具有數學運算能力的部分,是類似項目具有相似的浮點數組合。例如,類似的樹種擁有比不相似的樹種擁有更多類似的浮點數。紅木和紅杉則是相關的樹種,因此與紅木和椰子手掌相比,兩者的浮點數會更相似。每次重新訓練模型時,嵌入向量中的數字就會改變,即使使用相同的輸入重新訓練模型也一樣。

編碼器

#language

一般而言,任何從原始、稀疏或外部表示法轉換為較高處理、較密集或更內部表示法的機器學習系統。

編碼器通常是大型模型的元件,經常與解碼器配對。部分Transformers 配對編碼器與解碼器會配對,但其他轉換器只會使用編碼器或解碼器。

部分系統會使用編碼器的輸出內容,做為分類或迴歸網路的輸入內容。

在「序列至序列任務中,編碼器會接收輸入序列,並傳回內部狀態 (向量)。接著,解碼器會使用該內部狀態來預測下一個序列。

如要瞭解 Transformer 架構中的編碼器定義,請參閱 Transformer

F

少量樣本提示

#language
#生成式 AI

提示包含多個 (一個「少量」) 的範例,示範大型語言模型應如何回應。舉例來說,以下冗長的提示包含兩個範例,說明大型語言模型如何回答查詢。

單一提示組成部分 附註
指定國家/地區的官方貨幣為何? 您希望 LLM 回答的問題。
法國:歐元 其中一個例子。
英國:GBP 另一個例子
印度: 實際查詢。

相較於「零樣本提示」「單樣本提示」,少量樣本提示通常能產生更理想的結果。不過,少量樣本提示需要較長的提示

少量樣本提示是少量樣本學習的一種形式,適用於提示式學習

小提琴

#language

以 Python 優先的設定程式庫,可在沒有侵入式程式碼或基礎架構的情況下設定函式和類別的值。以 Pax 和其他機器學習程式碼集來說,這些函式和類別代表模型訓練 超參數

Fiddle 假設機器學習程式碼集通常分為:

  • 可定義圖層和最佳化工具的程式庫程式碼。
  • 資料集「黏合」程式碼會呼叫程式庫,並將所有資訊連接在一起。

Fiddle 以未評估且可變動的形式擷取膠合程式碼的呼叫結構。

微調

#language
#image
#生成式 AI

第二項任務專屬訓練通過對預先訓練模型,修正特定用途的參數。例如,某些大型語言模型的完整訓練順序如下:

  1. 預先訓練:使用大量的「一般」資料集 (例如所有英文的 Wikipedia 頁面) 訓練大型語言模型。
  2. 微調:訓練預先訓練模型來執行「特定」工作,例如回應醫療查詢。微調通常需要數百或數千個範例來著重於特定工作。

再舉一個例子,大型圖片模型的完整訓練順序如下:

  1. 預先訓練:使用大量「一般」圖片資料集訓練大型圖片模型,例如 Wikimedia 通用圖片中的所有圖片。
  2. 微調:訓練預先訓練模型來執行「特定」工作,例如產生 Orcas 的圖片。

微調可採用下列策略的任意組合:

  • 修改預先訓練模型的現有所有參數。這種做法有時也稱為「完全微調」
  • 如果您只修改「部分」預先訓練模型的現有參數 (通常是最靠近輸出層的層),其他現有參數則保持不變 (通常是離輸入層的圖層)。請參閱符合參數效率的調整方法相關說明。
  • 新增更多圖層,通常位於最接近輸出層的現有層之上。

微調是一種遷移學習。 因此,微調可能使用與訓練預先訓練模型不同的損失函式或模型類型。舉例來說,您可以微調預先訓練的大型圖片模型,以產生可在輸入圖片中傳回鳥類數量的迴歸模型。

使用下列字詞比較並對照微調:

亞麻色

#language

JAX 為基礎建構的高效能開放原始碼 程式庫,用於深度學習。Flax 提供「訓練」類神經網路,以及評估其效能的方法。

亞麻色

#language

這是以 Flax 建構的開放原始碼 Transformer 程式庫,主要用於自然語言處理和多模態研究。

G

生成式 AI

#language
#image
#生成式 AI

新興的轉換欄位,沒有正式的定義。儘管如此,大多數專家都認為生成式 AI 模型可以建立 (「產生」) 的內容如下:

  • 複雜
  • 一致
  • 原始圖片

舉例來說,生成式 AI 模型可以生成複雜的論文或圖片

部分較舊的技術 (包括 LSTMRNN) 也可以產生原創且連貫的內容。有些專家認為這些早期技術就是 生成式 AI,有些則認為

相對於預測機器學習

GPT (生成式預先訓練的 Transformer)

#language

OpenAI 開發的一系列以 Transformer 為基礎的大型語言模型

GPT 變化版本可套用到多種模式,包括:

  • 產生圖片 (例如 ImageGPT)
  • 產生文字轉圖片 (例如 DALL-E)。

H

幻覺

#language

透過生成式 AI 模型產生看似合理,但事實卻不正確的輸出內容,但用意是假裝對真實世界的斷言。舉例來說,生成式 AI 模型宣稱巴拉克歐巴馬在 1865 年已死亡

I

情境學習

#language
#生成式 AI

少量樣本提示的同義詞。

L

LaMDA (對話應用程式的語言模型)

#language

Transformer 為基礎的大型語言模型,由 Google 開發,以大型對話資料集訓練而成,可產生逼真的對話回應。

LaMDA:我們的突破性對話技術提供總覽。

語言模型

#language

這個model會估算「權杖」model或一系列符記序列中發生的符記的機率。

大型語言模型

#language

沒有嚴格定義的非正式字詞,通常是指含有大量參數語言模型。部分大型語言模型包含超過 1,000 億個參數。

潛在空間

#language

嵌入空間的同義詞。

LLM

#language

大型語言模型的縮寫。

LoRA

#language
#生成式 AI

低排名的適應性」的縮寫。

低排名適應性 (LoRA)

#language
#生成式 AI

用於執行參數效率調整的演算法,僅微調大型語言模型參數的一部分。LoRA 具有以下優點:

  • 比起需要微調模型「所有」參數的技術,微調的速度更快。
  • 降低經過微調的模型中的推論運算成本。

使用 LoRA 調整的模型會維持或改善預測品質。

LoRA 支援模型的多個特殊版本。

M

遮蓋的語言模型

#language

一種語言模型,可預測候選符記在序列中填入空白的可能性。舉例來說,遮蓋的語言模型可以計算候選字詞的機率,藉此取代以下語句中的底線:

帽子的 ____ 回來了。

這類文獻通常會使用「MASK」字串,而非底線。例如:

帽子的「MASK」回來了。

大多數新型遮蓋語言模型為「雙向」

中繼學習

#language

這是一種機器學習組合,能夠探索或改善學習演算法。中繼學習系統也可以著重在訓練模型,藉由少量資料或先前工作所獲得的經驗,快速學習新工作。中繼學習演算法通常會嘗試達成下列目標:

  • 改善或學習手動工程的功能 (例如初始化器或最佳化器)。
  • 提高資料成本效益和運算效率。
  • 改善一般化功能。

中繼學習與少量樣本學習有關。

形態

#language

高階資料類別。例如數字、文字、圖片、影片和音訊有五種不同的形式

模型平行處理

#language

縮放訓練或推論的方式,將不同部分組成不同model的某個model。模型平行處理功能可啟用過大的模型,無法在單一裝置上運作。

如要實作模型平行處理,系統通常會執行下列作業:

  1. 將模型分割 (分割) 為較小的部分。
  2. 將這些小型部分的訓練作業分派至多個處理器。每個處理器都會訓練自己的模型部分。
  3. 合併結果來建立單一模型。

模型平行處理會減慢訓練速度。

另請參閱「資料平行處理」一文。

多頭式自我注意力

#language

自我注意力的擴充功能,會在輸入序列中的每個位置多次套用自我注意力機制。

變形金引進了多頭自我注意力機制。

多模態模型

#language

此模型的輸入和/或輸出包含多個「形態」。舉例來說,假設某個模型同時採用圖片和文字說明文字 (兩個模數) 做為特徵,然後輸出分數,指出文字說明文字適合圖片的程度。因此,這個模型的輸入內容為多模態,輸出結果則為單模態。

N

自然語言理解

#language

根據使用者輸入或說話的內容判斷使用者的意圖。例如,搜尋引擎會根據使用者輸入或說話的內容,使用自然語言理解來判定使用者搜尋的內容。

N 公克

#seq
#language

已排序的 N 個字詞序列。例如「truly madly」是 2 公克。由於順序相關,因此「真的」與「真的生機」是不同的 2 元語法。

N 這類 N-gram 的名稱 示例
2 Biram 或 2 克 外帶、外出、吃午餐、吃晚餐
3 3 公克
4 4 公克

許多自然語言理解模型都使用 N 克來預測使用者會輸入或說出的下一個字詞。例如,假設使用者輸入了三條百葉窗。以三元為基礎的 NLU 模型可能會預測使用者接下來會輸入「mice」

比較 N 克與「詞袋」(未排序的字詞組合)。

自然語言理解

#language

自然語言理解的縮寫。

O

單樣本提示

#language
#生成式 AI

提示包含一個範例,示範大型語言模型應如何回應。例如,以下提示含有一個範例,顯示大型語言模型應如何回答查詢。

單一提示組成部分 附註
指定國家/地區的官方貨幣為何? 您希望 LLM 回答的問題。
法國:歐元 其中一個例子。
印度: 實際查詢。

比較並對照下列字詞:單樣本提示

P

具參數運用效率的調整作業

#language
#生成式 AI

使用一套技巧「微調」大型預先訓練模型 (PLM),比完整的微調更有效率。有效率地調整參數的參數通常比完整微調要少得多,但通常會產生大型語言模型,此模型也能執行良好 (或幾乎) 微調建構的大型語言模型。

比較及對照具參數運用效率的調整工具:

「高效參數調整」也稱為「參數效率微調」

管道

#language

一種「模型平行處理」的一種形式,模型的處理會分成連續階段,而每個階段會在不同的裝置上執行。在階段處理一個批次時,之前的階段則可以處理下一個批次。

另請參閱階段式訓練

波蘭茲羅提

#language
#生成式 AI

預先訓練的語言模型的縮寫,

位置編碼

#language

將符記的「位置」相關資訊加入權杖嵌入的技巧。Transformer 模型會使用位置編碼進一步瞭解序列不同部分之間的關係。

位置編碼的常見實作方式會使用正弦函式。 (具體來說,正弦函式的頻率和振幅取決於序列中符記的位置)。這項技巧可讓 Transformer 模型根據位置來學習序列的不同部分。

預先訓練模型

#language
#image
#生成式 AI

已經訓練的模型或模型元件 (例如嵌入向量)。有時候,您會將預先訓練的嵌入向量饋送至「類神經網路」中。有時,您的模型會自行訓練嵌入向量,而不是依賴預先訓練的嵌入。

「預先訓練模型」一詞是指在通過預先訓練大型語言模型

預先訓練

#language
#image
#生成式 AI

在大型資料集中訓練模型的初始訓練。有些預先訓練模型是無害的巨人,通常得透過額外訓練加以修正。舉例來說,機器學習專家可能會對大型文字資料集 (例如維基百科中的所有英文頁面) 預先訓練大型語言模型。在預先訓練之後,產生的模型可以透過下列任一技巧進一步微調:

提示

#language
#生成式 AI

將任何輸入為大型語言模型輸入的文字,規範模型以特定方式表現的條件。提示可以很短,可以是詞組比對或任意長度 (例如小說的整段文字)。提示分為多個類別,包括下表所示:

提示類別 範例 附註
問題 鴿子的飛行速度有多快?
指示 撰寫關於套利的有趣詩詞。 要求大型語言模型「做」特定操作的提示。
範例 將 Markdown 程式碼轉譯為 HTML。例如:
Markdown:* 清單項目
HTML:<ul> <li>清單項目</li> </ul>
此範例提示中的第一個句子是指令。提示的其餘部分為範例。
角色 說明為何在機器學習訓練中採用梯度下降法,而在物理學系中採用梯度下降法。 句子的第一部分是指令,「to a PhD in Physics」用語則是指角色部分。
模型待完成的部分輸入內容 英國首相 部分輸入提示可能會突然結束 (與這個範例相同),或是以底線結尾。

生成式 AI 模型可透過文字、程式碼、圖片、嵌入、影片等幾乎任何條件來回應提示。

以提示為基礎的學習

#language
#生成式 AI

特定模型的功能,可讓模型根據任意文字輸入內容調整行為 (提示)。在一般以提示為基礎的學習範例中,大型語言模型會產生文字來回應提示。舉例來說,假設使用者輸入下列提示:

總結牛頓第三運動定律。

能夠以提示為基礎的學習的模型並未經過特別訓練,因此無法回答先前的提示內容。相反地,模型「知道」許多有關物理的知識、大量有關一般語言規則,以及對於一般實用答案的眾多要素。該知識足以提供 (希望) 有用的答案。而額外的人為意見回饋 (「這個答案太過複雜」或「什麼是反應?」) 可讓一些以提示為主的學習系統,逐步提高答案的實用性。

提示設計

#language
#生成式 AI

提示工程的同義詞。

提示工程

#language
#生成式 AI

建立提示,從大型語言模型中取得所需回應的秘訣。人類執行提示工程編寫結構完善的提示,是確保大型語言模型實用回應的重要環節。提示工程取決於許多因素,包括:

  • 用於「預先訓練」,並可能「微調」大型語言模型的資料集。
  • 溫度和其他模型用來產生回應的解碼參數。

如要進一步瞭解如何編寫實用提示,請參閱提示設計簡介

「提示設計」是「提示工程」的同義詞。

提示調整

#language
#生成式 AI

一種參數效率調整機制,可學習系統在實際提示前加上的「前置字串」。

提示調整的其中一種變化版本 (有時稱為「前置字串調整」) 是在「每一個圖層」前面加上前置字串。相對地,大多數提示調整隻會在輸入層加上前置字串。

R

角色提示

#language
#生成式 AI

這是提示的選用部分,用於識別生成式 AI 模型回應的目標對象。沒有角色提示,大型語言模型會提供答案,不一定對提問者有幫助。大型語言模型「加入」角色提示後,就能以更適當且更適用於特定目標對象的方式回答。舉例來說,以下提示中的角色提示部分會以粗體顯示:

  • 請概述經濟學博士的說明文章。
  • 說明一歲的人將如何降雨。
  • 解釋 2008 年的財務危機。你可能會和小孩子或黃金獵犬說話。

自我注意力 (也稱為自我注意力層)

#language

這個類神經網路層可將一連串的嵌入 (例如符記嵌入) 轉換成另一種嵌入。輸出序列中的每個嵌入都是透過「注意力」機制整合輸入序列元素的資訊。

自我部分的「自註意」是指自行出席的序列,而非其他情境。自我注意力是Transformers 的主要建構模塊之一,會使用字典查詢術語,例如「query」、「key」和「value」。

自我注意力層從一系列的輸入表示法開始,每個字詞一個表示法。字詞的輸入表示法可以是簡單的嵌入。對於輸入序列中的每個字詞,網路會針對整個字詞序列中每個字詞的關聯性評分。關聯性分數會決定字詞最終表示法與其他字詞表示法的大致程度。

例如,請思考以下語句:

動物的疲累,因此沒有穿越街道。

下方的插圖 (來自Transformer:語言理解的新型類神經網路架構) 顯示人稱代名詞 的自我注意力層注意力模式,而每條線的暗色代表每個字詞對代表的影響程度:

以下句子出現兩次:由於動物疲倦,因此沒有穿越街道。這行可將人稱代名詞從一個句子中連結至另一個語句中的五個符記 (即動物、街道、句號和句號)。人稱代名詞與動物文字之間的線段最強。

自註意層會醒目顯示與「it」有關的字詞。在本例中,注意力層已學習醒目顯示「該」可能參照的字詞,並將最高權重指派給「animal」

在一系列「n」n符記中,自我注意力功能會在序列中的每個位置一次轉換一連串嵌入「n」n次。

另請參閱注意力多頭人自我注意力相關文章。

情緒分析

#language

使用統計或機器學習演算法來判斷群組對服務、產品、組織或主題的整體態度 (正面或負面)。舉例來說,利用自然語言理解,演算法就能針對大學課程的文字意見回饋執行情緒分析,判斷學生普遍喜歡或不喜歡這門課程的程度。

序列至序列工作

#language

將「權杖的輸入序列轉換為權杖輸出序列的工作。例如,序列至序列工作有兩種常見的 類型:

  • 譯者:
    • 輸入序列範例:「我愛你。」
    • 輸出序列範例:「Je t'aime。」
  • 回答問題:
    • 輸入序列範例:「我在紐約市需要我的車嗎?」
    • 輸出序列範例:「否,請將車放在家中。」

跳過格

#language

n-gram 可能會從原始情境中省略 (或「略過」) 字詞,這代表 N 字詞原本未置於相鄰位置。更明確地說,「k-skip-n-gram」是一個 n-gram,其中最多可能略過 k 個字詞。

舉例來說,「快速棕色狐狸」有以下可能的 2 公克:

  • 「快一點」
  • 「快棕色」
  • 「棕色狐狸」

「1-skip-2-gram」是兩個字詞間最多只能有 1 個字詞的一組字詞。因此,「快速棕色狐狸」有以下 1 度 2 公克:

  • 「棕色」
  • 「快速狐狸」

此外,所有 2 公克也「也」是 1 至 2 公克,因為系統可能會略過一個字詞。

如果想進一步瞭解字詞前後的上下文內容,不妨使用「略過圖表」功能。 在此範例中,「fox」與 1-skip-2 公克組合中的「快速」相關聯,但不在 2 公克的組合中。

略過克數有助於訓練字詞嵌入模型。

軟提示調整

#language
#生成式 AI

一種技巧,可針對特定工作調整大型語言模型,無須耗用大量資源微調調整。這種提示不會重新訓練模型中的所有權重,而是會自動調整「提示」來達成相同目標。

收到文字提示後,軟提示調整通常會將額外的符記嵌入附加至提示,並使用反向傳播來最佳化輸入。

「硬」提示包含實際符記,而非符記嵌入。

稀疏特徵

#language
#fundamentals

一個功能,其值主要是零或空白。例如,一個包含單一 1 值和一百萬個 0 值的特徵是稀疏度。相對地,密集特徵的值主要並非零或空白。

在機器學習中,有許多出乎意料的特徵是稀疏的。類別特徵通常是稀疏的特徵。舉例來說,森林中有 300 種可能的樹種,一個例子或許只會辨識一顆楓樹。或者,影片庫中有數百萬部可能的影片 一個例子可以只識別「Casablanca」

在模型中,您通常會以 one-hot 編碼表示稀疏特徵。如果 one-hot 編碼較大,則可在 one-hot 編碼上方放置嵌入層,以提高效率。

稀疏表示法

#language
#fundamentals

稀疏功能中只儲存非零元素的位置

舉例來說,假設有一個名為 species 的類別地圖項目能識別特定森林中的 36 棵樹種。再假設每個範例都只能識別一個物種。

您可以使用 one-hot 向量來表示每個示例中的樹種。一個熱向量會包含單一 1 (在此範例中代表特定樹種) 和 35 個 0 (代表該範例中「不」的 35 種樹種)。因此,maple 的 one-hot 表示法可能會如下所示:

位置 0 到 23 的向量會保留值 0,位置 24 代表值 1,位置 25 至 35 則代表值 0。

或者,稀疏表示法只會識別特定物種的位置。如果 maple 位於位置 24,則 maple 的稀疏表示法為:

24

請注意,稀疏表示法比 one-hot 表示法更精簡。

階段式訓練

#language

按照離散階段順序訓練模型的策略。目標是加快訓練程序或改善模型品質。

下方為漸進式堆疊方法的插圖:

  • 第 1 階段包含 3 個隱藏圖層,階段 2 包含 6 個隱藏圖層,階段 3 則包含 12 個隱藏圖層。
  • 第 2 階段以第 1 階段的 3 隱藏層中學到的權重開始訓練。第 3 階段透過第 2 階段 6 隱藏層學到的權重開始訓練。

三個階段,分別標示為第 1 階段、第 2 階段和第 3 階段。每個階段都包含不同圖層:第 1 階段包含 3 個圖層,第 2 階段包含 6 個圖層,第 3 階段則包含 12 個圖層。第 1 階段的 3 個圖層會成為第 2 階段的前 3 個層。同樣地,第 2 階段的 6 層會成為第 3 階段的前 6 層。

另請參閱管道相關說明。

子字詞權杖

#language

在「語言模型中,符記是字詞的子字串,可能是整個字詞。

例如,「itemize」這樣的字詞可能會分成「item」(根字詞) 和「ize」(後置字串) 部分,且每個元素分別以各自的符記表示。將不常見的字詞分成這類片段,稱為「子字詞」,可讓語言模型針對字詞中較常見的組成部分 (例如前置字串和後置字串) 執行運算。

反之,「going」(持續中) 等常見字詞可能不會經過細分,且可能以單一符記表示。

T

T5

#language

Google AI 在 2020 年導入的文字轉文字遷移學習 模型。T5 是編碼器-解碼器模型,以 Transformer 架構為基礎,並以極大型的資料集進行訓練。這項功能適用於多種自然語言處理工作,例如產生文字、翻譯語言,以及以對話方式回答問題。

T5 會從「Text-to-Text Transfer Transformer」(文字轉文字轉換器) 中的五個 T 取得名稱。

超過 5 倍

#language

開放原始碼的機器學習架構,旨在建構及訓練大規模自然語言處理 (NLP) 模型。T5 是在 T5X 程式碼集上實作 (以 JAXFlax 建構)。

溫度

#language
#image
#生成式 AI

控制模型輸出隨機程度的超參數。隨機性參數越高,隨機輸出的內容越多,而低溫則會產生較少的隨機輸出內容。

視特定應用程式及模型輸出偏好的屬性而定,選擇最佳溫度的做法會有不同。舉例來說,假設您在建立可產生廣告素材輸出內容的應用程式時,可能會提高溫度。相反地,在建構可將圖片或文字分類的模型時,為了提高模型的準確率和一致性,您可能會降低溫度。

溫度通常會與 softmax 搭配使用。

文字時距

#language

與文字字串中特定子區段相關聯的陣列索引時距。例如,Python 字串 s="Be good now" 中的 good 字詞會擷取從 3 到 6 的文字時距。

權杖

#language

在「語言模型」中,這是指模型訓練用於訓練和進行預測的原子單位。符記通常是下列其中一種:

  • 舉例來說,「狗等貓」這個詞組包含三個字詞符記:「dogs」、「like」和「cats」。
  • 字元,例如「bike fish」這個詞組包含 9 個字元的符記(請注意,空格會計為其中一個符記)。
  • 子字詞,意即單一字詞可以是單一符記或多個符記。子字詞是由根字詞、前置字元或後置字元所構成。例如,以子字詞做為符記的語言模型可能會將「dogs」一詞視為兩個符記 (根字詞「dog」和複數後置字串「s」)。這種語言模型可能會將一個「taller」這個單字視為兩個子字詞 (根字詞「tall」和後置字串「er」)。

在語言模型以外的網域中,符記可以代表其他類型的原子單位。舉例來說,在電腦視覺中,符記可能是圖片的子集。

Transformer

#language

在 Google 開發的「類神經網路」架構,以自註意機制為基礎,可將多個輸入嵌入轉換為一系列的輸出嵌入,而不需要依賴卷積循環類神經網路Transformer 可以視為自我注意力層的堆疊。

Transformer 可包含下列任一項目:

編碼器會將一系列的嵌入轉換為相同長度的新序列。編碼器包含 N 個相同的層,每個圖層包含兩個子層。這兩個子層會在輸入嵌入序列的每個位置套用,將序列的每個元素轉換成新的嵌入。第一個編碼器子層會匯總整個輸入序列的資訊。第二個編碼器子層會將匯總資訊轉換為輸出嵌入。

解碼器會將一系列的輸入嵌入轉換為一系列輸出嵌入 (長度可能不同的)。解碼器也包含 N 相同的層,其中有三個子層,其中兩個與編碼器子層類似。第三個解碼器子層會接收編碼器的輸出內容,並套用「自註意」機制從中擷取資訊。

網誌文章「Transformer:語言理解的全新類神經網路架構」一文提供 Transformer 的充分簡介。

三元語法

#seq
#language

N=3 的 N-gram

U

單向

#language

只評估文字「早於」目標文字的系統。相反地,雙向系統會一併評估「後方」和「追蹤」目標文字部分的文字。詳情請參閱「雙向」。

單向語言模型

#language

一種語言模型,會根據目標符記「之前」(而非目標符記「之後」) 的權杖來決定其機率。與雙向語言模型之間的對比。

V

變分自動編碼器 (VAE)

#language

一種自動編碼器,利用輸入和輸出之間的差距,產生修改的輸入版本。變分自動編碼器適用於生成式 AI

VAE 是以變異推論為基礎,這是一種估算機率模型參數的技巧。

字詞嵌入

#language

「代表」嵌入向量內字詞集內的各個字詞,也就是將每個字詞表示為介於 0.0 和 1.0 之間的浮點值向量。與含不同含意的字詞相比,有含意涵義的字詞所呈現的意義更為相似。舉例來說,「carrots」、「celery」和「小黃瓜」的表示法都相當類似,因此與「飛機」、「太陽眼鏡」和「牙膏」的表示法截然不同。

Z

零樣本提示

#language
#生成式 AI

提示「未」提供您想要大型語言模型回應方式的範例。例如:

單一提示組成部分 附註
指定國家/地區的官方貨幣為何? 您希望 LLM 回答的問題。
印度: 實際查詢。

大型語言模型可能會以下列任一內容回應:

  • 盧比符號
  • INR
  • 印度盧比
  • 魯蛇
  • 印度盧比

所有答案都正確,但您可能想要使用特定格式。

比較並對照下列字詞:零樣本提示