本頁包含語言評估詞彙表詞彙。如要查看所有詞彙解釋,請按這裡。
A
注意力
類神經網路中使用的機制,可表示特定字詞或字詞部分的重要性。注意力會壓縮模型預測下一個權杖/字詞所需的資訊量。典型的注意力機制可能是由一組輸入組成的「加權總和」,其中每個輸入內容的「權重」,都是由類神經網路的另一個部分計算。
Autoencoder
學習從輸入中擷取最重要的資訊的系統。自動編碼器是編碼器和解碼器的組合。自動編碼器需要以下兩個步驟:
- 編碼器會將輸入對應至 (通常) 有損低維度 (中繼) 格式。
- 解碼器會將較低維度的格式對應至原始的高維度輸入格式,來建構原始輸入的失真版本。
自動編碼器是經過端對端訓練,方法是讓解碼器盡可能根據編碼器的中繼格式重新建構原始輸入內容。由於中繼格式比原始格式小 (尺寸較低),因此自動編碼器必須瞭解輸入內容中的重要資訊,而輸出內容不會與輸入內容完全相同。
例如:
- 如果輸入資料是圖形,非完全副本會與原始圖形類似,但有些修改。非完全文案可能導致原始圖像中的雜訊移除,或是填滿部分缺少像素的雜訊。
- 如果輸入資料是文字,自動編碼器就會產生新文字來模仿原始文字 (但並非完全相同)。
另請參閱變分自動編碼器。
自動迴歸模型
「模型」model,可依據其之前的預測結果推斷預測。例如,自動迴歸語言模型會根據先前預測的符記預測下一個權杖。所有以 Transformer 為基礎的大型語言模型皆會自動迴歸。
相反地,以 GAN 為基礎的圖片模型通常不會自動迴歸,因為這會在單向傳遞作業中產生圖片,且不反覆疊代處理。不過,某些圖片產生模型「會」自動迴歸,因為這會在步驟中產生圖像。
B
一袋字詞
表示詞組或段落中的文字,不受順序影響。例如,袋字詞代表下列三個詞組完全相同:
- 狗跳躍
- 跳狗跳
- 狗彈跳
每個字詞都會對應至稀疏向量中的一個索引,其中向量擁有詞彙中每個字詞的索引。例如,「狗跳躍」詞組已對應到具有非零值的特徵向量,並在與「the」、「dog」和「jumps」字詞的三個索引相對應三個索引上。非零值可設為下列任一選項:
- 1 表示是否有字詞。
- 某個字詞出現在袋子中的次數。舉例來說,如果詞組是「Maroon dog is a dog with maroon fur」,則「maroon」和「dog」都會表示為 2,而其他字詞則會以 1 表示。
- 其他的值,例如字詞在袋中出現的次數對數。
BERT (來自變形器的雙向編碼器表示)
文字「表示法」的模型架構。訓練過的 BERT 模型可作為大型模型的一部分,用於文字分類或其他機器學習工作。
BERT 具備以下特性:
BERT 的變化版本包括:
如需 BERT 的總覽,請參閱「Open Sourcing BERT:自然語言處理的先進預先訓練」。
雙向
這個字詞用於描述評估「之前」和「遵循」目標段落文字的系統。相對地,單向系統只會評估「前方」文字目標區段的文字。
舉例來說,假設某個遮蓋的語言模型必須判斷下列問題中代表底線的字詞或字詞的機率:
您的 _____ 為何?
單向語言模型僅須根據「What」、「is」和「the」字詞提供的背景資訊來計算機率。相反地,雙向語言模型也可以從「with」和「您」取得背景資訊,協助模型產生更好的預測結果。
雙向語言模型
「語言模型」會根據「上一個」和「之後」文字,判斷特定權杖在特定位置出現的機率。
Bigram
N 語法,其中 N=2。
BLEU (雙語評估研究)
介於 0.0 和 1.0 (含) 之間的分數,表示兩種人類語言的翻譯品質,例如英文和俄文之間的翻譯品質。BLEU 分數 1.0 表示完美翻譯;BLEU 分數 0.0 則表示翻譯很嚴重。
C
因果語言模型
單向語言模型的同義詞。
如要針對語言模型中使用不同的方向方法,請參閱「雙向語言模型」一節。
資訊鏈提示
一種提示工程技術,鼓勵大型語言模型 (LLM) 逐步說明其原因。例如,考慮使用下列提示,請特別留意第二個句子:
駕駛人在 7 秒內每小時從 0 到 60 英里的車輛上行駛多少吉力?答案中會顯示所有相關計算。
LLM 的回應可能如下:
- 顯示一系列物理公式,在適當位置插入 0、60 和 7 值。
- 說明公式為何選擇了這些公式,以及各種變數的意義。
意識鏈提示會強制 LLM 執行所有計算,這可能會產生更正確的答案。此外,思考鏈提示可讓使用者檢視 LLM 的步驟,進而判斷答案是否合理。
組成剖析
將句子拆分為更小的文法結構 (「組成」)。 機器學習系統較新部分 (例如自然語言理解模型) 會比使用原始語句輕鬆剖析字詞。例如,請考量以下句子:
我的朋友認養了兩隻貓,
組成剖析器可將這個語句分為以下兩個組成:
- 我的朋友是名詞,
- 兩隻 cats 是動詞片語。
這些組成部分可以進一步細分為更小的組成。例如,動詞片語
領養兩隻貓
可進一步細分為:
- adopted 是動詞。
- 兩個貓是另一個名詞片語。
車禍
意思模稜兩可的句子或詞組。 異常終止在自然語言理解方面有一項重大問題。例如,「Red Tape Holds Up Skyscraper」標題是一種急遽變化,因為 NLU 模型能以字面或字面解讀標題。
D
解碼器
一般而言,任何機器學習系統會從已處理、密集或內部的表示法轉換成較原始、稀疏或外部表示法的機器學習系統。
解碼器通常是大型模型的元件,通常會與編碼器搭配使用。
在序列對序列工作中,解碼器會從編碼器產生的內部狀態開始,以預測下一個序列。
如要瞭解 Transformer 架構中的解碼器定義,請參閱轉換器一文。
去掉
自我監督學習的常見做法如下:
降噪可讓您從未加上標籤的範例中學習。原始資料集可做為目標或標籤,而雜訊資料會做為輸入內容。
部分遮蓋的語言模型會使用降噪功能,如下所示:
- 系統會遮蓋部分符記,藉此為未加上標籤的句子手動添加雜訊。
- 模型會嘗試預測原始符記。
直接提示
零樣本提示的同義詞。
E
編輯距離
比較類似兩個文字字串的相近度。在機器學習中,編輯距離很實用,因為它方便計算簡單且方便計算,也能有效比較兩個已知與指定字串類似的字串,或找出與指定字串類似的字串。
編輯距離有幾種定義,每個定義都使用不同的字串運算。例如, Levenshtein 距離可考量最少的刪除、插入和替代作業。
舉例來說,「愛心」和「飛鏢」之間的 Levenshtein 距離是 3,因為只要進行以下 3 個編輯步驟,就能將一個字詞變成另一個字詞了:
- 愛心 → 死亡 (「h」換成「d」)
- deart → dart (刪除「e」)
- 飛鏢 → 飛鏢 (插入「s」)
嵌入層
特殊的隱藏層,可在高維度的類別功能上進行訓練,逐漸學習尺寸較低的嵌入向量。嵌入層可讓類神經網路的訓練效率,遠比只針對高維度類別特徵進行訓練。
舉例來說,Google 地球目前支援約 73,000 種樹木。假設樹種是模型中的「地圖項目」,因此模型的輸入層包含長度為 73,000 個元素的「one-hot 向量」元素。舉例來說,可能 baobab
的表示方式如下:
73,000 元素的陣列很長。如果您未在模型中加入嵌入層,則訓練會因為乘以 72,999 零而耗費大量時間。您可能會選擇包含 12 個維度的嵌入層。因此,嵌入層將逐漸學習每個樹種的新嵌入向量。
在某些情況下,雜湊是嵌入層的合理替代方案。
嵌入空間
由高維度向量空間中的地圖項目對應至的 D 維度向量空間。在理想情況下,嵌入空間包含的結構可產生有意義的數學結果。舉例來說,在理想的嵌入空間中,嵌入的加減法可以解決字詞類比工作。
兩個嵌入的內積則是其相似度的測量。
嵌入向量
概括而言,這是從任何 隱藏層取得的浮點數陣列,用來描述該隱藏層的輸入內容。嵌入向量通常是指在嵌入層中訓練的浮點數陣列。舉例來說,假設嵌入層必須學習地球上 73,000 種樹木各一種嵌入向量。也許下列陣列是猴麵包樹的嵌入向量:
嵌入向量並不是一堆隨機數字。嵌入層會透過訓練確定這些值,類似類神經網路在訓練期間學習其他權重的方式。陣列的每項元素都會根據樹木物種的一些特性進行評分。哪個元素代表哪些樹種的特性?這很難判斷
在數學上,嵌入向量的驚人部分是類似項目具有類似的浮點數組合。舉例來說,與相異的樹種相比,類似的樹種浮點數組合更為相似。紅木與紅杉是相關的樹種,因此與紅木和椰子棕櫚樹的浮點數組合可能較類似。即使您以相同輸入內容重新訓練模型,嵌入向量中的數字也會在每次重新訓練模型時變更。
編碼器
一般而言,任何機器學習系統從原始、稀疏或外部表示法轉換為較為處理、較密集或更內部的表示法。
編碼器通常是大型模型的元件,通常會與解碼器搭配使用。部分轉換器會將編碼器與解碼器配對,但其他轉換器則只能使用編碼器,或僅使用解碼器。
部分系統會使用編碼器的輸出內容做為分類或迴歸網路的輸入內容。
在序列至序列工作中,編碼器會採取輸入序列,並傳回內部狀態 (向量)。接著,解碼器會使用該內部狀態來預測下一個序列。
如要瞭解編碼器在 Transformer 架構中的定義,請參閱轉換器。
F
少量樣本提示
內含多個 (「少數」) 範例的提示,說明瞭大型語言模型應如何回應。舉例來說,以下冗長的提示包含兩個範例,顯示如何回答查詢的大型語言模型。
單一提示的組成部分 | Notes |
---|---|
特定國家/地區的官方貨幣為何? | 你要讓 LLM 回答的問題。 |
法國:歐元 | 例如 |
英國:GBP | 再舉一例, |
印度: | 實際的查詢。 |
相較於零樣本提示和單一樣本提示,少量樣本提示通常能產生更理想的結果。然而,少量樣本提示需要較長時間的提示。
小提琴
Python 優先的「設定」程式庫,無需侵入式程式碼或基礎架構,即可設定函式和類別的值。 以 Pax 和其他機器學習程式碼集為例,這些函式和類別代表模型和訓練 超參數。
Fiddle 假設機器學習程式碼集通常分為:
- 程式庫程式碼,用於定義層和最佳化器。
- 資料集「glue」程式碼,會呼叫程式庫並將所有內容接在一起。
Fiddle 會以未評估和可變動的形式擷取黏附程式碼的呼叫結構。
微調
在預先訓練模型上執行第二條工作專屬的訓練傳遞,藉此修正特定用途的參數。舉例來說,部分大型語言模型的完整訓練序列如下:
- 預先訓練:針對龐大的一般資料集 (例如所有英文維基百科頁面) 訓練大型語言模型。
- 微調:訓練預先訓練模型來執行特定工作,例如回應醫療查詢。微調通常會涉及數百或數千個以特定工作為主的範例。
再舉一個例子,大型圖片模型的完整訓練序列如下:
- 預先訓練:根據龐大的「一般」圖片資料集訓練大型圖片模型,例如 Wikimedia 常見問題中的所有圖片。
- 微調:訓練預先訓練模型來執行特定工作,例如產生虎鯨的圖片。
微調可涵蓋下列任何策略的組合:
- 修改「所有」預先訓練模型的現有參數。這種做法有時稱為「完整微調」。
- 只修改「部分」預先訓練模型的現有參數 (通常是最靠近輸出層的圖層),同時保留其他現有的參數 (通常是最靠近輸入層的圖層)。請參閱「具參數運用效率的調整」一節。
- 新增更多圖層,通常位於最靠近輸出層的現有圖層上方。
微調是一種遷移學習形式。因此,微調可能會使用不同的損失函式,或與用來訓練預先訓練模型的模型類型不同。例如,您可以微調預先訓練的大型圖片模型,產生迴歸模型,藉此傳回輸入圖片中的鳥類數量。
比較及對照下列字詞的微調設定:
亞麻色
以 JAX 為基礎建構的高效能開放原始碼 程式庫。Flax 可為訓練 類神經網路提供函式,以及評估網路效能的方法。
亞麻色器
採用 Flax 建構的開放原始碼 Transformer 程式庫,主要用於自然語言處理和多重模組研究。
G
生成式 AI
沒有正式定義的新興變革領域。話雖如此,多數專家也認為生成式 AI 模型能夠建立 (「產生」) 內容具有以下特質:
- 複雜
- Coherent
- 原始圖片
舉例來說,生成式 AI 模型可以建立複雜論文或圖片,
部分早期技術 (包括 LSTM 和 RNN) 也可能會產生原創且一致的內容。有些專家認為這些早期技術是生成式 AI,有些專家則認為,真正的生成式 AI 的輸出結果會比早期技術產生的複雜性更高。
與預測式機器學習相反。
GPT (生成式預先訓練 Transformer)
由 OpenAI 開發的一系列 Transformer 式大型語言模型。
GPT 變化版本可套用至多種形式,包括:
- 產生圖像 (例如 ImageGPT)
- 文字轉圖片產生 (例如 DALL-E)。
H
幻覺
透過生成式 AI 模型製作看似透明但實際上不正確的輸出內容,主要目的在於對真實世界進行斷言。舉例來說,生成式 AI 模型聲稱,巴拉克歐巴馬在 1865 年去世,就是陰謀。
I
情境學習
少量樣本提示的同義詞。
L
LaMDA (對話應用程式的語言模型)
以 Google 訓練的Transformer為基礎大型語言模型以大型對話回應為基礎所開發的大型對話資料集
LaMDA:我們的突破性對話技術提供總覽。
語言模型
大型語言模型
不含嚴格定義的非正式字詞,通常代表具有大量參數的語言模型。某些大型語言模型包含超過 1,000 億個參數。
M
遮蓋的語言模型
「語言模型」,用於預測候選符記可填入序列中的空白機率。舉例來說,套用遮罩的語言模型可計算候選字詞的機率,以取代下列句子中的底線:
帽子的 ____ 回來了。
文獻一般使用字串「MASK」而非底線。例如:
帽子的「MASK」回來了。
中繼資料學習
這是一種機器學習子集,可探索或改善機器學習演算法。中繼學習系統也有助於訓練模型,從少量資料中快速瞭解新工作,或從先前工作中獲得的經驗中學習。整合學習演算法通常會嘗試達成以下目標:
- 改善/學習手動工程的功能 (例如初始化器或最佳化器)。
- 提高資料效率並降低運算效率。
- 改善一般化功能。
中繼學習與少量學習有關。
形態
高階資料類別。舉例來說,數字、文字、圖片、影片和音訊是五種不同的模式。
平行處理模型
這是一種資源調度訓練或推論的方式,將某個模型model的不同部分放在不同的model上。模型平行處理可讓模型過大而無法容納單一裝置。
為實作模型平行處理,系統通常會執行下列操作:
- 將模型分割為較小的部分。
- 將這些較小的零件的訓練分散到多個處理器。 每個處理器都會訓練自己的模型部分。
- 請合併結果以建立單一模型。
模型平行處理會使訓練速度變慢。
另請參閱資料平行處理。
多頭自我注意力
「自註意」的擴充功能,可針對輸入序列中的每個位置多次套用自註意力機制。
變形金剛導入多頭注意力機制。
多模態模型
輸入和/或輸出包含多個「形式」的模型。舉例來說,假設模型同時使用圖片和文字說明文字 (兩種模式) 做為特徵,並輸出分數來表示文字說明文字的適當程度。因此,這個模型的輸入採用多模態,輸出則為單模性。
N
自然語言理解
根據使用者輸入或說出的內容,判斷使用者的意圖。舉例來說,搜尋引擎會利用自然語言理解能力,根據使用者輸入或說出的內容,判斷他們要搜尋的內容。
N 公克
由 N 個字詞排序的序列。例如,「真悲傷」是 2 公克。由於順序具有關聯性,因此「瘋狂」是與「真實」不同的 2 公克。
N | 這類 N 元語法的名稱 | 範例 |
---|---|---|
2 | Bigram 或 2 公克 | 外出、參加、吃午餐、吃晚餐 |
3 | 三角形或 3 公克 | 太多了、三隻失明的老鼠、鈴鐺 |
4 | 4 公克 | 公園中的步道、風吹塵、放著扁豆 |
許多自然語言理解模型仰賴 N 語法來預測使用者會輸入或說出的下一個字詞。舉例來說,假設使用者輸入三盲。以三元為基礎的 NLU 模型可能會預測使用者下一個類型 mice。
與 N 語法相較,詞袋是未排序的字詞組合。
自然語言理解
自然語言理解的縮寫。
O
一次性提示
這個提示內含一個範例,說明大型語言模型應如何回應。舉例來說,下列提示包含一個範例,其中顯示一個大型語言模型應如何回答查詢。
單一提示的組成部分 | Notes |
---|---|
特定國家/地區的官方貨幣為何? | 你要讓 LLM 回答的問題。 |
法國:歐元 | 例如 |
印度: | 實際的查詢。 |
比較下列字詞和「一次性提示」:
P
具參數運用效率的調整機制
相較於全面微調,能夠更有效率地微調大型預先訓練語言模型 (PLM) 的技術。相較於完整微調功能,具備參數效率的調整通常能微調許多參數,但一般會產生大型語言模型,效能也同樣優於透過完整微調建構的大型語言模型。
比較具參數運用效率的調整與以下何者進行比較:
「具參數運用效率的調整」又稱為「高效參數調整」。
管道
一種「模型平行處理」,模型的處理會分為連續階段,且每個階段都是在不同裝置上執行。當階段正在處理一個批次時,先前的階段可處理下一個批次。
另請參閱階段訓練。
波蘭茲羅提
預先訓練模型的縮寫。
位置編碼
一種技巧,可將符記的「位置」相關資訊新增至權杖嵌入。Transformer 模型會使用位置編碼,進一步瞭解序列不同部分之間的關係。
常見的位置編碼實作方式會使用正弦函式。(具體來說,正弦函式的頻率和振幅取決於符記在序列中的位置。)這項技術可讓 Transformer 模型根據位置,學習參加序列的不同部分。
預先訓練模型
已經過訓練的模型或模型元件 (例如嵌入向量)。 有時候,您必須將預先訓練的嵌入向量饋送到類神經網路中。有時候,模型會自行訓練嵌入向量,而不是依賴預先訓練的嵌入。
「預先訓練的語言模型」一詞是指已完成預先訓練的大型語言模型。
預先訓練
大型資料集上的模型初始訓練。部分預先訓練模型是笨拙的巨人,通常必須透過額外訓練進行修正。舉例來說,機器學習專家可能會針對大型文字資料集 (例如維基百科中的所有英文頁面) 預先訓練大型語言模型。預先訓練之後,您可以透過下列任一技巧進一步修正產生的模型:
提示
輸入至大型語言模型的文字內容,藉此讓模型以特定方式執行特定行為。提示可以短於詞組或任意長度 (例如小說的整個文字)。提示可分為多個類別,其中包括下表:
提示類別 | 範例 | Notes |
---|---|---|
問題 | 鴿子有多快? | |
教學 | 撰寫關於套利的趣味詩。 | 要求大型語言模型「執行」某些動作的提示。 |
範例 | 將 Markdown 程式碼轉譯為 HTML。例如:
Markdown:* 清單項目 HTML:<ul> <li>清單項目</li> </ul> |
這個範例提示的第一個句子即為指示。提示的其餘部分就是範例。 |
角色 | 說明為何在機器學習訓練中使用梯度下降法,進而達到物理學的博士學位。 | 語句的第一部分是指示,「物理學博士」一詞則為角色的部分。 |
模型的部分輸入內容 | 英國總理居住在 | 部分輸入提示可以突然 (與本範例相同) 或以底線結尾。 |
生成式 AI 模型可使用文字、程式碼、圖片、嵌入、影片等方式回應提示,
學習提示
特定模型的功能,可讓模型根據任意文字輸入內容調整行為 (提示)。在典型的提示式學習範例中,大型語言模型會透過產生文字來回應提示。舉例來說,假設使用者輸入下列提示:
概述牛頓第三次運動定律。
能夠即時回答上述提示的模型並未經過特別訓練。相反地,該模型可「瞭解」許多有關物理的事實、廣泛有關一般語言規則,以及能構成一般實用答案的許多資訊。而該知識足以提供 (希望) 實用的答案。「這個答案太複雜」或「什麼是反應?」的額外則可讓一些提示式學習系統逐漸改善答案的實用性。
提示設計
提示工程的同義詞。
提示工程
建立提示,從大型語言模型激發所需回應的秘訣。人類會執行快速工程為確保來自大型語言模型的實用回應,撰寫結構完善的提示相當重要。提示工程取決於許多因素,包括:
如要進一步瞭解如何編寫實用提示,請參閱「提示設計簡介」。
提示調整
參數效率調整機制,學習系統在實際提示前面加上的「前置字串」。
提示調整的一種變化版本 (有時稱為「前置字串調整」) 是在「每個圖層」前面加上前置字串。相較之下,多數提示調整功能只會在輸入層中加入前置字串。
R
角色提示
提示的選用部分,用於識別生成式 AI 模型的回應目標對象。沒有角色提示時,大型語言模型提供的答案不一定對提問者來說是否實用。「藉由」角色提示,大型語言模型能以更適合特定目標對象且更實用的方式做出回應。舉例來說,下列提示的角色提示部分會以粗體顯示:
- 請概述經濟學博士的這篇文章。
- 描述 10 歲以下的潮胎運作方式。
- 說明 2008 年的財務危機。像幼兒或黃金獵犬一樣
六
自註意力層
類神經網路層,可將嵌入序列 (例如權杖嵌入) 轉換為另一組嵌入。輸出序列中的每個嵌入都是透過注意力機制整合輸入序列元素中的資訊。
自註意的「self」(本身) 部分是指參加順序,而非其他情境。自我注意力是轉換器的主要建構模塊之一,會使用字典查詢術語,例如「query」、「key」和「value」。
自我注意力層會以輸入表示法序列開頭,每個字詞各有一個表示法。字詞的輸入表示法可以是簡單的嵌入。針對輸入序列中的每個字詞,網路會將字詞與整個字詞序列中每個元素的關聯性評分。關聯性分數會決定字詞最終表示法所包含的其他字詞表示法。
例如,請思考以下句子:
這隻動物並未跨越街道,因為車輛過於疲累。
下方插圖 (來自轉換工具:語言理解的新類神經網路架構) 顯示自註意層的代名詞 注意力模式,且每一行的暗色代表每個字詞對表示的影響程度:
自我注意力層會醒目顯示與「本身」相關的字詞。在本例中,注意力層已學習醒目顯示「該」可能稱為的字詞,並將最高權重指派給「動物」。
如果是一系列的「n」n權杖,自註意力功能會在序列中的每個位置分別轉換一系列的嵌入「n」n 次。
情緒分析
使用統計或機器學習演算法,判斷群組對服務、產品、機構或主題的整體態度 (正面或負面)。舉例來說,如果使用自然語言理解,演算法可以針對大學課程的文字意見回饋執行情緒分析,判斷學生通常喜歡或不喜歡該課程的程度。
序列至序列任務
將權杖輸入序列轉換為權杖輸出序列的工作。舉例來說,一系列常見的序列至序列工作如下:
- 譯者:
- 輸入序列範例:「I love You」。
- 輸出序列範例:「Je t'aime」。
- 問題回答:
- 輸入序列範例:「我在紐約市需要我的車嗎?」
- 輸出序列範例:「否。請留在家裡。」
稀疏功能
feature,其值主要為零或空白。舉例來說,包含 1 個值和 100 萬個值的特徵會稀疏。相反地,密集特徵中的值通常不是零或空白。
令人驚訝的事物在機器學習領域是稀疏特徵。類別特徵通常為稀疏特徵。舉例來說,森林中 300 種可能的樹種,一個範例可能只標示一個楓樹。或者,如果一個影片庫中的數百萬部影片 一個範例可能會只標示「卡薩布蘭卡」
在模型中,您通常會以 one-hot 編碼表示稀疏特徵。如果 one-hot 編碼較大,您可以在 one-hot 編碼上方放置「嵌入層」來提高效率。
稀疏表示法
在稀疏特徵中僅儲存非零元素的位置。
舉例來說,假設名為 species
的類別特徵識別了特定森林中的 36 種樹種。另假設每個 範例 都只會識別一個物種。
您可以使用一次性向量來表示每個範例中的樹木物種。一次性向量會包含一個 1
(代表該範例中特定樹種) 和 35 個 0
(代表該例子「不」有 35 種樹木)。因此,maple
的一次性表示法可能如下所示:
此外,稀疏表示法只會識別特定物種的位置。如果 maple
在位置 24,則 maple
的稀疏表示法只會是:
24
請注意,稀疏表示法比一次性表示法更精簡。
階段式訓練
透過連續階段訓練模型的策略。目標是加快訓練程序或提升模型品質。
以下為漸進式堆疊方法的插圖:
- 第 1 階段包含 3 個隱藏圖層,第 2 階段包含 6 個隱藏圖層,而第 3 階段包含 12 個隱藏圖層。
- 第 2 階段開始訓練,即在第 1 階段的 3 隱藏層中學到的權重。第 3 階段開始訓練,即在第 2 階段的 6 個隱藏層中學到的權重。
另請參閱管道。
T
T5
Google AI 在 2020 年推出的文字轉文字遷移學習 模型。T5 是一種編碼器-解碼器模型,以 Transformer 架構為基礎,再以超大型資料集訓練。能有效運用各種自然語言處理工作,例如產生文字、翻譯語言,以及以對話方式回答問題。
T5 從「Text-to-Text Transfer Transformer」的五個 T 取得名稱。
T5X
開放原始碼機器學習架構,旨在建構及訓練大規模自然語言處理 (NLP) 模型。T5 是在 T5X 程式碼集上實作 (建構於 JAX 和 Flax)。
溫度
控制模型輸出隨機度量的「超參數」。溫度越高,隨機輸出的次數就越多,而隨機性越低則產生較少隨機輸出。
要選擇最佳溫度,取決於特定應用程式及模型輸出內容的所需屬性。舉例來說,您可能在建立用於產生廣告素材輸出內容的應用程式時調高溫度。相反地,在建構可將圖片或文字分類的模型時,建議您降低溫度,以改善模型的準確率與一致性。
溫度經常與 softmax 搭配使用。
文字時距
與文字字串特定子區段相關聯的陣列索引時距。舉例來說,Python 字串 s="Be good now"
中的 good
字詞會佔用 3 到 6 的文字間距。
權杖
在「語言模型」中,這是指模型用於訓練及進行預測的不可分割單位。權杖通常為下列其中一種:
- 例如,「dogs like cats」這個詞組包含三個字詞符記:「狗」、「喜歡」和「貓」。
- 例如,「自行車魚」這個詞組包含 9 個字元的符記。(請注意,空格會計為其中一個符記)。
- 子字詞—單一字詞可以是單一符記或多個符記。子字詞是由根字詞、前置字元或後置字串所組成。例如,使用子字詞做為符記的語言模型可能會將「dogs」一詞顯示為兩個符記 (根字詞「dog」和複數後置字串「s」)。同一個語言模型可能會將單一字詞「較高」視為兩個子字詞 (根字詞「tall」和後置字串「er」)。
在語言模型以外的網域中,權杖可以代表其他種類的原子單位。例如,在電腦視覺中,權杖可能是映像檔的子集。
Transformer
由 Google 開發的「類神經網路」架構,仰賴自註意力機制,將一系列輸入嵌入轉換為一系列的輸出嵌入,而無須依賴卷積或循環類神經網路。Transformer 可做為自註意層的堆疊檢視。
Transformer 可包含下列任一項目:
編碼器會將一系列的嵌入轉換為長度相同的新序列。編碼器包含 N 個相同的圖層,每個層都包含兩個子層。這兩個子層會套用至輸入嵌入序列的每個位置,將序列的每個元素轉換為新的嵌入。第一個編碼器子層會匯總輸入序列中的資訊。第二個編碼器子層會將匯總資訊轉換為輸出嵌入。
解碼器會將一系列的輸入嵌入轉換為長度可能不同的輸出嵌入序列。解碼器也包含三個包含三個子層的相同層,其中兩個與編碼器的子層類似。第三個解碼器子層會接收編碼器的輸出內容,並套用自註意機制來收集編碼器中的資訊。
歡迎參閱《Transformer: A newural Network Architecture for Language 瞭解》的網誌文章,其中介紹了 Transformer 的相關簡介。
三角形
N 語法,其中 N=3。
U
單向
這個系統僅評估文字目標區段「之前」的文字。相反地,雙向系統會評估「之前」和「追蹤」文字目標區段的文字。詳情請參閱雙向。
單向語言模型
一種語言模型,僅根據顯示在之前(而非「之後」) 顯示的權杖依據機率。 與雙向語言模型相反。
V
變體自動編碼器 (VAE)
一種自動編碼器,會運用輸入內容和輸出之間的差異,產生輸入內容的修改版本。變分自動編碼器對於生成式 AI 很有幫助。
VAE 是以變體推論為基礎:評估機率模型參數的技巧。
三
字詞嵌入
「表示」嵌入向量中字詞集中的每個字詞,也就是說,每個字詞都是介於 0.0 和 1.0 之間的浮點值向量。與具有不同含義的字詞相比,具有相似意義的字詞具有更多相似的表示法。例如,「carrots」、「celery」和「cucumbers」都會有相對類似的表示法,而這與「airplane」、「sun Glass」和「Toothpaste」的表示方式非常不同。
Z
零樣本提示
單一提示的組成部分 | Notes |
---|---|
特定國家/地區的官方貨幣為何? | 你要讓 LLM 回答的問題。 |
印度: | 實際的查詢。 |
大型語言模型可能會回應下列任一項目:
- 盧比符號
- INR
- ₹
- 印度盧比
- 盧比
- 印度盧比
所有答案都正確,但您可能會想選用特定的格式。
比較零樣本提示和下列字詞: