本頁面由 Cloud Translation API 翻譯而成。

機器學習詞彙表：生成式 AI

本頁面包含生成式 AI 的詞彙表。如要查看所有詞彙表術語，請按這裡。

A

自動評估

#language

#generativeAI

使用軟體判斷模型輸出內容的品質。

如果模型輸出內容相對簡單，指令碼或程式可以將模型輸出內容與黃金回應進行比較。這類自動評估有時也稱為程式評估。ROUGE 或 BLEU 等指標通常可用於程式評估。

如果模型輸出內容複雜，或沒有單一正確答案，系統有時會使用稱為自動評分器的獨立機器學習程式自動評估。

請參閱人工評估。

自動評分

#language

#generativeAI

混合機制，結合人工評估和自動評估，用於評估生成式 AI 模型輸出內容的品質。自動撰寫器是一種機器學習模型，會根據人工評估所建立的資料進行訓練。理想情況下，自動評分器會學習模仿人類評估員。

您可以使用預先建構的自動回覆器，但最佳的自動回覆器會根據您要評估的工作進行微調。

自動迴歸模型

#language

#image

#generativeAI

模型：根據先前的預測結果推斷預測結果。舉例來說，自動迴歸語言模型會根據先前預測的符記預測下一個符記。所有以 Transformer 為基礎的大型語言模型都是自動迴歸模型。

相較之下，以 GAN 為基礎的圖像模型通常不是自動迴歸模型，因為它們會在單一前向傳遞中產生圖像，而不是在步驟中逐漸產生圖像。不過，某些圖像產生模型是自動迴歸的，因為它們會分步驟產生圖像。

C

思維鏈提示

#language

#generativeAI

提示工程技巧，可讓大型語言模型 (LLM) 逐步說明其推理方式。舉例來說，請參考下列提示，並特別留意第二句：

如果車輛在 7 秒內從 0 英里/小時加速到 60 英里/小時，駕駛者會經歷多少 g 力？在答案中顯示所有相關計算。

LLM 的回應可能會：

顯示一連串物理公式，並在適當位置插入 0、60 和 7 的值。
說明為何選擇這些公式，以及各種變數的含義。

思維鏈提示會強制大型語言模型執行所有計算，因此可能會提供更準確的答案。此外，思維鏈結提示可讓使用者檢查 LLM 的步驟，判斷答案是否合理。

對話

#language

#generativeAI

與機器學習系統進行一來一往對話的內容，通常是大型語言模型。聊天中的先前互動內容 (您輸入的內容和大型語言模型的回應方式) 會成為後續聊天內容的脈絡。

聊天機器人是大型語言模型的應用程式。

依情境設定的語言嵌入

#language

#generativeAI

嵌入式，可讓系統以流利的語言方式「理解」單字和詞組。含有語境的語言嵌入可理解複雜的語法、語意和語境。

舉例來說，假設您要為英文單字「cow」建立嵌入資料，較舊的嵌入方式 (例如 word2vec) 可代表英文單字，以便在嵌入空間中，從母牛到公牛的距離與從母羊到公羊或從女性到男性的距離相似。在這種情況下，語境化語言嵌入功能可以進一步辨識英語使用者有時會隨意使用「牛」cow一詞來表示「牛」或「公牛」。

脈絡窗口

#language

#generativeAI

模型可在特定提示中處理的符記數量。脈絡窗口越大，模型可使用的資訊就越多，因此能為提示提供連貫一致的回覆。

D

直接提示

#language

#generativeAI

與「零樣本提示」同義。

蒸餾

#generativeAI

將一個模型 (稱為「老師」) 縮減為較小的模型 (稱為「學生」) 的過程，以盡可能模擬原始模型的預測結果。精餾法十分實用，因為較小的模型相較於大型模型 (教師) 有兩項主要優點：

推論時間縮短
減少記憶體和能源用量

不過，學生的預測結果通常不如老師的預測結果準確。

精煉會訓練學生模型，根據學生模型和老師模型預測輸出的差異，盡可能減少損失函式。

比較並對照蒸餾和下列術語：

微調
以提示為基礎的學習

如需更多資訊，請參閱機器學習速成課程中的「LLM：微調、提煉和提示設計」一文。

E

evals

#language

#generativeAI

#Metric

主要用於縮寫大型語言模型評估。更廣義來說，evals 是任何形式的評估的縮寫。

評估版

#language

#generativeAI

#Metric

評估模型品質或比較不同模型的程序。

如要評估監督式機器學習模型，通常會根據驗證集和測試集進行評估。評估 LLM 通常會涉及更廣泛的品質和安全性評估。

F

真實性

#generativeAI

在機器學習領域中，這個屬性可用來描述輸出內容以現實為依據的模型。事實性是一種概念，而非指標。舉例來說，假設您將下列提示傳送至大型語言模型：

食鹽的化學式為何？

經過最佳化處理的模型會回覆：

NaCl

我們很容易假設所有模型都應以事實為依據。不過，某些提示 (例如以下提示) 應可讓生成式 AI 模型著重於提升創造力，而非事實性。

請說一首關於太空人和毛毛蟲的回文詩。

因此，產生的回文不太可能以現實為依據。

與groundedness形成對比。

少量樣本提示

#language

#generativeAI

提示：包含多個 (「幾個」) 示例，說明大型語言模型應如何回應。舉例來說，以下長篇提示包含兩個範例，說明大型語言模型如何回答查詢。

提示的組成部分	附註
`指定國家/地區的官方貨幣為何？`	要讓 LLM 回答的問題。
`法國：歐元`	舉例來說。
`英國：英鎊`	另一個例子。
`印度：`	實際查詢。

與零樣本提示和單樣本提示相比，少量樣本提示通常可產生更理想的結果。不過，少量樣本提示需要較長的提示。

少量樣本提示是一種少量樣本學習，可套用於以提示為基礎的學習。

如需詳細資訊，請參閱機器學習速成課程中的「提示工程」一節。

微調

#language

#image

#generativeAI

對預先訓練模型進行第二階段的特定任務訓練，以便修正相關參數，將模型用於特定用途。舉例來說，某些大型語言模型的完整訓練序列如下：

預先訓練：使用大量一般資料集 (例如所有英文版 Wikipedia 網頁) 訓練大型語言模型。
微調：訓練預先訓練模型，以便執行特定任務，例如回應醫療查詢。精修通常會使用數百或數千個專注於特定任務的樣本。

舉另一個例子來說，大型圖片模型的完整訓練序列如下：

預先訓練：使用大量一般圖片資料集 (例如 Wikimedia Commons 中的所有圖片) 訓練大型圖片模型。
微調：訓練預先訓練模型，以便執行特定任務，例如產生虎鯨圖片。

微調可採用下列任意組合策略：

修改預先訓練模型的所有參數。這也稱為「完整微調」。
只修改預先訓練模型的部分現有參數 (通常是離輸出層最近的層)，其他現有參數則保持不變 (通常是離輸入層最近的層)。請參閱高效參數調整。
新增更多圖層，通常是在最靠近輸出圖層的現有圖層上方。

微調是一種遷移學習。因此，微調可能會使用與訓練預先訓練模型時不同的損失函數或模型類型。舉例來說，您可以微調預先訓練的大型圖像模型，產生回傳輸入圖像中鳥類數量的迴歸模型。

請比較並對照精細調整與下列術語：

distillation
以提示為基礎的學習

詳情請參閱機器學習速成課程中的「微調」一文。

成功次數分數

#generativeAI

#Metric

用於評估機器學習模型產生的文字的指標。成功的比率是「成功」產生的文字輸出次數，除以產生的文字輸出總數。舉例來說，如果大型語言模型產生 10 個程式碼區塊，其中 5 個成功，則成功率為 50%。

雖然成功率在所有統計資料中都很實用，但在 ML 中，這項指標主要用於評估可驗證的任務，例如程式碼產生或數學問題。

G

Gemini

#language

#image

#generativeAI

這個生態系統包含 Google 最先進的 AI 技術。這個生態系統的元素包括：

各種 Gemini 模型。
Gemini 模型的互動式對話介面。使用者輸入提示，Gemini 回應這些提示。
各種 Gemini API。
各種以 Gemini 模型為基礎的業務產品，例如 Gemini 版 Google Cloud。

Gemini 模型

#language

#image

#generativeAI

Google 最先進的Transformer 型多模態模型。Gemini 模型專門用於整合代理程式。

使用者可以透過多種方式與 Gemini 模型互動，包括透過互動式對話介面和 SDK。

系統生成的文字

#language

#generativeAI

一般來說，機器學習模型輸出的文字。評估大型語言模型時，部分指標會將產生的文字與參考文字進行比較。舉例來說，假設您想判斷機器學習模型從法文翻譯成荷蘭文的效率。在這種情況下：

「產生的文字」是機器學習模型輸出的荷蘭文翻譯。
「參考文字」是指人工翻譯 (或軟體) 所建立的荷蘭文翻譯。

請注意，部分評估策略不含參照文字。

生成式 AI

#language

#image

#generativeAI

這是一門新興的變革領域，尚未有正式定義。不過，大多數專家都認為，生成式 AI 模型可以建立 (「生成」) 下列所有內容：

複雜
一致
原始圖片

舉例來說，生成式 AI 模型可以產生精緻的文章或圖像。

有些早期的技術 (包括 LSTM 和 RNN) 也能產生原創且連貫的內容。有些專家認為這些早期技術就是生成式 AI，但其他專家則認為，真正的生成式 AI 需要比這些早期技術更複雜的輸出內容。

請參閱預測機器學習。

金色回應

#language

#generativeAI

已知的正確答案。例如，請參考以下提示：

2 + 2

理想的回覆內容應為：

4

如要查看關於黃金回覆和參考文字的附註，請按這裡。

有些評估指標 (例如 ROUGE) 會將參考文字與模型的生成文字 進行比較。如果提示有單一正確答案，則金鑰回應通常會做為參考文字。

有些提示沒有正確答案。舉例來說，「摘要這份文件」提示可能會有許多正確答案。對於這類提示，參考文字通常不切實際，因為模型可以產生非常多種可能的摘要。不過，在這種情況下，使用黃金回覆可能會有所幫助。舉例來說，包含良好文件摘要的黃金回應有助於訓練自動評分工具，找出良好文件摘要的模式。

H

人工評估

#language

#generativeAI

由人類判斷機器學習模型輸出內容的品質，例如由雙語人士判斷機器學習翻譯模型的品質。人工評估特別適合用於評估沒有單一正確答案的模型。

請比較自動評估和AutoRater 評估。

人機迴圈 (HITL)

#generativeAI

這項鬆散定義的慣用語可能代表下列任一項：

政策規定要以批判或懷疑的態度看待生成式 AI 輸出內容。舉例來說，撰寫這份 ML 詞彙表的人員對大型語言模型的功能感到驚奇，但也留意到大型語言模型會出錯。
一種策略或系統，可確保使用者協助塑造、評估及改善模型的行為。讓人類參與 AI 開發流程，可讓 AI 同時運用機器智慧和人類智慧。舉例來說，如果系統是 AI 產生程式碼，再由軟體工程師審查，就是人機協作系統。

I

情境式學習

#language

#generativeAI

與「少量樣本提示」同義。

調整指示

#generativeAI

一種微調形式，可改善生成式 AI模型遵循指示的能力。指令微調會針對一系列指令提示訓練模型，通常涵蓋多種任務。產生的經過調整指令的模型，通常會針對各種任務產生實用的零示例提示回應。

比較及對比：

高效參數微調
提示微調

L

LLM

#language

#generativeAI

大型語言模型的縮寫。

大型語言模型評估 (evals)

#language

#generativeAI

#Metric

一組用於評估大型語言模型 (LLM) 效能的評估指標和基準。大致來說，LLM 評估有以下功能：

協助研究人員找出 LLM 需要改善的部分。
可用於比較不同的 LLM，並找出特定任務的最佳 LLM。
確保 LLM 的使用方式安全且符合道德。

如需更多資訊，請參閱機器學習速成課程中的「大型語言模型 (LLM)」一文。

LoRA

#language

#generativeAI

低秩適應性的縮寫。

低秩適應性 (LoRA)

#language

#generativeAI

參數效率高的微調技巧，可「凍結」模型的預先訓練權重 (以便不再修改)，然後在模型中插入一小組可訓練的權重。這組可訓練的權重 (也稱為「更新矩陣」) 比基本模型小得多，因此訓練速度也快得多。

LoRA 具備下列優點：

改善模型在精細調整的領域中預測的品質。
比起需要微調所有模型參數的技術，這項技術可更快速地進行微調。
允許同時服務共用相同基礎模型的多個專門模型，藉此降低推論的運算成本。

按一下圖示，即可進一步瞭解 LoRA 中的更新矩陣。

LoRA 使用的更新矩陣包含排名分解矩陣，這些矩陣是從基礎模型衍生而來，可協助過濾雜訊，並將訓練重點放在模型中最重要的特徵。

M

機器翻譯

#generativeAI

使用軟體 (通常是機器學習模型) 將文字從一種人類語言轉換為另一種人類語言，例如從英文轉換為日文。

k 的平均精確度 (mAP@k)

#language

#generativeAI

#Metric

在驗證資料集中，所有平均精確度 (k) 分數的統計平均值。在 k 處計算平均精確度有一個用途，就是判斷推薦系統產生的推薦內容品質。

雖然「平均平均值」這個詞組聽起來很冗長，但指標名稱是適當的。畢竟這項指標會找出多個平均精確度 (k) 值的平均值。

按一下圖示即可查看範例。

假設您建構的推薦系統會為每位使用者產生個人化推薦小說清單。根據所選使用者的意見回饋，您計算出下列五個平均精確度 (每位使用者一分數)：

0.73
0.77
0.67
0.82
0.76

因此，K 的平均平均精確度為：

$$\text{mean } = \frac{\text{0.73 + 0.77 + 0.67 + 0.82 + 0.76}} {\text{5}} = \text{0.75}$$

專家組合

#language

#generativeAI

這項做法可提高神經網路的效率，方法是只使用部分參數 (稱為專家) 處理特定輸入符記或示例。篩選網路會將每個輸入符記或範例導向適當的專家。

詳情請參閱下列任一論文：

MMIT

#language

#image

#generativeAI

多模態指令調整的縮寫。

模型階層

#generativeAI

系統會為特定推論查詢挑選理想的模型。

想像一組模型，從非常大型 (大量參數) 到非常小型 (參數少得多) 都有。相較於小型模型，超大型模型在推論時會消耗更多運算資源。不過，相較於小型模型，大型模型通常可以推斷更複雜的要求。模型層疊功能會判斷推論查詢的複雜度，然後挑選適當的模型來執行推論。導入模型層疊的主要動機，是為了減少推論成本，一般來說，您應該選擇較小的模型，並只在複雜查詢時選擇較大的模型。

假設小型模型在手機上執行，而較大型的模型則在遠端伺服器上執行。良好的模型層級轉移可讓較小的模型處理簡單要求，並只呼叫遠端模型處理複雜要求，進而降低成本和延遲時間。

另請參閱模型路由器。

模型路由器

#generativeAI

這個演算法可決定在模型層疊中，推論的理想模型。模型路由器本身通常是一種機器學習模型，可逐漸學習如何為特定輸入內容挑選最佳模型。不過，模型路由器有時可能是較簡單的非機器學習演算法。

MOE

#language

#image

#generativeAI

混合專家的縮寫。

MT

#generativeAI

機器翻譯的縮寫。

否

沒有唯一正確答案 (NORA)

#language

#generativeAI

提示有多個適當的回覆選項。舉例來說，下列提示沒有正確答案：

講個關於大象的笑話。

評估「沒有正確答案」提示可能會很困難。

NORA

#language

#generativeAI

沒有正確答案的縮寫。

O

單樣本提示

#language

#generativeAI

提示，其中包含一個示例，說明大型語言模型應如何回應。舉例來說，以下提示包含一個範例，說明大型語言模型應如何回答查詢。

提示的組成部分	附註
`指定國家/地區的官方貨幣為何？`	要讓 LLM 回答的問題。
`法國：歐元`	舉例來說。
`印度：`	實際查詢。

請比較一次性提示與下列術語：

零樣本提示
少量樣本提示

P

高效參數微調

#language

#generativeAI

一組技巧，可微調大型預先訓練語言模型 (PLM)，比完整微調更有效率。相較於完整微調，參數效率高微調通常會微調的參數會少很多，但通常產生的大型語言模型效能與經過完整微調的大型語言模型一樣好 (或幾乎一樣好)。

比較具參數運用效率的調整機制與下列項目：

指示微調
提示微調

高效參數微調也稱為高效參數微調。

PLM

#language

#generativeAI

預先訓練語言模型的縮寫。

訓練後模型

#language

#image

#generativeAI

這項術語定義較為寬鬆，通常是指經過某些後置處理程序的預先訓練模型，例如下列一或多項：

蒸餾
微調
指示微調

預先訓練模型

#language

#image

#generativeAI

通常是指已訓練的模型。這個詞彙也可能代表先前訓練的嵌入向量。

「預先訓練的語言模型」一詞通常是指已訓練過的大型語言模型。

預先訓練

#language

#image

#generativeAI

在大型資料集上初步訓練模型。部分預先訓練模型是笨重的巨人，通常必須透過額外訓練才能精進。舉例來說，機器學習專家可能會在大量文字資料集 (例如 Wikipedia 中的所有英文頁面) 上預先訓練大型語言模型。預先訓練完成後，您可以使用下列任一技術進一步精進產生的模型：

distillation
微調
指示微調
高效參數微調
prompt-tuning

提示

#language

#generativeAI

任何輸入至大型語言模型的文字，可讓模型以特定方式運作。提示可以是短短一句話，也可以是任意長度 (例如小說的完整內容)。提示可分為多個類別，包括下表所列：

提示類別	範例	附註
問題	`鴿子飛得多快？`
指示	`寫一首關於套利的有趣詩。`	提示，要求大型語言模型執行某項操作。
範例	`將 Markdown 程式碼轉換為 HTML。例如： Markdown：* 清單項目 HTML：<ul> <li>清單項目</li> </ul>`	這個提示範例的第一句話是指示。提示的其餘部分就是範例。
角色	`向物理學博士解釋為何在機器學習訓練中使用梯度下降法。`	句子的前半部是指示，而「物理學博士」是角色部分。
模型可補完的部分輸入內容	`英國首相住在`	部分輸入提示訊息可以突然結束 (如本範例所示)，也可以結尾加上底線。

生成式 AI 模型可根據提示回應文字、程式碼、圖片、嵌入資料和影片等內容，幾乎可以回應任何內容。

提示式學習

#language

#generativeAI

特定模型的功能，可讓模型根據任意文字輸入內容 (提示) 調整行為。在典型的提示式學習模式中，大型語言模型會透過產生文字來回應提示。舉例來說，假設使用者輸入以下提示：

摘要說明牛頓第三運動定律。

具備提示式學習功能的模型並未特別訓練來回答先前的提示。相反地，模型「知道」許多物理學事實、許多一般語言規則，以及許多構成一般實用答案的內容。這項知識足以提供 (希望是) 實用的答案。額外的人為回饋 (例如「這個答案太複雜了」或「有什麼反應？」) 可讓部分以提示為基礎的學習系統逐步改善答案的實用性。

提示設計

#language

#generativeAI

提示工程的同義詞。

提示工程

#language

#generativeAI

創造提示的技巧，可從大型語言模型中提取所需回覆。人類會執行提示工程。撰寫結構良好的提示，是確保大型語言模型提供實用回應的重要環節。提示工程取決於多項因素，包括：

用於預先訓練大型語言模型，並可能微調的資料集。
模型用來產生回應的溫度和其他解碼參數。

提示設計是提示工程的同義詞。

如要進一步瞭解如何撰寫實用的提示，請參閱「提示設計簡介」。

調整提示

#language

#generativeAI

參數效率調整機制，可學習系統在實際提示前端加上的「前置字串」。

提示調整的一種變化版本 (有時稱為「前置字串調整」) 是將前置字串附加至每個圖層。相較之下，大部分的提示調整作業只會在輸入層中加入前置字串。

按一下圖示即可進一步瞭解前置字元。

在提示調整方面，「前置字串」(也稱為「軟提示」) 是一些學習到的特定任務向量，會附加至實際提示的文字符記嵌入項目。系統會凍結所有其他模型參數，並針對特定工作進行微調，藉此學習軟提示。

R

參考文字

#language

#generativeAI

專家對提示的回覆。例如，請參考下列提示：

將問題「What is your name?」從英文翻譯成法文。

專家的回覆可能如下：

Comment vous appelez-vous?

各種指標 (例如 ROUGE) 可評估參考文字與 ML 模型生成的文字的相似程度。

人類回饋增強學習 (RLHF)

#generativeAI

#rl

使用人工評分員的意見回饋，提升模型回覆品質。舉例來說，RLHF 機制可以要求使用者使用 👍 或 👎 表情符號評分模型回應的品質。系統就能根據這些意見回饋調整日後的回應。

角色提示

#language

#generativeAI

提示的選用部分，用於識別生成式 AI 模型回應的目標對象。如果沒有角色提示，大型語言模型提供的答案可能對提問者有用，也可能沒有用。有了角色提示，大型語言模型就能以更適當且實用的回應方式，服務特定目標對象。例如，下列提示的角色提示部分以粗體顯示：

請為經濟學博士摘要這份文件。
以十歲兒童為例，說明潮汐的運作方式。
解釋 2008 年金融危機。說話時，就像對年幼兒童或金毛尋回犬說話一樣。

S

軟性提示調整

#language

#generativeAI

一種針對特定工作調整大型語言模型的技術，不必耗用大量資源進行微調。軟式提示調整功能不會重新訓練模型中的所有權重，而是會自動調整提示，以達到相同目標。

在收到文字提示時，軟性提示調整功能通常會在提示中附加額外的符記嵌入，並使用反向傳播來最佳化輸入內容。

「硬式」提示包含實際的符記，而非符記嵌入。

T

溫度

#language

#image

#generativeAI

超參數，用於控制模型輸出內容的隨機程度。溫度越高，輸出內容的隨機性就越高；溫度越低，輸出內容的隨機性就越低。

選擇最佳溫度時，請考量特定應用程式和模型輸出的偏好屬性。舉例來說，如果您要建立產生創意輸出的應用程式，可能會提高溫度。反之，建構圖片或文字分類模型時，您可能會降低溫度，以提高模型的準確度和一致性。

溫度通常會與 softmax 搭配使用。

Z

零樣本提示

#language

#generativeAI

提示「不」提供您希望大型語言模型回應的範例。例如：

提示的組成部分	附註
`指定國家/地區的官方貨幣為何？`	要讓 LLM 回答的問題。
`印度：`	實際查詢。

大型語言模型可能會回覆下列任一內容：

盧比符號
印度盧比
₹
印度盧比
盧比
印度盧比

所有答案皆正確，但您可能會偏好特定格式。

請比較零示範提示與下列術語：

單樣本提示
少量樣本提示

機器學習詞彙表：生成式 AI 透過集合功能整理內容 你可以依據偏好儲存及分類內容。

A

自動評估

自動評分

自動迴歸模型

C

思維鏈提示

對話

依情境設定的語言嵌入

脈絡窗口

D

直接提示

蒸餾

E

evals

評估版

F

真實性

少量樣本提示

微調

成功次數分數

G

Gemini

Gemini 模型

系統生成的文字

生成式 AI

金色回應

如要查看關於黃金回覆和參考文字的附註，請按這裡。

H

人工評估

人機迴圈 (HITL)

I

情境式學習

調整指示

L

LLM

大型語言模型評估 (evals)

LoRA

低秩適應性 (LoRA)

按一下圖示，即可進一步瞭解 LoRA 中的更新矩陣。

M

機器翻譯

k 的平均精確度 (mAP@k)

按一下圖示即可查看範例。

專家組合

MMIT

模型階層

模型路由器

MOE

MT

否

沒有唯一正確答案 (NORA)

NORA

O

單樣本提示

P

高效參數微調

PLM

訓練後模型

預先訓練模型

預先訓練

提示

提示式學習

提示設計

提示工程

調整提示

按一下圖示即可進一步瞭解前置字元。

R

參考文字

人類回饋增強學習 (RLHF)

角色提示

S

軟性提示調整

T

溫度

Z

零樣本提示

機器學習詞彙表：生成式 AI