本頁面由 Cloud Translation API 翻譯而成。

機器學習詞彙表：映像檔模型

本頁麵包含「圖片模型」詞彙表字詞。如需所有詞彙表字詞，請按這裡。

A

擴增實境

#image

將電腦產生的圖片疊加在使用者現實世界的視角，藉此提供複合檢視。

自動編碼器

#language

#image

學習從輸入中擷取最重要的資訊的系統。自動編碼器是由編碼器和解碼器構成。自動編碼器仰賴下列兩個步驟：

編碼器會將輸入對應至 (通常) 有損低維 (中間) 格式。
解碼器會將較低維度格式對應至原始較高維度輸入格式，藉此建構原始輸入的有損版本。

自動編碼器接受端對端訓練，解碼器會盡可能嘗試從編碼器中繼格式重建原始輸入內容。由於中間格式比原始格式小 (較低維度)，因此自動編碼器必須學習輸入的哪些資訊為重要，而且輸出結果不一定會與輸入內容完全相同。

例如：

如果輸入資料是圖形，則非完全相同的副本會與原始圖片類似，但會稍有修改。非精確的文案可能會移除原始圖像中的雜訊，或填滿某些缺少的像素。
如果輸入資料是文字，自動編碼器會產生新文字，以模仿 (但不會與) 原始文字完全相同。

另請參閱變化自動編碼器。

自動迴歸模型

#language

#image

#生成式 AI

根據先前的預測結果推測預測結果的model。例如，自動迴歸語言模型會根據先前預測的符記預測下一個「權杖」。所有以 Transformer 為基礎的大型語言模型都是自動迴歸。

相反地，GAN 的圖片模型通常不是自動迴歸，因為這些模型是以單一向向傳送 (而非步驟) 產生圖片。不過，某些圖片產生模型「是」自動迴歸，因為模型可逐步產生圖片。

B

定界框

#image

在圖片中，矩形圍繞著特定區域的 (x、y) 座標，如下圖中的犬隻。

相片：小狗坐在沙發上。綠色定界框
左上方座標為 (275, 1271)，右下方座標為 (2954, 2761)，代表犬隻的身體

C

卷積

#image

在數學類遊戲中，是將兩項功能混合在一起的。在機器學習中，卷積混合使用「卷積篩選器」和輸入矩陣來訓練權重。

機器學習中的「卷積」一詞通常是用來指稱卷積運算或卷積層的簡單方法。

如果沒有捲積，機器學習演算法就必須學習大型張量中每個儲存格的權重。例如，對 2K x 2K 圖片進行機器學習演算法訓練時，必須找出 400 萬個獨立的權重。得益於卷積，機器學習演算法只需要找出卷積篩選器中每個儲存格的權重，即可大幅減少訓練模型所需的記憶體。套用卷積篩選器時，會直接跨儲存格複製，讓每個儲存格都與篩選器相乘。

卷積濾波器

#image

我們是卷積運算中的兩個演員之一。(另一個發動者是輸入矩陣的切片)。卷積篩選器是一種矩陣，與輸入矩陣的「排名」相同，但形狀較小。舉例來說，假設有一個 28x28 輸入矩陣，篩選器可以是小於 28x28 的任何 2D 矩陣。

在光學操控中，卷積篩選器中的所有儲存格通常會設為 1 和 0 的常數模式。在機器學習中，卷積篩選器通常會以隨機數字植入，然後是網路「訓練」是最理想的值。

卷積層

#image

深層類神經網路層，卷積篩選器會沿著輸入矩陣傳遞。舉例來說，請考慮使用下列 3x3 的「卷積篩選器」：

具備下列值的 3x3 矩陣：[[0,1,0], [1,0,1], [0,1,0]]

以下動畫顯示卷積層，由 9 個卷積運算組成，涉及 5x5 輸入矩陣。請注意，每項卷積運算都會在輸入矩陣中的 3x3 切片中運作。產生的 3x3 矩陣 (右側) 由 9 個卷積運算結果組成：

顯示兩個矩陣的動畫。第一個矩陣是 5x5 矩陣：[[128,97,53,201,198], [35,22,25,200,195], [37,24,28,197,182]、[33,28,92,195,179]、[131、28、92、195、179]。第二個矩陣是 3x3 矩陣：[[181,303,618], [115,338,605], [169,351,560]。第二個矩陣的計算方式是將卷積濾波器 [[0, 1, 0], [1, 0, 1], [0, 1, 0]] 套用到 5x5 矩陣的不同 3x3 個子集。

卷積類神經網路

#image

類神經網路，其中至少一層是「卷積層」。典型的捲積類神經網路包含下列幾層的組合：

卷積層
集區層
稠密層

卷積類神經網路在處理影像辨識等特定問題方面取得成功。

卷積運算

#image

下列兩步驟數學運算：

卷積篩選器的元素優先乘法，以及輸入矩陣的切片。(輸入矩陣配量的排名和大小與卷積篩選器相同)。
產生的產品矩陣所有值的總和。

例如，請思考以下 5x5 輸入矩陣：

5x5 矩陣：[[128,97,53,201,198], [35,22,25,200,195], [37,24,28,197,182]、[33,28,92,195,179]、[31,40,210

現在請想像以下 2x2 卷積濾波器：

2x2 矩陣：[[1, 0], [0, 1]]

每個卷積運算都包含輸入矩陣的單一 2x2 配量。舉例來說，假設我們在輸入矩陣左上角使用 2x2 的切片。因此，這個配量上的捲積運算如下：

將卷積濾鏡 [[1, 0], [0, 1]] 套用到輸入矩陣左上角 2x2 區段 ([[128,97], [35,22])。卷積濾波器會完整保留 128 和 22，但 97 和 35 會保持零。因此，卷積運算會產生值 150 (128+22)。

「卷積層」包含一系列卷積運算，每個運算層都會對輸入矩陣的不同配量。

D

資料增強

#image

轉換現有範例來建立更多範例，以手動方式提升訓練範例的範圍和數量。例如，提供圖片是您的其中一個功能，但資料集內的圖片範例不足，導致模型無法學習有用的關聯。在理想情況下，您應將足夠的已加上標籤圖片新增至資料集，才能讓模型正確訓練。如果不可行，資料擴增功能可能會旋轉、延展及反映每張圖片，產生許多原始圖片變化版本，可能產生足夠的加上標籤資料，以利進行卓越訓練。

深度可分離卷積類神經網路 (sepCNN)

#image

以 Inception 為基礎的卷積類神經網路架構，但 Inception 模組會替換為深度可分割的捲積。也稱為 Xception。

深度可分卷的捲積 (也稱為可分離的捲積) 會將標準 3D 卷積組成兩個提升運算效率的獨立卷積運算：第一是深度卷積，深度為 1 (n × × × 1)，寬度，十度 (1 × × × 以)。

詳情請參閱「Xception: Deep Learning with Depthwise Separable Reolutions」(Xception：深度可相散卷法的深度學習)。

降低取樣

#image

超載字詞可能代表以下任一種情況：

減少功能中的資訊量，更有效率地訓練模型。例如，在訓練圖片辨識模型之前，先將高解析度的圖片縮減為較低解析度的格式。
使用比例極低的類別範例進行訓練，以改善代表比例不足類別的模型訓練。舉例來說，在類別不平衡的資料集中，模型往往會學到更多關於主要類別的資訊，但不太有關少數類別。降低取樣有助於平衡多數和少數類別的訓練量。

F

微調

#language

#image

#生成式 AI

第二項任務專屬訓練通過對預先訓練模型，修正特定用途的參數。例如，某些大型語言模型的完整訓練順序如下：

預先訓練：使用大量的「一般」資料集 (例如所有英文的 Wikipedia 頁面) 訓練大型語言模型。
微調：訓練預先訓練模型來執行「特定」工作，例如回應醫療查詢。微調通常需要數百或數千個範例來著重於特定工作。

再舉一個例子，大型圖片模型的完整訓練順序如下：

預先訓練：使用大量「一般」圖片資料集訓練大型圖片模型，例如 Wikimedia 通用圖片中的所有圖片。
微調：訓練預先訓練模型來執行「特定」工作，例如產生 Orcas 的圖片。

微調可採用下列策略的任意組合：

修改預先訓練模型的現有所有參數。這種做法有時也稱為「完全微調」。
如果您只修改「部分」預先訓練模型的現有參數 (通常是最靠近輸出層的層)，其他現有參數則保持不變 (通常是離輸入層的圖層)。請參閱符合參數效率的調整方法相關說明。
新增更多圖層，通常位於最接近輸出層的現有層之上。

微調是一種遷移學習。因此，微調可能使用與訓練預先訓練模型不同的損失函式或模型類型。舉例來說，您可以微調預先訓練的大型圖片模型，以產生可在輸入圖片中傳回鳥類數量的迴歸模型。

使用下列字詞比較並對照微調：

G

生成式 AI

#language

#image

#生成式 AI

新興的轉換欄位，沒有正式的定義。儘管如此，大多數專家都認為生成式 AI 模型可以建立 (「產生」) 的內容如下：

複雜
一致
原始圖片

舉例來說，生成式 AI 模型可以生成複雜的論文或圖片

部分較舊的技術 (包括 LSTM 和 RNN) 也可以產生原創且連貫的內容。有些專家認為這些早期技術就是生成式 AI，有些則認為

相對於預測機器學習。

I

圖片辨識

#image

用於分類圖片中物件、模式或概念的程序。圖片辨識也稱為「圖片分類」。

詳情請參閱 ML Practicum：圖片分類一文。

交集 (IoU)

#image

兩個集合的交集除以聯集。在機器學習圖片偵測工作中，IoU 是用來測量模型與實際資料定界框相關的預測定界框準確度。在此情況下，兩個方塊的 IoU 是指重疊區域與總區域之間的比率，而且其值介於 0 (預測定界框與真值定界框之間) 到 1 (預測定界框與真值定界框的座標完全相同) 之間。

如下圖所示：

預測的定界框 (此座標代表了模型預測繪畫中夜間表位置的座標) 會以紫色顯示。
真值定界框 (用來限制畫作中夜桌的實際位置的座標) 會以綠色外框描繪。

梵谷正在為阿里斯的文森臥室繪畫，床邊的夜桌周圍有兩個不同的定界框。真值定界框 (綠色) 完全環繞著夜晚桌子。預測出的定界框 (紫色) 會向下偏移 50%，位於真值定界框的右側；包住夜間資料表的右下方四分之一，但遺漏了表格的其餘部分。

在本例中，用於預測和真值的定界框交集 (左下方) 為 1，預測的定界框聯集 (右下方) 為 7，因此 IoU 為 \(\frac{1}{7}\)。

與上述圖片相同，但每個定界框分成四個象限。總共有七個象限，因為真值定界框的右下方象限，以及預測定界框的左上方象限彼此重疊。這個重疊部分 (以綠色醒目顯示) 代表交集，且面積為 1。

與上述圖片相同，但每個定界框分成四個象限。這裡總共有七個象限，因為真值定界框的右下方象限，以及預測定界框的左上方象限彼此重疊。內部定界框 (以綠色醒目顯示) 包住的整個內部，代表聯集，面積為 7。

K

關鍵點

#image

圖片中特定地圖項目的座標。舉例來說，對於區分花朵品種的圖片辨識模型，關鍵點可能是每個寵物、莖、葉子等的中心。

L

地標

#image

鍵點的同義詞。

M

MNIST

#image

由 LeCun、Cortes 和 Burge 編譯的公開網域資料集，內含 60,000 張圖片，每張圖片都顯示人類如何從 0 到 9 手動撰寫特定數字。每張圖片都會儲存為 28x28 的整數陣列，其中每個整數都是 0 到 255 (含) 之間的灰階值。

MNIST 是機器學習的標準資料集，通常用於測試新的機器學習技術。詳情請參閱 MNIST 手寫數字資料庫。

P

彙整

#image

將先前卷積層建立的矩陣 (或矩陣) 縮減為較小的矩陣。集區通常牽涉到整個集區區域的最大值或平均值。舉例來說，假設有以下 3x3 矩陣：

3x3 矩陣 [[5,3,1], [8,2,5], [9,4,3]]。

集區運算就像卷積運算一樣，會將矩陣分割為配量，然後依據「跨步」滑動卷積運算。舉例來說，假設池化運算以 1x1 的步伐將卷積矩陣分割為 2x2 的配量。如下圖所示，執行四種集區作業。假設每個集區運算都會選取該片段中的四個最大值：

輸入矩陣為 3x3，且值為：[[5,3,1], [8,2,5], [9,4,3]。輸入矩陣左上角 2x2 的子矩陣為 [[5,3], [8,2]]，因此左上方的集區運算會產生值 8 (上限為 5、3、8 和 2)。輸入矩陣的右上方 2x2 子矩陣為 [[3,1], [2,5]]，因此右上方的集區運算會產生值 5。輸入矩陣左下角 2x2 的子矩陣為 [[8,2], [9,4]]，因此左下角的池運算運算會產生值 9。輸入矩陣右下角的 2x2 子矩陣為 [[2,5], [4,3]]，因此右下角的集區運算會產生值 5。總而言之，池化運算會產生 2x2 矩陣 [[8,5], [9,5]]。

集區可協助您在輸入矩陣中強制執行「平移變異數」。

視覺應用程式集區稱為「空間集區」。時間序列應用程式通常將集區稱為「臨時集區」。在其他情況下，集區通常稱為「向下取樣」或「降低取樣」。

預先訓練模型

#language

#image

#生成式 AI

已經訓練的模型或模型元件 (例如嵌入向量)。有時候，您會將預先訓練的嵌入向量饋送至「類神經網路」中。有時，您的模型會自行訓練嵌入向量，而不是依賴預先訓練的嵌入。

「預先訓練模型」一詞是指在通過預先訓練的大型語言模型。

預先訓練

#language

#image

#生成式 AI

在大型資料集中訓練模型的初始訓練。有些預先訓練模型是無害的巨人，通常得透過額外訓練加以修正。舉例來說，機器學習專家可能會對大型文字資料集 (例如維基百科中的所有英文頁面) 預先訓練大型語言模型。在預先訓練之後，產生的模型可以透過下列任一技巧進一步微調：

R

旋轉不變

#image

處理圖片分類問題時，演算法仍能成功分類圖片，即使圖片方向改變也一樣。舉例來說，演算法仍可識別網球拍 (朝上、側面或向下的方向)。請注意，不一定適合旋轉變異數；例如，顛倒的 9 不應歸類為 9。

另請參閱「平移變異數」和「大小變異數」。

六

尺寸不變

#image

發生圖片分類問題時，演算法仍能成功分類圖片，即使圖片大小改變也一樣。舉例來說，演算法仍可識別取用 200 萬像素或 20 萬像素的貓。請注意，即使是最好的圖片分類演算法，在大小差異方面仍設有嚴格的限制。比方說，演算法 (或人類) 可能無法將僅使用 20 像素的貓咪圖片正確分類。

另請參閱「平移變異數」和「旋轉變異數」。

空間集區

#image

請參閱「集區」。

跨距

#image

在卷積運算或集區中，下一個一系列輸入配量中每個維度的差異。例如，以下動畫示範在卷積運算期間的步伐 (1,1)。因此，下一個輸入片段會從上一個輸入片段的右側開始一個位置。當作業到達右側邊緣時，下一個片段會一直往左方，但下一個位置。

輸入 5x5 矩陣與 3x3 卷積濾波器。由於步狀為 (1,1)，因此系統會套用卷積濾波器 9 次。第一個卷積配量會評估輸入矩陣左上角 3x3 的子矩陣，第二個配量會評估中間的 3x3 子矩陣。第三個卷積配量會評估右上角 3x3 子矩陣。第四個切片會評估中間的 3x3 子矩陣。第五個配量會評估中間的 3x3 子矩陣。第六個切片會評估中間的 3x3 子矩陣。第七切片會評估左下方 3x3 的子矩陣。第八個切片會評估底部中間 3x3 的子矩陣。第 9 個切片會評估右下角的 3x3 子矩陣。

上例示範了二維步。如果輸入矩陣是 3D，依序也是 3D。

向下取樣

#image

請參閱「集區」。

T

溫度

#language

#image

#生成式 AI

控制模型輸出隨機程度的超參數。隨機性參數越高，隨機輸出的內容越多，而低溫則會產生較少的隨機輸出內容。

視特定應用程式及模型輸出偏好的屬性而定，選擇最佳溫度的做法會有不同。舉例來說，假設您在建立可產生廣告素材輸出內容的應用程式時，可能會提高溫度。相反地，在建構可將圖片或文字分類的模型時，為了提高模型的準確率和一致性，您可能會降低溫度。

溫度通常會與 softmax 搭配使用。

翻譯不變

#image

發生圖片分類問題時，即使圖片中的物件位置有所變更，演算法仍能成功分類圖片。舉例來說，演算法仍然可以辨識狗，無論狗狗位於影格的中心或影格的左側都一樣。

另請參閱「大小變異數」和「旋轉變異數」。