機器學習詞彙表:圖片模型

本頁包含「圖片模型」詞彙詞彙。如需所有詞彙詞彙,請按這裡

A

擴增實境

#image

這項技術會疊加電腦產生的圖片,為使用者的真實畫面呈現資訊,提供複合檢視區塊。

自動編碼器

#language
#image

系統會學習從輸入中擷取最重要的資訊的系統。自動編碼器是由編碼器解碼器所組成。自動編碼器必須採用下列兩個步驟:

  1. 編碼器會將輸入對應至 (通常) 失真的低維度 (中繼) 格式。
  2. 解碼器會將低維度格式對應至原始的高維度輸入格式,藉此建構原始輸入的失真版本。

自動解碼器會盡可能從編碼器的中間格式重新建構原始輸入,藉此端對端訓練。由於中繼格式比原始格式更小 (維度較低),因此自動編碼器會學習輸入資訊的必要資訊,且輸出內容也不會與輸入不完全相同。

例如:

  • 如果輸入資料是圖形,則非完全相同的複本會與原始圖形相似,但會稍微修改。例如,非完全複製的副本可能會從原始圖像中移除乾擾,或填補部分缺少的像素。
  • 如果輸入資料是文字,自動編碼器會產生新文字,但會模仿原始文字 (但並非完全相同)。

另請參閱變化版本自動編碼器

自動迴歸模型

#language
#image
#generativeAI

模型會根據其先前的預測推斷預測。舉例來說,自動迴歸語言模型會根據先前預測的權杖,預測下一個權杖。所有以 Transformer 為基礎的大型語言模型都適用自動迴歸功能。

相反地,GAN 型圖片模型通常不會自動迴歸,因為這些圖片只會使用單向傳遞,而不會在步驟中反覆進行。不過,某些圖片產生模型「會」自動迴歸,因為這些模型會在步驟中產生圖片。

B

定界框

#image

在圖片中,矩形的周圍區域 (xy) 座標,如下方圖中的犬隻。

寵物狗坐在沙發上的相片。綠色定界框搭配

C

卷積

#image

在數學中,自然來說,這結合了兩種函式。在機器學習中,轉換會混合使用卷積篩選條件和輸入矩陣,以便訓練權重

機器學習中的「卷積」一詞通常簡稱為「卷積運算或「卷積層

如果沒有捲積,機器學習演算法必須學習大型張量中的每個儲存格的獨立權重。舉例來說,將針對 2K x 2K 圖片的機器學習演算法進行訓練,將必須分別找到 400 萬個權重。受到卷積的影響,機器學習演算法只能找出卷積篩選器中的每個儲存格,然後大幅減少訓練模型所需的記憶體。套用卷積篩選器時,只會複製至所有儲存格,使每個儲存格都會乘以篩選器。

卷積濾鏡

#image

卷積運算的兩個演員之一。(另一個執行者是輸入矩陣的一部分)。卷積篩選器是矩陣,其與輸入矩陣的排名相同,但形狀較小。例如,假設為 28x28 輸入矩陣,則篩選器可以是 28 x 28 小於 2 的矩陣。

在攝影操控中,卷積濾鏡中的所有儲存格通常會設為一到零的固定模式。在機器學習中,卷積篩選器通常具有隨機數值,然後網路會訓練理想值。

卷積層

#image

深層類神經網路內含卷積濾鏡舉例來說,請考慮使用下列 3x3 卷積篩選器

含有下列值的 3x3 矩陣:[[0,1,0], [1,0,1], [0,1,0]]

以下動畫顯示的是 9x5 個涉及 5x5 輸入矩陣的捲積層。請注意,每項轉換作業在 3x3 配量的各個部分上運作。右側的 3x3 矩陣包含 9 項對話運算的結果:

顯示兩個矩陣的動畫。第一個矩陣是 5x5 矩陣:[[128,97,53,201,198], [35,22,25,200,195], [37,24,28,197,182], [33,28,92,195,179], [31,102]第二個矩陣是 3x3 矩陣:[[181,303,618], [115,338,605], [169,351,560]]。第二個矩陣是透過對 3x5 矩陣的不同 3x3 子集套用卷積篩選條件 [[0, 1, 0], [1, 0, 1], [0, 1, 0]]。

卷積類神經網路

#image

「至少類神經網路」是至少一層卷積層。典型的類神經網路由以下層組合組成:

卷積類神經網路在某種類型的問題上獲得良好成效,例如圖片辨識。

卷積運算

#image

以下兩步驟的數學運算:

  1. 卷積篩選器和元素輸入矩陣的一部分。(輸入矩陣的百分位數與轉換篩選器的順序和大小相同)。
  2. 產生的產品矩陣中的所有值總和。

舉例來說,請參考以下 5x5 輸入矩陣:

5x5 矩陣:[[128,97,53,201,198], [35,22,25,200,195], [37,24,28,197,182], [33,28,92,195,179], [31,40,100]

現在請想像以下 2x2 卷積濾鏡:

2x2 矩陣:[[1, 0], [0, 1]]

每項卷積運算都有一個輸入矩陣的單一 2x2 配量。舉例來說,假設我們使用輸入矩陣左上方的 2x2 配量。因此,這個片段的捲積運算如下所示:

將卷積篩選條件 [[1, 0], [0, 1]] 套用到輸入矩陣的左上角 2x2 部分,也就是 [[128,97], [35,22]]。卷積濾鏡離開了 128 和 22 的面積,但 97 和 35 為零。因此,轉換作業運算會產生 150 (128+22) 的值。

「卷積層」包含一系列卷積運算,每個運算都會對輸入矩陣的不同部分執行。

D

資料擴充

#image

透過轉換現有的範例,以手動方式提升其他訓練範例的範圍和數量。例如,提供圖片是功能之一,但資料集所含的圖片範例不足,可讓模型學習實用的關聯。在理想情況下,建議您在資料集中加入足夠的已加上標籤圖片,讓模型能夠正確進行訓練。如果無法做到,資料擴充可能會旋轉、延展和呈現每張圖片,藉此產生原始圖像的許多變化版本,這或許會產生足夠的標籤資料,進而提供出色的訓練。

深層分離式捲積類神經網路 (sepCNN)

#image

Inception」的卷積類神經網路架構,但「eptionion」模組以較深入的分解符號取代。也稱為「Xception」。

更深層的捲積堆疊 (同樣縮寫為可分割的捲積) 會將標準 3-D 卷積運算成兩個更有效率的運算,分別是深度 1 的深層構形、深度 1 (n × n × 1) 和第二個寬度 1。

詳情請參閱「Xception: Deep Learning with Depthwise SeparableConvolutions」(透過深度進行深度差異學習,深層學習)。

降低取樣

#image

可能是符合以下條件的超載字詞:

  • 減少功能中的資訊量,藉此提高模型訓練的效率。例如,在訓練圖片辨識模型之前,將高解析度圖片降低為解析度較低的格式。
  • 針對過度代表的類別範例進行比例偏低的訓練,以改善對弱勢族群的模型訓練模型。舉例來說,在類別平衡資料集中,模型通常會充分瞭解主要類別,並無法充分瞭解顯著性類別。降低取樣功能可協助您在少量和少數類別中進行訓練之間的平衡。

F

微調

#language
#image
#generativeAI

第二項工作專屬訓練票證是在預先訓練模型中調整,針對特定用途調整參數。例如,部分大型語言模型的完整訓練序列如下:

  1. 預先訓練:在龐大的一般資料集上訓練大型語言模型,例如所有英語維基百科網頁。
  2. 微調:訓練預先訓練模型來執行「特定」工作,例如回應醫療查詢。微調通常涉及數百個與特定工作有關的數千個範例。

另一個大型模型模型的完整訓練序列如下:

  1. 預先訓練:在龐大的一般圖片資料集上訓練大型圖片模型,例如 Wikimedia 通用的所有圖片。
  2. 微調:訓練預先訓練模型以執行「特定」工作,例如產生果 ca 圖片。

微調可讓任何策略組合如下:

  • 修改所有預先訓練模型的現有參數。有時也稱為「完全微調」
  • 只修改預先訓練模型的其中「部分」(通常是最接近輸出層的圖層),同時保持其他現有參數不變 (通常是資料層最接近輸入層)。
  • 新增更多圖層,通常位於最接近輸出層的現有層上方。

微調是遷移學習的一種形式。 因此,微調功能可能會使用不同的損失函式或模型類型,而非訓練模型所用的預先訓練模型。舉例來說,您可以微調預先訓練的大型圖片模型來產生迴歸模型,以便傳回輸入圖片中的鳥類數量。

比較及對比下列字詞微調:

G

創造型 AI

#language
#image
#generativeAI

沒有正式定義的新興轉型欄位。不過,大多數的專家認為,自動產生的 AI 模型可建立 (產生) 內容,如下所示:

  • 複雜
  • 耦合
  • 原始圖片

例如,創造型 AI 模型可建立複雜的論文或圖片。

某些較舊的技術 (包括 LSTMRNN) 也可以產生原始和一致內容。有些專家認為這些早期技術是一般的 AI 技術,而其他的團隊則認為真正的 AI 產生更複雜的輸出,比這些舊技術產生的能力更廣。

預測機器學習相反。

I

圖片辨識

#image

處理程序可對圖片中的物件、模式或概念進行分類。圖片辨識也稱為「圖片分類」

詳情請參閱「機器學習原型:圖片分類」。

聯集 (IoU)

#image

兩個組合的交集除以聯集。在機器學習圖片偵測工作中,IoU 用於測量模型預測定界框真值的定界框是否準確。在這種情況下,這兩個方塊的 IoU 指的是重疊區域與總面積之間的比率,其值範圍介於 0 (無預測定界框與真值定界框之間) 到 1 (預測定界框與真值定界框之間) 完全相同。

如下圖所示:

  • 預測定界框 (模型根據預測結果預測夜桌位置的位置) 以紫色表示。
  • 真值定界框 (繪圖界定位置資料表中的座標座標以綠色表示)。

廂型車上畫著「Vincent's in Arles」的牆上,床頭旁有兩個不同的定界框。真值定界框 (綠色) 能完全略過夜桌。預測定界框 (紫色) 的偏移值是 50% 的地面,位於地面固定界框之間,右側有右方的右方,而右方的右方則才錯過。

預測定界框和真值下方 (左下方) 的交集為 1,而預測方塊和真值 (右下方) 的範圍是 7,因此 IoU 為 \(\frac{1}{7}\)。

圖片與上方相同,但每個定界框都會分割成四個象限。共有七個象限,因為地面的定界框右下方,以及預測定界框的左上角象限會相互重疊。這個重疊部分 (以綠色醒目顯示) 代表交集,且面積為 1。 圖片與上方相同,但每個定界框都會分割成四個象限。總共有七個象限,因為地面的定界框右下方,以及預測定界框的左上角象限相互重疊。兩個定界框外框 (以綠色醒目顯示) 的完整內部區域為聯集,區域為 7。

K

重要須知

#image

圖片中特定功能的座標。舉例來說,對於用來識別花卉物種的圖片辨識模型,重要點可能是每個寵物、幹詞、石頭等的中心。

L

地標

#image

按鍵的同義詞。

M

MNIST

#image

由 LeCun、Cortes 和 Burge 撰寫的公共領域資料集,當中含有 60,000 張圖片,每張圖片顯示人類編寫了 0 到 9 之間的特定數字。每張圖片都會儲存為 28x28 整數陣列,其中每個整數都是介於 0 到 255 (含) 之間的灰階值。

MNIST 是機器學習的標準資料集,通常用於測試新的機器學習方法。詳情請參閱 手寫數字的 MNIST 資料庫

P

集區

#image

將先前卷積層建立的矩陣縮減至較小的矩陣。集區時,需要在集區範圍內取得最大或平均的值。舉例來說,假設有以下 3x3 矩陣:

3x3 矩陣 [[5,3,1], [8,2,5], [9,4,3]]。

集區化作業就像卷積運算一樣,把矩陣分成數個區塊,然後分割。舉例來說,假設集區運算會將卷積矩陣除以 1x1 的倍數。如下圖所示,四項集區運算。想像一下,每個集區運算會挑選該片段中的四個值上限:

輸入矩陣的值為 3x3,其值:[[5,3,1], [8,2,5], [9,4,3]]。輸入矩陣的左上角 2x2 子矩陣為 [[5,3]、[8,2]],因此左上方的集區運算會產生 8 值 (上限為 5、3、8 和 2)。輸入矩陣的右上角 2x2 子矩陣為 [[3,1], [2,5]],因此右上方集區運算會產生值 5。輸入矩陣的左下 2x2 子矩陣為 [[8,2], [9,4]],因此左下角集區運算會產生 9 的值。輸入矩陣的右下角 2x2 子矩陣為 [[2,5]、[4,3]],因此右下方的集區運算值會產生 5 的值。簡單來說,集區運算會產生 2x2 矩陣 [[8,5], [9,5]]。

集區化有助於強制執行輸入矩陣中的半數變異

Vision 應用程式的集區現在稱為空間集區。時間序列應用程式通常稱為「臨時集區」。非正式的說法,集區通常稱為「子取樣」或「向下取樣」

預先訓練模型

#language
#image
#generativeAI

已訓練的模型或模型元件 (例如嵌入向量)。有時候,您會將預先訓練的嵌入向量傳送至類神經網路,有時候,模型會訓練嵌入向量,而非依賴預先訓練的嵌入。

「預先訓練的語言模型」是指透過「預先訓練」完成的「大型語言模型

預先訓練

#language
#image
#generativeAI

對大型資料集進行初始訓練的訓練。某些預先訓練模型是混亂的巨人,且通常須透過其他訓練來修正。舉例來說,機器學習專家可能會對大型文字資料集 (例如維基百科中的所有英文網頁) 預先訓練大型語言模型。在預先訓練後,產生的模型可能會透過下列任一技術進一步修正:

(右)

旋轉差異

#image

在圖片分類問題中,即使圖片方向改變,演算法也能成功將圖片分類。舉例來說,無論演算法是朝向上、下向還是下線,演算法仍可識別。請注意,旋轉變異不一定是最理想的做法;舉例來說,上下顛倒的 9 不應被歸類為 9。

另請參閱非同步變異數大小差異

尺寸變異

#image

在圖片分類問題中,即使圖片大小改變,演算法也能成功將圖片分類。舉例來說,演算法仍可識別使用 200 萬像素或 20 萬像素的貓咪。請注意,即使是最優質的圖片分類演算法,對大小差異仍設有實際限制。舉例來說,演算法 (或人類) 不太可能使用僅 20 像素的貓咪圖片分類。

另請參閱非同步變異數旋轉變異數

空間集區

#image

請參閱集區說明。

跨距

#image

在卷積運算或集區中,下一個系列輸入配量中各維度的差異值。舉例來說,以下動畫可展示在卷積運算期間 (1,1) 步長的步伐。因此,下一個輸入配量會啟動上一個輸入配量右側一個位置。操作達到右側邊緣時,下一個片段是完全由左至右移動,

輸入 5x5 矩陣與 3x3 卷積篩選器。由於跨步為 (1,1),因此系統會套用卷積篩選條件 9 次。第一個卷積區塊會評估輸入矩陣的左上角 3x3 子矩陣。第二部分會評估頂層 3x3 子矩陣。第三個卷積配量會評估右上方的 3x3 子矩陣。第 4 個部分會評估中間 3x3 子矩陣。
     第五段會評估中間 3x3 子矩陣。第六段是評估中間中 3x3 子矩陣。第七段是評估左下方的 3x3 子矩陣。第 8 個時子會評估中間 3x3 子矩陣。第 9 個骰子會評估右下方的 3x3 子矩陣。

上例示範了 2D 面向。如果輸入矩陣是 3D 結構,則相距的值會是 3D。

取樣

#image

請參閱集區說明。

溫度

#language
#image
#generativeAI

超參數可控制模型輸出的隨機程度。溫度較高可以產生隨機輸出的結果,而溫度較低時,隨機產生輸出內容較少。

選擇最佳溫度取決於特定應用程式,以及模型輸出的所需屬性。例如,在產生產生廣告素材輸出的應用程式時,就可能會調高溫度。相反地,在建構模型來分類圖片或文字的模型時,您可能需要降低溫度,藉此改善模型的準確度和一致性。

溫度通常用於 softmax

翻譯差異

#image

在圖片分類問題中,即使圖片中的物件位置變更,演算法仍可成功將圖片分類。舉例來說,無論演算法位於影格中央或左側邊緣,演算法都仍可辨識。

另請參閱大小差異旋轉變異數