機器學習詞彙表:圖片模型

透過集合功能整理內容 你可以依據偏好儲存及分類內容。

本頁提供 Image 模型詞彙表。如要查看所有詞彙詞彙,請按這裡

A

擴增實境

#image

這種技術會疊加電腦產生的圖像,在使用者真實世界的螢幕上疊加畫面,因此提供複合式的檢視畫面。

B

定界框

#image

在圖片中,矩形的 (xy) 座標圍繞著所需區域 (例如下圖中的狗)。

小狗坐在沙發上的相片。左上角邊界 ((275, 1271) 和右下角座標 (2954, 2761) 會圍繞狗狗的身體,設定綠色方塊

C

卷積

#image

在數學上,談話性思考要結合兩種功能。在機器學習中,卷積會結合卷積篩選器和輸入矩陣,以訓練權重

在機器學習中,「卷積」通常是指參照運算運算卷積層的簡單方法。

若是沒有捲積,機器學習演算法就必須學習大型張量中每個儲存格的個別權重。舉例來說,透過 2K x 2K 圖片進行機器學習演算法訓練時,系統會強制尋找 4M 的獨立權重。就演算法而言,機器學習演算法只需要找到卷積篩選器中所有儲存格的權重,即可大幅降低訓練模型所需的記憶體。套用卷積篩選器時,可以直接複製儲存格,將每個儲存格乘以該篩選器。

卷積篩選器

#image

卷積作業中的兩個演員之一。(另一個演員是輸入矩陣的配量)。卷積篩選器是指與輸入矩陣具有相同排名,但形狀較小的矩陣。例如,對於 28x28 輸入矩陣,篩選器可能為小於 28x28 的任何 2D 矩陣。

在相片操控中,卷積篩選器中的所有儲存格通常都會設為一或零的常數模式。在機器學習中,卷積篩選器通常會以隨機號碼傳播,接著網路會「訓練理想的值。

卷積層

#image

一層深層類神經網路其中卷積篩選器通過 aa 矩陣。舉例來說,請考慮採用以下 3x3 卷積篩選器

具有以下值的 3x3 矩陣:[[0,1,0], [1,0,1], [0,1,0]]

以下動畫展示了由 9 個包含 5x5 輸入矩陣的捲積運算組成的捲積層。請注意,每項卷積作業都可以在輸入矩陣的不同 3x3 配量上執行。右側產生的 3x3 矩陣 (由 9 個計算作業的結果組成):

顯示兩個矩陣的動畫。第一個第二個矩陣是 3x3 矩陣:[[181,303,618], [115,338,605], [169,351,560]]。第二個矩陣是在 5x5 矩陣的不同 3x3 子集上套用卷積篩選器 [[0, 1, 0], [1, 0, 1], [0, 1, 0]] 來計算。

卷積類神經網路

#image

一組類神經網路,其中至少一個層為卷積層。一般卷積類神經網路由下列層的組合組成:

卷積類神經網路在特定問題 (例如圖片辨識) 方面獲得成功。

卷積運算

#image

下列兩個步驟的數學運算:

  1. 卷積篩選器和元素的輸入矩陣部分之元素元素相乘。(輸入矩陣的配量含有與卷積篩選器相同的排名和大小)。
  2. 產生的產品矩陣中所有值的總和。

以下方的 5x5 輸入矩陣為例:

5x5 矩陣:[[128,97,53,201,198],[35,22,25,200,195],[37,24,28,197,182],[33,28,92,195,179],[31,70,100

現在,假設下列 2x2 卷積篩選器:

2x2 矩陣:[[1, 0], [0, 1]]

每項卷積作業都涉及輸入矩陣的單一 2x2 配量。舉例來說,我們會使用輸入矩陣左上方的 2x2 配量。因此,這個部分的捲積運算如下所示:

將卷積篩選器 [[1, 0]、[0, 1]] 套用到輸入矩陣左上方的 2x2 區段,也就是 [[128,97] [[35,22]]。卷積篩選器會保留 128 和 22,但 97 和 35 都是零。因此,卷積運算會產生值 150 (128+22)。

卷積層由一系列卷積運算組成,這些運算分別在輸入矩陣的不同片段上運作。

D

資料擴充

#image

轉換現有的範例,藉此建立其他範例,藉此強化訓練範例的範圍和數量。例如,假設圖片是其中一項功能,但您的資料集並未包含足夠的圖片範例,讓模型無法學習實用的關聯。在理想情況下,您必須在資料集中新增足夠的已加上標籤圖片,讓模型能正確進行訓練。如果這些方法都不可行,資料擴充就能旋轉、延展和反映每張圖片,產生許多原始相片的變化版本,因此可能會產生足夠的標籤資料來啟用卓越的訓練。

深度可分隔卷積類神經網路 (sepCNN)

#image

卷積類神經網路架構以Inning為基礎,但會將 Inception 模組替換為深度可分離的捲積。又稱為 Xception。

深度可分離卷積 (亦稱為可分隔卷積) 會將標準 3-D 卷積計算為兩個在計算上更為有效的捲積運算:首先是深度卷積,深度 1 (n × n ✕ 1),然後是最小卷積「1」。

詳情請參閱「Xce: Deep Learning with Depthwise Se Composions」。

降低取樣

#image

表示下列任一項目的超載字詞:

  • 減少功能中的資訊量,以便更有效率地訓練模型。例如,在訓練圖片辨識模型之前,將高解析度圖片降低為低解析度格式。
  • 針對比例過低的類別範例,提供比例偏低的訓練,藉此改善弱勢類別的模型訓練成效。例如,在類別不平衡資料集中,模型通常會學習成熟度類別,但對次要類別不足。降低取樣有助於平衡多數和少數類別的訓練量。

I

圖片辨識

#image

將圖片中的物件、模式或概念分類的程序。圖片辨識功能也稱為「圖片分類」

詳情請參閱 ML Practicum:圖片分類

聯集 (IoU) 十字路口

#image

兩組交集除以聯集。在機器學習圖片偵測工作中,IoU 的用途是評估模型預測的定界框相對於真值定界框的準確度。在這種情況下,兩個方塊的 IoU 是重疊區域和總區域之間的比率,值的範圍從 0 (預測定界框和真值定界框不重疊) 到 1 (預測定界框和真值定界框完全相同)。

例如,在下圖中:

  • 預測定界框 (用來限制模型中繪畫夜晚位置的座標) 以紫色概述。
  • 真值定界框 (用於繪製中夜間資料表的座標) 會以綠色顯示。

梵谷畫作《#39;Vincent's Bedroom in Arles'》,床邊的夜間桌子周圍有兩個不同的定界框。實際結果的定界框 (綠色) 很適合用來繞過床邊桌。預測的定界框 (紫色) 會偏移 50% 的位置,並落在真值定界框的右側;它包含夜間表格的右下角,但缺少表格的其餘部分。

這裡的預測和真值定界框 (左下方) 的交集為 1,而預測和真值的定界框 (右下方) 為 7,因此 IoU 為 \(\frac{1}{7}\)。

與上述相同,但每個定界框除以四個象限。總共有七個象限,因為真實結果定界框的右下方象限和預測定界框的左上角象限相互重疊。這個重疊區段 (以綠色醒目顯示) 代表交集,且面積為 1。 與上述相同,但每個定界框除以四個象限。總數為七個象限,因為實際區域定界框的右下角象限和預測定界框的左上角象限相互重疊。兩個定界框圍繞的完整內部區域 (以綠色醒目顯示) 代表聯名,面積為 7。

K

重點

#image

圖片中特定地圖項目的座標。舉例來說,以圖片辨識模型來區分花卉物種後,關鍵點可能是每個花瓣的中心點、幹細胞、延遲。

L

地標

#image

同義詞 keypoint

M

MNIST

#image

由 LeCun、Cortes 和 Burges 編譯的公共領域資料集包含 60,000 張圖片,每張圖片都顯示了人工從 0 到 9 之間的特定數字。每張圖片都會儲存為 28x28 的整數陣列,每個整數都是介於 0 到 255 (含) 之間的灰階值。

MNIST 是機器學習的標準資料集,通常用於測試新的機器學習做法。詳情請參閱 手寫數字的 MNIST 資料庫

P

集區

#image

將較早卷積層建立的矩陣 (或矩陣) 縮減為較小的矩陣。集區處理通常涉及在集區區域之間取得最大或平均值。舉例來說,假設有下列 3x3 矩陣:

3x3 矩陣 [[5,3,1], [8,2,5], [9,4,3]]。

集區運算就像卷積運算,會將矩陣分成不同片段,然後以原則來計算卷積運算。舉例來說,假設集區運算會將卷積矩陣以 1x1 的步伐分成 2x2 的配量。如下圖所示,系統會執行四個集區運算。假設每個集區運算都會挑選該區塊中四個的最大值:

輸入矩陣為 3x3,這個值為 [[5,3,1], [8,2,5], [9,4,3]]。
          輸入矩陣的左上角 2x2 子矩陣為 [[5,3], [8,2]],因此左上方集區運算會產生值 8 (最大值為 5、3、8 和 2)。輸入矩陣的右上方 2x2 子矩陣為 [[3,1], [2,5]],因此右上方集區作業會產生值 5。輸入矩陣的左下方 2x2 子矩陣為 [[8,2], [9,4]],因此左下角運算作業的值為 9。輸入矩陣的右下方 2x2 子矩陣為 [[2,5], [4,3]],因此右下方的集區運算會產生值 5。簡單來說,集區運算會產生 2x2 矩陣 [[8,5], [9,5]]。

集區可協助在輸入矩陣中強制執行平移變異數

視覺應用程式集區的建立方式正式稱為空間集區。時間序列應用程式通常被稱為「臨時集區」。較少的集區通常稱為「子取樣」或「降低取樣」

R

旋轉不變性

#image

在圖片分類問題中,即使圖片方向改變,演算法仍可成功將圖片分類。例如,演算法仍可識別網球場、方向或下車的球拍。請注意,旋轉變數不一定是您想要的。例如,上下顛倒 9 不應歸類為 9。

另請參閱平移變異數大小變異數

S

大小不變量

#image

在圖片分類問題中,即使圖片大小發生變更,演算法仍可成功分類圖片。舉例來說,演算法仍可識別一隻貓是否耗用 200 萬像素或 20 萬個像素。請注意,即使是最佳的圖片分類演算法,大小不變性都有實際限制。舉例來說,演算法 (或人類) 可能無法正確將只耗用 20 像素的貓咪圖片分類。

另請參閱平移變異數旋轉變異數

空間集區

#image

請參閱「集區」一文。

Stride

#image

在卷積或集區運算中,下一個輸入輸入配量的各維度差異。舉例來說,以下動畫展示在卷積運算期間的 (1,1) 步步。因此,下一個輸入片段會在上一個輸入滑桿的右側開始一個位置。當作業達到右側邊緣時,下一個滑桿會一直往左移,但向下移動一個位置。

輸入 5x5 矩陣和 3x3 卷積篩選器。由於步長為 (1,1),因此系統會套用卷積篩選條件 9 次。第一個卷積部分會評估輸入矩陣的左上角 3x3 子矩陣。第二個區塊會評估頂層 3x3 子矩陣。第三個卷積部分會評估右上方的 3x3 子矩陣。第四個區塊會評估中間左側的 3x3 子矩陣。第五段會評估中間的 3x3 子矩陣。第六個區塊會評估中間的 3x3 子矩陣。第七個區塊會評估左下方的 3x3 子矩陣。第八個區塊會評估中間的 3x3 子矩陣。第九段是評估右下方的 3x3 子矩陣。

上述範例說明瞭二維步伐。如果輸入矩陣是 3D 特徵,位移也會是 3D 維度。

子取樣

#image

請參閱「集區」一文。

T

翻譯不變性

#image

在圖片分類問題中,即使圖片內的物件位置發生變更,演算法仍可成功將圖片分類。 舉例來說,演算法仍可辨識內容,例如位於畫面中央或畫面左側。

另請參閱大小變異數旋轉變數一節。