機器學習詞彙表:序列模型

透過集合功能整理內容 你可以依據偏好儲存及分類內容。

這個頁麵包含序列序列詞彙表。如要查看所有詞彙詞彙,請按這裡

B

Biram

#seq
#language

N 公克,其中 N=2。

E

爆炸梯度問題

#seq

深層類神經網路 (尤其是循環類神經網路) 中梯度的突兀幅度大幅增加 (高)。梯度梯度會導致深層類神經網路中的每個節點權重大幅更新。

爆炸梯度問題中的模型變得不易或無法訓練。漸層剪輯功能可減少此問題。

比較漸層梯度問題

F 鍵

清除大門

#seq

可調節儲存格資訊流程的「Long 短期記憶體」部分。 藉由決定從儲存格狀態中捨棄哪些資訊,清除登機門會保留背景資訊。

G

漸層裁剪

#seq

使用梯度下降來訓練模型時,透過人為限制梯度的最大值,藉此降低爆炸梯度問題

L

短期短期記憶體 (LSTM)

#seq

循環類神經網路中的一種儲存格,用於處理應用程式中的一系列資料,例如手寫辨識、機器翻譯和圖片字幕。LSTM 可以透過在 RNN 中根據先前輸入的新儲存格和內容,保留內部記憶體狀態的記錄。因此,訓練 SN 時會產生缺少梯度問題的問題。

LSTM

#seq

短期短期記憶體」的縮寫。

N 公克

#seq
#language

已排序的 N 個字詞序列。舉例來說,真實的是 2 克。由於訂單具有關聯性,因此 m truelytruly mad 的不同 2 克。

這類 N 公克的名稱 示例
2 年 特大或 2 公克 前往、前往、吃午餐、吃晚餐
3 三元組或 3 公克 攝取太多人,3 個盲人滑鼠,鈴鐺
4 4 公克 公園內的步道、風吹塵中的男孩、扁豆

許多自然語言理解模型都仰賴 N 克來預測使用者會輸入或說出的下一個字詞。例如,假設使用者輸入了三個百葉窗。根據三邊形的 NLU 模型可能會預測使用者接下來會輸入 mice

將 N 公克與「pack of words(沒有排序的字詞組合) 對比。

R

循環類神經網路

#seq

會刻意執行多次的類神經網路,其中每個執行作業的部分執行作業都會下次執行。具體來說,先前執行作業中的隱藏層會在下次執行時為部分隱藏層提供輸入內容。循環類神經網路在評估序列時特別實用,因此隱藏層可從序列早期的類神經網路執行學習。

例如,下圖顯示執行了四次的循環類神經網路。請注意,從第一次執行隱藏到隱藏層的值,會成為第二次執行中相同隱藏層的一部分。同樣地,在第二次執行時,在隱藏圖層中學到的值會在第三次執行時新增至同一個隱藏層。如此一來,循環類神經網路可逐步訓練及預測整個序列的含義,而不只是預測個別字詞的含義。

執行 4 次來處理四個輸入字詞的 RNN。

RNN

#seq

循環類神經網路的縮寫。

S

序列模型

#seq

輸入方式具有序列相依關係的模型。例如,預測從先前看過的影片中觀看的下一部影片。

T

時間步數

#seq

循環類神經網路中建立一個「未復原」的儲存格。例如,下圖顯示三個步驟 (含有下標 t-1、t 和 t+1 的指令碼):

循環類神經網路中的三個步驟。第一個步驟的輸出內容會成為第二個步驟的輸入內容。第二個步驟的輸出內容會成為第三個步驟的輸入內容。

三元組

#seq
#language

N-gram,其中 N=3。

V

漸層梯度問題

#seq

某些深層類神經網路的早期隱藏層梯度即將變得輕微 (低)。漸層梯度逐漸降低,使得類神經網路節點節點的權重增加幅度減少,使得教學體驗微幅調整,甚至不會學習。梯度偏移問題出現的模型變得困難或無法訓練。長期短期記憶體儲存格可以解決這個問題。

爆炸梯度問題進行比較。