機器學習詞彙表:序列模型

本頁麵包含序列模型的詞彙。如需所有詞彙詞彙,請按這裡

B

Bigram

#seq
#language

N 克,其中 N=2。

E

急遽漸層問題

#seq

在「深層類神經網路中,「漸層」的出現頻率 (尤其是反向類神經網路),經常會變得暴增 (高)。深度漸層通常會造成深度類神經網路中每個節點權重大小大幅更新。

急遽梯度問題的模型難以訓練或無法訓練。漸層裁剪可以解決這個問題。

產生漸層問題相比。

F

忘記門

#seq

Long 短期記憶體」儲存格的部分,透過儲存格控管資訊流。請判斷要用儲存格狀態捨棄的資訊,以清除閘門的背景資訊。

G

漸層裁剪

#seq

使用梯度下降法限制模型的梯度下降法時,常用的一種機制,透過減少限制 (限制) 漸層的最大值,降低爆炸度問題

L

長期記憶體 (LSTM)

#seq

重複類神經網路中的一種儲存格類型,用於處理應用程式中的資料序列,例如手寫辨識、機器翻譯和圖片說明文字。LSTM 解決了根據 RNN 中先前儲存格的新輸入和背景資訊,在內部記憶體狀態中保留記錄後,在訓練 RNN 時造成的消失漸層問題

左環繞

#seq

Long 短期記憶體的縮寫。

N

N 公克

#seq
#language

依 N 字的順序排序。例如,truly madly 就是 2 公克。由於訂單相關,因此絕對不同與 「完全真實」的 2 公克不同。

N 這種 N 語法的名稱 範例
2 Bigram 或 2 克 外帶、前往、吃午餐、吃晚餐
3 圖表或 3 公克 太厲害,三個盲人機會,鈴鐺
4 4 公克 在公園散步,在風吹的沙塵中,男孩用扁帶

許多自然語言理解模型會使用 N 語法來預測使用者輸入或說出的下一個字詞。舉例來說,假設使用者輸入了三支盲。以三元圖為基礎的 NLU 模型可能會預測使用者接下來會輸入 mice 類型。

詞句對比過 N 位數,也就是未訂購的字詞組合。

(右)

循環類神經網路

#seq

故意重複執行類神經網路,讓每項執行作業的哪些部分執行下一次執行。具體來說,上一個執行作業隱藏的圖層會在下一次執行作業中,為輸入隱藏層提供部分輸入內容。重複類神經網路在評估序列方面特別實用,因此隱藏層可以按照序列中較早階段的類神經網路執行。

例如,下圖顯示執行類神經網路的四個執行頻率。請注意,在第一次執行時從隱藏層學習到的值,在第二次執行時納入同一個隱藏層。同樣地,在第二次執行作業中,從隱藏層取得的值會成為第三個執行作業中同一個隱藏層的一部分。這樣一來,遞迴類神經網路會逐步訓練並預測整個序列的意義,而不只是改變個別字詞的含義。

執行四次處理輸入字詞的 RNN。

RNN

#seq

循環類神經網路的縮寫。

序列模型

#seq

輸入資料具有序列依附元件。例如,預測觀眾在觀看一系列先前觀看的影片。

Timestep

#seq

一個「循環類神經網路」中的一個「未捲動」儲存格。例如,下圖顯示三個步驟步驟 (含下標 t-1、t 和 t+1 標籤):

循環類神經網路中的三個步驟。第一個 timestep 的輸出內容會變為第二個 timetime。第二個第二個步驟的輸出內容會成為第三個步驟的輸入。

三角形

#seq
#language

N-gram 表示 N=3。

V

消失漸層問題

#seq

部分深層類神經網路隱藏層的漸層出現率會突然升高 (低)。梯度減少時,深層類神經網路中的權重值會越來越小,導致出現微小或沒有學習的現象。過度淘汰梯度問題的模型難以訓練或無法訓練。短期記憶體儲存格可解決這個問題。

探索漸層問題進行比較。