本頁麵包含序列模型的詞彙。如需所有詞彙詞彙,請按這裡。
B
Bigram
N 克,其中 N=2。
E
急遽漸層問題
在「深層類神經網路」中,「漸層」的出現頻率 (尤其是反向類神經網路),經常會變得暴增 (高)。深度漸層通常會造成深度類神經網路中每個節點的權重大小大幅更新。
急遽梯度問題的模型難以訓練或無法訓練。漸層裁剪可以解決這個問題。
與產生漸層問題相比。
F
忘記門
「Long 短期記憶體」儲存格的部分,透過儲存格控管資訊流。請判斷要用儲存格狀態捨棄的資訊,以清除閘門的背景資訊。
G
漸層裁剪
使用梯度下降法限制模型的梯度下降法時,常用的一種機制,透過減少限制 (限制) 漸層的最大值,降低爆炸度問題。
L
長期記憶體 (LSTM)
重複類神經網路中的一種儲存格類型,用於處理應用程式中的資料序列,例如手寫辨識、機器翻譯和圖片說明文字。LSTM 解決了根據 RNN 中先前儲存格的新輸入和背景資訊,在內部記憶體狀態中保留記錄後,在訓練 RNN 時造成的消失漸層問題。
左環繞
Long 短期記憶體的縮寫。
N
N 公克
依 N 字的順序排序。例如,truly madly 就是 2 公克。由於訂單相關,因此絕對不同與 「完全真實」的 2 公克不同。
N | 這種 N 語法的名稱 | 範例 |
---|---|---|
2 | Bigram 或 2 克 | 外帶、前往、吃午餐、吃晚餐 |
3 | 圖表或 3 公克 | 太厲害,三個盲人機會,鈴鐺 |
4 | 4 公克 | 在公園散步,在風吹的沙塵中,男孩用扁帶 |
許多自然語言理解模型會使用 N 語法來預測使用者輸入或說出的下一個字詞。舉例來說,假設使用者輸入了三支盲。以三元圖為基礎的 NLU 模型可能會預測使用者接下來會輸入 mice 類型。
將詞句對比過 N 位數,也就是未訂購的字詞組合。
(右)
循環類神經網路
故意重複執行類神經網路,讓每項執行作業的哪些部分執行下一次執行。具體來說,上一個執行作業隱藏的圖層會在下一次執行作業中,為輸入隱藏層提供部分輸入內容。重複類神經網路在評估序列方面特別實用,因此隱藏層可以按照序列中較早階段的類神經網路執行。
例如,下圖顯示執行類神經網路的四個執行頻率。請注意,在第一次執行時從隱藏層學習到的值,在第二次執行時納入同一個隱藏層。同樣地,在第二次執行作業中,從隱藏層取得的值會成為第三個執行作業中同一個隱藏層的一部分。這樣一來,遞迴類神經網路會逐步訓練並預測整個序列的意義,而不只是改變個別字詞的含義。
RNN
循環類神經網路的縮寫。
六
序列模型
輸入資料具有序列依附元件。例如,預測觀眾在觀看一系列先前觀看的影片。
二
Timestep
一個「循環類神經網路」中的一個「未捲動」儲存格。例如,下圖顯示三個步驟步驟 (含下標 t-1、t 和 t+1 標籤):
三角形
N-gram 表示 N=3。
V
消失漸層問題
部分深層類神經網路中隱藏層的漸層出現率會突然升高 (低)。梯度減少時,深層類神經網路中的權重值會越來越小,導致出現微小或沒有學習的現象。過度淘汰梯度問題的模型難以訓練或無法訓練。短期記憶體儲存格可解決這個問題。
與探索漸層問題進行比較。