本页面包含序列模型术语表。如需了解所有术语表,请点击此处。
B
Bigram
一种 N 元语法,其中 N=2。
E
爆炸梯度问题
深度神经网络(尤其是循环神经网络)中的梯度往往变得异常陡峭(高)。陡峭梯度通常对广告网络中的每个 节点">权重权重产生非常大的更新。
遭受爆炸梯度问题的模型很难或无法训练。渐变剪辑可以缓解此问题。
与梯度消失问题进行比较。
F
忘记大门
长短期记忆单元的一部分,用于调节通过该单元的信息流。忘记控制门会通过决定从移动网络状态舍弃哪些信息来维护上下文。
G
渐变裁剪
一种常用的机制,可在使用梯度下降法来训练模型时人为限制(裁剪)梯度的最大值,从而缓解爆炸梯度问题。
L
长短期内存 (LSTM)
循环神经网络中的一种类型的单元,用于在应用中识别数据序列,例如手写识别、机器翻译和图片说明。LSTM 根据来自 RNN 中之前单元格的新输入和上下文,在内部内存状态下保留历史记录,从而在训练 RNN 时发生的梯度下降法。
本地搜索字符串
长短期记忆的缩写。
否
N-gram
N 个单词的有序序列。例如,“truly madly”属于二元语法。由于顺序很重要,因此“madly true”与“truly madly”是不同的二元语法。
否 | 此类 N 元语法的名称 | 示例 |
---|---|---|
2 | Bigram 或 2-gram | 去、去、吃午餐、吃晚餐 |
3 | 三元语法或三元语法 | 吃了太多东西、三个盲老鼠、铃铛铃声 |
4 | 4 克 | 去公园散步、风去灰尘、男孩吃扁豆 |
许多自然语言理解模型依赖 N 元语法来预测用户会输入或说出的下一个字词。例如,假设用户输入了“三个盲人”。 基于三元语法的 NLU 模型可能会预测用户接下来会输入“鼠标”。
将 N-gram 与词袋进行比较,这些词袋是无序的字词集。
R
循环神经网络
特意运行多次的神经网络,每次运行的某些部分会馈送到下一次运行。具体而言,上一次运行的隐藏层会在下次运行时向同一隐藏层提供部分输入。循环神经网络对评估序列特别有用,这样隐藏层就可以从神经网络之前序列序列的运行中学习。
例如,下图展示了一个运行四次的循环神经网络。请注意,第一次运行时在隐藏层中学到的值会在第二次运行时成为相同隐藏层的输入的一部分。同样,第二次运行时在隐藏层中学习的值将成为第三次运行时同一隐藏层的输入的一部分。通过这种方式,循环神经网络逐步训练和预测整个序列的含义,而不仅仅是单个字词的含义。
RNN
循环神经网络的缩写。
S
序列模型
输入具有序列依存关系的模型。例如,根据一系列以前观看的视频预测下一个视频。
T
时间步
循环神经网络中的一个“展开”单元。例如,下图显示了三个时间步(带有下标 t-1、t 和 t+1 ):
三元语法
一种 N 元语法,其中 N=3。
V
梯度消失问题
一些深度神经网络的早期隐藏层的梯度往往变得非常平坦(低)。梯度越低,深度神经网络中的节点权重的变化就越小,导致几乎没有或完全没有学习。遇到梯度下降问题的模型很难或无法训练。长短期记忆单元解决了此问题。
与爆炸式梯度问题进行比较。