本页包含语言评估术语表。如需了解所有术语表,请点击此处。
A
注意力
众多神经网络架构机制中的一种,这些机制以依赖于数据的方式从一组输入中聚合信息。典型的注意机制可能包括对一组输入的加权和,其中每个输入的权重由神经网络的其他部分计算。
B
词袋
短语或段落中字词的表示形式,无论顺序如何。例如,词袋代表相同的三个短语:
- 小狗跳跃
- 跳狗
- 小狗跳跃
每个字词都会映射到稀疏矢量中的索引,在该字词中,该矢量会为词汇表中的每个字词创建一个索引。例如,短语“dog jumps”会映射到一个特征向量,该特征向量在字词“the”、“dog”和“jumps”对应的三个索引处包含非零值。非零值可以是以下任何一项:
- 1,用于指示是否存在某个字词。
- 某个字词在字词包中的出现次数。例如,如果词组为“the maroon dog is a dog with maroon fur”,那么“maroon”和“dog”都会表示为 2,其他字词则表示为 1。
- 某个其他值,例如某个字词在字词包中的出现次数的对数。
BERT(来自编码器的双向编码器表示法)
文本表示法的模型架构。经过训练的 BERT 模型可以作为文本分类或其他机器学习任务的较大模型的一部分。
BERT 具有以下特征:
BERT 的变体包括:
如需简要了解 BERT,请参阅开源 BERT:先进的自然语言处理预训练。
Bigram
一种 N 元语法,其中 N=2。
双向
此术语用于描述一个系统,该系统评估在文本的目标文本之前和之后文本的文本。相比之下,单向系统会仅评估在目标文本之前的文本。
例如,假设某个遮盖的语言模型必须确定以下问题中代表下划线的一个或多个字词的概率:
您和_____有什么关系?
单向语言模型只能基于字词“What”、“What”、“is”和“the”提供的上下文来确定其概率。相反,双向语言模型还可以通过“with”和“you”获取上下文,这可能有助于模型生成更好的预测结果。
双向语言模型
一种语言模型,可根据前文和以下文本确定给定令牌在给定位置存在于给定位置的概率。
BLEU(双语评估研究)
0.0 到 1.0(含 0.0 和 1.0)之间的分数,表示两种人类语言(例如英语和俄语)之间的翻译质量。BLEU 得分为 1.0 表示完美翻译;BLEU 得分为 0.0 表示糟糕翻译。
C
因果关系模型
与单向语言模型的含义相同。
如需对比语言建模中的不同方向方法,请参阅双向语言模型。
崩溃的樱花
含义不明确的句子或短语。 开花形成了自然语言理解中的一个重大问题。例如,标题“Red Tape Holds Up Skyscraper”存在歧义,因为 NLU 模型可能会从字面解读该标题,也可能会从象征角度进行解读。
D
解码器
通常,任何机器学习系统都是从经过处理、密集或内部表示法转换为更原始、更稀疏或外部的表示法。
解码器通常是较大模型的组成部分,经常与编码器搭配使用。
在序列序列任务中,解码器从编码器生成的内部状态开始,以预测下一个序列。
如需了解转换器架构中解码器的定义,请参阅转换器。
降噪
一种自监督学习的常见方法,其中:
通过去噪可以学习无标签样本。原始数据集用作目标或标签,噪声数据作为输入。
某些遮盖的语言模型使用降噪功能,如下所示:
- 通过遮盖部分词汇,人为地添加了一个无标签的句子。
- 模型会尝试预测原始令牌。
E
嵌入层
一种特殊的隐藏层,它在高维度分类分类维度上逐级学习,以逐步降维。与仅使用高维分类特征进行训练相比,嵌入层能使神经网络更高效地进行训练。
例如,地球目前支持大约 73000 种树种。假设树种是模型中的特征,因此模型的输入层包含 73000 个元素的独热矢量。例如,baobab
可能表示如下:
一个包含 73000 个元素的数组非常长。如果您不向模型添加嵌入层,则训练会由于乘以 72999 个零而非常耗时。或许您会选择由 12 个维度组成的嵌入层。因此,嵌入层会逐渐为每个树种学习新的嵌入向量。
在某些情况下,哈希是替代嵌入层的合理替代方案。
嵌入空间
来自更高维矢量空间的特征的 d 维矢量空间被映射到。理想情况下,嵌入空间包含可生成有意义的数学结果的结构;例如,在理想的嵌入空间中,添加和减去嵌入就可以解决字词类比任务。
两个嵌入的点积用于衡量两者之间的相似性。
嵌入向量
一般而言,此变量为任意 隐藏层的浮点数数组,用于描述该隐藏层的输入。 通常,嵌入向量是在嵌入层中训练的浮点数数组。例如,假设嵌入层必须学习地球上 73000 种树种的嵌入向量。也许以下数组是猴面包树的嵌入向量:
嵌入向量不是一堆随机数。嵌入层通过训练确定这些值,类似于神经网络在训练期间学习其他权重的方式。数组的每个元素都是树种某些特征的评分。哪个元素代表了哪些树种?这对人类来说很难确定。
从数学上可以看出,嵌入向量中相似的项具有类似的浮点数集。例如,与不同的树种相比,类似的树种具有更相似的一组浮点数。红杉和红杉是相关的树种,因此与红杉和椰子棕榈树相比,红杉和红杉有一组更相似的浮点数。每次重新训练模型时,嵌入向量中的数字都会更改,即使您使用相同输入重新训练模型也是如此。
编码器
一般来说,任何机器学习系统都是从原始、稀疏或外部表示法转换为经过处理、更密集或更内部的表示法。
编码器通常是较大模型的组成部分,通常与解码器搭配使用。某些转换器可将编码器与解码器配对,但也有一些转换器仅使用编码器或仅使用解码器。
某些系统将编码器的输出作为分类或回归网络的输入。
在序列序列任务中,编码器接受输入序列并返回内部状态(向量)。然后,解码器使用该内部状态来预测下一个序列。
如需了解编码器在编码器架构中的定义,请参阅转换器。
G
GPT(生成预训练的转换器)
OpenAI 开发的基于 Transformer 的大型语言模型系列。
GPT 变体可以应用于多种模式,包括:
- 图片生成(例如 ImageGPT)
- 文字到图片生成(例如 DALL-E)。
L
LaMDA(对话应用的语言模型)
由 Google 开发的基于 Transformer 的大语言模型,基于可生成逼真的对话响应的大型对话数据集进行训练。
LaMDA:我们的突破性对话技术提供了概览。
语言模型
一种模型,用于估算令牌或以较长序列序列出现的令牌序列的概率。
大型语言模型
没有严格定义的非正式术语,通常是指具有大量参数的语言模型。某些大型语言模型包含超过 1000 亿个参数。
M
遮盖的语言模型
一种语言模型,用于预测候选令牌填充序列中的空白内容的概率。例如,遮盖语言模型可以计算候选字词替换以下句子中下划线的概率:
帽子里的____又回来了。
文学通常使用字符串“MASK”而不是下划线。例如:
帽子中的“MASK”又回来了。
大多数现代遮盖式语言模型都是双向的。
元学习
用于发现或改进学习算法的机器学习子集。 元学习系统还可以用来训练模型,以利用少量数据或从之前任务中积累的经验快速学习新任务。元学习算法通常尝试实现以下目标:
- 改进/学习手动设计的功能(例如初始化程序或优化器)。
- 提高数据效率和计算效率。
- 改进泛化。
元学习与少量样本学习相关。
modality
简要数据类别。例如,数字、文字、图片、视频和音频是五个不同的模式。
模型并行处理
一种扩缩训练或推断的方式,可将一个模型的不同部分放置在不同的设备上。模型并行处理使得模型过大,无法在单个设备上存储。
另请参阅数据并行。
多头自行注意
自注意力的扩展,用于针对输入序列中的每个位置多次应用自注意力机制。
转换器引入了多头自注意力。
多模态模型
其输入和/或输出包含多个模态的模型。例如,假设某个模型将图片和文本字幕(两种模态)作为特征,并输出一个得分来说明该文本字幕是否适合该图片。因此,此模型的输入为多模态,输出为单模态。
否
自然语言理解
根据用户输入或说出的内容来确定用户的意图。 例如,搜索引擎会根据用户输入或说出的内容,使用自然语言理解来确定用户正在搜索的内容。
N-gram
N 个单词的有序序列。例如,“truly madly”属于二元语法。由于顺序很重要,因此“madly true”与“truly madly”是不同的二元语法。
否 | 此类 N 元语法的名称 | 示例 |
---|---|---|
2 | Bigram 或 2-gram | 去、去、吃午餐、吃晚餐 |
3 | 三元语法或三元语法 | 吃了太多东西、三个盲老鼠、铃铛铃声 |
4 | 4 克 | 去公园散步、风去灰尘、男孩吃扁豆 |
许多自然语言理解模型依赖 N 元语法来预测用户会输入或说出的下一个字词。例如,假设用户输入了“三个盲人”。 基于三元语法的 NLU 模型可能会预测用户接下来会输入“鼠标”。
将 N-gram 与词袋进行比较,这些词袋是无序的字词集。
NLU
自然语言理解的缩写。
P
流水线
一种模型并行处理形式,其中会将模型的处理过程拆分为多个连续阶段,并且每个阶段都在不同的设备上执行。当一个阶段正在处理一个批次时,前一阶段可以处理下一批次。
另请参阅分阶段发布培训。
S
自注意力(也称为自我注意层)
神经网络层,用于将一系列嵌入(例如,令牌嵌入)转换为其他嵌入序列。输出序列中的每个嵌入都是通过注意机制集成来自输入序列元素的信息构建的。
自我注意部分的自我部分是指自我进入序列,而非其他某个情境。自注意力是 Transformer 的主要构建块之一,它使用字典查询术语(例如“query”、“key”和“value”)。
自注意力层从一系列输入表示法开始,每个表示法对应一个字词。字词的输入表示法可以是简单的嵌入。对于输入序列中的每个字词,网络会对该字词与整个字词序列中的每个元素的相关性进行评分。相关性得分决定了某个字词的最终表示法在多大程度上纳入了其他字词的表示法。
例如,请考虑以下语句:
这条动物太累了,所以它没有过马路。
以下图示(选自《转换器:一种新的语言理解神经网络架构》)展示了代词“注意力”机制的注意力模式,每行的黑暗程度表示每个字词对表征的贡献程度:
自注意力图层会突出显示与“它”相关的字词。在本例中,注意力层学会了突出显示它可能引用的字词,为动物分配最高权重。
对于 n 个令牌,自注意力转换会将嵌入序列独立转换一次,在序列中的每个位置上分别进行一次。
情感分析
使用统计或机器学习算法确定群体对某个服务、产品、组织或主题的整体态度(积极或消极)。例如,使用自然语言理解,算法可以对某大学课程的文本反馈进行情感分析,以确定学生对课程的一般喜爱程度或不喜欢程度。
序列到序列任务
一个将 tokens 输入序列的令牌输出序列的任务。例如,两种常见的序列到序列任务如下所示:
- 译者:
- 输入序列示例:“我爱你”。
- 输出序列示例:“Je t&a33;aime”。
- 问答:
- 示例输入序列:“我需要在纽约市买车吗?”
- 输出序列示例:“不,请把汽车留在家里。”
稀疏特征
一种功能,其值主要为零或为空。例如,包含 1 个值和 100 万个值的特征都是稀疏的。相比之下,密集特征具有主要非零值或空值。
在机器学习中,令人惊讶的特征是稀疏特征。分类特征通常是稀疏特征。例如,在森林中可能出现的 300 种树种中,单个示例可能只能确定枫树。或者,如果视频库中有数百万个视频,那么一个示例可能只能识别出“卡萨布兰卡”。
在模型中,您通常使用独热编码表示稀疏特征。如果独热编码较大,您可以在独热编码的基础上添加一个嵌入层,以提高效率。
稀疏表示法
在稀疏特征中仅存储非零元素的 position。
例如,假设名为 species
的分类特征标识特定森林中的 36 种树种。进一步假设每个示例只能识别一个物种。
您可以在每个示例中使用独热矢量来表示树种。独热矢量将包含一个 1
(表示该示例中的特定树种)和 35 个 0
(表示该示例中未包含的 35 个树种)。因此,maple
的独热表示法可能如下所示:
或者,稀疏表示法只是识别特定物种的位置。如果 maple
位于第 24 位,则 maple
的稀疏表示法将为:
24
请注意,稀疏表示法比独热表示法更紧凑。
分阶段训练
在一系列离散阶段中训练模型的策略。目标是加快训练过程或提高模型质量。
渐进式堆叠方法图示如下:
- 第 1 阶段包含 3 个隐藏层,第 2 阶段包含 6 个隐藏层,第 3 阶段包含 12 个隐藏层。
- 第二阶段使用第一阶段的 3 个隐藏层中学到的权重进行训练。第 3 阶段使用第 2 阶段的 6 个隐藏层中学到的权重进行训练。
另请参阅流水线。
T
token
在语言模型中,表示模型进行训练时使用的进行预测的单元。令牌通常是以下之一:
- 字词(例如,“猫和狗”等短语由三个词法单元组成:“狗”、“喜欢”和“猫”)。
- 字符,例如短语“bike fish”由 9 个字符组成。(请注意,空白计为一个令牌。)
- 子字词 - 单个字词可以是单个令牌,也可以是多个令牌。 子字词由根词、前缀或后缀组成。例如,如果某个语言模型使用子字词作为词法单元,则可能会将单词“dogs”视为两个词元(根词“dog”和复数后缀“sot”);该语言模型可能会将单个单词“taller”视为两个子单词(根单词“tall”和后缀“er”)。
在语言模型以外的网域中,令牌可以表示其他类型的原子单位。例如,在计算机视觉中,令牌可能是图像的子集。
Transformer
Google 开发的神经网络架构依赖于自我注意机制将一系列输入嵌入转换为一系列输出嵌入,而无需依赖于卷积或循环神经网络。转换器可视为一系列自注意力层。
转换器可以包含以下任一项:
编码器将嵌入序列转换为长度相同的新序列。编码器包含 N 个完全相同的层,每个层包含两个子层。这两个子层会在输入嵌入序列的每个位置应用,从而将序列的每个元素转换为新的嵌入。第一个编码器子层汇总来自整个输入序列的信息。第二个编码器子层将聚合信息转换为输出嵌入。
解码器将一系列输入嵌入转换为一组输出嵌入(可能具有不同的长度)。解码器还包含 N 个完全相同的层,其中包含三个子层,其中两个层类似于编码器子层。第三个解码器子层会获取编码器的输出内容,并应用自注意力机制从编码器收集信息。
这篇有关《变形金刚:一种新的语言理解神经网络架构》(Transformer: A Nove Neural Network Architecture for Language Learning) 的博文很好地介绍了变形金刚。
三元语法
一种 N 元语法,其中 N=3。
U
单向
仅评估在目标文本部分之前的文本的系统。相反,双向系统会评估在文本的前面和后面文本的文本。如需了解详情,请参阅双向。
单向语言模型
语言模型:其概率仅基于在目标令牌之前(而不是之后)显示的令牌。与双向语言模型相对。
W
字词嵌入
表示嵌入向量中每个字词集内的每个字词;也就是说,将每个字词表示为 0.0 到 1.0 之间的浮点值向量。含义相似的字词与具有不同含义的字词的表示法更为相似。例如,胡萝卜、芹菜和黄瓜的表示法都非常相似,这与飞机、太阳镜和牙膏的表示法截然不同。