本页面包含语言评估术语表。如需查看所有术语表,请点击此处。
答
注意力层、
神经网络中使用的一种机制,用于指示特定字词或字词中某些部分的重要性。注意力会压缩模型预测下一个词元/字词所需的信息量。典型的注意力机制可能包含一组输入的加权和,其中每个输入的权重由神经网络的另一部分计算。
另请参阅自注意力功能和多头自注意力功能,它们是 Transformer 的构成要素。
Autoencoder
一种系统学习如何从输入中提取最重要的信息。自编码器是编码器和解码器的组合。自动编码器依赖于以下两个步骤:
- 编码器将输入映射到(通常)有损低维(中间)格式。
- 解码器通过将低维格式映射到原始高维输入格式来构建原始输入的有损版本。
对自编码器进行端到端训练,方法是让解码器尝试尽可能接近编码器的中间格式重建原始输入。由于中间格式比原始格式小(维度更低),因此自动编码器必须学习输入中的哪些信息是必要的,输出与输入并不完全相同。
例如:
- 如果输入数据是图形,则非精确副本将与原始图形类似,但稍微修改了。或许,非精确副本会去除原始图形中的噪声或填充一些缺失的像素。
- 如果输入数据是文本,则自动编码器会生成模仿(但并不等同于)原始文本的新文本。
另请参阅变体自动编码器。
自回归模型
一种模型model,用于根据自身先前的预测推断预测。例如,自动回归语言模型会根据先前预测的令牌来预测下一个令牌。所有基于 Transformer 的大型语言模型都是自回归模型。
相比之下,基于 GAN 的图像模型通常不是自动回归模型,因为它们在单次正向传递中生成图像,而不是逐步以迭代方式生成。不过,某些图片生成模型是自动回归模型,因为它们会逐步生成图片。
B
词袋
短语或段落中字词的表示法(不考虑顺序)。例如,以下三个词组的词袋相同:
- 小狗跳跃
- 跳狗
- 小狗跳跃
每个字词都映射到稀疏向量中的一个索引,在该向量中,词汇表中的每个字词都有一个索引。例如,词组“the dog jumps”会映射到一个特征向量,该特征向量在字词“the”、“dog”和“jumps”的三个索引处包含非零值。非零值可以是以下任一值:
- 1,表示存在某个字词。
- 某个字词出现在词袋中的次数。例如,如果词组为“the maroon dog is a dog with maroon fur”,则“栗色”和“dog”都会表示为 2,其他字词将表示为 1。
- 其他一些值,例如某个单词出现在词袋中的次数的对数。
BERT(基于 Transformer 的双向编码器表示法)
用于文本表示的模型架构。经过训练的 BERT 模型可以用作大型模型的一部分来进行文本分类或其他机器学习任务。
BERT 具有以下特征:
- 使用 Transformer 架构,因此依赖于自注意力机制。
- 使用 Transformer 的编码器部分。编码器的任务是生成良好的文本表示法,而不是执行诸如分类之类的特定任务。
- 为双向。
- 对非监督式训练使用遮盖。
BERT 的变体包括:
如需简要了解 BERT,请参阅开源 BERT:先进的自然语言处理预训练。
双向
用于描述系统评估文本目标部分之前和之后的文本的术语。相比之下,单向系统仅评估位于文本目标部分之前的文本。
例如,假设有一个遮盖语言模型,该模型必须确定以下问题中表示下划线的单词的概率:
您有什么_____?
单向语言模型只能基于由单词“What”“is”和“the”提供的上下文来判断其概率。相比之下,双向语言模型也可以从“with”和“you”中获取上下文,这可能有助于模型生成更好的预测。
双向语言模型
一种语言模型,用于根据前面的和后面的文本,确定给定令牌在文本摘录中指定位置出现的可能性。
二元语法
一种 N 元语法,其中 N=2。
BLEU(双语评估基础研究)
介于 0.0 和 1.0 之间的分数(含 0.0 和 1.0),表示两种人类语言之间的翻译质量(例如,英语和俄语之间的翻译质量)。BLEU 得分 1.0 表示翻译完美,BLEU 得分 0.0 表示翻译质量很差。
C
因果语言模型
与单向语言模型的含义相同。
如需对比语言建模中的不同定向方法,请参阅双向语言模型。
思维链提示
一种提示工程技术,可鼓励大型语言模型 (LLM) 逐步说明其原因。例如,请特别注意下面的提示,请特别注意第二句:
驾驶员在一辆汽车中,在 7 秒内从每小时 0 增加到 60 英里时会产生多少重力?请在答案中显示所有相关的计算结果。
LLM 的响应可能会:
- 显示物理公式序列,并在适当的位置插入值 0、60 和 7。
- 解释为什么选择这些公式以及各个变量的含义。
思维链提示会强制 LLM 执行所有计算,这可能会获得更正确的答案。此外,思维链提示可让用户检查 LLM 的步骤,以确定答案是否合理。
组成部分解析
将句子划分为更小的语法结构(“组成部分”)。 机器学习系统后面的部分(如自然语言理解模型)可以比原始句子更易于解析组成部分。例如,请考虑以下句子:
我的朋友领养了两只猫。
选群解析器可以将此句子分为以下两个组成部分:
- “My friend”(我的朋友)是名词短语。
- adopted two cats 是一个动词短语。
这些成分可以进一步细分为更小的成分。 例如,动词短语
领养了两只猫
可进一步细分为:
- adopted 是动词。
- two cats 是另一个名词短语。
CANNOT TRANSLATE
含义不明确的句子或短语。 崩溃花在自然语言理解方面存在一个重大问题。例如,标题 Red Tape Holds Up Skyscraper 存在崩溃现象,因为 NLU 模型可能会从字面解读该标题,也可能会从象征角度解读标题。
D
解码器
一般来说,任何从经过处理、密集或内部表示法转换为更原始、稀疏或外部表示法的机器学习系统。
解码器通常是较大模型的一个组件,因此它们经常与编码器配对。
在序列到序列任务中,解码器从编码器生成的内部状态开始,以预测下一个序列。
如需了解 Transformer 架构中解码器的定义,请参阅 Transformer。
去噪
一种常见的自监督学习方法,其中:
去噪功能支持从无标签样本中学习。原始数据集用作目标或标签,而噪声数据用作输入。
一些“遮盖语言模型”使用去噪功能,如下所述:
- 噪声是通过遮盖某些词法单元人为地添加到未加标签的句子中。
- 模型尝试预测原始词元。
直接提示
是零样本提示的同义词。
E
修改距离
一种衡量两个文本字符串之间的相似程度的度量。 在机器学习中,修改距离非常有用,因为它简单且易于计算,还可以有效比较两个已知相似的字符串或查找与给定字符串相似的字符串。
修改距离有几个定义,每个定义使用不同的字符串操作。例如, Levenshtein 距离考虑的是最少的删除、插入和替换操作。
例如,两个单词“heart”和“darts”之间的莱文什斯坦距离为 3,因为以下 3 次修改是将一个单词变为另一个单词的最少更改:
- 心形 → deart(将“h”替换为“d”)
- deart → dart(删除“e”)
- 飞镖 → 飞镖(插入“s”)
嵌入层
一个特殊的隐藏层,可基于高维分类特征进行训练,以逐步学习低维度嵌入向量。与仅基于高维分类特征进行训练相比,嵌入层可让神经网络更高效地进行训练。
例如,Google 地球目前支持约 73,000 种树。假设树种是模型中的特征,因此模型的输入层包含一个长度为 73,000 个元素的独热矢量。例如,baobab
也许可以这样表示:
一个包含 73,000 个元素的数组非常长。如果您不向模型添加嵌入层,由于需要将 72,999 个零相乘,训练将会非常耗时。也许,您挑选的嵌入层 由 12 个维度组成因此,嵌入层会逐渐学习每个树种类的新嵌入向量。
在某些情况下,哈希处理是嵌入层的合理替代方案。
嵌入空间
较高维向量空间的特征映射到的 d 维向量空间。理想情况下,嵌入空间包含一个结构,可产生有意义的数学结果;例如,在理想的嵌入空间中,对嵌入进行加减运算可以解决字词类比任务。
两个嵌入的点积用于衡量两者之间的相似性。
嵌入向量
广义上讲,取自任何隐藏层的浮点数数组,用于描述该隐藏层的输入。通常情况下,嵌入向量是在嵌入层中训练的浮点数数组。例如,假设嵌入层必须学习地球上 73000 种树种的嵌入向量。或许下面的数组是猴面包树树的嵌入向量:
嵌入向量不是一组随机数字。嵌入层通过训练确定这些值,类似于神经网络在训练期间学习其他权重的方式。该数组的每个元素都是一个根据树种某些特征的评分。哪个元素代表哪个树种的特征?这是人类很难判断的
在数学上,嵌入向量的显著之处在于相似的项具有类似的浮点数集。例如,相较于不同的树种,类似的树种具有一组更相似的浮点数。红杉和红杉是相关的树种,因此与红木和椰子树相比,它们具有一组更为相似的浮点数。每次重新训练模型时,即使使用相同的输入重新训练模型,嵌入向量中的数字也会发生变化。
编码器
通常,任何从原始、稀疏或外部表示法转换为经过处理、更密集或的内部表示法的任何机器学习系统。
编码器通常是大型模型的一个组件,通常与解码器搭配使用。有些 Transformer 将编码器与解码器配对,但其他 Transformer 仅使用编码器或仅使用解码器。
某些系统使用编码器的输出作为分类或回归网络的输入。
在序列到序列任务中,编码器会接受输入序列并返回内部状态(向量)。然后,解码器使用该内部状态来预测下一个序列。
如需了解 Transformer 架构中编码器的定义,请参阅 Transformer。
F
小样本提示
包含多个“几个”示例的提示,演示大型语言模型应如何响应。例如,以下很长的提示包含两个示例,它们展示了一个大型语言模型如何回答查询。
一条提示的组成部分 | 备注 |
---|---|
指定国家/地区的官方货币是什么? | 您希望 LLM 回答的问题。 |
法国:EUR | 举个例子, |
英国:英镑 | 再看看另一个示例。 |
印度: | 实际查询。 |
与零样本提示和单样本提示相比,小样本提示通常会产生更理想的结果。但是,小样本提示需要较长的提示时间。
小样本提示是小样本学习的一种形式,可应用于基于提示的学习。
小提琴
Python 优先的配置库,无需破坏性代码或基础架构,即可设置函数和类的值。对于 Pax 和其他机器学习代码库,这些函数和类表示模型和训练超参数。
Fiddle 假设机器学习代码库通常分为:
- 库代码,用于定义层和优化器。
- 数据集“粘合”代码,用于调用库并将所有内容连接在一起。
Fiddle 以不可评估且可变的形式捕获粘合代码的调用结构。
微调
对预训练模型执行的第二次特定于任务的训练,以针对特定使用场景优化其参数。例如,某些大型语言模型的完整训练序列如下所示:
- 预训练:基于庞大的通用数据集(例如所有英语维基百科页面)训练大型语言模型。
- 微调:训练预训练模型以执行特定任务,例如响应医疗查询。微调通常涉及成百上千个侧重于特定任务的示例。
再举一个例子,大型图片模型的完整训练序列如下所示:
- 预训练:基于一个庞大的通用图片数据集(例如维基媒体共享文档中的所有图片)训练大型图片模型。
- 微调:训练预训练模型以执行特定任务,例如生成虎鲸的图片。
微调策略可采用以下策略的任意组合:
- 修改预训练模型的所有现有参数。这有时称为“完全微调”。
- 仅修改预训练模型的部分现有参数(通常是最靠近输出层的层),同时保持其他现有参数不变(通常是最靠近输入层的层)。请参阅参数高效微调。
- 添加更多层,通常在最接近输出层的现有层之上。
微调是一种迁移学习。因此,微调可能会使用与训练预训练模型不同的损失函数或不同的模型类型。例如,您可以对预训练的大型图片模型进行微调,以生成可返回输入图片中鸟类数量的回归模型。
使用以下术语比较微调和对比:
亚麻
基于 JAX 构建的高性能开源 库,用于深度学习。Flax 提供训练神经网络的函数,以及评估其性能的方法。
亚麻成品
基于 Flax 构建的开源 Transformer 库,主要用于自然语言处理和多模态研究。
G
生成式 AI
一种新兴的变革性字段,没有正式定义。 尽管如此,大多数专家都认同生成式 AI 模型可以创建(“生成”)以下各项:
- 复杂
- 连贯
- 原图
例如,生成式 AI 模型可以创建复杂的论文或图片。
一些早期技术(包括 LSTM 和 RNN)也可以生成原始且连贯的内容。一些专家将这些早期技术视为生成式 AI,而另一些专家则认为真正的生成式 AI 需要的输出比这些早期技术生成的更为复杂。
与预测性机器学习相对。
GPT(生成式预训练 Transformer)
由 OpenAI 开发的一系列基于 Transformer 的大型语言模型。
GPT 变体可适用于多种模式,其中包括:
- 图片生成(例如 ImageGPT)
- 文本到图像生成(例如 DALL-E)。
H
幻觉
由自称对现实世界做出断言的生成式 AI 模型生成看似合理但事实不正确的输出。例如,某个生成式 AI 模型声称 Barack Obama 于 1865 年去世,模型幻觉。
I
情境学习
与小样本提示的含义相同。
L
LaMDA(对话应用语言模型)
由 Google 开发的基于 Transformer 的大型语言模型,使用大型对话数据集进行训练,可以生成真实的对话响应。
LaMDA:我们突破性的对话技术概要介绍了。
语言模型
一种model,用于估算某个令牌model或某一系列令牌在较长令牌序列中出现的概率。
大型语言模型
没有严格定义的非正式术语,通常表示具有大量参数的语言模型。一些大型语言模型包含超过 1000 亿个参数。
M
遮盖语言模型
预测候选词元填充序列中空白的概率的语言模型。例如,遮盖语言模型可以计算替换以下句子中下划线的候选字词的概率:
帽子里的____又回来了。
文献通常使用字符串“MASK”,而不是下划线。例如:
戴在帽子上的“面具”回来了。
大多数现代遮盖语言模型都是双向的。
元学习
用于发现或改进学习算法的一部分机器学习。 元学习系统还可以旨在训练模型,以便从少量数据或从先前任务中获得的经验快速学习新任务。元学习算法通常会尝试实现以下目标:
- 改进/学习人工设计的功能(例如初始化程序或优化器)。
- 提高数据效率和计算效率。
- 改善泛化效果。
元学习与小样本学习相关。
modality
宽泛的数据类别。例如,数字、文本、图片、视频和音频是五种不同的模态。
模型并行处理
一种扩缩训练或推断的方式,将一个模型model的不同部分放置在不同的设备model上。模型并行处理支持因过大而无法适应单个设备的模型。
为了实现模型并行处理,系统通常会执行以下操作:
- 将模型分片(分解)成更小的部分。
- 将这些较小部分的训练分布到多个处理器。 每个处理器都会训练自己的模型部分。
- 组合结果以创建单个模型。
模型并行处理会减慢训练速度。
另请参阅数据并行。
多头自注意力模型
自注意力机制的扩展,针对输入序列中的每个位置多次应用自注意力机制。
Transformer 引入了多头自注意力功能。
多模态模型
一种模型的输入和/或输出包含多个模态。例如,假设某个模型将图片和文本说明(两种模态)作为特征,并输出一个评分来指示文本说明是否适合图片。因此,该模型的输入是多模态,而输出是单模态。
北
自然语言理解
根据用户输入或说出的内容确定用户的意图。 例如,搜索引擎会使用自然语言理解功能根据用户输入或说出的内容来确定用户搜索的内容。
N 元语法
N 个字词的有序序列。例如,“truly madly”属于二元语法。由于顺序是相关的,因此“madly 购物广告系列”与“truly madly”是不同的二元语法。
北 | 此类 N 元语法的名称 | 示例 |
---|---|---|
2 | 二元语法 | 去, 去, 吃午餐, 吃晚饭 |
3 | 三元语法或三元语法 | ate 过多, 三只盲人老鼠, bell tolls |
4 | 4-gram | 在公园散步, 风吹灰尘, 男孩吃扁豆 |
许多自然语言理解模型依赖 N 元语法来预测用户将输入或说出的下一个字词。例如,假设用户输入了“three blind”。 基于三元组的 NLU 模型可能会预测用户接下来要输入“mice”。
将 N 元语法与词袋进行对比,后者是无序的单词集。
NLU
自然语言理解的缩写。
O
一次性提示
一个提示,其中包含演示大型语言模型应如何响应的一个示例。例如,以下提示包含一个示例,展示了大型语言模型应如何回答查询。
一条提示的组成部分 | 备注 |
---|---|
指定国家/地区的官方货币是什么? | 您希望 LLM 回答的问题。 |
法国:EUR | 举个例子, |
印度: | 实际查询。 |
将一次性提示与以下术语进行比较和对比:
P
参数高效微调
一组技术,用于比完全微调更高效的大型预训练语言模型 (PLM)参数高效微调通常对参数进行微调要比完全微调少得多,但一般会生成大型语言模型,该模型与通过完全微调构建的大型语言模型的表现相当(或几乎相同)。
将参数高效微调与以下各项进行比较和对比:
参数高效微调也称为“参数高效微调”。
流水线
一种模型并行处理方式,其中模型的处理分为连续阶段,每个阶段均在不同设备上执行。在一个阶段处理一个批次时,前面的阶段可以处理下一个批次。
另请参阅分阶段培训。
PLM
预训练语言模型的缩写。
位置编码
一种技术,用于将某个序列中词元位置的相关信息添加到词元的嵌入中。Transformer 模型使用位置编码来更好地了解序列不同部分之间的关系。
位置编码的常见实现使用正弦函数。(具体而言,正弦函数的频率和振幅由令牌在序列中的位置决定。)此方法可让 Transformer 模型根据位置学习处理序列的不同部分。
预训练模型
已经过训练的模型或模型组件(例如嵌入向量)。有时,您需要将预训练的嵌入向量馈送到神经网络中。在其他时候,您的模型将自行训练嵌入向量,而不是依赖于预训练的嵌入。
预训练
基于大型数据集开始模型训练。一些预训练模型是笨拙的巨人,通常必须通过额外的训练来进行优化。例如,机器学习专家可能会基于庞大的文本数据集(例如维基百科中的所有英语页面)预训练大型语言模型。在预训练之后,可通过以下任何技术进一步优化生成的模型:
提示符
作为大型语言模型的输入输入的任何文本,用于调整模型以特定方式运行。提示可以是短小的短语,也可以是任意长的(例如,小说的全文)。提示分为多个类别,包括下表中显示的类别:
提示类别 | 示例 | 备注 |
---|---|---|
问题 | 鸽子可以飞多快? | |
教学 | 写一首关于套利的趣味诗歌。 | 一条提示,请求大型语言模型执行某项操作。 |
示例 | 将 Markdown 代码翻译为 HTML。例如:
Markdown: * 列表项 HTML: <ul> <li>列表项</li> </ul> |
此示例提示中的第一句话是指令。提示的其余部分是示例。 |
角色 | 向物理学博士解释为什么说梯度下降法用于机器学习训练。 | 句子的第一部分是指示;短语“致物理学博士”是角色部分。 |
模型需要完成的部分输入 | 英国总理居住在 | 部分输入提示可以突然结束(如此示例所示)或以下划线结尾。 |
生成式 AI 模型可以使用文本、代码、图片、嵌入、视频等几乎任何内容来响应提示。
提示式学习
某些模型的功能,可让模型调整自身行为以响应任意文本输入(提示)。在基于提示的典型学习范式中,大型语言模型通过生成文本来响应提示。例如,假设用户输入以下提示:
总结牛顿第三运动定律。
能够基于提示的学习的模型未经过专门训练,可回答上一条提示。相反,该模型“知道”许多关于物理学的知识、很多一般语言规则,以及很多关于一般有用的答案构成的内容。这些知识足以提供(有希望的)有用的答案。通过额外的人类反馈(“这个回答太复杂了。”或“有什么反应?”),一些基于提示的学习系统可以逐步提高答案的实用性。
提示设计
与提示工程的含义相同。
提示工程
创建提示的艺术,从大型语言模型引发所需反应。人工执行提示工程。编写结构合理的提示是确保大型语言模型给出有用响应的重要部分。提示工程取决于多种因素,包括:
如需详细了解如何编写实用的提示,请参阅提示设计简介。
提示设计是提示工程的同义词。
提示调整
参数高效微调机制,用于学习系统附加到实际提示前面的一个“前缀”。
提示调整的一种变体(有时称为前缀调整)是在每层前添加前缀。相比之下,大多数提示调整仅向输入层添加一个前缀。
R
角色提示
提示的可选部分,用于标识生成式 AI 模型响应的目标受众群体。如果没有角色提示,则大型语言模型提供的答案对提问的人可能有用,也可能没用。借助角色提示,大型语言模型能够以对特定目标受众群体更合适且更有用的方式回答问题。例如,以下提示的角色提示部分以粗体显示:
- 请总结本文,为经济学博士学位撰写文章。
- 描述潮汐如何对十岁孩子起作用。
- 解释 2008 年金融危机。像对小孩子或金毛寻回犬那样说话。
南
自注意力层(也称为自注意力层)
一个神经网络层,用于将一系列嵌入(例如令牌嵌入)转换为另一个嵌入序列。输出序列中的每个嵌入都是通过注意力机制集成输入序列元素的信息构建的。
“自注意力”的“自注意力”部分指的是涉及自身而不是某些其他上下文的序列。自注意力是转换器的主要构建块之一,并使用字典查找术语,例如“查询”“键”和“值”。
自注意力层以一系列输入表示开头,每个词对应一个表示形式。字词的输入表示法可以是简单的嵌入。对于输入序列中的每个字词,网络都会对该字词与整个字词序列中的每个元素的相关性进行评分。相关性得分决定了某个字词的最终表示法在多大程度上纳入了其他字词的表示法。
例如,请思考以下句子:
那只动物因为太累了,所以没能过马路。
以下插图(来自 Transformer:语言理解领域的新型神经网络架构)显示了代词“it”的自注意力层的注意力模式,其中每行的暗度表示每个单词对表示的影响程度:
自注意力层会突出显示与“它”相关的字词。在本例中,注意力层已经学会突出显示它可能引用的字词,并将最高权重分配给动物。
对于 n 个词元序列,自注意力会分别在序列中的每个位置转换 n 次嵌入的序列。nnn
情感分析
使用统计算法或机器学习算法确定群体对某项服务、产品、组织或主题的总体态度(正面或负面)。例如,使用自然语言理解,算法可以对大学课程的文本反馈进行情感分析,以确定学生通常喜欢或不喜欢课程的程度。
序列到序列任务
将令牌输入序列转换为令牌输出序列的任务。例如,两种常见的序列到序列任务是:
- 译者:
- 输入序列示例:“我爱你。”
- 输出序列示例:“Je t'aime”。
- 问题解答:
- 输入序列示例:“Do I need my car in New York City?”(我在纽约市需要汽车吗?)
- 输出序列示例:“否。请不要把汽车放在家里。”
稀疏特征
一种特征,其值主要为零或为空。例如,如果某个特征包含一个 1 值和一百万个 0 值,则该特征是稀疏的。相比之下,密集特征的值主要不为零或为空。
在机器学习中,稀疏特征是数量令人惊讶的特征。分类特征通常是稀疏特征。 例如,在森林中有 300 种可能的树种中,一个示例可能仅标识一棵枫树。或者,在视频库中的数百万个视频中,一个示例可能只是标识“卡萨布兰卡”。
在模型中,您通常使用独热编码表示稀疏特征。如果独热编码很大,您可以在独热编码之上放置一个嵌入层,以提高效率。
稀疏表示法
仅存储稀疏特征中非零元素的 position(s)。
例如,假设名为 species
的分类特征识别了特定森林中的 36 种树种。并进一步假设每个样本仅标识一个物种。
您可以使用独热矢量来表示每个示例中的树种。独热矢量将包含一个 1
(代表示例中的特定树种)和 35 个 0
(代表示例中不涵盖的 35 个树种)。因此,maple
的独热表示法可能如下所示:
或者,稀疏表示法将仅标识特定物种的位置。如果 maple
位于位置 24,则 maple
的稀疏表示法将直接变为:
24
请注意,稀疏表示法比独热表示法更紧凑。
分阶段训练
一种在一系列离散阶段训练模型的策略。目标可以是加快训练过程,也可以是实现更好的模型质量。
下面给出了渐进式堆叠方法的示意图:
- 第 1 阶段包含 3 个隐藏层,第 2 阶段包含 6 个隐藏层,第 3 阶段包含 12 个隐藏层。
- 第 2 阶段开始使用在第 1 阶段的 3 个隐藏层中学到的权重进行训练。第 3 阶段开始使用在第 2 阶段的 6 个隐藏层中学到的权重进行训练。
另请参阅流水线。
T
T5
Google AI 于 2020 年引入的文本转文本迁移学习 模型。T5 是一种基于 Transformer 架构的编码器-解码器模型,使用超大数据集进行训练。它在各种自然语言处理任务中非常有效,例如生成文本、翻译语言和以对话的方式回答问题。
T5 得名于“Text-to-Text Transfer Transformer”中的五个 T。
T5X
一种开源机器学习框架,旨在构建和训练大型自然语言处理 (NLP) 模型。T5 基于 T5X 代码库(基于 JAX 和 Flax 构建)实现。
温度
一个超参数,用于控制模型输出的随机性。温度越高,随机输出的随机性越高,而温度越低,随机输出越少。
选择最佳温度取决于具体应用和所需的模型输出属性。例如,在创建可生成广告素材输出的应用时,您可能会提高温度。相反,为了提高模型的准确性和一致性,在构建对图片或文本进行分类的模型时,您可能需要降低温度。
温度通常与 softmax 一起使用。
文本 span
与文本字符串的特定子部分关联的数组索引 span。
例如,Python 字符串 s="Be good now"
中的单词 good
占据文本 3 到 6 的范围。
token
在语言模型中,表示训练模型并据此进行预测的原子单元。令牌通常是以下类型之一:
- 例如,词组“dogs like cats”由三个词元组成:“dogs”“like”和“cats”。
- 字符,例如,短语“bike fish”由 9 个字符标记组成。(请注意,空格计为一个令牌。)
- 子字词 - 单个字词可以是单个词元,也可以是多个词元。 子词由根词、前缀或后缀组成。例如,使用子词作为词元的语言模型可能会将词“dogs”视为两个词法单元(根词“dog”和复数后缀“s”)。同一语言模型可能会将单个单词“taller”视为两个子词(根词“tall”和后缀“er”)。
在语言模型之外的领域,词元可以表示其他类型的原子单元。例如,在计算机视觉中,令牌可能是图片的子集。
Transformer
Google 开发的神经网络架构,依靠自注意力层机制将一系列输入嵌入转换为一系列输出嵌入,而无需依赖卷积或循环神经网络。Transformer 可以视为一组自注意力层。
Transformer 可以包含以下任意内容:
编码器将一系列嵌入转换为长度相同的新序列。编码器包含 N 个相同的层,每个层包含两个子层。这两个子层应用于输入嵌入序列的每个位置,将序列的每个元素转换为新的嵌入。第一个编码器子层聚合来自输入序列的信息。第二个编码器子层将聚合信息转换为输出嵌入。
解码器将一系列输入嵌入转换为一系列输出嵌入,其长度可能不同。解码器还包含 N 个相同的层,其中包含三个子层,其中两个子层与编码器子层类似。第三个解码器子层会获取编码器的输出,并应用自注意力机制从编码器中收集信息。
Transformer:语言理解领域的新型神经网络架构博文很好地介绍了 Transformer。
三元组
一种 N 元语法,其中 N=3。
U
单向
一种系统,只评估文本目标部分之前之前的文本。 相比之下,双向系统会评估文本目标部分之前和之后的文本。如需了解详情,请参阅双向。
单向语言模型
一种语言模型,其概率仅基于目标令牌之前(而不是之后)出现的令牌。 与双向语言模型相对。
V
变分自编码器 (VAE)
一种自动编码器,可利用输入和输出之间的差异来生成输入的修改版本。变分自动编码器对生成式 AI 很有用。
VAE 基于变分推断,是一种估算概率模型参数的技术。
西
词嵌入
表示嵌入向量内的词集中的每个字词;也就是说,将每个字词表示为一个介于 0.0 和 1.0 之间的浮点值的向量。具有相似含义的字词具有比具有不同含义的字词具有更多相似的表示法。例如,carrots、celery 和 cucumbers 的表示法都相对相似,它们与 airplane、sunglasses 和 toothpaste 的表示法截然不同。
Z
零样本提示
一条提示的组成部分 | 备注 |
---|---|
指定国家/地区的官方货币是什么? | 您希望 LLM 回答的问题。 |
印度: | 实际查询。 |
大型语言模型可能会做出以下响应:
- 卢比符号
- INR
- ₹
- 印度卢比
- 卢比
- 印度卢比
所有答案都正确,不过您可能更希望使用某种格式。
将零样本提示与以下术语进行比较和对比: