大型语言模型简介

刚开始接触语言模型或大型语言模型?请查看以下资源。

什么是语言模型?

语言模型是一个机器学习模型,旨在预测和生成合理的语言。例如,自动补全功能是一种语言模型。

这些模型的工作原理是估算令牌或令牌序列在较长的令牌序列中出现的概率。考虑以下句子:

When I hear rain on my roof, I _______ in my kitchen.

假设您的令牌是一个单词,语言模型会确定不同字词或字词序列的替换概率。例如,语言模型可能会确定以下概率:

cook soup 9.4%
warm up a kettle 5.2%
cower 3.6%
nap 2.5%
relax 2.2%
...

“令牌序列”可以是整个句子或一系列句子。也就是说,语言模型可以计算不同完整句子或文本块的可能性。

估算序列中后续步骤的概率对以下各种情况非常有用:生成文字、翻译语言以及回答问题,等等。

什么是大型语言模型?

大规模对人工语言进行建模是一项非常复杂且需要大量资源的工作。数十年来,语言模型和大型语言模型达到目前的发展能力。

模型构建越大,复杂性和效率越高。早期语言模型可以预测单个字词的概率;现代大型语言模型可以预测句子、段落甚至整个文档的概率。

随着计算机内存、数据集大小和处理能力的增加,语言模型的大小和能力在过去几年里呈爆炸式增长,并且开发了更有效的模型来对较长的文本序列进行建模。

有多大?

该定义模糊不清,但“large”一直用于描述 BERT(1.1 亿个参数)以及 PaLM 2(最多 3400 亿个参数)。

参数是模型在训练期间学习的权重,用于预测序列中的下一个令牌。“大”可以指模型中的参数数量,有时可以指数据集中的字词数量。

Transformer

语言建模的一个关键发展是在 2017 年引入 Transform,它是围绕引起注意这一概念设计的架构。这样即可通过重点关注输入中最重要的部分,从而解决在早期模型中遇到的内存问题,从而处理更长的序列。

转换器是各种语言模型应用(例如译者)的先进架构。

如果输入是“我很好狗”。,基于转换器的转换器将该输入转换为输出 Je suis un bon chien。”,这句话翻译成法语。

完整的转换器包含编码器解码器。编码器将输入文本转换为中间表示形式,解码器将中间表示形式转换为有用的文本。

自我注意

转换器主要依赖于一个名为“自注意力”的概念。自我注意力的自我部分是指语料库中每个令牌的“以自我为中心”焦点。实际上,就输入的每个令牌而言,自我注意力问题是:“所有其他输入令牌对我有多重要?”为简单起见,假设每个令牌都是一个单词,完整的上下文是单个句子。考虑以下句子:

因为动物太累了,所以那条动物没有过马路。

前一句中有 11 个词,因此这 11 个词中每个词都分别对应于其他十个词,想知道这 10 个词中每个词的重要性。注意,句子包含代词 it。 人称代词往往不明确。人称代词始终指的是最近的名词,但在示例句子中,哪个名词它指的是:动物或街道?

自注意力机制会确定每个相邻字词与代词 it 的相关性。

LLM 有哪些用例?

LLM 在构建任务时非常高效,因为 MMM 会针对输入生成最合理的文本。它们甚至开始展现出在其他任务上的出色效果;例如,总结、问答和文本分类。这些称为“紧急能力”。LLM 甚至可以解决一些数学问题并编写代码(不过建议检查其工作)。

LLM 非常擅长模仿人类的语音模式。除此之外,它们擅长将信息与不同的样式和色调相结合。

不过,LLM 不仅仅是生成文本,还可能是模型的组件。最新的 LLM 已用于构建情感检测器和恶意分类器,并生成图片说明。

LLM 注意事项

这种大型模型并非没有缺点。

最大 LLM 成本较高。训练可能需要数月时间,因此会消耗大量资源。

它们通常还可以用于其他任务,即有价值的一线准则。

使用超过 一万亿个参数的训练模型会带来工程挑战。需要特殊的基础架构和编程技术来协调流向条状标签再回到芯片。

有几种方法可以降低这些大型模型的费用。两种方法是离线推断蒸馏

在超大模型中,偏差是一个问题,在训练和部署中应加以考虑。

由于这些模型基于人类语言进行训练,因此可能会引发许多潜在的道德问题,包括滥用语言以及种族、性别、宗教等方面的偏见。

很明显,随着这些模型不断变得更大、性能更好,您需要持续努力了解和减少这些缺陷。详细了解 Google 的负责任 AI 方法。