Эта страница переведена с помощью Cloud Translation API.

Магистр права: Что такое большая языковая модель?

Более новая технология, большие языковые модели ( LLM ), предсказывает токен или последовательность токенов, иногда даже на несколько абзацев. Следует помнить, что токен может быть словом, подсловом (подмножеством слова) или даже отдельным символом. LLM делают гораздо более точные прогнозы, чем языковые модели N-грамм или рекуррентные нейронные сети, потому что:

LLM содержат гораздо больше параметров , чем рекуррентные модели.
Студенты магистратуры права собирают гораздо больше контекста.

В этом разделе представлена наиболее успешная и широко используемая архитектура для создания LLM: Transformer.

Что такое Трансформер?

Трансформеры представляют собой современную архитектуру для широкого спектра приложений языковых моделей, таких как перевод:

Рисунок 1. Входные данные: «Я хорошая собака». Трансформер-переводчик преобразует эти данные в выходные данные: «Я хороший пёс» (Je suis un bon chien), что является тем же предложением, но переведенным на французский язык. — **Рисунок 1.** Приложение на базе Transformer, которое переводит с английского на французский.

Полные трансформаторы состоят из энкодера и декодера:

Кодер преобразует входной текст в промежуточное представление. Кодер представляет собой огромную нейронную сеть .
Декодер преобразует это промежуточное представление в полезный текст. Декодер также представляет собой огромную нейронную сеть.

Например, в переводчике:

Кодер преобразует входной текст (например, предложение на английском языке) в некоторое промежуточное представление.
Декодер преобразует это промежуточное представление в выходной текст (например, эквивалентное предложение на французском языке).

Рисунок 2. Транслятор на базе Transformer начинается с кодера, который генерирует промежуточное представление английского предложения. Декодер преобразует это промежуточное представление во французское предложение. — **Рисунок 2.** Полный трансформатор содержит как кодер, так и декодер.

Нажмите на значок, чтобы узнать больше о частичных трансформерах.

В этом модуле рассматриваются полные Transformers, которые содержат как кодер, так и декодер. Однако существуют также архитектуры, содержащие только кодер и только декодер:

Архитектуры, использующие только кодировщик, преобразуют входной текст в промежуточное представление (часто в слой встраивания ). Примеры использования архитектур, использующих только кодировщик, включают:
- Предсказание любого токена во входной последовательности (что является традиционной ролью языковых моделей).
- Создание сложного внедрения, которое может служить входными данными для другой системы, например, классификатора.
Архитектуры, использующие только декодер, генерируют новые токены из уже сгенерированного текста. Модели, использующие только декодер, обычно отлично справляются с генерацией последовательностей; современные модели, использующие только декодер, могут использовать свои возможности генерации для создания продолжений диалоговых историй и других подсказок.

Что такое самовнимание?

Для улучшения контекста Трансформеры активно используют концепцию внутреннего внимания . По сути, для каждого токена ввода внутреннее внимание задаёт следующий вопрос:

«В какой степени каждый другой токен ввода влияет на интерпретацию этого токена?»

«Самость» в «самовнимании» относится к входной последовательности. Некоторые механизмы внимания взвешивают связи входных токенов с токенами в выходной последовательности, например, при переводе, или с токенами в какой-либо другой последовательности. Но самовнимание взвешивает только важность связей между токенами во входной последовательности.

Для упрощения предположим, что каждый токен — это слово, а полный контекст — всего лишь одно предложение. Рассмотрим следующее предложение:

The animal didn't cross the street because it was too tired.

Предыдущее предложение содержит одиннадцать слов. Каждое из одиннадцати слов обращает внимание на остальные десять, задаваясь вопросом, насколько каждое из этих десяти слов важно само по себе. Например, обратите внимание, что в предложении есть местоимение it . Местоимения часто неоднозначны. Местоимение it обычно относится к недавнему существительному или именной группе, но в данном примере к какому недавнему существительному оно относится — к животному или к улице?

Механизм внутреннего внимания определяет релевантность каждого соседнего слова по отношению к местоимению «it» . Результаты показаны на рисунке 3: чем голубее линия, тем важнее слово для местоимения «it». То есть слово «животное» важнее слова «улица» для местоимения «it» .

Рисунок 3. Соответствие каждого из одиннадцати слов в предложении: «Животное не перешло улицу, потому что слишком устало» местоимению «it». Слово «animal» наиболее релевантно местоимению «it». — **Рисунок 3.** Самонаблюдение при использовании местоимения *«it»* . Из книги «Трансформер: новая архитектура нейронной сети для понимания языка» .

И наоборот, предположим, что последнее слово в предложении изменяется следующим образом:

The animal didn't cross the street because it was too wide.

В этом пересмотренном предложении самовосприятие, как мы надеемся, оценит слово «улица» как более релевантное местоимению « оно », чем «животное ».

Некоторые механизмы внутреннего внимания являются двунаправленными , что означает, что они вычисляют оценки релевантности для токенов, предшествующих и следующих за словом, на которое направлено внимание. Например, на рисунке 3 обратите внимание, что проверяются слова с обеих сторон от него . Таким образом, двунаправленный механизм внутреннего внимания может собирать контекст из слов с обеих сторон от слова, на которое направлено внимание. Напротив, однонаправленный механизм внутреннего внимания может собирать контекст только из слов с одной стороны от слова, на которое направлено внимание. Двунаправленное внутреннее внимание особенно полезно для генерации представлений целых последовательностей, в то время как приложения, которые генерируют последовательности токен за токеном, требуют однонаправленного внутреннего внимания. По этой причине кодеры используют двунаправленное внутреннее внимание, в то время как декодеры используют однонаправленное.

Что такое многоуровневое многоголовое внимание?

Каждый слой внутреннего внимания обычно состоит из нескольких головок внутреннего внимания . Выходной сигнал слоя представляет собой математическую операцию (например, средневзвешенное значение или скалярное произведение) выходных сигналов различных головок.

Поскольку параметры каждой головки инициализируются случайными значениями, разные головки могут изучать различные взаимосвязи между каждым рассматриваемым словом и соседними словами. Например, головка внутреннего внимания, описанная в предыдущем разделе, фокусировалась на определении того, к какому существительному относится местоимение, к которому она относится. Однако другие головки внутреннего внимания в том же слое могут изучать грамматическую релевантность каждого слова по отношению к другим словам или изучать другие взаимодействия.

Полная модель трансформера накладывает друг на друга несколько слоёв внутреннего внимания . Выходные данные предыдущего слоя становятся входными данными для следующего. Такое наложение позволяет модели формировать всё более сложные и абстрактные представления о тексте. В то время как более ранние слои могут фокусироваться на базовом синтаксисе, более глубокие слои могут интегрировать эту информацию для понимания более тонких концепций, таких как тональность, контекст и тематические связи во всех входных данных.

Нажмите на значок, чтобы узнать больше о программе Big O для LLM.

Самонаблюдение заставляет каждое слово в контексте изучать релевантность всех остальных слов в этом контексте. Поэтому возникает соблазн объявить эту задачу сложностью O( ^N2 ), где:

N — количество токенов в контексте.

Как будто предыдущая «Большая О» была недостаточно пугающей, «Трансформеры» содержат несколько слоев внутреннего внимания и несколько голов внутреннего внимания на каждом слое, так что «Большая О» на самом деле:

O(N² · S · D)

где:

S — количество слоев внутреннего внимания.
D — количество головок в слое.

Нажмите на значок, чтобы узнать больше о том, как проходит обучение по программе LLM.

Вероятно, вам никогда не придётся готовить LLM с нуля. Подготовка LLM промышленного уровня требует огромного опыта в области машинного обучения, вычислительных ресурсов и времени. Как бы то ни было, вы нажали на значок, чтобы узнать больше, поэтому мы должны вам объяснить.

Основным компонентом построения LLM является феноменальный объём обучающих данных (текста), обычно отфильтрованных. Первый этап обучения обычно представляет собой некую форму неконтролируемого обучения на этих обучающих данных. В частности, модель обучается на замаскированных предсказаниях , то есть определённые токены в обучающих данных намеренно скрыты. Модель обучается, пытаясь предсказать эти недостающие токены. Например, предположим, что следующее предложение входит в обучающие данные:

The residents of the sleepy town weren't prepared for what came next.

Случайные токены удаляются, например:

The ___ of the sleepy town weren't prepared for ___ came next.

LLM — это всего лишь нейронная сеть, поэтому потери (количество замаскированных токенов, которые модель правильно учла) определяют степень, в которой обратное распространение обновляет значения параметров.

Модель на основе Transformer, обученная предсказывать отсутствующие данные, постепенно учится обнаруживать закономерности и структуры более высокого порядка в данных, чтобы получать подсказки об отсутствующем токене. Рассмотрим следующий пример замаскированного экземпляра:

Oranges are traditionally ___ by hand. Once clipped from a tree, __ don't ripen.

Обширное обучение на огромном количестве замаскированных примеров позволяет LLM усвоить, что «собранный» или «выбранный» являются высоковероятными совпадениями для первого токена, а «апельсины» или «они» являются хорошим выбором для второго токена.

Дополнительный этап обучения, называемый настройкой инструкций, может улучшить способность LLM следовать инструкциям.

Почему Трансформеры такие большие?

Трансформеры содержат сотни миллиардов или даже триллионы параметров . В этом курсе обычно рекомендуется строить модели с меньшим числом параметров, а не с большим. В конце концов, модель с меньшим числом параметров потребляет меньше ресурсов для прогнозирования, чем модель с большим числом параметров. Однако исследования показывают, что трансформеры с большим числом параметров стабильно превосходят трансформеры с меньшим числом параметров.

Но как магистр права генерирует текст?

Вы видели, как исследователи обучают LLM предсказывать пропущенное слово или два, и, возможно, вас это не впечатлило. В конце концов, предсказать одно или два слова — это, по сути, функция автодополнения, встроенная в различные программы для работы с текстами, электронной почтой и написания текстов. Вам, возможно, интересно, как LLM могут генерировать предложения, абзацы или хокку об арбитраже.

По сути, LLM — это, по сути, механизмы автодополнения, способные автоматически предсказывать (дополнять) тысячи токенов. Например, рассмотрим предложение, за которым следует замаскированное предложение:

My dog, Max, knows how to perform many traditional dog tricks.
___ (masked sentence)

LLM может генерировать вероятности для замаскированного предложения, включая:

Вероятность	Слово(а)
3,1%	Например, он может сидеть, стоять и переворачиваться.
2,9%	Например, он умеет сидеть, стоять и переворачиваться.

Достаточно большой LLM может генерировать вероятности для абзацев и целых эссе. Вопросы пользователя к LLM можно представить как «заданное» предложение, за которым следует воображаемая маска. Например:

User's question: What is the easiest trick to teach a dog?
LLM's response:  ___

LLM генерирует вероятности для различных возможных ответов.

Другой пример: магистр права, обученный решению огромного количества математических «текстовых задач», может создавать впечатление, что он способен к сложным математическим рассуждениям. Однако, по сути, такие магистры права просто выполняют автодополнение подсказки к текстовой задаче.

Преимущества получения степени магистра права

LLM могут генерировать понятный и понятный текст для широкого круга целевой аудитории. LLM могут делать прогнозы по задачам, которым они специально обучены. Некоторые исследователи утверждают, что LLM также могут делать прогнозы по входным данным, которым они специально не обучались, но другие исследователи опровергают это утверждение.

Проблемы с LLM

Обучение на степень магистра права влечет за собой множество проблем, среди которых:

Собираем огромный тренировочный набор.
Потребление огромных вычислительных ресурсов и электроэнергии в течение многих месяцев.
Решение проблем параллелизма.

Использование LLM для составления прогнозов приводит к следующим проблемам:

У LLM есть галлюцинации , то есть их предсказания часто содержат ошибки.
LLM потребляют огромное количество вычислительных ресурсов и электроэнергии. Обучение LLM на больших наборах данных обычно снижает объём ресурсов, необходимых для вывода, хотя большие обучающие наборы требуют больше ресурсов для обучения.
Как и все модели машинного обучения, модели LLM могут демонстрировать различные виды предвзятости.

Упражнение: проверьте свое понимание

Предположим, что Transformer обучен на миллиарде документов, включая тысячи документов, содержащих хотя бы одно слово « слон» . Какое из следующих утверждений, вероятно, верно?

Деревья акации , важная часть рациона слона, постепенно приобретают высокий балл внутреннего внимания при упоминании слова «слон» .

Да, и это позволит Трансформеру ответить на вопросы о рационе слона.

Трансформер будет связывать слово «слон» с различными идиомами, содержащими слово «слон» .

Да, система начнет присваивать высокие баллы внутреннего внимания слову «слон» и другим словам в идиомах на эту тему.

Трансформер постепенно научится игнорировать любое саркастическое или ироническое использование слова «слон» в обучающих данных.

Достаточно крупные трансформеры, обученные на достаточно широком наборе данных, становятся весьма искусными в распознавании сарказма, юмора и иронии. Поэтому, вместо того чтобы игнорировать сарказм и иронию, трансформер учится на них.