Глоссарий машинного обучения: оценка языка

На этой странице содержатся термины глоссария языковой оценки. Чтобы просмотреть все термины глоссария, нажмите здесь .

А

внимание

#язык

Механизм, используемый в нейронной сети , который указывает важность определенного слова или части слова. Внимание сжимает объем информации, необходимой модели для прогнозирования следующего токена/слова. Типичный механизм внимания может состоять из взвешенной суммы по набору входных данных, где вес каждого входного сигнала вычисляется другой частью нейронной сети.

Обратитесь также к самовниманию и многоголовому самовниманию , которые являются строительными блоками Трансформеров .

автоэнкодер

#язык
#изображение

Система, которая учится извлекать наиболее важную информацию из входных данных. Автоэнкодеры представляют собой комбинацию кодера и декодера . Автоэнкодеры полагаются на следующий двухэтапный процесс:

  1. Кодер преобразует входные данные в (обычно) низкоразмерный (промежуточный) формат с потерями.
  2. Декодер создает версию исходного ввода с потерями, сопоставляя формат меньшей размерности с исходным входным форматом более высокой размерности.

Автокодировщики обучаются сквозно, заставляя декодер пытаться как можно точнее восстановить исходный входной сигнал из промежуточного формата кодера. Поскольку промежуточный формат меньше (меньшая размерность), чем исходный формат, автокодировщику приходится узнавать, какая информация на входе важна, и выходные данные не будут полностью идентичны входным.

Например:

  • Если входные данные представляют собой графику, неточная копия будет похожа на исходную графику, но несколько изменена. Возможно, неточная копия удаляет шум из исходной графики или заполняет некоторые недостающие пиксели.
  • Если входные данные представляют собой текст, автокодировщик сгенерирует новый текст, который имитирует (но не идентичен) исходному тексту.

См. также вариационные автоэнкодеры .

авторегрессионная модель

#язык
#изображение
#генеративныйИИ

Модель , которая делает прогноз на основе собственных предыдущих прогнозов. Например, авторегрессионные языковые модели прогнозируют следующий токен на основе ранее предсказанных токенов. Все модели большого языка на основе Transformer являются авторегрессионными.

Напротив, модели изображений на основе GAN обычно не являются авторегрессионными, поскольку они генерируют изображение за один проход вперед, а не поэтапно итеративно. Однако некоторые модели генерации изображений являются авторегрессионными, поскольку они генерируют изображение поэтапно.

Б

мешок слов

#язык

Представление слов во фразе или отрывке независимо от порядка. Например, мешок слов одинаково представляет следующие три фразы:

  • собака прыгает
  • прыгает на собаку
  • собака прыгает

Каждое слово сопоставляется с индексом в разреженном векторе , где вектор имеет индекс для каждого слова в словаре. Например, фраза «собака прыгает» отображается в вектор признаков с ненулевыми значениями трех индексов, соответствующих словам « собака » и «прыжки» . Ненулевое значение может быть любым из следующих:

  • 1 указывает на наличие слова.
  • Подсчет количества раз, когда слово появляется в сумке. Например, если фраза «бордовая собака» — это собака с бордовой шерстью , то и «бордовый» , и «собака» будут представлены как 2, а другие слова будут представлены как 1.
  • Некоторое другое значение, например логарифм количества раз, которое слово появляется в сумке.

BERT (представления двунаправленного кодировщика от трансформаторов)

#язык

Архитектура модели для представления текста. Обученная модель BERT может действовать как часть более крупной модели для классификации текста или других задач машинного обучения.

BERT имеет следующие характеристики:

Варианты BERT включают:

Обзор BERT см. в разделе «Открытый исходный код BERT: современное предварительное обучение обработке естественного языка» .

двунаправленный

#язык

Термин, используемый для описания системы, которая оценивает текст, который предшествует и следует за целевым разделом текста. Напротив, однонаправленная система оценивает только текст, который предшествует целевому разделу текста.

Например, рассмотрим модель языка в масках , которая должна определять вероятности для слова или слов, представляющих подчеркивание в следующем вопросе:

Что с тобой _____?

Однонаправленная языковая модель должна была бы основывать свои вероятности только на контексте, обеспечиваемом словами «Что», «есть» и «the». Напротив, двунаправленная языковая модель также может получать контекст от слов «с» и «вы», что может помочь модели генерировать более точные прогнозы.

двунаправленная языковая модель

#язык

Языковая модель , определяющая вероятность присутствия данного токена в заданном месте во фрагменте текста на основе предыдущего и последующего текста.

биграмма

#seq
#язык

N-грамма , в которой N=2.

BLEU (дублёр двуязычной оценки)

#язык

Оценка от 0,0 до 1,0 включительно, указывающая на качество перевода между двумя человеческими языками (например, между английским и русским). Оценка BLEU 1,0 указывает на идеальный перевод; оценка BLEU 0,0 указывает на ужасный перевод.

С

причинно-языковая модель

#язык

Синоним однонаправленной языковой модели .

См. двунаправленную языковую модель , чтобы сравнить различные направленные подходы к языковому моделированию.

подсказка по цепочке мыслей

#язык
#генеративныйИИ

Метод быстрого проектирования , который побуждает большую языковую модель (LLM) шаг за шагом объяснять свои рассуждения. Например, рассмотрите следующую подсказку, уделив особое внимание второму предложению:

Какую силу перегрузки испытает водитель автомобиля, разгоняющегося от 0 до 60 миль в час за 7 секунд? В ответе покажите все соответствующие расчеты.

Ответ LLM, скорее всего, будет следующим:

  • Покажите последовательность физических формул, вставляя значения 0, 60 и 7 в соответствующие места.
  • Объясните, почему он выбрал именно эти формулы и что означают различные переменные.

Подсказки по цепочке мыслей заставляют LLM выполнять все вычисления, которые могут привести к более правильному ответу. Кроме того, подсказки по цепочке мыслей позволяют пользователю изучить шаги LLM, чтобы определить, имеет ли ответ смысл.

разбор избирательного округа

#язык

Деление предложения на более мелкие грамматические конструкции («составные»). Более поздняя часть системы машинного обучения, такая как модель понимания естественного языка , может анализировать составляющие легче, чем исходное предложение. Например, рассмотрим следующее предложение:

Мой друг взял двух кошек.

Анализатор избирательного округа может разделить это предложение на следующие две составляющие:

  • Мой друг — существительное.
  • усыновил двух кошек — это глагольная фраза.

Эти составляющие можно разделить на более мелкие составляющие. Например, глагольная группа

взял двух кошек

можно дополнительно разделить на:

  • принято – это глагол.
  • две кошки — еще одна существительная группа.

крах цветения

#язык

Предложение или фраза с неоднозначным смыслом. Цветение сбоев представляет собой серьезную проблему в понимании естественного языка . Например, заголовок «Красная лента держит небоскреб» — это настоящий крах, потому что модель NLU может интерпретировать заголовок буквально или фигурально.

Д

декодер

#язык

В общем, любая система машинного обучения, которая преобразуется из обработанного, плотного или внутреннего представления в более необработанное, разреженное или внешнее представление.

Декодеры часто являются компонентами более крупных моделей, где они часто работают в паре с кодером .

В задачах преобразования последовательности в последовательность декодер начинает с внутреннего состояния, сгенерированного кодером, для прогнозирования следующей последовательности.

Обратитесь к Transformer для определения декодера в архитектуре Transformer.

шумоподавление

#язык

Общий подход к самостоятельному обучению, при котором:

  1. В набор данных искусственно добавляется шум .
  2. Модель пытается убрать шум.

Шумоподавление позволяет учиться на немаркированных примерах . Исходный набор данных служит целью или меткой , а зашумленные данные — входными данными.

Некоторые модели языка в масках используют шумоподавление следующим образом:

  1. Шум искусственно добавляется к непомеченному предложению путем маскировки некоторых токенов.
  2. Модель пытается предсказать исходные токены.

прямое побуждение

#язык
#генеративныйИИ

Синоним подсказки с нулевым выстрелом .

Э

изменить расстояние

#язык

Измерение того, насколько похожи две текстовые строки друг на друга. В машинном обучении расстояние редактирования полезно, поскольку его легко и просто вычислить, а также это эффективный способ сравнить две заведомо похожие строки или найти строки, похожие на заданную строку.

Существует несколько определений расстояния редактирования, каждое из которых использует разные строковые операции. Например, расстояние Левенштейна учитывает наименьшее количество операций удаления, вставки и замены.

Например, расстояние Левенштейна между словами «сердце» и «дротики» равно 3, потому что следующие 3 редактирования — это наименьшее количество изменений, позволяющих превратить одно слово в другое:

  1. сердце → дорогая (замените «h» на «d»)
  2. дорогой → дротик (удалить «е»)
  3. дротик → дартс (вставить «s»)

слой внедрения

#язык
#основы

Специальный скрытый слой , который обучается на многомерном категориальном признаке для постепенного изучения вектора внедрения более низкого измерения. Слой внедрения позволяет нейронной сети обучаться гораздо эффективнее, чем обучение только на многомерном категориальном признаке.

Например, на Земле в настоящее время произрастает около 73 000 видов деревьев. Предположим, что виды деревьев являются признаком вашей модели, поэтому входной слой вашей модели включает в себя вектор длиной 73 000 элементов. Например, возможно, baobab можно было бы представить примерно так:

Массив из 73 000 элементов. Первые 6232 элемента содержат значение 0. Следующий элемент содержит значение 1. Последние 66767 элементов содержат нулевое значение.

Массив из 73 000 элементов очень длинный. Если вы не добавите в модель слой внедрения, обучение займет очень много времени из-за умножения 72 999 нулей. Возможно, вы выберете слой внедрения, состоящий из 12 измерений. Следовательно, слой внедрения постепенно изучает новый вектор внедрения для каждой породы деревьев.

В определенных ситуациях хеширование является разумной альтернативой слою внедрения.

пространство для встраивания

#язык

Сопоставляется d-мерное векторное пространство, являющееся частью векторного пространства более высокой размерности. В идеале пространство встраивания содержит структуру, которая дает значимые математические результаты; например, в идеальном пространстве вложений сложение и вычитание вложений могут решить задачи по аналогии слов.

Скалярное произведение двух вложений является мерой их сходства.

вектор внедрения

#язык

Грубо говоря, массив чисел с плавающей запятой, взятый из любого скрытого слоя и описывающий входные данные этого скрытого слоя. Часто вектор внедрения представляет собой массив чисел с плавающей запятой, обученный на слое внедрения. Например, предположим, что слой внедрения должен изучить вектор внедрения для каждого из 73 000 видов деревьев на Земле. Возможно, следующий массив является вектором внедрения дерева баобаба:

Массив из 12 элементов, каждый из которых содержит число с плавающей запятой от 0,0 до 1,0.

Вектор внедрения — это не набор случайных чисел. Слой внедрения определяет эти значения посредством обучения, аналогично тому, как нейронная сеть изучает другие веса во время обучения. Каждый элемент массива представляет собой рейтинг по некоторой характеристике породы дерева. Какой элемент представляет характеристику какой породы деревьев? Людям это очень сложно определить.

Математически примечательная часть вектора внедрения заключается в том, что аналогичные элементы имеют одинаковые наборы чисел с плавающей запятой. Например, похожие породы деревьев имеют более похожий набор чисел с плавающей запятой, чем разные породы деревьев. Секвойи и секвойи являются родственными породами деревьев, поэтому у них будет более похожий набор чисел с плавающей запятой, чем у секвой и кокосовых пальм. Числа в векторе внедрения будут меняться каждый раз, когда вы переобучаете модель, даже если вы переобучаете модель с идентичными входными данными.

кодер

#язык

В общем, любая система машинного обучения, которая преобразует необработанное, разреженное или внешнее представление в более обработанное, более плотное или более внутреннее представление.

Кодеры часто являются компонентом более крупной модели, где они часто работают в паре с декодером . Некоторые Трансформеры объединяют кодеры с декодерами, хотя другие Трансформеры используют только кодер или только декодер.

Некоторые системы используют выходные данные кодировщика в качестве входных данных для сети классификации или регрессии.

В задачах «последовательность-последовательность» кодер принимает входную последовательность и возвращает внутреннее состояние (вектор). Затем декодер использует это внутреннее состояние для прогнозирования следующей последовательности.

Обратитесь к Transformer для определения кодера в архитектуре Transformer.

Ф

подсказка из нескольких кадров

#язык
#генеративныйИИ

Приглашение , содержащее более одного («несколько») примеров, демонстрирующих, как должна реагировать большая языковая модель . Например, следующая длинная подсказка содержит два примера, показывающие большую языковую модель, как отвечать на запрос.

Части одной подсказки Примечания
Какая официальная валюта указанной страны? Вопрос, на который вы хотите получить ответ от LLM.
Франция: евро Один пример.
Великобритания: фунт стерлингов. Другой пример.
Индия: Фактический запрос.

Подсказки с небольшим количеством шагов обычно дают более желательные результаты, чем подсказки с нулевым шагом и одноразовые подсказки . Однако подсказка с несколькими выстрелами требует более длинной подсказки.

Подсказки в несколько этапов — это форма обучения в несколько этапов, применяемая к обучению на основе подсказок .

скрипка

#язык

Библиотека конфигурации , ориентированная на Python, которая устанавливает значения функций и классов без инвазивного кода или инфраструктуры. В случае Pax и других баз кода ML эти функции и классы представляют модели и гиперпараметры обучения .

Фиддл предполагает, что базы кода машинного обучения обычно делятся на:

  • Код библиотеки, определяющий слои и оптимизаторы.
  • «Склеивающий» код набора данных, который вызывает библиотеки и связывает все воедино.

Fiddle фиксирует структуру вызовов связующего кода в неоцененной и изменяемой форме.

тонкая настройка

#язык
#изображение
#генеративныйИИ

Второй проход обучения для конкретной задачи, выполняемый на предварительно обученной модели для уточнения ее параметров для конкретного варианта использования. Например, полная последовательность обучения для некоторых больших языковых моделей выглядит следующим образом:

  1. Предварительное обучение: обучите большую языковую модель на обширном общем наборе данных, например на всех англоязычных страницах Википедии.
  2. Точная настройка: обучение предварительно обученной модели выполнению конкретной задачи, например ответа на медицинские запросы. Точная настройка обычно включает сотни или тысячи примеров, ориентированных на конкретную задачу.

В качестве другого примера полная последовательность обучения для модели большого изображения выглядит следующим образом:

  1. Предварительное обучение: обучите большую модель изображения на обширном общем наборе данных изображений, например на всех изображениях в Wikimedia Commons.
  2. Точная настройка: обучение предварительно обученной модели выполнению конкретной задачи, например генерации изображений косаток.

Точная настройка может включать любую комбинацию следующих стратегий:

  • Изменение всех существующих параметров предварительно обученной модели. Иногда это называют полной тонкой настройкой .
  • Изменение только некоторых существующих параметров предварительно обученной модели (обычно слоев, ближайших к выходному слою ), сохраняя при этом другие существующие параметры неизменными (обычно слои, ближайшие к входному слою ). См. настройку с эффективным использованием параметров .
  • Добавление дополнительных слоев, обычно поверх существующих слоев, ближайших к выходному слою.

Точная настройка — это форма трансферного обучения . Таким образом, при точной настройке может использоваться другая функция потерь или другой тип модели, чем те, которые используются для обучения предварительно обученной модели. Например, вы можете точно настроить предварительно обученную модель большого изображения для создания регрессионной модели, которая возвращает количество птиц во входном изображении.

Сравните и сопоставьте тонкую настройку со следующими терминами:

Лен

#язык

Высокопроизводительная библиотека с открытым исходным кодом для глубокого обучения, построенная на основе JAX . Flax предоставляет функции для обучения нейронных сетей , а также методы оценки их производительности.

льноформер

#язык

Библиотека Transformer с открытым исходным кодом, построенная на Flax и предназначенная в первую очередь для обработки естественного языка и мультимодальных исследований.

г

генеративный ИИ

#язык
#изображение
#генеративныйИИ

Возникающее преобразующее поле без формального определения. Тем не менее, большинство экспертов сходятся во мнении, что генеративные модели ИИ могут создавать («генерировать») контент, который имеет все следующие характеристики:

  • сложный
  • последовательный
  • оригинальный

Например, генеративная модель ИИ может создавать сложные эссе или изображения.

Некоторые более ранние технологии, включая LSTM и RNN , также могут генерировать оригинальный и связный контент. Некоторые эксперты рассматривают эти более ранние технологии как генеративный ИИ, в то время как другие считают, что настоящий генеративный ИИ требует более сложных результатов, чем те, которые могут произвести более ранние технологии.

Сравните с прогнозным ML .

GPT (Генераторный предварительно обученный трансформатор)

#язык

Семейство больших языковых моделей на основе Transformer , разработанное OpenAI .

Варианты GPT могут применяться к нескольким модальностям , в том числе:

  • генерация изображений (например, ImageGPT)
  • генерация текста в изображение (например, DALL-E ).

ЧАС

галлюцинация

#язык

Производство кажущихся правдоподобными, но на самом деле неверных результатов с помощью генеративной модели ИИ , которая якобы делает утверждение о реальном мире. Например, генеративная модель искусственного интеллекта, утверждающая, что Барак Обама умер в 1865 году, является галлюцинацией .

я

обучение в контексте

#язык
#генеративныйИИ

Синоним « подсказки с несколькими выстрелами ».

л

LaMDA (Языковая модель для диалоговых приложений)

#язык

Модель большого языка на основе Transformer , разработанная Google, обученная на большом наборе диалоговых данных, которая может генерировать реалистичные разговорные ответы.

LaMDA: наша революционная технология общения дает обзор.

языковая модель

#язык

Модель , которая оценивает вероятность появления токена или последовательности токенов в более длинной последовательности токенов.

большая языковая модель

#язык

Неофициальный термин без строгого определения, который обычно означает языковую модель с большим количеством параметров . Некоторые крупные языковые модели содержат более 100 миллиардов параметров.

М

модель языка в масках

#язык

Языковая модель , которая прогнозирует вероятность того, что токены-кандидаты заполнят пробелы в последовательности. Например, языковая модель в масках может вычислить вероятность того, что слова-кандидаты заменят подчеркивание в следующем предложении:

____ в шляпе вернулся.

В литературе обычно вместо подчеркивания используется строка «МАСКА». Например:

"МАСКА" в шапке вернулась.

Большинство современных моделей замаскированного языка являются двунаправленными .

метаобучение

#язык

Подмножество машинного обучения, которое обнаруживает или улучшает алгоритм обучения. Система метаобучения также может быть нацелена на обучение модели быстрому изучению новой задачи на основе небольшого объема данных или опыта, полученного при выполнении предыдущих задач. Алгоритмы метаобучения обычно пытаются достичь следующего:

  • Улучшить/изучить функции, разработанные вручную (например, инициализатор или оптимизатор).
  • Будьте более эффективными в использовании данных и вычислений.
  • Улучшить обобщение.

Метаобучение связано с обучением в несколько этапов .

модальность

#язык

Категория данных высокого уровня. Например, числа, текст, изображения, видео и аудио — это пять разных модальностей.

модельный параллелизм

#язык

Способ масштабирования обучения или вывода, при котором разные части одной модели размещаются на разных устройствах . Параллелизм моделей позволяет создавать модели, которые слишком велики для размещения на одном устройстве.

Чтобы реализовать параллелизм моделей, система обычно делает следующее:

  1. Шардирует (делит) модель на более мелкие части.
  2. Распределяет обучение этих более мелких частей между несколькими процессорами. Каждый процессор обучает свою часть модели.
  3. Объединяет результаты для создания единой модели.

Параллелизм моделей замедляет обучение.

См. также параллелизм данных .

многоголовый самообслуживание

#язык

Расширение внутреннего внимания , которое применяет механизм внутреннего внимания несколько раз для каждой позиции во входной последовательности.

Трансформеры представили многоголовое самообслуживание.

мультимодальная модель

#язык

Модель, входные и/или выходные данные которой включают более одной модальности . Например, рассмотрим модель, которая принимает как изображение, так и текстовую подпись (две модальности) в качестве функций и выводит оценку, показывающую, насколько текстовая подпись соответствует изображению. Итак, входные данные этой модели являются мультимодальными, а выходные — унимодальными.

Н

понимание естественного языка

#язык

Определение намерений пользователя на основе того, что пользователь напечатал или сказал. Например, поисковая система использует понимание естественного языка, чтобы определить, что ищет пользователь, на основе того, что он набрал или сказал.

N-грамм

#seq
#язык

Упорядоченная последовательность из N слов. Например, по-настоящему безумно — это 2-граммовые. Поскольку порядок важен, «безумно по-настоящему» — это разные 2 грамма, чем «по-настоящему безумно» .

Н Имена для этого типа N-граммы Примеры
2 биграмм или 2-грамма пойти, пойти, пообедать, поужинать
3 триграмма или 3-грамма слишком много съел, три слепые мыши, звонит колокол
4 4-граммовый прогулка в парке, пыль на ветру, мальчик съел чечевицу

Многие модели понимания естественного языка полагаются на N-граммы, чтобы предсказать следующее слово, которое пользователь напечатает или скажет. Например, предположим, что пользователь набрал три слепых . Модель NLU, основанная на триграммах, скорее всего, предскажет, что следующим пользователем будут мыши .

Сравните N-граммы с мешком слов , которые представляют собой неупорядоченные наборы слов.

НЛУ

#язык

Аббревиатура для понимания естественного языка .

О

одноразовая подсказка

#язык
#генеративныйИИ

Приглашение , содержащее один пример, демонстрирующий, как должна реагировать большая языковая модель . Например, следующая подсказка содержит один пример, показывающий, как большая языковая модель должна отвечать на запрос.

Части одной подсказки Примечания
Какая официальная валюта указанной страны? Вопрос, на который вы хотите получить ответ от LLM.
Франция: евро Один пример.
Индия: Фактический запрос.

Сравните и сопоставьте одноразовые подсказки со следующими терминами:

п

настройка с эффективным использованием параметров

#язык
#генеративныйИИ

Набор методов для более эффективной тонкой настройки большой предварительно обученной языковой модели (PLM), чем полная точная настройка . При настройке с эффективным использованием параметров обычно выполняется гораздо меньше параметров, чем при полной точной настройке, но, как правило, создается большая языковая модель , которая работает так же хорошо (или почти так же хорошо), как и большая языковая модель, построенная на основе полной точной настройки.

Сравните и сопоставьте эффективную настройку параметров с:

Настройка с эффективным использованием параметров также известна как точная настройка с эффективным использованием параметров .

трубопровод

#язык

Форма параллелизма моделей , при которой обработка модели разделена на последовательные этапы, и каждый этап выполняется на отдельном устройстве. Пока этап обрабатывает один пакет, предыдущий этап может работать над следующим пакетом.

См. также поэтапное обучение .

ПЛМ

#язык
#генеративныйИИ

Аббревиатура предварительно обученной языковой модели .

позиционное кодирование

#язык

Метод добавления информации о положении токена в последовательности во встраивание токена. Модели-трансформеры используют позиционное кодирование, чтобы лучше понять взаимосвязь между различными частями последовательности.

Общая реализация позиционного кодирования использует синусоидальную функцию. (В частности, частота и амплитуда синусоидальной функции определяются положением токена в последовательности.) Этот метод позволяет модели Трансформатора научиться обращать внимание на различные части последовательности в зависимости от их положения.

предварительно обученная модель

#язык
#изображение
#генеративныйИИ

Модели или компоненты модели (например , вектор внедрения ), которые уже прошли обучение. Иногда вы вводите в нейронную сеть предварительно обученные векторы внедрения. В других случаях ваша модель будет обучать сами векторы внедрения, а не полагаться на предварительно обученные вектора внедрения.

Термин «предварительно обученная языковая модель» относится к большой языковой модели , прошедшей предварительное обучение .

предварительная подготовка

#язык
#изображение
#генеративныйИИ

Начальное обучение модели на большом наборе данных. Некоторые предварительно обученные модели являются неуклюжими гигантами и обычно требуют доработки посредством дополнительного обучения. Например, эксперты по машинному обучению могут предварительно обучить большую языковую модель на обширном наборе текстовых данных, например на всех английских страницах в Википедии. После предварительного обучения полученная модель может быть дополнительно уточнена с помощью любого из следующих методов:

быстрый

#язык
#генеративныйИИ

Любой текст, вводимый в качестве входных данных в большую языковую модель , чтобы заставить модель вести себя определенным образом. Подсказки могут быть короткими, как фраза, или произвольной длины (например, весь текст романа). Подсказки делятся на несколько категорий, включая те, которые показаны в следующей таблице:

Категория подсказки Пример Примечания
Вопрос Как быстро может летать голубь?
Инструкция Напишите забавное стихотворение об арбитраже. Подсказка, которая просит большую языковую модель что-то сделать .
Пример Переведите код Markdown в HTML. Например:
Уценка: * элемент списка
HTML: <ul> <li>элемент списка</li> </ul>
Первое предложение в этом примере приглашения представляет собой инструкцию. Оставшаяся часть приглашения является примером.
Роль Объясните, почему градиентный спуск используется при обучении машинному обучению для доктора философии по физике. Первая часть предложения представляет собой инструкцию; фраза «до степени доктора физики» является ролевой частью.
Частичный ввод для завершения модели Премьер-министр Соединенного Королевства живет в Подсказка частичного ввода может либо внезапно закончиться (как в этом примере), либо закончиться подчеркиванием.

Генеративная модель ИИ может отвечать на запрос текстом, кодом, изображениями, встраиваниями , видео… почти чем угодно.

быстрое обучение

#язык
#генеративныйИИ

Способность определенных моделей , позволяющая им адаптировать свое поведение в ответ на произвольный ввод текста ( подсказки ). В типичной парадигме обучения на основе подсказок большая языковая модель реагирует на подсказку, генерируя текст. Например, предположим, что пользователь вводит следующую подсказку:

Кратко изложите третий закон движения Ньютона.

Модель, способная к обучению на основе подсказок, специально не обучена отвечать на предыдущую подсказку. Скорее, модель «знает» множество фактов о физике, много об общих правилах языка и многое о том, что представляет собой вообще полезные ответы. Этих знаний достаточно, чтобы дать (надеюсь) полезный ответ. Дополнительная обратная связь от человека («Этот ответ был слишком сложным» или «Какая реакция?») позволяет некоторым системам обучения на основе подсказок постепенно повышать полезность своих ответов.

быстрый дизайн

#язык
#генеративныйИИ

Синоним оперативного проектирования .

оперативное проектирование

#язык
#генеративныйИИ

Искусство создания подсказок , вызывающих желаемые ответы из большой языковой модели . Люди выполняют быстрые инженерные работы. Написание хорошо структурированных подсказок является важной частью обеспечения полезных ответов от большой языковой модели. Оперативное проектирование зависит от многих факторов, в том числе:

Дополнительные сведения о написании полезных подсказок см. в разделе «Введение в дизайн подсказок» .

Оперативное проектирование – это синоним оперативного проектирования.

оперативная настройка

#язык
#генеративныйИИ

Эффективный механизм настройки параметров , который запоминает «префикс», который система добавляет к фактическому приглашению .

Один из вариантов быстрой настройки, иногда называемый настройкой префикса , заключается в добавлении префикса на каждом уровне . Напротив, в большинстве случаев быстрая настройка добавляет только префикс к входному слою .

р

подсказка роли

#язык
#генеративныйИИ

An optional part of a prompt that identifies a target audience for a generative AI model's response. Without a role prompt, a large language model provides an answer that may or may not be useful for the person asking the questions. With a role prompt, a large language model can answer in a way that's more appropriate and more helpful for a specific target audience. For example, the role prompt portion of the following prompts are in boldface:

  • Summarize this article for a PhD in economics .
  • Describe how tides work for a ten-year old .
  • Explain the 2008 financial crisis. Speak as you might to a young child, or a golden retriever.

С

self-attention (also called self-attention layer)

#language

A neural network layer that transforms a sequence of embeddings (for instance, token embeddings) into another sequence of embeddings. Each embedding in the output sequence is constructed by integrating information from the elements of the input sequence through an attention mechanism.

The self part of self-attention refers to the sequence attending to itself rather than to some other context. Self-attention is one of the main building blocks for Transformers and uses dictionary lookup terminology, such as “query”, “key”, and “value”.

A self-attention layer starts with a sequence of input representations, one for each word. The input representation for a word can be a simple embedding. For each word in an input sequence, the network scores the relevance of the word to every element in the whole sequence of words. The relevance scores determine how much the word's final representation incorporates the representations of other words.

For example, consider the following sentence:

The animal didn't cross the street because it was too tired.

The following illustration (from Transformer: A Novel Neural Network Architecture for Language Understanding ) shows a self-attention layer's attention pattern for the pronoun it , with the darkness of each line indicating how much each word contributes to the representation:

The following sentence appears twice: 'The animal didn't cross the
          street because it was too tired.'  Lines connect the word 'it' in
          one sentence to five tokens ('The', 'animal', 'street', 'it', and
          the period) in the other sentence.  The line between 'it' and
          'animal' is strongest.

The self-attention layer highlights words that are relevant to "it". In this case, the attention layer has learned to highlight words that it might refer to, assigning the highest weight to animal .

For a sequence of n tokens , self-attention transforms a sequence of embeddings n separate times, once at each position in the sequence.

Refer also to attention and multi-head self-attention .

sentiment analysis

#language

Using statistical or machine learning algorithms to determine a group's overall attitude—positive or negative—toward a service, product, organization, or topic. For example, using natural language understanding , an algorithm could perform sentiment analysis on the textual feedback from a university course to determine the degree to which students generally liked or disliked the course.

sequence-to-sequence task

#language

A task that converts an input sequence of tokens to an output sequence of tokens. For example, two popular kinds of sequence-to-sequence tasks are:

  • Translators:
    • Sample input sequence: "I love you."
    • Sample output sequence: "Je t'aime."
  • Question answering:
    • Sample input sequence: "Do I need my car in New York City?"
    • Sample output sequence: "No. Please keep your car at home."

sparse feature

#language
#fundamentals

A feature whose values are predominately zero or empty. For example, a feature containing a single 1 value and a million 0 values is sparse. In contrast, a dense feature has values that are predominantly not zero or empty.

In machine learning, a surprising number of features are sparse features. Categorical features are usually sparse features. For example, of the 300 possible tree species in a forest, a single example might identify just a maple tree . Or, of the millions of possible videos in a video library, a single example might identify just "Casablanca."

In a model, you typically represent sparse features with one-hot encoding . If the one-hot encoding is big, you might put an embedding layer on top of the one-hot encoding for greater efficiency.

sparse representation

#language
#fundamentals

Storing only the position(s) of nonzero elements in a sparse feature.

For example, suppose a categorical feature named species identifies the 36 tree species in a particular forest. Further assume that each example identifies only a single species.

You could use a one-hot vector to represent the tree species in each example. A one-hot vector would contain a single 1 (to represent the particular tree species in that example) and 35 0 s (to represent the 35 tree species not in that example). So, the one-hot representation of maple might look something like the following:

A vector in which positions 0 through 23 hold the value 0, position
          24 holds the value 1, and positions 25 through 35 hold the value 0.

Alternatively, sparse representation would simply identify the position of the particular species. If maple is at position 24, then the sparse representation of maple would simply be:

24

Notice that the sparse representation is much more compact than the one-hot representation.

staged training

#language

A tactic of training a model in a sequence of discrete stages. The goal can be either to speed up the training process, or to achieve better model quality.

An illustration of the progressive stacking approach is shown below:

  • Stage 1 contains 3 hidden layers, stage 2 contains 6 hidden layers, and stage 3 contains 12 hidden layers.
  • Stage 2 begins training with the weights learned in the 3 hidden layers of Stage 1. Stage 3 begins training with the weights learned in the 6 hidden layers of Stage 2.

Three stages, which are labeled 'Stage 1', 'Stage 2', and 'Stage 3'.
          Each stage contains a different number of layers: Stage 1 contains
          3 layers, Stage 2 contains 6 layers, and Stage 3 contains 12 layers.
          The 3 layers from Stage 1 become the first 3 layers of Stage 2.
          Similarly, the 6 layers from Stage 2 become the first 6 layers of
          Stage 3.

See also pipelining .

Т

T5

#language

A text-to-text transfer learning model introduced by Google AI in 2020 . T5 is an encoder - decoder model, based on the Transformer architecture, trained on an extremely large dataset. It is effective at a variety of natural language processing tasks, such as generating text, translating languages, and answering questions in a conversational manner.

T5 gets its name from the five T's in "Text-to-Text Transfer Transformer."

T5X

#language

An open-source, machine learning framework designed to build and train large-scale natural language processing (NLP) models. T5 is implemented on the T5X codebase (which is built on JAX and Flax ).

temperature

#language
#image
#generativeAI

A hyperparameter that controls the degree of randomness of a model's output. Higher temperatures result in more random output, while lower temperatures result in less random output.

Choosing the best temperature depends on the specific application and the desired properties of the model's output. For example, you would probably raise the temperature when creating an application that generates creative output. Conversely, you would probably lower the temperature when building a model that classifies images or text in order to improve the model's accuracy and consistency.

Temperature is often used with softmax .

text span

#language

The array index span associated with a specific subsection of a text string. For example, the word good in the Python string s="Be good now" occupies the text span from 3 to 6.

token

#language

In a language model , the atomic unit that the model is training on and making predictions on. A token is typically one of the following:

  • a word—for example, the phrase "dogs like cats" consists of three word tokens: "dogs", "like", and "cats".
  • a character—for example, the phrase "bike fish" consists of nine character tokens. (Note that the blank space counts as one of the tokens.)
  • subwords—in which a single word can be a single token or multiple tokens. A subword consists of a root word, a prefix, or a suffix. For example, a language model that uses subwords as tokens might view the word "dogs" as two tokens (the root word "dog" and the plural suffix "s"). That same language model might view the single word "taller" as two subwords (the root word "tall" and the suffix "er").

In domains outside of language models, tokens can represent other kinds of atomic units. For example, in computer vision, a token might be a subset of an image.

Transformer

#language

A neural network architecture developed at Google that relies on self-attention mechanisms to transform a sequence of input embeddings into a sequence of output embeddings without relying on convolutions or recurrent neural networks . A Transformer can be viewed as a stack of self-attention layers.

A Transformer can include any of the following:

An encoder transforms a sequence of embeddings into a new sequence of the same length. An encoder includes N identical layers, each of which contains two sub-layers. These two sub-layers are applied at each position of the input embedding sequence, transforming each element of the sequence into a new embedding. The first encoder sub-layer aggregates information from across the input sequence. The second encoder sub-layer transforms the aggregated information into an output embedding.

A decoder transforms a sequence of input embeddings into a sequence of output embeddings, possibly with a different length. A decoder also includes N identical layers with three sub-layers, two of which are similar to the encoder sub-layers. The third decoder sub-layer takes the output of the encoder and applies the self-attention mechanism to gather information from it.

The blog post Transformer: A Novel Neural Network Architecture for Language Understanding provides a good introduction to Transformers.

trigram

#seq
#language

An N-gram in which N=3.

ты

unidirectional

#language

A system that only evaluates the text that precedes a target section of text. In contrast, a bidirectional system evaluates both the text that precedes and follows a target section of text. See bidirectional for more details.

unidirectional language model

#language

A language model that bases its probabilities only on the tokens appearing before , not after , the target token(s). Contrast with bidirectional language model .

V

variational autoencoder (VAE)

#language

A type of autoencoder that leverages the discrepancy between inputs and outputs to generate modified versions of the inputs. Variational autoencoders are useful for generative AI .

VAEs are based on variational inference: a technique for estimating the parameters of a probability model.

Вт

word embedding

#language

Representing each word in a word set within an embedding vector ; that is, representing each word as a vector of floating-point values between 0.0 and 1.0. Words with similar meanings have more-similar representations than words with different meanings. For example, carrots , celery , and cucumbers would all have relatively similar representations, which would be very different from the representations of airplane , sunglasses , and toothpaste .

Z

zero-shot prompting

#language
#generativeAI

A prompt that does not provide an example of how you want the large language model to respond. Например:

Parts of one prompt Примечания
What is the official currency of the specified country? The question you want the LLM to answer.
India: The actual query.

The large language model might respond with any of the following:

  • Rupee
  • INR
  • Indian rupee
  • The rupee
  • The Indian rupee

All of the answers are correct, though you might prefer a particular format.

Compare and contrast zero-shot prompting with the following terms: