Esta página foi traduzida pela API Cloud Translation.

Glossário de machine learning: avaliação de linguagem

Esta página contém os termos do glossário de avaliação de linguagem. Para ver todos os termos do glossário, clique aqui.

A

Attention,

#language

Um mecanismo usado em uma rede neural que indica a importância de uma determinada palavra ou parte de uma palavra. A atenção compacta a quantidade de informações que um modelo precisa para prever o próximo token/palavra. Um mecanismo de atenção típico pode consistir em uma soma ponderada de um conjunto de entradas, em que o peso de cada entrada é calculado por outra parte da rede neural.

Consulte também autoatenção e autoatenção de várias cabeças, que são os elementos básicos dos Transformers.

codificador automático

#language

#image

Um sistema que aprende a extrair as informações mais importantes da entrada. Codificadores automáticos são uma combinação de um codificador e um decodificador. Os codificadores automáticos dependem do seguinte processo de duas etapas:

O codificador mapeia a entrada para um formato (normalmente) de dimensão inferior com perda (intermediário).
O decodificador cria uma versão com perdas da entrada original mapeando o formato de baixa dimensão para o formato de entrada de dimensão superior original.

Os codificadores automáticos são treinados de ponta a ponta fazendo com que o decodificador tente reconstruir a entrada original a partir do formato intermediário do codificador da maneira mais próxima possível. Como o formato intermediário é menor (dimensional menor) que o original, o codificador automático é forçado a aprender quais informações na entrada são essenciais, e a saída não será perfeitamente idêntica à entrada.

Exemplo:

Se os dados de entrada forem um gráfico, a cópia não exata será semelhante ao gráfico original, mas um pouco modificada. Talvez a cópia não exata remova o ruído do gráfico original ou preencha alguns pixels ausentes.
Se os dados de entrada forem texto, um codificador automático vai gerar um novo texto que imite o texto original, mas não é idêntico.

Consulte também codificadores automáticos variáveis.

modelo autoregressivo

#language

#image

#IAgenerativa

Um model que infere uma previsão com base nas próprias previsões anteriores. Por exemplo, os modelos de linguagem com regressão automática preveem o próximo token com base nos tokens previstos anteriormente. Todos os modelos de linguagem grandes baseados em Transformer são autorregressivos.

Por outro lado, os modelos de imagem baseados em GAN geralmente não são autoregressivos, porque geram uma imagem em uma única passagem direta e não de maneira iterativa em etapas. No entanto, alguns modelos de geração de imagens são autorregressivos porque geram uma imagem em etapas.

B

saco de palavras

#language

Uma representação das palavras em uma frase ou trecho, independentemente da ordem. Por exemplo, saco de palavras representa as três frases a seguir de maneira idêntica:

o cachorro pula
pula o cachorro
o cachorro pula

Cada palavra é mapeada para um índice em um vetor esparso, em que o vetor tem um índice para cada palavra do vocabulário. Por exemplo, a frase o cachorro pula é mapeada em um vetor de recurso com valores diferentes de zero nos três índices correspondentes às palavras the, dog e jumps. O valor diferente de zero pode ser qualquer um destes:

Um número 1 para indicar a presença de uma palavra.
Uma contagem do número de vezes que uma palavra aparece no saco. Por exemplo, se a frase fosse o cachorro marrom é um cão com pele marrom, marrom e cão seriam representados como 2, enquanto as outras palavras seriam representadas como 1.
Algum outro valor, como o logaritmo da contagem do número de vezes que uma palavra aparece no saco.

BERT (Bidirectional Encoder Representation from Transformers)

#language

Uma arquitetura de modelo para representação de texto. Um modelo BERT treinado pode atuar como parte de um modelo maior para classificação de texto ou outras tarefas de ML.

O BERT tem as seguintes características:

Usa a arquitetura Transformer e, portanto, depende da autoatenção.
Usa a parte do codificador do transformador. A função dele é produzir boas representações de texto, e não realizar uma tarefa específica, como classificação.
É bidirecional.
Usa mascaramento para treinamento não supervisionado.

As variantes do BERT incluem:

ALBERT, que é um acrônimo de A Light BERT.
LaBSE (link em inglês).

Consulte Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing (em inglês) para ter uma visão geral do BERT.

bidirecional

#language

Um termo usado para descrever um sistema que avalia o texto que antecede e segue uma seção de destino do texto. Por outro lado, um sistema unidirecional avalia apenas o texto que antecede uma seção de destino.

Por exemplo, considere um modelo de linguagem mascarada que precisa determinar as probabilidades da palavra ou das palavras que representam o sublinhado na pergunta a seguir:

Qual é o/a _____ com você?

Um modelo de linguagem unidirecional precisaria basear as probabilidades apenas no contexto fornecido pelas palavras "o quê", "é" e "o". Por outro lado, um modelo de linguagem bidirecional também pode ganhar contexto de "com" e "você", o que pode ajudar o modelo a gerar previsões melhores.

modelo de linguagem bidirecional

#language

Um modelo de linguagem que determina a probabilidade de um determinado token estar presente em um determinado local em um trecho de texto com base no texto anterior e seguinte.

bigrama

#seq

#language

Um N-grama em que N=2.

Subestudo de avaliação bilíngue (BLEU, na sigla em inglês)

#language

Uma pontuação entre 0,0 e 1,0, indicando a qualidade de uma tradução entre dois idiomas humanos (por exemplo, entre inglês e russo). Uma pontuação BLEU de 1,0 indica uma tradução perfeita, enquanto uma pontuação BLEU de 0,0 indica uma tradução ruim.

C

modelo de linguagem causal

#language

Sinônimo de modelo de linguagem unidirecional.

Consulte o modelo de linguagem bidirecional para conferir diferentes abordagens direcionais na modelagem de linguagem.

comandos de fluxo de consciência

#language

#IAgenerativa

Uma técnica de engenharia de comando que incentiva um modelo de linguagem grande (LLM) para explicar o raciocínio passo a passo. Por exemplo, considere o comando a seguir, prestando atenção principal na segunda frase:

Quantas forças g um motorista enfrenta em um carro que vai de 0 a 96 km por hora em 7 segundos? Na resposta, mostre todos os cálculos relevantes.

A resposta do LLM provavelmente:

Mostre uma sequência de fórmulas físicas, inserindo os valores 0, 60 e 7 em locais adequados.
Explique por que escolheu essas fórmulas e o que as diversas variáveis significam.

Os comandos de cadeia de pensamento forçam o LLM a realizar todos os cálculos, o que pode levar a uma resposta mais correta. Além disso, o comando de cadeia de pensamento permite que o usuário examine as etapas do LLM para determinar se a resposta faz sentido ou não.

chat

#language

#IAgenerativa

O conteúdo de uma caixa de diálogo com um sistema de ML, normalmente um modelo de linguagem grande. A interação anterior em um chat (o que você digitou e como o modelo de linguagem grande respondeu) se torna o contexto para as partes subsequentes.

Um chatbot é a aplicação de um modelo de linguagem grande.

confabulação

#language

Sinônimo de alucinação.

Confabulação é, provavelmente, um termo tecnicamente mais preciso do que alucinação. No entanto, a alucinação se tornou popular primeiro.

análise de eleitorado

#language

Dividir uma frase em estruturas gramaticais menores ("componentes"). Uma parte posterior do sistema de ML, como um modelo de compreensão de linguagem natural, pode analisar os constituintes com mais facilidade do que a frase original. Por exemplo, considere a seguinte frase:

Meu amigo adotou dois gatos.

Um analisador de eleitores pode dividir essa frase nos dois componentes a seguir:

Meu amigo é um sintagma nominal.
adopted two cats é um verbo.

Esses constituintes podem ser subdivididos em componentes menores. Por exemplo, o verbo

adotou dois gatos

poderia ser subdividido em:

adopted é um verbo.
dois gatos é um outro sintagma nominal.

embedding de linguagem contextualizada

#language

#IAgenerativa

Uma incorporação que se aproxima de "entender" palavras e frases de maneiras que falantes humanos nativos conseguem fazer. Os embeddings de linguagem contextualizados podem entender sintaxe, semântica e contexto complexos.

Por exemplo, considere os embeddings da palavra em inglês vaw (vaca). Embeddings mais antigos, como word2vec, podem representar palavras em inglês de forma que a distância no espaço de incorporação de vaca a touro seja semelhante à distância de ewe (ovelhas) e ram (ovelhas machos) ou de feminino para masculino. Incorporações de linguagem contextualizadas podem ir um passo além reconhecendo que os falantes de inglês às vezes usam casualmente a palavra vaca para significar vaca ou touro.

janela de contexto

#language

#IAgenerativa

O número de tokens que um modelo pode processar em um determinado comando. Quanto maior a janela de contexto, mais informações o modelo poderá usar para fornecer respostas coerentes e consistentes ao comando.

acidente blossom

#language

Uma sentença ou frase com um significado ambíguo. As flores de falha apresentam um problema significativo no entendimento de linguagem natural. Por exemplo, o título Arranha-céu de fita vermelha é uma flor de falha porque um modelo de PLN pode interpretar o título literal ou de forma literal.

Clique no ícone para ver mais observações.

Só para esclarecer essa manchete misteriosa:

A fita vermelha pode se referir a um dos itens a seguir:
- Um adesivo
- Burocracia excessiva
Em espera:
- Suporte estrutural
- Atrasos

D

decodificador

#language

Em geral, qualquer sistema de ML que converta uma representação processada, densa ou interna em uma representação mais bruta, esparsa ou externa.

Os decodificadores geralmente são um componente de um modelo maior, em que são frequentemente pareados com um codificador.

Nas tarefas sequência para sequência, um decodificador começa com o estado interno gerado pelo codificador para prever a próxima sequência.

Consulte Transformer para a definição de um decodificador na arquitetura de transformador.

remoção de ruído

#language

Uma abordagem comum para o aprendizado autossupervisionado, em que:

Ruído é adicionado artificialmente ao conjunto de dados.
O model tenta remover o ruído.

A remoção de ruídos permite aprender com exemplos não rotulados. O conjunto de dados original serve como destino ou rótulo e os dados com ruído como entrada.

Alguns modelos de linguagem mascarados usam a remoção de ruídos da seguinte maneira:

O ruído é adicionado artificialmente a uma frase não rotulada mascarando alguns dos tokens.
O modelo tenta prever os tokens originais.

comandos diretos

#language

#IAgenerativa

Sinônimo de comando zero-shot.

E

editar distância

#language

Uma medida da semelhança entre duas strings de texto. Em machine learning, a edição da distância é útil porque é simples de calcular e é uma maneira eficaz de comparar duas strings conhecidas por serem semelhantes ou encontrar strings semelhantes a uma determinada.

Há várias definições de distância de edição, cada uma usando diferentes operações de string. Por exemplo, a distância de Levenshtein considera o menor número de operações de exclusão, inserção e substituição.

Por exemplo, a distância de Levenshtein entre as palavras "coração" e " dardos" é 3 porque as três edições a seguir são as menores mudanças para transformar uma palavra em outra:

coração → deart (substitua "h" por "d")
deart → dart (excluir "e")
dardos → dardos (inserir "s")

camada de embedding

#language

#fundamentals

Uma camada escondida especial que é treinada em um recurso categórico de alta dimensão para aprender gradualmente um vetor de embedding de dimensão mais baixa. Uma camada de incorporação permite que uma rede neural treine com muito mais eficiência do que o treinamento apenas no atributo categórico de alta dimensão.

Por exemplo, a Terra atualmente aceita cerca de 73 mil espécies de árvores. Suponha que espécies de árvores sejam um atributo no seu modelo, portanto,a camada de entrada dele inclui um vetor one-hot de 73.000 elementos. Por exemplo, talvez baobab seja representado algo assim:

Uma matriz de 73.000 elementos. Os primeiros 6.232 elementos contêm o valor 0. O próximo elemento contém o valor 1. Os 66.767 elementos finais mantêm o valor zero.

Uma matriz de 73 mil elementos é muito longa. Se você não adicionar uma camada de embedding ao modelo, o treinamento poderá consumir muito tempo por causa da multiplicação de 72.999 zeros. Talvez você escolha a camada de embedding para consistir em 12 dimensões. Consequentemente, a camada de embedding vai aprender gradualmente um novo vetor de embedding para cada espécie de árvore.

Em determinadas situações, o hash é uma alternativa razoável a uma camada de incorporação.

espaço de embedding

#language

O espaço vetorial d-dimensional para o qual elementos de um espaço vetorial de dimensão superior são mapeados. O ideal é que o espaço de embedding contenha uma estrutura que produza resultados matemáticos significativos. Por exemplo, em um espaço de embedding ideal, a adição e subtração de embeddings pode resolver tarefas de analogia de palavras.

O produto de ponto de dois embeddings é uma medida da semelhança.

vetor de embedding

#language

De um modo geral, uma matriz de números de ponto flutuante retirados de qualquer camada escondida que descreve as entradas dessa camada escondida. Muitas vezes, um vetor de embedding é a matriz de números de ponto flutuante treinados em uma camada de embedding. Por exemplo, suponha que uma camada de embedding precise aprender um vetor de embedding para cada uma das 73 mil espécies de árvores da Terra. Talvez a matriz a seguir seja o vetor de embedding de uma árvore de baobá:

Uma matriz de 12 elementos, cada um contendo um número de ponto flutuante entre 0,0 e 1,0.

Um vetor de embedding não é um monte de números aleatórios. Uma camada de embedding determina esses valores por treinamento, de maneira semelhante à maneira como uma rede neural aprende outros pesos durante o treinamento. Cada elemento da matriz é uma classificação ao longo de alguma característica de uma espécie de árvore. Qual elemento representa a característica de qual espécie de árvore? Isso é muito difícil para os humanos de determinar.

A parte matematicamente notável de um vetor de embedding é que itens semelhantes têm conjuntos semelhantes de números de ponto flutuante. Por exemplo, espécies de árvores semelhantes têm um conjunto mais semelhante de números de ponto flutuante do que espécies de árvores diferentes. As sequoias e as sequoias são espécies de árvores relacionadas, portanto, têm um conjunto mais semelhante de números pontiagudos do que sequoias e coqueiros. Os números no vetor de embedding mudam toda vez que você treina o modelo novamente, mesmo que ele seja treinado outra vez com entradas idênticas.

codificador

#language

Em geral, qualquer sistema de ML que converta uma representação bruta, esparsa ou externa em uma representação mais processada, densa ou mais interna.

Os codificadores geralmente são um componente de um modelo maior, em que são frequentemente pareados com um decodificador. Alguns Transformers pareiam codificadores com decodificadores, embora outros transformadores usem apenas o codificador ou apenas o decodificador.

Alguns sistemas usam a saída do codificador como entrada para uma rede de classificação ou regressão.

Nas tarefas sequência para sequência, um codificador usa uma sequência de entrada e retorna um estado interno (um vetor). Em seguida, o decodificador usa esse estado interno para prever a próxima sequência.

Consulte Transformer para a definição de um codificador na arquitetura de transformador.

F

comandos few-shot

#language

#IAgenerativa

Um comando que contém mais de um (um "pouco") exemplo demonstrando como o modelo de linguagem grande precisa responder. O comando longo a seguir contém dois exemplos que mostram um modelo de linguagem grande como responder a uma consulta.

Partes de um comando	Observações
`Qual é a moeda oficial do país especificado?`	A pergunta que você quer que o LLM responda.
`França: EUR`	Um exemplo.
`Reino Unido: GBP`	Outro exemplo.
`Índia`:	A consulta real.

Os comandos few-shot geralmente produzem resultados mais desejáveis do que os comandos zero-shot e os comandos one-shot. No entanto, os comandos few-shot exigem um comando mais longo.

Os comandos few-shot são uma forma de aprendizado few-shot aplicada ao aprendizado baseado em comandos.

Violino

#language

Uma biblioteca de configuração baseada em Python que define os valores de funções e classes sem código ou infraestrutura invasivos. No caso do Pax e de outras bases de código de ML, essas funções e classes representam modelos e hiperparâmetros de treinamento.

O Fiddle (link em inglês) supõe que as bases de código de machine learning geralmente são divididas em:

Código da biblioteca, que define as camadas e os otimizadores.
Código "agrupador" do conjunto de dados, que chama as bibliotecas e conecta tudo.

O Fiddle captura a estrutura de chamada do código agrupador de forma não avaliada e mutável.

ajuste

#language

#image

#IAgenerativa

Um segundo cartão de treinamento específico da tarefa realizado em um modelo pré-treinado para refinar os parâmetros dele para um caso de uso específico. Por exemplo, a sequência de treinamento completa para alguns modelos de linguagem grandes é a seguinte:

Pré-treinamento:treine um modelo de linguagem grande em um conjunto de dados geral vasto, como todas as páginas da Wikipédia em inglês.
Ajuste: treine o modelo pré-treinado para executar uma tarefa específica, como responder a consultas médicas. O ajuste geralmente envolve centenas ou milhares de exemplos focados na tarefa específica.

Como outro exemplo, a sequência completa de treinamento para um modelo de imagem grande é a seguinte:

Pré-treinamento: treine um modelo de imagem grande em um conjunto de dados de imagens geral vasto, como todas as imagens em Wikimedia commons.
Ajuste:treine o modelo pré-treinado para executar uma tarefa específica, como gerar imagens de orcas.

O ajuste pode envolver qualquer combinação das seguintes estratégias:

Modificar todos os parâmetros do modelo pré-treinado. Isso às vezes é chamado de ajuste completo.
Modificar apenas alguns dos parâmetros atuais do modelo pré-treinado (geralmente, as camadas mais próximas da camada de saída), enquanto mantém os outros parâmetros atuais inalterados (geralmente, as camadas mais próximas da camada de entrada). Consulte ajuste de eficiência de parâmetros.
Adição de mais camadas, geralmente sobre as camadas existentes mais próximas da camada de saída.

O ajuste é uma forma de aprendizado por transferência. Assim, o ajuste fino pode usar uma função de perda diferente ou um tipo de modelo diferente daqueles usados para treinar o modelo pré-treinado. Por exemplo, é possível ajustar um modelo de imagem grande pré-treinado para produzir um modelo de regressão que retorne o número de pássaros em uma imagem de entrada.

Compare e contraste o ajuste fino com os seguintes termos:

destilação
aprendizado baseado em comandos

Flax

#language

Uma biblioteca de código aberto e alto desempenho para aprendizado profundo baseada no JAX (link em inglês). O Flax oferece funções para treinar redes neurais, bem como métodos para avaliar o desempenho delas.

Flaxformer

#language

Uma biblioteca Transformer de código aberto, criada no Flax, projetada principalmente para processamento de linguagem natural e pesquisa multimodal.

G

IA generativa

#language

#image

#IAgenerativa

Um campo transformador emergente sem definição formal. Dito isso, a maioria dos especialistas concorda que os modelos de IA generativa podem criar ("gerar") conteúdo que é tudo o seguinte:

complexo
coerentes
original

Por exemplo, um modelo de IA generativa pode criar ensaios ou imagens sofisticadas.

Algumas tecnologias anteriores, incluindo LSTMs e RNNs, também podem gerar conteúdo original e coerente. Alguns especialistas veem essas tecnologias anteriores como IA generativa, enquanto outros acreditam que a verdadeira IA generativa requer resultados mais complexos do que essas tecnologias anteriores podem produzir.

Contraste com o ML preditivo.

GPT: transformador pré-treinado generativo

#language

Uma família de modelos de linguagem grandes baseados em Transformer desenvolvidos pela OpenAI.

As variantes da GPT podem ser aplicadas a várias modalidades, incluindo:

geração de imagens (por exemplo, ImageGPT)
geração de texto para imagem (por exemplo, DALL-E).

H

alucinação artificial

#language

A produção de resultados aparentemente plausíveis, mas factualmente incorretos, por um modelo de IA generativa que parece fazer uma declaração sobre o mundo real. Por exemplo, um modelo de IA generativa que alega que Barack Obama morreu em 1865 está alucinante.

I

aprendizado em contexto

#language

#IAgenerativa

Sinônimo de comandos few-shot.

L

LaMDA (Language Model for Dialogue Applications)

#language

Um modelo de linguagem grande baseado em Transformer, desenvolvido pelo Google e treinado em um grande conjunto de dados de diálogos que pode gerar respostas de conversação realistas.

LaMDA: nossa tecnologia de conversação inovadora fornece uma visão geral.

modelo de linguagem

#language

Um model que estima a probabilidade de um model ou uma sequência de tokens ocorrer em uma sequência mais longa.

Clique no ícone para ver mais observações.

Embora não sejam intuitivos, muitos modelos que avaliam texto não são modelos de linguagem. Por exemplo, modelos de classificação de texto e de análise de sentimento não são modelos de linguagem.

modelo de linguagem grande

#language

Um termo informal sem definição estrita que geralmente significa um modelo de linguagem com um alto número de parâmetros. Alguns modelos de linguagem grandes contêm mais de 100 bilhões de parâmetros.

Clique no ícone para ver mais observações.

Talvez você esteja se perguntando quando um modelo de linguagem se torna grande o suficiente para ser chamado de modelo de linguagem grande. Atualmente, não há uma linha de definição acordada para o número de parâmetros.

A maioria dos modelos de linguagem grandes atuais (por exemplo, GPT) é baseada na arquitetura Transformer.

espaço latente

#language

Sinônimo de incorporação de espaço.

LLM

#language

Abreviação de modelo de linguagem grande.

LoRA

#language

#IAgenerativa

Abreviação de Adaptabilidade na classificação baixa.

Adaptabilidade na classificação baixa (LoRA, na sigla em inglês)

#language

#IAgenerativa

Um algoritmo para realizar ajustes com eficiência de parâmetros que ajusta apenas um subconjunto dos parâmetros de um modelo de linguagem grande. Ela oferece os seguintes benefícios:

Ajusta mais rapidamente do que técnicas que exigem o ajuste correto de todos os parâmetros de um modelo.
Reduz o custo computacional de inferência no modelo ajustado.

Um modelo ajustado com a LoRA mantém ou melhora a qualidade das previsões.

A LoRA ativa várias versões especializadas de um modelo.

M

modelo de linguagem mascarada

#language

Um modelo de linguagem que prevê a probabilidade de tokens candidatos preencherem espaços em branco em uma sequência. Por exemplo, um modelo de linguagem mascarado pode calcular as probabilidades de uma ou mais palavras candidatas para substituir o sublinhado na frase a seguir:

O(a) ____ que está usando o chapéu voltou.

A literatura normalmente usa a string "MASK" em vez de um sublinhado. Exemplo:

A "MÁSCARA" do chapéu voltou.

A maioria dos modelos modernos de linguagem mascarada é bidirecional.

meta-aprendizado

#language

Um subconjunto do machine learning que descobre ou melhora um algoritmo de aprendizado. Um sistema de metaaprendizado também pode ter como objetivo treinar um modelo para aprender rapidamente uma nova tarefa com uma pequena quantidade de dados ou com a experiência adquirida em tarefas anteriores. Os algoritmos de metaaprendizagem geralmente tentam:

Aprimore ou aprenda recursos criados manualmente, como um inicializador ou um otimizador.
Ter mais eficiência em dados e computação.
Melhorar a generalização.

O metaaprendizado está relacionado ao few-shot learning.

modality

#language

Uma categoria de dados de alto nível. Por exemplo, números, texto, imagens, vídeo e áudio são cinco modalidades diferentes.

paralelismo de modelos

#language

Uma maneira de escalonar treinamento ou inferência que coloca diferentes partes de um model em diferentes model. O paralelismo de modelos permite modelos grandes demais para caber em um único dispositivo.

Para implementar o paralelismo de modelos, um sistema normalmente faz o seguinte:

Fragmenta (divide) o modelo em partes menores.
Distribui o treinamento dessas partes menores em vários processadores. Cada processador treina a própria parte do modelo.
Combina os resultados para criar um único modelo.

O paralelismo de modelos atrasa o treinamento.

Consulte também paralelismo de dados.

autoatenção de várias cabeças

#language

Uma extensão de autoatenção que aplica o mecanismo de autoatenção várias vezes para cada posição na sequência de entrada.

Os Transformers introduziram a autoatenção de várias cabeças.

modelo multimodal

#language

Um modelo com entradas e/ou saídas que incluem mais de uma modalidade. Por exemplo, considere um modelo que usa uma imagem e uma legenda de texto (duas modalidades) como recursos e gera uma pontuação indicando a adequação da legenda de texto para a imagem. Portanto, as entradas deste modelo são multimodais, e a saída, unimodal.

N

processamento de linguagem natural

#language

Determinar as intenções de um usuário com base no que ele digitou ou disse. Por exemplo, um mecanismo de pesquisa usa processamento de linguagem natural para determinar o que o usuário está pesquisando com base no que o usuário digitou ou disse.

N-grama

#seq

#language

Uma sequência ordenada de N palavras. Por exemplo, verdadeiramente maluco é um grama de 2 gramas. Como a ordem é relevante, de verdade é um 2 grama diferente do que realmente loucamente.

N	Nomes para este tipo de n-grama	Exemplos
2	bigrama ou 2-grama	ir, almoçar, jantar
3	trigrama ou 3-gramas	comeu demais, três ratos cegos, o sino gira
4	4 gramas	caminhar no parque, poeira ao vento, o menino comeu lentilhas

Muitos modelos de compreensão de linguagem natural dependem de N-gramas para prever a próxima palavra que o usuário digitará ou dirá. Por exemplo, suponha que um usuário digite três cegos. Um modelo PLN baseado em trigramas provavelmente prevê que o usuário digitará ratos em seguida.

Compare N-gramas com bag of words, que são conjuntos de palavras não ordenados.

PLN

#language

Abreviação de compreensão de linguagem natural.

O

comandos one-shot

#language

#IAgenerativa

Um comando que contém um exemplo que demonstra como o modelo de linguagem grande deve responder. Por exemplo, o comando a seguir contém um exemplo que mostra um modelo de linguagem grande como ele deve responder a uma consulta.

Partes de um comando	Observações
`Qual é a moeda oficial do país especificado?`	A pergunta que você quer que o LLM responda.
`França: EUR`	Um exemplo.
`Índia`:	A consulta real.

Compare os comandos one-shot e os seguintes termos:

comandos zero-shot
Comandos few-shot

P

ajuste de eficiência de parâmetros

#language

#IAgenerativa

Um conjunto de técnicas para ajustar um grande modelo de linguagem pré-treinado (PLM, na sigla em inglês) de forma mais eficiente do que ajustes completos. O ajuste com eficiência de parâmetros normalmente ajusta muito menos parâmetros do que o ajuste fino completo. No entanto, geralmente produz um modelo de linguagem grande que tem um desempenho tão bom (ou quase tão bom) quanto um modelo de linguagem grande criado com base em ajustes completos.

Compare e contraste o ajuste com eficiência de parâmetros usando:

O ajuste da eficiência de parâmetros também é conhecido como ajustes finos com eficiência de parâmetros.

pipeline

#language

Uma forma de paralelismo de modelos em que o processamento de um modelo é dividido em estágios consecutivos, e cada um deles é executado em um dispositivo diferente. Enquanto um estágio está processando um lote, o estágio anterior pode trabalhar no lote seguinte.

Consulte também o treinamento em etapas.

PLM

#language

#IAgenerativa

Abreviação de modelo de linguagem pré-treinado.

codificação posicional

#language

Uma técnica para adicionar informações sobre a posição de um token em uma sequência ao embedding do token. Os modelos de transformador usam a codificação de posicionamento para entender melhor a relação entre partes diferentes da sequência.

Uma implementação comum de codificação posicional usa uma função senoidal. Especificamente, a frequência e a amplitude da função senoidal são determinadas pela posição do token na sequência. Essa técnica permite que um modelo de transformador aprenda a atender a diferentes partes da sequência com base na posição delas.

modelo pré-treinado

#language

#image

#IAgenerativa

Modelos ou componentes do modelo (como um vetor de embedding) que já foram treinados. Às vezes, você alimenta os vetores de embedding pré-treinados em uma rede neural. Outras vezes, o modelo treinará os próprios vetores de embedding em vez de depender de embeddings pré-treinados.

O termo modelo de linguagem pré-treinado refere-se a um modelo de linguagem grande que passou por pré-treinamento.

pré-treinamento

#language

#image

#IAgenerativa

O treinamento inicial de um modelo em um grande conjunto de dados. Alguns modelos pré-treinados são gigantes desajeitados e normalmente precisam ser refinados com treinamento adicional. Por exemplo, os especialistas em ML podem pré-treinar um modelo de linguagem grande em um vasto conjunto de dados de texto, como todas as páginas em inglês na Wikipédia. Após o pré-treinamento, o modelo resultante pode ser refinado ainda mais por meio de qualquer uma das técnicas a seguir:

destilação
ajustes
ajuste de instruções
ajustes de eficiência de parâmetros
ajuste de comandos

prompt

#language

#IAgenerativa

Qualquer texto inserido como entrada em um modelo de linguagem grande para condicionar o modelo a se comportar de determinada maneira. Os comandos podem ser tão curtos quanto uma frase ou arbitrariamente longos (por exemplo, o texto inteiro de um romance). Os comandos se enquadram em várias categorias, incluindo as mostradas na tabela abaixo:

Categoria da solicitação	Exemplo	Observações
Pergunta	`Qual é a velocidade máxima de um pombo?`
Instrução	`Escreva um poema engraçado sobre arbitragem.`	Um prompt que pede para o modelo de linguagem grande fazer algo.
Exemplo	`Traduza o código Markdown para HTML. Por exemplo: Markdown: * item da lista HTML: <ul> <li>list item</li> </ul>`	A primeira frase do comando de exemplo é uma instrução. O restante do comando é o exemplo.
Papel	`Explicar por que o gradiente descendente é usado no treinamento de machine learning para um PhD em física.`	A primeira parte da frase é uma instrução. A frase "para um PhD em física" é a parte da função.
Entrada parcial para o modelo concluir	`O primeiro-ministro do Reino Unido mora em`	Um comando de entrada parcial pode terminar abruptamente, como no exemplo, ou terminar com um sublinhado.

Um modelo de IA generativa pode responder a um comando com texto, código, imagens, embeddings, vídeos... quase tudo.

aprendizado baseado em comandos

#language

#IAgenerativa

Um recurso de determinados modelos que permite adaptar o comportamento em resposta a entradas de texto arbitrárias (solicitações). Em um paradigma típico de aprendizado baseado em comandos, um modelo de linguagem grande responde a um comando gerando texto. Por exemplo, suponha que um usuário digite o seguinte comando:

Resumir a terceira lei de Newton.

Um modelo capaz de aprendizado baseado em comandos não é treinado especificamente para responder ao comando anterior. Em vez disso, o modelo "sabe" muitos fatos sobre física, muito sobre regras de linguagem gerais e muito sobre o que constitui respostas geralmente úteis. Esse conhecimento é suficiente para fornecer uma resposta (esperamos) útil. Mais feedback humano ("Essa resposta foi muito complicada" ou "O que é uma reação?") permite que alguns sistemas de aprendizado baseados em comandos melhorem gradualmente a utilidade das respostas.

design de comandos

#language

#IAgenerativa

Sinônimo de engenharia de comando.

engenharia de comando

#language

#IAgenerativa

A arte de criar comandos que recebem as respostas desejadas de um modelo de linguagem grande. Os humanos executam a engenharia de comandos. Escrever comandos bem estruturados é essencial para garantir respostas úteis de um modelo de linguagem grande. A engenharia de prompts depende de muitos fatores, incluindo:

O conjunto de dados usado para pré-treinar e possivelmente ajustar o modelo de linguagem grande.
A temperatura e outros parâmetros de decodificação que o modelo usa para gerar respostas.

Consulte Introdução à criação de comandos para saber como escrever comandos úteis.

O design de comandos é um sinônimo de engenharia de comandos.

ajuste de comandos

#language

#IAgenerativa

Um mecanismo de ajuste eficiente de parâmetros que aprende um "prefixo" anexado ao prompt real.

Uma variação do ajuste de comandos, às vezes chamado de ajuste de prefixo, consiste em preparar o prefixo em cada camada. Por outro lado, a maioria dos ajustes de comandos só adiciona um prefixo à camada de entrada.

Clique no ícone para saber mais sobre prefixos.

Para o ajuste de comandos, o "prefixo" (também conhecido como "prompt flexível") é um conjunto de vetores aprendidos específicos da tarefa anexados aos embeddings de token de texto do comando real. O sistema aprende o comando flexível congelando todos os outros parâmetros do modelo e ajustando uma tarefa específica.

R

comandos de função

#language

#IAgenerativa

Uma parte opcional de um comando que identifica um público-alvo para a resposta de um modelo de IA generativa. Sem um comando de papel, um modelo de linguagem grande fornece uma resposta que pode ou não ser útil para a pessoa que faz as perguntas. Com um prompt de papel, um modelo de linguagem grande pode responder de maneira mais apropriada e mais útil para um público-alvo específico. Por exemplo, a parte do prompt de papel dos comandos a seguir está em negrito:

Resuma este artigo sobre um PhD em economia.
Descreva como as marés funcionam para uma criança de 10 anos.
Explicar a crise financeira de 2008. Fale como se fosse com uma criança ou um golden retriever.

S

autoatenção (também chamada de camada de autoatenção)

#language

Uma camada de rede neural que transforma uma sequência de embeddings (por exemplo, embeddings de token) em outra sequência de embeddings. Cada embedding na sequência de saída é construído integrando informações dos elementos da sequência de entrada por um mecanismo de atenção.

A parte própria da autoatenção refere-se à sequência que atende a si mesma em vez de a algum outro contexto. A autoatenção é um dos principais elementos básicos dos Transformers e usa terminologia de pesquisa de dicionário, como "consulta", "chave" e "valor".

Uma camada de autoatenção começa com uma sequência de representações de entrada, uma para cada palavra. A representação de entrada de uma palavra pode ser uma incorporação simples. Para cada palavra em uma sequência de entrada, a rede pontua a relevância da palavra para cada elemento na sequência inteira. As pontuações de relevância determinam quanto a representação final da palavra incorpora as representações de outras palavras.

Por exemplo, considere a seguinte frase:

O animal não atravessou a rua porque estava muito cansado.

A ilustração a seguir (de Transformer: uma nova arquitetura de rede neural para compreensão de linguagem) mostra o padrão de atenção da camada de autoatenção para o pronome it, com a escuridão de cada linha indicando o quanto cada palavra contribui para a representação:

A seguinte frase aparece duas vezes: o animal não atravessou a rua porque estava muito cansado. As linhas conectam o pronome dele em uma frase a cinco tokens (O, animal, rua, ele e o ponto) na outra frase. A linha entre o pronome
e a palavra animal é mais forte.

A camada de autoatenção destaca as palavras relevantes para "ele". Nesse caso, a camada de atenção aprendeu a destacar as palavras a que ela pode se referir, atribuindo o maior peso a animal.

Para uma sequência de n tokens, a autoatenção transforma uma sequência de embeddings n vezes separadas, uma vez em cada posição na sequência.

Consulte também atenção e autoatenção em várias cabeças.

análise de sentimento

#language

Usar algoritmos estatísticos ou de machine learning para determinar a atitude geral de um grupo, positiva ou negativa, em relação a um serviço, produto, organização ou tópico. Por exemplo, usando o processamento de linguagem natural, um algoritmo pode realizar uma análise de sentimento no feedback textual de um curso universitário para determinar o quanto os alunos gostaram ou não do curso.

tarefa sequência para sequência

#language

Uma tarefa que converte uma sequência de entrada de tokens em uma sequência de saída de tokens. Por exemplo, dois tipos conhecidos de tarefas sequência para sequência são:

Tradutores:
- Exemplo de sequência de entrada: "Eu te amo".
- Exemplo de sequência de saída: "Je t'aime".
Resposta:
- Exemplo de sequência de entrada: "Preciso do meu carro em Nova York?"
- Exemplo de sequência de saída: "Não. Mantenha seu carro em casa".

pular-grama

#language

Um n-grama que pode omitir (ou "pular") palavras do contexto original, o que significa que as palavras N podem não ter sido originalmente adjacentes. Mais precisamente, um "k-skip-n-gram" é um n-grama em que até k palavras podem ter sido ignoradas.

Por exemplo, "a raposa marrom rápida" tem estes 2 gramas possíveis:

“o rápido”
"marrom rápido"
"raposa marrom"

"1-skip-2-gram" é um par de palavras que tem no máximo uma palavra entre elas. Portanto, "a rápida raposa marrom" tem os seguintes 2-gramas de um salto:

"marrom"
"raposa rápida"

Além disso, todos os 2-gramas também são 1-skip-2-grams, já que menos de uma palavra pode ser ignorada.

Skip-gramas são úteis para entender mais o contexto ao redor de uma palavra. No exemplo, "raposa" foi diretamente associada a "rápido" no conjunto de 1-skip-2-grams, mas não no conjunto de 2-grams.

Os ignorados ajudam a treinar modelos de incorporação de palavras.

ajuste de prompts flexíveis

#language

#IAgenerativa

Uma técnica para ajustar um modelo de linguagem grande para uma tarefa específica, sem ajustes que consomem muitos recursos. Em vez de treinar novamente todos os pesos no modelo, o ajuste de prompts flexíveis ajusta automaticamente um comando para alcançar o mesmo objetivo.

Dado um prompt textual, o ajuste de prompts flexíveis normalmente anexa outros embeddings de token ao prompt e usa a retropropagação para otimizar a entrada.

Um prompt "hard" contém tokens reais em vez de embeddings de token.

atributo esparso

#language

#fundamentals

Um atributo com valores predominantemente zero ou vazios. Por exemplo, um atributo que contém um único valor 1 e um milhão de valores 0 é esparso. Por outro lado, um atributo denso tem valores predominantemente não zero ou vazios.

Em machine learning, um número surpreendente de atributos são esparsos. Atributos categóricos costumam ser esparsos. Por exemplo, das 300 espécies de árvores possíveis em uma floresta, um único exemplo pode identificar apenas uma árvore de bordo. Ou, dos milhões de vídeos possíveis em uma biblioteca de vídeos, um único exemplo poderia identificar apenas "Casablanca".

Em um modelo, você normalmente representa atributos esparsos com codificação one-hot. Se a codificação one-hot for grande, você pode colocar uma camada de incorporação sobre a codificação one-hot para maior eficiência.

representação esparsa

#language

#fundamentals

Armazenar apenas as posições de elementos diferentes de zero em um atributo esparso.

Por exemplo, suponha que um recurso categórico chamado species identifique as 36 espécies de árvores em uma floresta específica. Suponha também que cada exemplo identifica somente uma espécie.

Você pode usar um vetor one-hot para representar as espécies de árvores em cada exemplo. Um vetor one-hot contém uma única 1 (para representar a espécie de árvore específica neste exemplo) e 35 0s (para representar as 35 espécies de árvores que não nesse exemplo). Assim, a representação one-hot de maple pode ser semelhante a esta:

Um vetor em que as posições de 0 a 23 contêm o valor 0, a posição 24 contém o valor 1 e as posições de 25 a 35 contêm o valor 0.

Como alternativa, a representação esparsa identificaria simplesmente a posição da espécie em particular. Se maple estiver na posição 24, a representação esparsa de maple será simplesmente:

Observe que a representação esparsa é muito mais compacta que a representação one-hot.

Clique no ícone para ver um exemplo um pouco mais complexo.

Suponha que cada exemplo no seu modelo represente as palavras, mas não a ordem delas, em uma frase em inglês. O inglês tem cerca de 170.000 palavras, portanto, é um atributo categórico com cerca de 170.000 elementos. A maioria das frases em inglês usa uma fração extremamente pequena dessas 170.000 palavras, de modo que o conjunto de palavras em um único exemplo provavelmente será de dados esparsos.

Considere a seguinte frase:

My dog is a great dog

Você pode usar uma variante do vetor one-hot para representar as palavras da frase. Nessa variante, várias células no vetor podem conter um valor diferente de zero. Além disso, nessa variante, uma célula pode conter um número inteiro diferente de um. Embora as palavras "my", "is", "a" e "great" apareçam apenas uma vez na frase, a palavra "dog" aparece duas vezes. O uso dessa variante de vetores one-hot para representar as palavras nesta frase gera o seguinte vetor de 170.000 elementos:

Uma representação esparsa da mesma frase seria simplesmente:

Clique no ícone se estiver confuso.

O termo "representação esparsa" confunde muitas pessoas porque a representação esparsa não é um vetor esparso em si. Em vez disso, a representação esparsa é, na verdade, uma representação densa de um vetor esparso (link em inglês). A representação do índice de sinônimos é um pouco mais clara do que "representação esparsa".

treinamento em etapas

#language

Uma tática de treinar um modelo em uma sequência de etapas distintas. A meta pode ser acelerar o processo de treinamento ou alcançar uma melhor qualidade do modelo.

Uma ilustração da abordagem de empilhamento progressivo é mostrada abaixo:

A fase 1 contém 3 camadas escondidas, a 2 contém 6 camadas escondidas e a 3 contém 12 camadas escondidas.
O estágio 2 começa o treinamento com os pesos aprendidos nas três camadas escondidas do estágio 1. O estágio 3 começa o treinamento com os pesos aprendidos nas seis camadas escondidas do estágio 2.

Três etapas, chamadas de Estágio 1, Estágio 2 e Estágio 3.
Cada estágio contém um número diferente de camadas: o Estágio 1 contém
3 camadas, o Estágio 2 contém 6 e o Estágio 3 contém 12 camadas.
As três camadas do Estágio 1 se tornam as 3 primeiras camadas do Estágio 2.
Da mesma forma, as seis camadas do Estágio 2 se tornam as primeiras 6 do Estágio 3.

Consulte também pipelining.

token de subpalavra

#language

Em modelos de linguagem, um token que é uma substring de uma palavra, que pode ser a palavra inteira.

Por exemplo, uma palavra como "item" pode ser dividida em partes: "item" (uma palavra raiz) e "ize" (um sufixo), cada uma representada pelo próprio token. A divisão de palavras incomuns, chamadas de subpalavras, permite que os modelos de linguagem operem nas partes constituintes mais comuns da palavra, como prefixos e sufixos.

Por outro lado, palavras comuns como "vai" podem não ser divididas e podem ser representadas por um único token.

T

T5

#language

Um modelo de aprendizado por transferência de texto para texto introduzido pela IA do Google em 2020. T5 é um modelo de codificador-decodificador baseado na arquitetura Transformer, treinado em um conjunto de dados extremamente grande. Ele é eficaz em várias tarefas de processamento de linguagem natural, como gerar texto, traduzir idiomas e responder a perguntas de maneira conversacional.

O nome T5 vem dos cinco Ts do "Transformer de transferência de texto para texto".

Conexão T5X

#language

Um framework de machine learning de código aberto projetado para criar e treinar modelos de processamento de linguagem natural (PLN) em grande escala. A T5 é implementada na base de código do T5X, criada com base no JAX e no Flax (links em inglês).

temperatura

#language

#image

#IAgenerativa

Um hiperparâmetro que controla o grau de aleatoriedade da saída de um modelo. Temperaturas mais altas resultam em uma saída mais aleatória, enquanto temperaturas mais baixas resultam em uma saída menos aleatória.

Escolher a melhor temperatura depende do aplicativo específico e das propriedades preferenciais da saída do modelo. Por exemplo, você provavelmente aumentaria a temperatura ao criar um aplicativo que gera resultados criativos. Por outro lado, você provavelmente diminuiria a temperatura ao criar um modelo que classifica imagens ou textos para melhorar a precisão e consistência.

A temperatura costuma ser usada com softmax.

período de texto

#language

O período do índice da matriz associado a uma subseção específica de uma string de texto. Por exemplo, a palavra good na string Python s="Be good now" ocupa o período de texto de 3 a 6.

token

#language

Em um modelo de linguagem, a unidade atômica em que o modelo está treinando e fazendo previsões. Geralmente, um token é um dos seguintes:

uma palavra. Por exemplo, a frase "cães como gatos" consiste em três tokens de palavras: "cães", "gostei" e "gatos".
um caractere, por exemplo, a frase "peixe bicicleta" consiste em nove tokens de caracteres. O espaço em branco conta como um dos tokens.
subpalavras, em que uma única palavra pode ser um único token ou vários. Uma subpalavra consiste em uma palavra raiz, um prefixo ou um sufixo. Por exemplo, um modelo de linguagem que usa subpalavras como tokens pode ver a palavra "cães" como dois tokens (a palavra raiz "cão" e o sufixo no plural "s"). Nesse mesmo modelo de linguagem, a palavra única "mais alto" pode ser vista como duas subpalavras (a palavra raiz "alto" e o sufixo "er").

Em domínios fora dos modelos de linguagem, os tokens podem representar outros tipos de unidades atômicas. Por exemplo, em visão computacional, um token pode ser um subconjunto de uma imagem.

Transformer

#language

Uma arquitetura de rede neural desenvolvida no Google que depende de mecanismos de autoatenção para transformar uma sequência de embeddings de entrada em uma sequência de embeddings de saída sem depender de convoluções ou redes neurais recorrentes. Um transformador pode ser visto como uma pilha de camadas de autoatenção.

Um transformador pode incluir o seguinte:

um codificador
um decodificador
um codificador e um decodificador

Um codificador transforma uma sequência de embeddings em uma nova sequência do mesmo comprimento. Um codificador inclui N camadas idênticas, cada uma contendo duas subcamadas. Essas duas subcamadas são aplicadas em cada posição da sequência de embedding de entrada, transformando cada elemento da sequência em uma nova incorporação. A primeira subcamada de codificador agrega informações de toda a sequência de entrada. A segunda subcamada de codificador transforma as informações agregadas em um embedding de saída.

Um decodificador transforma uma sequência de embeddings de entrada em uma sequência de embeddings de saída, possivelmente com um comprimento diferente. Um decodificador também inclui N camadas idênticas com três subcamadas, duas das quais são semelhantes às subcamadas do codificador. A terceira subcamada de decodificador usa a saída do codificador e aplica o mecanismo de autoatenção para coletar informações dela.

A postagem do blog Transformer: uma nova arquitetura de rede neural para compreensão de linguagem (em inglês) apresenta uma boa introdução aos transformadores.

trigrama

#seq

#language

Um N-grama em que N=3.

U

unidirecional

#language

Um sistema que avalia somente o texto que antecede uma seção de destino. Por outro lado, um sistema bidirecional avalia o texto que antecede e segue uma seção de destino do texto. Consulte bidirecional para mais detalhes.

modelo de linguagem unidirecional

#language

Um modelo de linguagem que baseia as probabilidades apenas nos tokens que aparecem antes, e não depois dos tokens de destino. Contraste com o modelo de linguagem bidirecional.

V

codificador automático variacional (VAE, na sigla em inglês)

#language

Um tipo de codificador automático que aproveita a discrepância entre entradas e saídas para gerar versões modificadas das entradas. Codificadores automáticos variacionais são úteis para a IA generativa.

Os VAEs são baseados na inferência variacional: uma técnica para estimar os parâmetros de um modelo de probabilidade.

W

incorporação de palavras

#language

Representar cada palavra de um conjunto dentro de um vetor de embedding, ou seja, representar cada palavra como um vetor de valores de ponto flutuante entre 0,0 e 1,0. Palavras com significados semelhantes têm representações mais semelhantes do que palavras com significados diferentes. Por exemplo, cenoura, aipo e pepino têm representações relativamente semelhantes, que são muito diferentes das representações de avião, óculos de sol e pasta de dentes.

Z

comandos zero-shot

#language

#IAgenerativa

Um comando que não forneça um exemplo de como você quer que o modelo de linguagem grande responda. Exemplo:

Partes de um comando	Observações
`Qual é a moeda oficial do país especificado?`	A pergunta que você quer que o LLM responda.
`Índia`:	A consulta real.

O modelo de linguagem grande pode responder com qualquer uma das seguintes opções:

Rúpia
INR
₹
Rúpias indianas
A rúpia
A rúpia indiana

Todas as respostas estão corretas, mas você pode preferir um formato específico.

Compare os comandos zero-shot e os seguintes termos:

Comandos one-shot
Comandos few-shot