Esta página contém termos do glossário de avaliação da linguagem. Para ver todos os termos do glossário, clique aqui.
A
atenção
Qualquer um dos vários mecanismos de arquitetura de rede neural agregam informações de um conjunto de entradas de maneira dependente dos dados. Um mecanismo de atenção típica pode consistir em uma soma ponderada sobre um conjunto de entradas, em que o weight para cada entrada é calculado por outra parte da rede neural.
Consulte também a autoatenção e a autoatenção de várias cabeças, que são os elementos básicos de transformadores.
B
saco de palavras
Uma representação das palavras em uma frase ou passagem, independentemente da ordem. Por exemplo, "bag of words" representa as três frases a seguir de forma idêntica:
- o cachorro pula
- pula o cachorro
- Cachorro pula a
Cada palavra é mapeada para um índice em um vetor esparso, em que o vetor tem um índice para cada palavra no vocabulário. Por exemplo, a frase o cachorro pula, é mapeada em um vetor de atributos com valores diferentes de zero nos três índices correspondentes às palavras o, cachorro e saltos. O valor diferente de zero pode ser qualquer um destes:
- Um 1 para indicar a presença de uma palavra.
- Uma contagem do número de vezes que uma palavra aparece na bolsa. Por exemplo, se a frase fosse o cachorro marrom com um cachorro com pele marrom, tanto maroon quanto cachorro seriam representados como 2, enquanto as outras palavras seriam 1.
- Outro valor, como o logaritmo de contagem do número de vezes que uma palavra aparece na bolsa.
BERT (Codificador bidirecional) Representações de transformadores
Uma arquitetura de modelo para representação de texto. Um modelo BERT treinado pode atuar como parte de um modelo maior para classificação de texto ou outras tarefas de ML.
O BERT tem as seguintes características:
- Usa a arquitetura Transformer e, portanto, depende da autoatenção.
- Usa a parte do codificador do Transformer. A tarefa do codificador é produzir boas representações de texto, em vez de realizar uma tarefa específica, como classificação.
- É bidirecional.
- Usa mascaramento para treinamento não supervisionado.
As variantes do BERT' incluem:
Para ter uma visão geral do BERT, consulte BERT: código aberto de pré-treinamento sobre processamento de linguagem natural.
Bigram
Um N-grama em que N=2.
bidirecional
Um termo usado para descrever um sistema que avalia o texto que precede e segue uma seção de texto. Por outro lado, um sistema unidirecional avalia apenas o texto que precede uma seção de texto de destino.
Por exemplo, considere um modelo de linguagem mascarada que precisa determinar as probabilidades das palavras que representam o sublinhado na seguinte pergunta:
Como você está em _____?
Um modelo de linguagem unidirecional teria que basear suas probabilidades apenas no contexto fornecido pelas palavras "What", "is" e "the". Por outro lado, um modelo de linguagem bidirecional também pode ter contexto de "quot;with" e "you"", o que pode ajudar o modelo a gerar melhores previsões.
modelo de linguagem bidirecional
Um modelo de idioma que determina a probabilidade de um determinado token estar presente em determinado local em um trecho de texto com base no texto anterior e no seguinte.
BLEU (substituto de avaliação bilíngue)
Uma pontuação entre 0,0 e 1,0, indicando a qualidade de uma tradução entre dois idiomas humanos (por exemplo, entre inglês e russo). Uma pontuação BLEU de 1.0 indica uma tradução perfeita. Uma pontuação BLEU de 0.0 indica uma tradução terrível.
C
modelo de linguagem causal
É sinônimo de modelo de linguagem unidirecional.
Consulte Modelo de linguagem bidirecional para contrastar diferentes abordagens direcionais na modelagem de linguagem.
flor de cerejeira
Uma frase ou frase com um significado ambíguo. A floração de falhas representa um problema significativo na compreensão de linguagem natural. Por exemplo, o título Red Tape Holds Up Skyscraper é uma floresta de falha porque um modelo NLU pode interpretar o título literalmente ou figurativamente.
D
decodificador
Em geral, qualquer sistema de ML que converta de uma representação processada, densa ou interna para uma representação mais bruta, esparsa ou externa.
Os decodificadores geralmente são um componente de um modelo maior, em que geralmente são pareados com um codificador.
Em tarefas de sequência em sequência, um decodificador começa com o estado interno gerado pelo codificador para prever a próxima sequência.
Consulte Transformer para ver a definição de um decodificador na arquitetura Transformer.
denominando
Uma abordagem comum de aprendizado autogerenciado em que:
A remoção de ruído permite o aprendizado com exemplos sem rótulos. O conjunto de dados original funciona como destino ou rótulo e os dados com ruído como entrada.
Alguns modelos de linguagem mascarada usam denominação da seguinte maneira:
- O ruído é adicionado artificialmente a uma frase sem rótulo, mascarando alguns tokens.
- O modelo tenta prever os tokens originais.
E
camada de embedding
Uma camada escondida especial que é treinada em um recurso categórico de alta dimensão para a aprender gradativamente um vetor de embedding de dimensão inferior. Uma camada de embedding permite que uma rede neural treine de forma muito mais eficiente do que o treinamento apenas no atributo categórico de alta dimensão.
Por exemplo, o Google Earth suporta atualmente cerca de 73.000 espécies de árvores. Suponha que
as espécies de árvore sejam um recurso no modelo, portanto,a camada de entrada
do modelo
inclui um vetor one-hot de 73.000
elementos.
Por exemplo, talvez baobab
seja representado desta forma:
Uma matriz de 73.000 elementos é muito longa. Se você não adicionar uma camada de incorporação ao modelo, o treinamento será muito demorado devido à multiplicação de 72.999 zeros. Talvez você escolha a camada de embedding para consistir em 12 dimensões. Consequentemente, a camada de embedding aprenderá gradualmente um novo vetor de embedding para cada espécie de árvore.
Em determinadas situações, o hashing é uma alternativa razoável a uma camada de embedding.
espaço de embedding
O espaço vetorial d-dimensional que é parte de um espaço vetorial de maior dimensão é mapeado. O ideal é que o espaço de embedding contenha uma estrutura que produz resultados matemáticos significativos. Por exemplo, em um espaço de embedding ideal, a adição e a subtração de embeddings podem resolver tarefas de analogia de palavras.
O produto de ponto de duas embeddings é uma medida de semelhança.
vetor de embedding
Em termos gerais, uma matriz de números de pontos flutuantes retirados de qualquer camada escondida que descreva as entradas dessa camada escondida. Muitas vezes, um vetor de embedding é a matriz de números de ponto flutuante treinados em uma camada de embedding. Por exemplo, suponha que uma camada de embedding precise aprender um vetor de embedding para cada uma das 73 mil espécies de árvores da Terra. Talvez a matriz a seguir seja o vetor de incorporação de uma árvore do baobab:
Um vetor de embedding não é um monte de números aleatórios. Uma camada de embedding determina esses valores por meio do treinamento, semelhante à maneira como uma rede neural aprende outros pesos durante o treinamento. Cada elemento da matriz é uma classificação ao longo de algumas características de uma espécie da árvore. Qual elemento representa quais espécies de árvore? Isso é muito difícil para os humanos determinarem.
A parte matematicamente notável de um vetor de embedding é que os itens semelhantes têm conjuntos semelhantes de números de pontos flutuantes. Por exemplo, as espécies de árvores semelhantes têm um conjunto mais semelhante de números de pontos flutuantes do que espécies de árvores diferentes. As sequoias e sequoias são espécies de árvore relacionadas. Portanto, elas têm um conjunto mais semelhante de números de ponto flutuante do que as sequoias e os coqueiros. Os números no vetor de embedding mudam sempre que você treina novamente o modelo, mesmo que treine o modelo com uma entrada idêntica.
codificador
Em geral, qualquer sistema de ML que converta de uma representação bruta, esparsa ou externa em uma representação mais processada, mais densa ou mais interna.
Os codificadores geralmente são um componente de um modelo maior, em que geralmente são pareados com um decodificador. Alguns Transformers copiam codificadores com decodificadores, embora outros usem somente o codificador ou apenas o decodificador.
Alguns sistemas usam a saída do codificador como entrada para uma rede de classificação ou regressão.
Em tarefas de sequência em sequência, um codificador recebe uma sequência de entrada e retorna um estado interno (um vetor). Em seguida, o decodificador usa esse estado interno para prever a próxima sequência.
Consulte Transformer para ver a definição de um codificador na arquitetura do Transformer.
G
GPT (transformador pré-treinado generativo)
Uma família de modelos de linguagem com base em Transformer desenvolvidos pela OpenAI.
As variantes da GPT podem ser aplicadas a várias modalidades, incluindo:
- Geração de imagens (por exemplo, ImageGPT)
- geração de texto para imagem (por exemplo, DALL-E).
L
LaMDA (Modelo de linguagem para aplicativos de diálogo)
Um modelobaseado de linguagem grande, desenvolvido pelo Google, treinado em um grande conjunto de dados de diálogo que pode gerar
LaMDA: nossa tecnologia de conversa inovadora fornece uma visão geral.
modelo da linguagem
Um modelo que estima a probabilidade de um token ou uma sequência de tokens ocorrendo em uma sequência mais longa de tokens.
modelo grande
Um termo informal sem definição rígida que geralmente significa um modelo de linguagem que tem um alto número de parâmetros. Alguns modelos de linguagem grandes contêm mais de 100 bilhões de parâmetros.
M
modelo de linguagem mascarada
Um modelo de linguagem que prevê a probabilidade de tokens candidatos preencherem espaços em branco em uma sequência. Por exemplo, um modelo de linguagem mascarada pode calcular probabilidades para palavras-candidatos para substituir o sublinhado na seguinte frase:
O ____ do chapéu voltou.
A literatura normalmente usa a string "quot;MASK" em vez de um sublinhado. Exemplo:
O botão de chapéu voltou.
A maioria dos modelos modernos de linguagem mascarada é unidirecional.
metaaprendizado
Um subconjunto de machine learning que descobre ou melhora um algoritmo de aprendizado. Um sistema de metaaprendizado também pode ter como objetivo treinar um modelo para aprender rapidamente uma nova tarefa usando uma pequena quantidade de dados ou com a experiência adquirida em tarefas anteriores. Geralmente, os algoritmos de metaaprendizado tentam:
- Melhorar/aprender recursos projetados por engenharia manual (como um inicializador ou um otimizador).
- Aumente a eficiência dos dados e da computação.
- Melhoria na generalização.
O aprendizado médio está relacionado ao pouco aprendizado.
modality
Uma categoria de dados de alto nível. Por exemplo, números, texto, imagens, vídeos e áudio são cinco modalidades diferentes.
paralelismo de modelos
Uma maneira de escalonar o treinamento ou a inferência que coloca diferentes partes de um modelo em dispositivos diferentes. O paralelismo de modelos permite que os modelos grandes demais não funcionem em um único dispositivo.
Veja também paralelismo de dados.
autoatenção para várias cabeças
É uma extensão da autoatenção que aplica o mecanismo de autoatenção várias vezes para cada posição na sequência de entrada.
A Transformers introduziu a autoatenção em várias cabeças.
modelo multimodal
Um modelo com entradas e/ou saídas que incluem mais de uma modalidade. Por exemplo, considere um modelo que usa uma imagem e uma legenda de texto (duas modalidades) como recursos e gera uma pontuação indicando a adequação da legenda de texto para a imagem. Portanto, as entradas desse modelo são multimodais e a saída é unimodal.
N
processamento de linguagem natural
Determinar as intenções do usuário com base no que ele digitou ou disse Por exemplo, um mecanismo de pesquisa usa a compreensão de linguagem natural para determinar o que o usuário está pesquisando com base no que ele digitou ou disse.
N-grama
Uma sequência ordenada de N palavras. Por exemplo, truly madly é um grama de 2 gramas. Como a ordem é relevante, realmente é um segundo grama diferente de realmente difícil.
N | Nomes para este tipo de N-grama | Exemplos |
---|---|---|
2 | Bigram ou 2 gramas | ir, ir, almoçar, jantar |
3 | trigrama ou 3 gramas | comeu demais, três ratos cegos, o sino dos sinos |
4 | 4 gramas | andar no parque, poeira no vento, o menino comeu lentilhas |
Muitos modelos de entendimento de linguagem natural dependem de N-gramas para prever a próxima palavra que o usuário vai digitar ou dizer. Por exemplo, suponha que um usuário digite três pontos cegos. Um modelo NLU baseado em trigramas provavelmente prevê que o usuário digitará novamente mice.
Comparar N-gramas com bag of words, que são conjuntos de palavras não ordenadas.
PLN
Abreviação de entendimento de linguagem natural.
P
pipeline
Uma forma de paralelismo de modelos em que o processamento de um modelo é dividido em estágios consecutivos, e cada um deles é executado em um dispositivo diferente. Enquanto um cenário está processando um lote, o anterior pode funcionar no próximo lote.
Veja também treinamento em etapas.
S
autoatenção (também chamada de camada de autoatenção)
Uma camada de rede neural que transforma uma sequência de embeddings (por exemplo, embeddings de token) em outra sequência de embeddings. Cada incorporação na sequência de saída é construída integrando informações dos elementos da sequência de entrada por meio de um mecanismo de atenção.
A parte automática da autoatenção se refere à sequência que participa de si mesma, e não de algum outro contexto. A autoatenção é um dos principais elementos básicos para Transformers e usa a terminologia de pesquisa de dicionário, como "consulta", "chave" e "valor".
A camada de autoatenção começa com uma sequência de representações de entrada, uma para cada palavra. A representação de entrada de uma palavra pode ser um embedding simples. Para cada palavra em uma sequência de entrada, a rede pontua a relevância da palavra para cada elemento em toda a sequência de palavras. As pontuações de relevância determinam o quanto a representação final da palavra incorpora as representações de outras palavras.
Por exemplo, considere a seguinte frase:
O animal não atravessou a rua porque estava muito cansado.
A ilustração a seguir, de Transformer: uma nova arquitetura de rede neural para compreensão de linguagem, mostra um padrão de atenção da camada de autoatenção para o pronome it, com a escuridão de cada linha indicando o quanto cada palavra contribui para a representação:
A camada de autoatenção destaca palavras que são relevantes para "it" Nesse caso, a camada de atenção aprendeu a destacar palavras que pode se referir, atribuindo o peso mais alto à animal.
Para uma sequência de n tokens, a autoAtenção transforma uma sequência de embeddings n vezes separados, uma em cada posição na sequência.
Consulte também atenção e autoatenção de várias cabeças.
análise de sentimento
Usar algoritmos de estatística ou machine learning para determinar a atitude geral de um grupo (positivo ou negativo) em direção a um serviço, produto, organização ou tópico. Por exemplo, usando o entendimento de linguagem natural, um algoritmo pode realizar análise de sentimento em feedback textual de um curso universitário para determinar o grau em que os alunos geralmente gostam ou não gostam do curso.
tarefa sequencial
Uma tarefa que converte uma sequência de entrada de tokens para uma sequência de saídas de tokens. Por exemplo, dois tipos conhecidos de tarefas de sequência a sequência são:
- Tradutores:
- Exemplo de sequência de entrada: "Eu te amo."
- Exemplo de sequência de saída: "Je t'aime."
- Respostas a perguntas:
- Exemplo de sequência de entrada: "Preciso do meu carro na cidade de Nova York?"
- Exemplo de sequência de saída: "Não. Mantenha o carro em casa."
atributo esparso
Um recurso com valores predominantemente zero ou vazios. Por exemplo, um recurso que contém apenas um valor de 1 e um milhão de valores de 0 é esparso. Por outro lado, um recurso denso tem valores que dominantemente não são zero nem estão vazios.
Em machine learning, um número surpreendente de atributos é esparso. Os atributos categóricos geralmente são esparsos. Por exemplo, entre as 300 espécies de árvores possíveis em uma floresta, um único exemplo pode identificar apenas uma árvore de bordo. Ou, entre os milhões de possíveis vídeos em uma biblioteca de vídeos, um único exemplo pode identificar apenas "Casablanca."
Em um modelo, você normalmente representa atributos esparsos com codificação one-hot. Se a codificação one-hot for grande, use uma camada de embedding na parte superior da codificação one-hot para maior eficiência.
representação esparsa
Armazenamento apenas das posições de elementos diferentes de zero em um atributo esparso.
Por exemplo, suponha que um recurso categórico chamado species
identifique as 36 espécies de árvore de uma determinada floresta. Além disso, suponha que cada
exemplo identifique somente uma espécie.
Você poderia usar um vetor one-hot para representar as espécies de árvore em cada exemplo.
Um vetor one-hot contém um único 1
(para representar
as espécies de árvore específicas nesse exemplo) e 35 0
s (para representar as
35 espécies de árvore não neste exemplo). Dessa forma, a representação one-hot
do maple
pode ser semelhante a esta:
Já a representação esparsa simplesmente identifica a posição de espécies específicas. Se maple
estiver na posição 24, a representação esparsa de maple
será simplesmente:
24
A representação esparsa é muito mais compacta do que a representação one-hot.
treinamento em etapas
Uma tática de treinamento de um modelo em uma sequência de estágios discretos. O objetivo pode acelerar o processo de treinamento ou melhorar a qualidade do modelo.
Uma ilustração da abordagem de empilhamento progressivo é mostrada abaixo:
- O estágio 1 contém três camadas ocultas, o estágio 2 contém seis camadas ocultas e o estágio 3 contém 12 camadas ocultas.
- O estágio 2 começa o treinamento com os pesos aprendidos nas três camadas ocultas do estágio 1. O estágio 3 começa o treinamento com os pesos aprendidos nas seis camadas ocultas do estágio 2.
Veja também pipeline.
T
token
Em um modelo de linguagem, a unidade atômica em que o modelo está treinando e fazendo previsões. Um token geralmente é um dos seguintes:
- uma palavra, por exemplo, a frase "cachorros como gatos" consiste em três tokens de palavra: "dogs", "like" e "cats".
- um caractere, por exemplo, a frase "bicicleta de peixe" consiste em nove tokens de caracteres. O espaço em branco conta como um dos tokens.
- subpalavras, em que uma única palavra pode ser um único token ou vários tokens. Uma subpalavra consiste em uma palavra raiz, um prefixo ou um sufixo. Por exemplo, um modelo de linguagem que usa subpalavras como tokens pode visualizar a palavra "dogs" como dois tokens (a palavra raiz "dog" e o sufixo plural "quot;s"). O mesmo modelo de idioma pode visualizar a única palavra "quot;taller"" como duas subpalavras (a palavra raiz "quot;tall" e o sufixo "er").
Em domínios fora dos modelos de linguagem, os tokens podem representar outros tipos de unidades atômicas. Por exemplo, na visão computacional, um token pode ser um subconjunto de uma imagem.
Transformador
Uma arquitetura de rede neural desenvolvida no Google que depende de mecanismos de autoatenção para transformar uma sequência de embeddings de entrada em uma sequência de embeddings de saída sem depender de convoluções ou redes neurais recorrentes. Um Transformer pode ser visto como uma pilha de camadas de autoatenção.
Um Transformer pode incluir qualquer um dos seguintes elementos:
- um codificador
- um decodificador
- um codificador e um decodificador
Um codificador transforma uma sequência de embeddings em uma nova sequência com o mesmo comprimento. Um codificador inclui N camadas idênticas, cada uma com duas subcamadas. Essas duas subcamadas são aplicadas em cada posição da sequência de embedding de entrada, transformando cada elemento da sequência em uma nova incorporação. A primeira subcamada de codificador agrega informações de toda a sequência de entrada. A segunda camada do codificador transforma as informações agregadas em uma incorporação de saída.
Um decodificador transforma uma sequência de embeddings de entrada em uma sequência de embeddings de saída, possivelmente com um comprimento diferente. Um decodificador também inclui N camadas idênticas com três subcamadas, duas das quais são semelhantes às subcamadas do codificador. A terceira camada de decodificador recebe a saída do codificador e aplica o mecanismo autoatenção para coletar informações dela.
A postagem do blog Transformer: uma nova arquitetura de rede neural para o entendimento de linguagem (em inglês) fornece uma boa introdução aos Transformers.
trigrama
Um N-grama em que N=3.
U
unidirecional
É um sistema que avalia apenas o texto que precede uma seção de texto. Por outro lado, um sistema bidirecional avalia o texto que precede e segue uma seção de destino do texto. Consulte bidirecional para mais detalhes.
modelo de linguagem unidirecional
Um modelo de linguagem que baseia as probabilidades somente nos tokens que aparecem antes, e não depois dos tokens de destino. Contraste com o modelo de linguagem bidirecional.
W
incorporação de palavras
Representando cada palavra em uma palavra definida em um vetor de embedding, ou seja, representando cada palavra como um vetor de valores de ponto flutuante entre 0,0 e 1,0. Palavras com significados semelhantes têm representações mais semelhantes do que palavras com significados diferentes. Por exemplo, carros, celebridade e pepinos teriam representações relativamente semelhantes, que seriam muito diferentes das representações de aeronaves, óculos de sol e pasta de dente.