Glossário de machine learning: avaliação de linguagens

Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

Esta página contém termos do glossário de avaliação da linguagem. Para ver todos os termos do glossário, clique aqui.

A

atenção

#language

Qualquer um dos vários mecanismos de arquitetura de rede neural agregam informações de um conjunto de entradas de maneira dependente dos dados. Um mecanismo de atenção típica pode consistir em uma soma ponderada sobre um conjunto de entradas, em que o weight para cada entrada é calculado por outra parte da rede neural.

Consulte também a autoatenção e a autoatenção de várias cabeças, que são os elementos básicos de transformadores.

B

saco de palavras

#language

Uma representação das palavras em uma frase ou passagem, independentemente da ordem. Por exemplo, "bag of words" representa as três frases a seguir de forma idêntica:

  • o cachorro pula
  • pula o cachorro
  • Cachorro pula a

Cada palavra é mapeada para um índice em um vetor esparso, em que o vetor tem um índice para cada palavra no vocabulário. Por exemplo, a frase o cachorro pula, é mapeada em um vetor de atributos com valores diferentes de zero nos três índices correspondentes às palavras o, cachorro e saltos. O valor diferente de zero pode ser qualquer um destes:

  • Um 1 para indicar a presença de uma palavra.
  • Uma contagem do número de vezes que uma palavra aparece na bolsa. Por exemplo, se a frase fosse o cachorro marrom com um cachorro com pele marrom, tanto maroon quanto cachorro seriam representados como 2, enquanto as outras palavras seriam 1.
  • Outro valor, como o logaritmo de contagem do número de vezes que uma palavra aparece na bolsa.

BERT (Codificador bidirecional) Representações de transformadores

#language

Uma arquitetura de modelo para representação de texto. Um modelo BERT treinado pode atuar como parte de um modelo maior para classificação de texto ou outras tarefas de ML.

O BERT tem as seguintes características:

As variantes do BERT' incluem:

  • ALBERT, que é acrônimo de A Light BERT (na sigla em inglês).
  • LABSE

Para ter uma visão geral do BERT, consulte BERT: código aberto de pré-treinamento sobre processamento de linguagem natural.

Bigram

#seq
#language

Um N-grama em que N=2.

bidirecional

#language

Um termo usado para descrever um sistema que avalia o texto que precede e segue uma seção de texto. Por outro lado, um sistema unidirecional avalia apenas o texto que precede uma seção de texto de destino.

Por exemplo, considere um modelo de linguagem mascarada que precisa determinar as probabilidades das palavras que representam o sublinhado na seguinte pergunta:

Como você está em _____?

Um modelo de linguagem unidirecional teria que basear suas probabilidades apenas no contexto fornecido pelas palavras "What", "is" e "the". Por outro lado, um modelo de linguagem bidirecional também pode ter contexto de "quot;with" e "you"", o que pode ajudar o modelo a gerar melhores previsões.

modelo de linguagem bidirecional

#language

Um modelo de idioma que determina a probabilidade de um determinado token estar presente em determinado local em um trecho de texto com base no texto anterior e no seguinte.

BLEU (substituto de avaliação bilíngue)

#language

Uma pontuação entre 0,0 e 1,0, indicando a qualidade de uma tradução entre dois idiomas humanos (por exemplo, entre inglês e russo). Uma pontuação BLEU de 1.0 indica uma tradução perfeita. Uma pontuação BLEU de 0.0 indica uma tradução terrível.

C

modelo de linguagem causal

#language

É sinônimo de modelo de linguagem unidirecional.

Consulte Modelo de linguagem bidirecional para contrastar diferentes abordagens direcionais na modelagem de linguagem.

flor de cerejeira

#language

Uma frase ou frase com um significado ambíguo. A floração de falhas representa um problema significativo na compreensão de linguagem natural. Por exemplo, o título Red Tape Holds Up Skyscraper é uma floresta de falha porque um modelo NLU pode interpretar o título literalmente ou figurativamente.

D

decodificador

#language

Em geral, qualquer sistema de ML que converta de uma representação processada, densa ou interna para uma representação mais bruta, esparsa ou externa.

Os decodificadores geralmente são um componente de um modelo maior, em que geralmente são pareados com um codificador.

Em tarefas de sequência em sequência, um decodificador começa com o estado interno gerado pelo codificador para prever a próxima sequência.

Consulte Transformer para ver a definição de um decodificador na arquitetura Transformer.

denominando

#language

Uma abordagem comum de aprendizado autogerenciado em que:

  1. Ruído é adicionado artificialmente ao conjunto de dados.
  2. O modelo tenta remover o ruído.

A remoção de ruído permite o aprendizado com exemplos sem rótulos. O conjunto de dados original funciona como destino ou rótulo e os dados com ruído como entrada.

Alguns modelos de linguagem mascarada usam denominação da seguinte maneira:

  1. O ruído é adicionado artificialmente a uma frase sem rótulo, mascarando alguns tokens.
  2. O modelo tenta prever os tokens originais.

E

embeddings

#language

Um atributo categórico representado como um valor de valor contínuo. Normalmente, um embedding é a conversão de um vetor de alta dimensão em um espaço de baixa dimensão. Por exemplo, você pode representar as palavras em uma frase em inglês de uma das seguintes maneiras:

  • Como um vetor esparso de milhão de elementos (de alta dimensão) em que todos os elementos são números inteiros. Cada célula do vetor representa uma palavra em inglês separada. O valor em uma célula representa o número de vezes que a palavra aparece em uma frase. Como é improvável que uma única frase em inglês contenha mais de 50 palavras, quase todas as células do vetor terão 0. As poucas células que não contêm um número inteiro contêm um número inteiro baixo (geralmente 1) que representa o número de vezes que essa palavra apareceu na frase.
  • Como um vetor denso de vários elementos (centenário) em que cada elemento contém um valor de ponto flutuante entre 0 e 1. Isso é uma incorporação.

No TensorFlow, os embeddings são treinados por propagação de perda como qualquer outro parâmetro em uma rede neural.

espaço de embedding

#language

O espaço vetorial d-dimensional que é parte de um espaço vetorial de maior dimensão é mapeado. O ideal é que o espaço de embedding contenha uma estrutura que produz resultados matemáticos significativos. Por exemplo, em um espaço de embedding ideal, a adição e a subtração de embeddings podem resolver tarefas de analogia de palavras.

O produto de ponto de duas embeddings é uma medida de semelhança.

codificador

#language

Em geral, qualquer sistema de ML que converta de uma representação bruta, esparsa ou externa em uma representação mais processada, mais densa ou mais interna.

Os codificadores geralmente são um componente de um modelo maior, em que geralmente são pareados com um decodificador. Alguns Transformers copiam codificadores com decodificadores, embora outros usem somente o codificador ou apenas o decodificador.

Alguns sistemas usam a saída do codificador como entrada para uma rede de classificação ou regressão.

Em tarefas de sequência em sequência, um codificador recebe uma sequência de entrada e retorna um estado interno (um vetor). Em seguida, o decodificador usa esse estado interno para prever a próxima sequência.

Consulte Transformer para ver a definição de um codificador na arquitetura do Transformer.

G

GPT (transformador pré-treinado generativo)

#language

Uma família de modelos de linguagem com base em Transformer desenvolvidos pela OpenAI.

As variantes da GPT podem ser aplicadas a várias modalidades, incluindo:

  • Geração de imagens (por exemplo, ImageGPT)
  • geração de texto para imagem (por exemplo, DALL-E).

L

LaMDA (Modelo de linguagem para aplicativos de diálogo)

#language

Um modelobaseado de linguagem grande, desenvolvido pelo Google, treinado em um grande conjunto de dados de diálogo que pode gerar

LaMDA: nossa tecnologia de conversa inovadora fornece uma visão geral.

modelo da linguagem

#language

Um modelo que estima a probabilidade de um token ou uma sequência de tokens ocorrendo em uma sequência mais longa de tokens.

modelo grande

#language

Um termo informal sem definição rígida que geralmente significa um modelo de linguagem que tem um alto número de parâmetros. Alguns modelos de linguagem grandes contêm mais de 100 bilhões de parâmetros.

M

modelo de linguagem mascarada

#language

Um modelo de linguagem que prevê a probabilidade de tokens candidatos preencherem espaços em branco em uma sequência. Por exemplo, um modelo de linguagem mascarada pode calcular probabilidades para palavras-candidatos para substituir o sublinhado na seguinte frase:

O ____ do chapéu voltou.

A literatura normalmente usa a string "quot;MASK" em vez de um sublinhado. Exemplo:

O botão de chapéu voltou.

A maioria dos modelos modernos de linguagem mascarada é unidirecional.

metaaprendizado

#language

Um subconjunto de machine learning que descobre ou melhora um algoritmo de aprendizado. Um sistema de metaaprendizado também pode ter como objetivo treinar um modelo para aprender rapidamente uma nova tarefa usando uma pequena quantidade de dados ou com a experiência adquirida em tarefas anteriores. Geralmente, os algoritmos de metaaprendizado tentam:

  • Melhorar/aprender recursos projetados por engenharia manual (como um inicializador ou um otimizador).
  • Aumente a eficiência dos dados e da computação.
  • Melhoria na generalização.

O aprendizado médio está relacionado ao pouco aprendizado.

modality

#language

Uma categoria de dados de alto nível. Por exemplo, números, texto, imagens, vídeos e áudio são cinco modalidades diferentes.

paralelismo de modelos

#language

Uma maneira de escalonar o treinamento ou a inferência que coloca diferentes partes de um modelo em dispositivos diferentes. O paralelismo de modelos permite que os modelos grandes demais não funcionem em um único dispositivo.

Veja também paralelismo de dados.

autoatenção para várias cabeças

#language

É uma extensão da autoatenção que aplica o mecanismo de autoatenção várias vezes para cada posição na sequência de entrada.

A Transformers introduziu a autoatenção em várias cabeças.

modelo multimodal

#language

Um modelo com entradas e/ou saídas que incluem mais de uma modalidade. Por exemplo, considere um modelo que usa uma imagem e uma legenda de texto (duas modalidades) como recursos e gera uma pontuação indicando a adequação da legenda de texto para a imagem. Portanto, as entradas desse modelo são multimodais e a saída é unimodal.

N

processamento de linguagem natural

#language

Determinar as intenções do usuário com base no que ele digitou ou disse Por exemplo, um mecanismo de pesquisa usa a compreensão de linguagem natural para determinar o que o usuário está pesquisando com base no que ele digitou ou disse.

N-grama

#seq
#language

Uma sequência ordenada de N palavras. Por exemplo, truly madly é um grama de 2 gramas. Como a ordem é relevante, realmente é um segundo grama diferente de realmente difícil.

N Nomes para este tipo de N-grama Exemplos
2 Bigram ou 2 gramas ir, ir, almoçar, jantar
3 trigrama ou 3 gramas comeu demais, três ratos cegos, o sino dos sinos
4 4 gramas andar no parque, poeira no vento, o menino comeu lentilhas

Muitos modelos de entendimento de linguagem natural dependem de N-gramas para prever a próxima palavra que o usuário vai digitar ou dizer. Por exemplo, suponha que um usuário digite três pontos cegos. Um modelo NLU baseado em trigramas provavelmente prevê que o usuário digitará novamente mice.

Comparar N-gramas com bag of words, que são conjuntos de palavras não ordenadas.

PLN

#language

Abreviação de entendimento de linguagem natural.

P

pipeline

#language

Uma forma de paralelismo de modelos em que o processamento de um modelo é dividido em estágios consecutivos, e cada um deles é executado em um dispositivo diferente. Enquanto um cenário está processando um lote, o anterior pode funcionar no próximo lote.

Veja também treinamento em etapas.

S

autoatenção (também chamada de camada de autoatenção)

#language

Uma camada de rede neural que transforma uma sequência de embeddings (por exemplo, tokenembeddings). Cada incorporação na sequência de saída é construída integrando informações dos elementos da sequência de entrada por meio de um mecanismo de atenção.

A parte automática da autoatenção se refere à sequência que participa de si mesma, e não de algum outro contexto. A autoatenção é um dos principais elementos básicos para Transformers e usa a terminologia de pesquisa de dicionário, como "consulta", "chave" e "valor".

A camada de autoatenção começa com uma sequência de representações de entrada, uma para cada palavra. A representação de entrada de uma palavra pode ser um embedding simples. Para cada palavra em uma sequência de entrada, a rede pontua a relevância da palavra para cada elemento em toda a sequência de palavras. As pontuações de relevância determinam o quanto a representação final da palavra incorpora as representações de outras palavras.

Por exemplo, considere a seguinte frase:

O animal não atravessou a rua porque estava muito cansado.

A ilustração a seguir, de Transformer: uma nova arquitetura de rede neural para compreensão de linguagem, mostra um padrão de atenção da camada de autoatenção para o pronome it, com a escuridão de cada linha indicando o quanto cada palavra contribui para a representação:

A frase a seguir aparece duas vezes: 'o animal não atravessou a rua
          porque estava muito cansado.'  As linhas conectam a palavra "#39;it' em
          uma frase a cinco tokens ('The', 'animal', 'street', 'it' e
          o ponto) na outra frase.  A linha entre 'it' e
          'animal' é mais forte.

A camada de autoatenção destaca palavras que são relevantes para "it" Nesse caso, a camada de atenção aprendeu a destacar palavras que pode se referir, atribuindo o peso mais alto à animal.

Para uma sequência de n tokens, a autoAtenção transforma uma sequência de embeddings n vezes separados, uma em cada posição na sequência.

Consulte também atenção e autoatenção de várias cabeças.

análise de sentimento

#language

Usar algoritmos de estatística ou machine learning para determinar a atitude geral de um grupo (positivo ou negativo) em direção a um serviço, produto, organização ou tópico. Por exemplo, usando o entendimento de linguagem natural, um algoritmo pode realizar análise de sentimento em feedback textual de um curso universitário para determinar o grau em que os alunos geralmente gostam ou não gostam do curso.

tarefa sequencial

#language

Uma tarefa que converte uma sequência de entrada de tokens para uma sequência de saídas de tokens. Por exemplo, dois tipos conhecidos de tarefas de sequência a sequência são:

  • Tradutores:
    • Exemplo de sequência de entrada: "Eu te amo."
    • Exemplo de sequência de saída: "Je t'aime."
  • Respostas a perguntas:
    • Exemplo de sequência de entrada: "Preciso do meu carro na cidade de Nova York?"
    • Exemplo de sequência de saída: "Não. Mantenha o carro em casa."

treinamento em etapas

#language

Uma tática de treinamento de um modelo em uma sequência de estágios discretos. O objetivo pode acelerar o processo de treinamento ou melhorar a qualidade do modelo.

Uma ilustração da abordagem de empilhamento progressivo é mostrada abaixo:

  • O estágio 1 contém três camadas ocultas, o estágio 2 contém seis camadas ocultas e o estágio 3 contém 12 camadas ocultas.
  • O estágio 2 começa o treinamento com os pesos aprendidos nas três camadas ocultas do estágio 1. O estágio 3 começa o treinamento com os pesos aprendidos nas seis camadas ocultas do estágio 2.

Três estágios, rotulados como 'Estágio 1', 'Estágio 2' e 'Estágio 3'.
          Cada um deles contém um número diferente de camadas: a Etapa 1 contém
          3 camadas, a Etapa 2 contém 6 camadas e a Etapa 3 contém 12 camadas.
          As três camadas do estágio 1 se tornam as três primeiras do estágio 2.
          Da mesma forma, as seis camadas do estágio 2 se tornam as primeiras seis do
          estágio 3.

Veja também pipeline.

T

token

#language

Em um modelo de linguagem, a unidade atômica em que o modelo está treinando e fazendo previsões. Um token geralmente é um dos seguintes:

  • uma palavra, por exemplo, a frase "cachorros como gatos" consiste em três tokens de palavra: "dogs", "like" e "cats".
  • um caractere, por exemplo, a frase "bicicleta de peixe" consiste em nove tokens de caracteres. O espaço em branco conta como um dos tokens.
  • subpalavras, em que uma única palavra pode ser um único token ou vários tokens. Uma subpalavra consiste em uma palavra raiz, um prefixo ou um sufixo. Por exemplo, um modelo de linguagem que usa subpalavras como tokens pode visualizar a palavra "dogs" como dois tokens (a palavra raiz "dog" e o sufixo plural "quot;s"). O mesmo modelo de idioma pode visualizar a única palavra "quot;taller"" como duas subpalavras (a palavra raiz "quot;tall" e o sufixo "er").

Em domínios fora dos modelos de linguagem, os tokens podem representar outros tipos de unidades atômicas. Por exemplo, na visão computacional, um token pode ser um subconjunto de uma imagem.

Transformador

#language

Uma arquitetura de rede neural desenvolvida no Google que depende de mecanismos de autoatenção para transformar uma sequência de embeddings de entrada em uma sequência de embeddings de saída sem depender de convoluções ou redes neurais recorrentes. Um Transformer pode ser visto como uma pilha de camadas de autoatenção.

Um Transformer pode incluir qualquer um dos seguintes elementos:

Um codificador transforma uma sequência de embeddings em uma nova sequência com o mesmo comprimento. Um codificador inclui N camadas idênticas, cada uma com duas subcamadas. Essas duas subcamadas são aplicadas em cada posição da sequência de embedding de entrada, transformando cada elemento da sequência em uma nova incorporação. A primeira subcamada de codificador agrega informações de toda a sequência de entrada. A segunda camada do codificador transforma as informações agregadas em uma incorporação de saída.

Um decodificador transforma uma sequência de embeddings de entrada em uma sequência de embeddings de saída, possivelmente com um comprimento diferente. Um decodificador também inclui N camadas idênticas com três subcamadas, duas das quais são semelhantes às subcamadas do codificador. A terceira camada de decodificador recebe a saída do codificador e aplica o mecanismo autoatenção para coletar informações dela.

A postagem do blog Transformer: uma nova arquitetura de rede neural para o entendimento de linguagem (em inglês) fornece uma boa introdução aos Transformers.

trigrama

#seq
#language

Um N-grama em que N=3.

U

unidirecional

#language

É um sistema que avalia apenas o texto que precede uma seção de texto. Por outro lado, um sistema bidirecional avalia o texto que precede e segue uma seção de destino do texto. Consulte bidirecional para mais detalhes.

modelo de linguagem unidirecional

#language

Um modelo de linguagem que baseia as probabilidades somente nos tokens que aparecem antes, e não depois dos tokens de destino. Contraste com o modelo de linguagem bidirecional.

W

incorporação de palavras

#language

Representando cada palavra em uma palavra definida em um embedding, ou seja, representando cada palavra como um vetor de valores de ponto flutuante entre 0,0 e 1,0. Palavras com significados semelhantes têm representações mais parecidas do que palavras com significados diferentes. Por exemplo, carros, celebridade e pepinos teriam representações relativamente semelhantes, o que seria muito diferente das representações de aeronaves, óculos de sol e pasta de dente.