Esta página foi traduzida pela API Cloud Translation.

LLMs: o que é um modelo de linguagem grande?

Uma tecnologia mais recente, os modelos de linguagem grandes (LLMs), prevê um token ou uma sequência de tokens, às vezes muitos parágrafos de tokens previstos. Um token pode ser uma palavra, uma subpalavra (um subconjunto de uma palavra) ou até mesmo um único caractere. Os LLMs fazem previsões muito melhores do que os modelos de linguagem N-gram ou as redes neurais recorrentes porque:

Os LLMs contêm muito mais parâmetros do que os modelos recorrentes.
Os LLMs coletam muito mais contexto.

Esta seção apresenta a arquitetura mais bem-sucedida e amplamente usada para criar LLMs: o Transformer.

O que é um transformador?

Os transformadores são a arquitetura mais moderna para uma ampla variedade de aplicativos de modelo de linguagem, como tradução:

Figura 1. A entrada é: Sou um bom cachorro. Um tradutor baseado em transformadores transforma essa entrada na saída: Je suis un bon chien, que é a mesma frase traduzida para o francês. — **Figura 1.** Um aplicativo baseado em Transformer que traduz do inglês para o francês.

Os transformadores completos consistem em um codificador e um decodificador:

Um codificador converte o texto de entrada em uma representação intermediária. Um codificador é uma enorme rede neural.
Um decodificador converte essa representação intermediária em texto útil. Um decodificador também é uma rede neural enorme.

Por exemplo, em um tradutor:

O codificador processa o texto de entrada (por exemplo, uma frase em inglês) em alguma representação intermediária.
O decodificador converte essa representação intermediária em texto de saída (por exemplo, a frase equivalente em francês).

Figura 2. O tradutor baseado em Transformer começa com um codificador,
que gera uma representação intermediária de uma frase em inglês. Um decodificador converte essa representação intermediária em uma frase de saída em francês. — **Figura 2.** Um Transformer completo contém um codificador e um decodificador.

Clique no ícone para saber mais sobre os Transformers parciais.

Este módulo se concentra em Transformers completos, que contêm um codificador e um decodificador. No entanto, também existem arquiteturas somente codificador e somente decodificador:

As arquiteturas somente de codificador mapeiam o texto de entrada em uma representação intermediária (geralmente, uma camada de embedding). Casos de uso para arquiteturas somente de codificador incluem:
- Prever qualquer token na sequência de entrada (que é a função convencional dos modelos de linguagem).
- Criar uma incorporação sofisticada, que pode servir como entrada para outro sistema, como um classificador.
As arquiteturas somente decodificadoras geram novos tokens com base no texto já gerado. Os modelos somente decodificadores geralmente são excelentes na geração de sequências. Os modelos somente decodificadores modernos podem usar o poder de geração para criar continuações de históricos de diálogo e outros comandos.

O que é autoatenção?

Para melhorar o contexto, os transformadores dependem muito de um conceito chamado autoatenção. Na prática, em nome de cada token de entrada, a autoatenção faz a seguinte pergunta:

"Quanto cada outro token de entrada afeta a interpretação deste token?"

O "auto" em "autoatenção" se refere à sequência de entrada. Alguns mecanismos de atenção ponderam as relações de tokens de entrada com tokens em uma sequência de saída, como uma tradução, ou com tokens em alguma outra sequência. Mas a autoatenção só pesa a importância das relações entre tokens na sequência de entrada.

Para simplificar, suponha que cada token seja uma palavra e que o contexto completo seja apenas uma frase. Considere a seguinte frase:

The animal didn't cross the street because it was too tired.

A frase anterior tem onze palavras. Cada uma das 11 palavras está prestando atenção nas outras 10, pensando em quanto cada uma delas é importante para si mesma. Por exemplo, observe que a frase contém o pronome it. Os pronomes costumam ser ambíguos. O pronome ele geralmente se refere a um substantivo ou sintagma nominal recente, mas na frase de exemplo, a qual substantivo recente ele se refere: ao animal ou à rua?

O mecanismo de autoatenção determina a relevância de cada palavra próxima para o pronome ele. A Figura 3 mostra os resultados. Quanto mais azul a linha, mais importante é essa palavra para o pronome it. Ou seja, animal é mais importante que rua para o pronome ele.

Figura 3. A relevância de cada uma das onze palavras na frase: "O animal não atravessou a rua porque estava muito cansado" para o pronome "ele". A palavra "animal" é a mais relevante para o pronome "ele". — **Figura 3.** Autoatenção para o pronome it. De Transformer: A Novel Neural Network Architecture for Language Understanding.

Por outro lado, suponha que a última palavra da frase mude da seguinte forma:

The animal didn't cross the street because it was too wide.

Nessa frase revisada, a autoatenção classificaria rua como mais relevante do que animal para o pronome ele.

Alguns mecanismos de autoatenção são bidirecionais, ou seja, eles calculam pontuações de relevância para tokens anteriores e posteriores à palavra que está sendo atendida. Por exemplo, na Figura 3, observe que as palavras dos dois lados de it são examinadas. Assim, um mecanismo bidirecional de autoatenção pode coletar contexto de palavras em ambos os lados da palavra que está sendo atendida. Por outro lado, um mecanismo de autoatenção unidirecional só pode coletar contexto de palavras em um lado da palavra que está sendo atendida. A atenção própria bidirecional é especialmente útil para gerar representações de sequências inteiras, enquanto aplicativos que geram sequências token por token exigem atenção própria unidirecional. Por isso, os codificadores usam a atenção própria bidirecional, enquanto os decodificadores usam a unidirecional.

O que é autoatenção com várias camadas e várias cabeças?

Cada camada de autoatenção normalmente é composta por vários cabeçotes de autoatenção. A saída de uma camada é uma operação matemática (por exemplo, média ponderada ou produto escalar) da saída dos diferentes cabeçotes.

Como os parâmetros de cada cabeçalho são inicializados com valores aleatórios, cabeçalhos diferentes podem aprender relações diferentes entre cada palavra atendida e as palavras próximas. Por exemplo, o cabeçalho de autoatenção descrito na seção anterior se concentrou em determinar a qual substantivo o pronome it se referia. No entanto, outras cabeças de autoatenção na mesma camada podem aprender a relevância gramatical de cada palavra para todas as outras ou aprender outras interações.

Um modelo de transformador completo empilha várias camadas de autoatenção umas sobre as outras. A saída da camada anterior se torna a entrada da próxima. Esse empilhamento permite que o modelo crie entendimentos progressivamente mais complexos e abstratos do texto. Enquanto as camadas anteriores podem se concentrar na sintaxe básica, as mais profundas podem integrar essas informações para entender conceitos mais sutis, como sentimento, contexto e links temáticos em toda a entrada.

Clique no ícone para saber mais sobre a notação Big O para LLMs.

A autoatenção força cada palavra no contexto a aprender a relevância de todas as outras palavras no contexto. Então, é tentador proclamar isso como um problema O(N²), em que:

N é o número de tokens no contexto.

Como se o Big O anterior não fosse perturbador o suficiente, os Transformers contêm várias camadas de autoatenção e vários cabeçotes de autoatenção por camada de autoatenção. Portanto, o Big O é:

O(N² · S · D)

em que:

S é o número de camadas de autoatenção.
D é o número de cabeças por camada.

Clique no ícone para saber mais sobre como os LLMs são treinados.

Você provavelmente nunca vai treinar um LLM do zero. O treinamento de um LLM de nível industrial exige grandes quantidades de experiência em ML, recursos computacionais e tempo. De qualquer forma, você clicou no ícone para saber mais, então precisamos dar uma explicação.

O principal ingrediente na criação de um LLM é uma quantidade fenomenal de dados de treinamento (texto), geralmente um pouco filtrados. A primeira fase do treinamento geralmente é alguma forma de aprendizado não supervisionado nesses dados de treinamento. Especificamente, o modelo é treinado com previsões mascaradas, ou seja, alguns tokens nos dados de treinamento são ocultados intencionalmente. O modelo é treinado tentando prever esses tokens ausentes. Por exemplo, suponha que a seguinte frase faça parte dos dados de treinamento:

The residents of the sleepy town weren't prepared for what came next.

Tokens aleatórios são removidos, por exemplo:

The ___ of the sleepy town weren't prepared for ___ came next.

Um LLM é apenas uma rede neural. Portanto, a perda (o número de tokens mascarados que o modelo considerou corretamente) orienta o grau em que a retropropagação atualiza os valores dos parâmetros.

Um modelo baseado em Transformer treinado para prever dados ausentes aprende gradualmente a detectar padrões e estruturas de ordem superior nos dados para receber pistas sobre o token ausente. Considere o seguinte exemplo de instância mascarada:

Oranges are traditionally ___ by hand. Once clipped from a tree, __ don't ripen.

O treinamento extenso com um grande número de exemplos mascarados permite que um LLM aprenda que "colhidas" ou "pegas" são correspondências de alta probabilidade para o primeiro token e que "laranjas" ou "elas" são boas opções para o segundo token.

Uma etapa opcional de treinamento adicional chamada ajuste de instruções pode melhorar a capacidade de um LLM de seguir instruções.

Por que os Transformers são tão grandes?

Os Transformers contêm centenas de bilhões ou até trilhões de parâmetros. Em geral, este curso recomendou criar modelos com um número menor de parâmetros em vez de um número maior. Afinal, um modelo com um número menor de parâmetros usa menos recursos para fazer previsões do que um modelo com um número maior de parâmetros. No entanto, pesquisas mostram que os Transformers com mais parâmetros têm um desempenho consistentemente melhor do que aqueles com menos parâmetros.

Mas como um LLM gera texto?

Você já viu como os pesquisadores treinam LLMs para prever uma ou duas palavras que estão faltando e talvez não tenha ficado impressionado. Afinal, prever uma ou duas palavras é essencialmente o recurso de preenchimento automático integrado a vários softwares de texto, e-mail e criação. Talvez você esteja se perguntando como os LLMs podem gerar frases, parágrafos ou haicais sobre arbitragem.

Na verdade, os LLMs são essencialmente mecanismos de preenchimento automático que podem prever (completar) milhares de tokens automaticamente. Por exemplo, considere uma frase seguida por uma frase mascarada:

My dog, Max, knows how to perform many traditional dog tricks.
___ (masked sentence)

Um LLM pode gerar probabilidades para a frase mascarada, incluindo:

Probabilidade	Palavra(s)
3,1%	Por exemplo, ele pode sentar, ficar e rolar.
2,9%	Por exemplo, ele sabe sentar, ficar e rolar.

Um LLM grande o suficiente pode gerar probabilidades para parágrafos e ensaios inteiros. Pense nas perguntas de um usuário para um LLM como a frase "dada" seguida por uma máscara imaginária. Exemplo:

User's question: What is the easiest trick to teach a dog?
LLM's response:  ___

O LLM gera probabilidades para várias respostas possíveis.

Como outro exemplo, um LLM treinado com um grande número de "problemas" matemáticos pode parecer que está fazendo um raciocínio matemático sofisticado. No entanto, esses LLMs basicamente apenas preenchem automaticamente um comando de problema de palavras.

Benefícios dos LLMs

Os LLMs podem gerar textos claros e fáceis de entender para uma ampla variedade de públicos-alvo. Os LLMs podem fazer previsões sobre tarefas para as quais foram treinados explicitamente. Alguns pesquisadores afirmam que os LLMs também podem fazer previsões para entradas em que não foram treinados explicitamente, mas outros pesquisadores refutaram essa afirmação.

Problemas com LLMs

Treinar um LLM envolve muitos problemas, incluindo:

Reunir um conjunto de treinamento enorme.
Consumindo vários meses e enormes recursos computacionais e eletricidade.
Como resolver desafios de paralelismo.

Usar LLMs para inferir previsões causa os seguintes problemas:

Os LLMs alucinam, ou seja, as previsões deles costumam ter erros.
Os LLMs consomem quantidades enormes de recursos computacionais e eletricidade. Treinar LLMs em conjuntos de dados maiores geralmente reduz a quantidade de recursos necessários para a inferência, embora os conjuntos de treinamento maiores exijam mais recursos de treinamento.
Como todos os modelos de ML, os LLMs podem apresentar todos os tipos de viés.

Exercício: teste de conhecimentos

Suponha que um Transformer seja treinado em um bilhão de documentos, incluindo milhares de documentos que contêm pelo menos uma instância da palavra elefante. Quais das seguintes afirmações provavelmente são verdadeiras?

As acácias, uma parte importante da dieta de um elefante, vão ganhar gradualmente uma pontuação alta de autoatenção com a palavra elefante.

Sim, e isso vai permitir que o Transformer responda a perguntas sobre a dieta de um elefante.

O Transformer vai associar a palavra elefante a várias expressões idiomáticas que contêm a palavra elefante.

Sim, o sistema vai começar a atribuir pontuações altas de autoatenção entre a palavra elefante e outras palavras em expressões idiomáticas com "elefante".

O Transformer vai aprender gradualmente a ignorar qualquer uso sarcástico ou irônico da palavra elefante nos dados de treinamento.

Transformers suficientemente grandes treinados em um conjunto de treinamento suficientemente amplo se tornam bastante adeptos a reconhecer sarcasmo, humor e ironia. Em vez de ignorar o sarcasmo e a ironia, o Transformer aprende com eles.