Introduction to Large Language Models

Não conhece modelos de linguagem ou modelos grandes? Confira os recursos abaixo.

O que é um modelo de linguagem?

Um modelo de linguagem é um modelo de machine learning que visa prever e gerar linguagem plausível. O preenchimento automático é um modelo de linguagem, por exemplo.

Esses modelos estimam a probabilidade de um token ou uma sequência de tokens ocorrer dentro de uma sequência mais longa de tokens. Considere a seguinte frase:

When I hear rain on my roof, I _______ in my kitchen.

Se você presumir que um token é uma palavra, o modelo de linguagem determinará as probabilidades de diferentes palavras ou sequências de palavras para substituir esse sublinhado. Por exemplo, um modelo de linguagem pode determinar as seguintes probabilidades:

cook soup 9.4%
warm up a kettle 5.2%
cower 3.6%
nap 2.5%
relax 2.2%
...

Uma "sequência de tokens" pode ser uma frase inteira ou uma série de frases. Ou seja, um modelo de linguagem pode calcular a probabilidade de frases ou blocos de texto inteiros diferentes.

Estimar a probabilidade do que vem a seguir em uma sequência é útil para todos os tipos de coisas: gerar texto, traduzir idiomas e responder a perguntas, para citar alguns.

O que é um modelo de linguagem grande?

A modelagem de linguagem humana em escala é um empreendimento altamente complexo e que consome muitos recursos. O caminho para alcançar os recursos atuais de modelos de linguagem e modelos de idiomas grandes se estendeu por várias décadas.

À medida que os modelos são construídos cada vez mais, sua complexidade e eficácia aumentam. Modelos de linguagem iniciais podem prever a probabilidade de uma única palavra. Modelos de linguagem grandes e modernos podem prever a probabilidade de frases, parágrafos ou até mesmo documentos inteiros.

O tamanho e a capacidade dos modelos de linguagem explodiram nos últimos anos, à medida que a memória do computador, o tamanho do conjunto de dados e a capacidade de processamento aumentaram, e técnicas mais eficazes para modelar sequências de texto mais longas são desenvolvidas.

Qual é o tamanho?

A definição é confusa, mas "grande" foi usada para descrever BERT (110 milhões de parâmetros), bem como PaLM 2 (até 340 bilhões de parâmetros).

Os parâmetros são os pesos que o modelo aprendeu durante o treinamento. Eles são usados para prever o próximo token na sequência. "Grande" pode se referir ao número de parâmetros no modelo ou, às vezes, ao número de palavras no conjunto de dados.

Transformadores

Um desenvolvimento importante na modelagem da linguagem foi a introdução em 2017 da Transformers, uma arquitetura projetada com base na ideia de atenção. Isso permitiu processar sequências mais longas se concentrando na parte mais importante da entrada, resolvendo problemas de memória encontrados em modelos anteriores.

Os Transformers são a arquitetura de última geração de uma ampla variedade de aplicativos de modelos de linguagem, como tradutores.

Se a entrada for "I'm a good dog.", um tradutor com base em Transformer transforma essa entrada na saída "Je suis un bon chien.", que é a mesma frase traduzida para o francês.

Os Transformers completos consistem em um codificador e um decodificador. Um codificador converte o texto de entrada em uma representação intermediária, e um decodificador converte essa representação intermediária em texto útil.

Autoatenção

Os transformadores dependem muito de um conceito chamado autoatenção. A parte própria da atenção própria refere-se ao foco "egocêntrico" de cada token em um corpus. Efetivamente, em nome de cada token de entrada, a autoatenção pergunta: "Quanto cada outro token de entrada importa para mim?" Para simplificar, vamos supor que cada token é uma palavra e o contexto completo é uma única frase. Considere a seguinte frase:

O animal não cruzou a rua porque estava muito cansado.

Existem 11 palavras na frase anterior, então cada uma das 11 palavras está prestando atenção nas outras dez, se perguntando o quanto cada uma dessas dez palavras é importante para elas. Por exemplo, observe que a frase contém o pronome ele. Os pronomes geralmente são ambíguos. O pronome ele sempre se refere a um substantivo recente, mas, na frase de exemplo, a qual nome ele se refere: o animal ou a rua?

O mecanismo de autoatenção determina a relevância de cada palavra próxima para o pronome ele.

Quais são alguns casos de uso para LLMs?

Os LLMs são altamente eficazes na tarefa para a qual foram criados, o que está gerando o texto mais plausível em resposta a uma entrada. Eles estão até começando a mostrar um bom desempenho em outras tarefas, como resumo, resposta a perguntas e classificação de texto. Elas são chamadas de capacidades emergentes. Os LLMs podem até solucionar alguns problemas matemáticos e escrever códigos (embora seja aconselhável verificar o trabalho deles).

Os LLMs são excelentes para imitar padrões de fala humanos. Entre outras coisas, eles são ótimos em combinar informações com estilos e tons diferentes.

No entanto, os LLMs podem ser componentes de modelos que fazem mais do que apenas gerar texto. LLMs recentes foram usados para criar detectores de sentimento, classificadores de toxicidade e gerar legendas de imagens.

Considerações sobre LLM

Modelos tão grandes não são as mesmas desvantagens.

Os maiores LLMs são caros. Eles podem levar meses para serem treinados e, como resultado, consomem muitos recursos.

Elas também costumam ser reaproveitadas para outras tarefas, um valor valioso.

Treinar modelos com mais de um trilhão de parâmetros cria desafios de engenharia. São necessárias técnicas especiais de infraestrutura e programação para coordenar o fluxo para os chips e vice-versa.

Há maneiras de reduzir os custos desses modelos grandes. Duas abordagens são inferência off-line e destilação.

O viés pode ser um problema em modelos muito grandes e precisa ser considerado em treinamento e implantação.

Como esses modelos são treinados com linguagem humana, isso pode introduzir vários problemas éticos em potencial, incluindo o uso inadequado da linguagem e o viés em raça, gênero, religião e muito mais.

É preciso deixar claro que, à medida que esses modelos continuam a crescer e a ter um melhor desempenho, é necessário permanecer atento para entender e reduzir as desvantagens deles. Saiba mais sobre a abordagem do Google à IA responsável.