Glossário de machine learning: modelos sequenciais

Esta página contém termos do glossário dos modelos de sequência. Para todos os termos do glossário, clique aqui.

B

Bigram

#seq
#language

Um N-gram em que N=2.

E

problema de gradiente em explosão

#seq

A tendência dos gradientes em redes neurais profundas (especialmente redes neurais recorrentes) se torna surpreendentemente íngreme (alta). Os gradientes íngremes geralmente causam atualizações muito grandes para os pesos de cada em uma rede neural profunda.

Os modelos que sofrem com o problema do gradiente em explosão ficam difíceis ou impossíveis de treinar. O corte gradiente pode atenuar esse problema.

Compare com o problema de gradiente ausente.

F

esqueça o portão

#seq

A parte de uma célula de memória de curto prazo longa que regula o fluxo de informações pela célula. Esquecer portões mantêm o contexto decidindo quais informações devem ser descartadas do estado da célula.

G

gradiente de corte

#seq

Um mecanismo comumente usado para mitigar o problema de gradiente em explosão limitando (recortando) artificialmente o valor máximo dos gradientes ao usar gradiente descendente para treinar um modelo.

L

Memória de curto prazo (LSTM)

#seq

Um tipo de célula em uma rede neural recorrente usada para processar sequências de dados em aplicativos, como reconhecimento de escrita manual, tradução automática e legendagem de imagens. Os LSTMs abordam o problema de gradiente de desaparecimento que ocorre ao treinar RNNs devido a longas sequências de dados, mantendo o histórico em um estado de memória interno com base na nova entrada e contexto de células anteriores na RNN.

LSTM

#seq

Abreviação de Memória de curto prazo.

N

N-grama

#seq
#language

Uma sequência ordenada de N palavras. Por exemplo, truly madly é um 2 grama. Como a ordem é relevante, madly true é um 2 grama diferente de truly madly.

N Nome(s) deste tipo de N-grama Exemplos
2 bigrama ou 2 gramas ir, almoçar, jantar
3 trigrama ou 3 gramas comeu demais, três ratos cegos, os pedágios
4 4 gramas caminham no parque, poeira no vento, o menino comeu lentilhas

Muitos modelos de compreensão de linguagem natural dependem de N-grams para prever a próxima palavra que o usuário digitará ou dirá. Por exemplo, suponha que um usuário tenha digitado três pontos. Um modelo de PLN com base em trigramas provavelmente prevê que o usuário digitará mice em seguida.

Compare N-gramas com saco de palavras, que são conjuntos não ordenados de palavras.

Direita

rede neural recorrente

#seq

Uma rede neural que é executada intencionalmente várias vezes, em que partes de cada uma são executadas na próxima execução. Especificamente, as camadas ocultas da execução anterior fornecem parte da entrada à mesma camada oculta na próxima execução. As redes neurais recorrentes são especialmente úteis para avaliar sequências, de modo que as camadas ocultas possam aprender com execuções anteriores da rede neural em partes anteriores da sequência.

Por exemplo, a figura a seguir mostra uma rede neural recorrente que é executada quatro vezes. Observe que os valores aprendidos nas camadas ocultas da primeira execução tornam-se parte da entrada para as mesmas camadas ocultas na segunda execução. Da mesma forma, os valores aprendidos na camada oculta na segunda execução tornam-se parte da entrada para a mesma camada oculta na terceira execução. Dessa forma, a rede neural recorrente treina gradualmente e prevê o significado de toda a sequência em vez de apenas o significado de palavras individuais.

Uma RNN que é executada quatro vezes para processar quatro palavras de entrada.

RNN

#seq

Abreviação de redes neurais recorrentes.

S

modelo de sequência

#seq

Um modelo cujas entradas têm uma dependência sequencial. Por exemplo, prever o próximo vídeo assistido de uma sequência de vídeos assistidos anteriormente.

T

timestep

#seq

Uma célula "descompactada" em uma rede neural recorrente. Por exemplo, a figura a seguir mostra três etapas (rotuladas com os subscritos t-1, t e t+1):

Três etapas de tempo em uma rede neural recorrente. A saída do primeiro timestep se torna entrada para o segundo timestep. A saída da segunda etapa se torna uma entrada para a terceira etapa.

trigrama

#seq
#language

Um N-gram no qual N=3.

V

problema do gradiente em desaparecimento

#seq

A tendência dos gradientes das camadas ocultas anteriores de algumas redes neurais profundas se torna surpreendentemente plana (baixa). Gradientes cada vez menores resultam em mudanças cada vez menores nos pesos dos nós de uma rede neural profunda, levando a pouco ou nenhum aprendizado. Os modelos que sofrem com o problema do gradiente em desaparecimento se tornam difíceis ou impossíveis de treinar. As células de memória de curto prazo resolvem esse problema.

Compare com o problema de gradiente em explosão.