Esta página contém os termos do glossário de modelos de sequência. Para ver todos os termos do glossário, clique aqui.
B
Bigram
Um N-grama em que N=2.
E
problema de gradiente de explosões
A tendência dos gradientes em redes neurais profundas (especialmente as redes neurais recorrentes) se torna surpreendentemente íngreme (alta). Os gradientes íngremes geralmente causam atualizações muito grandes dos pesos de cada nó em uma rede neural profunda.
Modelos com problemas em gradiente de explosão se tornam difíceis ou impossíveis de treinar. O clipe de gradiente pode reduzir esse problema.
Compare com o problema de desaparecimento de gradiente.
F
esqueça o portão
A parte de uma célula de Memória de curto prazo de longo prazo que regula o fluxo de informações pela célula. Os portões de esquecimento mantêm o contexto decidindo quais informações devem ser descartadas do estado da célula.
G
recorte de gradiente
Um mecanismo usado com frequência para mitigar o problema de gradiente em explosão ao limitar de forma artificial (recortar) o valor máximo dos gradientes ao usar gradiente descendente para treinar um modelo
L
Memória de curto prazo (LSTM)
Um tipo de célula em uma rede neural recorrente usada para processar sequências de dados em aplicativos, como reconhecimento de escrita manual, tradução automática e legendagem de imagens. Os LSTMs resolvem o problema de desaparecimento de gradiente que ocorre ao treinar RNNs devido a longas sequências de dados ao manter o histórico em um estado de memória interna com base na nova entrada e contexto de células anteriores na RNN.
LSTM
Abreviação de Memória de curto prazo de longo prazo.
N
N-grama
Uma sequência ordenada de N palavras. Por exemplo, truly madly é um grama de 2 gramas. Como a ordem é relevante, realmente é um segundo grama diferente de realmente difícil.
N | Nomes para este tipo de N-grama | Exemplos |
---|---|---|
2 | Bigram ou 2 gramas | ir, ir, almoçar, jantar |
3 | trigrama ou 3 gramas | comeu demais, três ratos cegos, o sino dos sinos |
4 | 4 gramas | andar no parque, poeira no vento, o menino comeu lentilhas |
Muitos modelos de entendimento de linguagem natural dependem de N-gramas para prever a próxima palavra que o usuário vai digitar ou dizer. Por exemplo, suponha que um usuário digite três pontos cegos. Um modelo NLU baseado em trigramas provavelmente prevê que o usuário digitará novamente mice.
Comparar N-gramas com bag of words, que são conjuntos de palavras não ordenadas.
R
rede neural recorrente
Uma rede neural que é executada intencionalmente várias vezes, em que partes de cada uma são executadas na próxima execução. Especificamente, as camadas ocultas da execução anterior fornecem parte da entrada à mesma camada escondida na próxima execução. As redes neurais recorrentes são especialmente úteis para avaliar sequências. Assim, as camadas ocultas podem aprender com execuções anteriores da rede neural em partes anteriores da sequência.
Por exemplo, a figura a seguir mostra uma rede neural recorrente que é executada quatro vezes. Observe que os valores aprendidos nas camadas ocultas da primeira execução se tornam parte da entrada das mesmas camadas ocultas na segunda execução. Da mesma forma, os valores aprendidos na camada escondida na segunda execução se tornam parte da entrada para a mesma camada escondida na terceira execução. Dessa forma, a rede neural recorrente treina e prevê gradualmente o significado de toda a sequência, e não apenas o significado das palavras individuais.
RNN
Abreviação de redes neurais recorrentes (em inglês).
S
modelo de sequência
Um modelo cujas entradas têm uma dependência sequencial. Por exemplo, a previsão do próximo vídeo assistido de uma sequência de vídeos assistidos anteriormente.
T
cronograma
Uma célula "unrolled" dentro de uma rede neural recorrente. Por exemplo, a figura a seguir mostra três etapas (rotuladas com os subscritos t-1, t e t+1):
trigrama
Um N-grama em que N=3.
V
problema de desaparecimento de gradiente
A tendência dos gradientes das camadas ocultas anteriores de algumas redes neurais profundas se torna surpreendentemente planas (baixas). Gradientes cada vez menores resultam em mudanças cada vez menores nos pesos dos nós em uma rede neural profunda, levando a poucos ou nenhum aprendizado. Modelos com problemas de desaparecimento de gradiente se tornam difíceis ou impossíveis de treinar. As células de memória longa de curto prazo resolvem esse problema.
Compare com o exploramento de problema de gradiente.