Glosario de aprendizaje automático: Modelos de secuencia

En esta página, se incluyen los términos del glosario de Modelos de secuencia. Para ver todos los términos del glosario, haz clic aquí.

B

bigrama

#seq
#language

n-grama en el que n=2.

E

problema de gradiente con alto crecimiento

#seq

La tendencia de los gradientes en las redes neuronales profundas (en especial, en las redes neuronales recurrentes) a aumentar de manera sorprendente (alta). Los gradientes empinados suelen causar actualizaciones muy grandes en los pesos de cada nodo en una red neuronal profunda.

Los modelos que sufren el problema del aumento repentino del gradiente se vuelven difíciles o imposibles de entrenar. El recorte de gradientes puede mitigar este problema.

Compara con el problema de desvanecimiento del gradiente.

F

olvidar la puerta

#seq

Es la parte de una celda de memoria a corto plazo a largo plazo que regula el flujo de información a través de la celda. Las puertas para olvidar mantienen el contexto decidiendo qué información descartar del estado de la celda.

G

recorte de gradientes

#seq

Es un mecanismo de uso general para mitigar el problema de gradiente con crecimiento mediante la limitación artificial (recorte) del valor máximo de los gradientes cuando se usa el descenso de gradientes para entrenar un modelo.

L

Memoria a corto plazo de larga duración (LSTM)

#seq

Es un tipo de celda en una red neuronal recurrente que se usa para procesar secuencias de datos en aplicaciones como el reconocimiento de escritura a mano, la traducción automática y la escritura de leyendas de imágenes. Las LSTM solucionan el problema de desaparición del gradiente que ocurre cuando se entrenan RNN debido a secuencias de datos largas, ya que mantienen el historial en un estado de memoria interna basado en entradas y contexto nuevos de celdas anteriores en la RNN.

LSTM

#seq

Abreviatura de Memoria a corto plazo de larga duración.

N

n-grama

#seq
#language

Secuencia ordenada de n palabras. Por ejemplo, realmente loco es un 2-grama. Como el orden es relevante, loco realmente es un 2-grama diferente a realmente loco.

N Nombres para este tipo de n-grama Ejemplos
2 bigrama o 2-grama para ir, ir a, almorzar, cenar
3 trigrama o 3-grama comí demasiado, tres ratones ciegos, las campanas suenan
4 4-grama caminar en el parque, tierra con el viento, el niño comió lentejas

Muchos modelos de comprensión del lenguaje natural se basan en n-gramas para predecir la siguiente palabra que el usuario escribirá o dirá. Por ejemplo, que un usuario escribió tres tristes. Un modelo de CLN basado en trigramas probablemente predeciría que el usuario escribirá a continuación tigre.

Compara los n-gramas con la bolsa de palabras, que son conjuntos desordenados de palabras.

R

red neuronal recurrente

#seq

Red neuronal que se ejecuta intencionalmente varias veces, donde partes de cada ejecución se incorporan a la siguiente ejecución. Específicamente, las capas ocultas de la ejecución anterior proporcionan parte de la entrada a la misma capa oculta en la siguiente ejecución. Las redes neuronales recurrentes son particularmente útiles para evaluar secuencias, de modo que las capas ocultas puedan aprender de las ejecuciones anteriores de la red neuronal en las partes anteriores de la secuencia.

Por ejemplo, en la siguiente figura, se muestra una red neuronal recurrente que se ejecuta cuatro veces. Observa que los valores aprendidos en las capas ocultas desde la primera ejecución se vuelven parte de la entrada de las mismas capas ocultas en la segunda ejecución. De manera similar, los valores aprendidos en la capa oculta en la segunda ejecución se vuelven parte de la entrada de la misma capa oculta en la tercera ejecución. De esta manera, la red neuronal recurrente entrena y predice gradualmente el significado de toda la secuencia en lugar del significado de palabras individuales.

Una RNN que se ejecuta cuatro veces para procesar cuatro palabras de entrada.

RNN

#seq

Abreviatura de redes neuronales recurrentes.

S

modelo de secuencia

#seq

Modelo cuyas entradas tienen una dependencia secuencial. Por ejemplo, predecir el siguiente video que se miró a partir de una secuencia de videos vistos anteriormente.

T

paso en el tiempo

#seq

Una celda "no enrollada" dentro de una red neuronal recurrente. Por ejemplo, en la siguiente figura, se muestran tres pasos temporales (etiquetados con los subíndices t-1, t y t+1):

Tres pasos temporales en una red neuronal recurrente. El resultado del primer paso se convierte en una entrada del segundo. El resultado del segundo paso se convierte en la entrada del tercer paso.

trigrama

#seq
#language

n-grama en el que n=3.

V

problema de gradiente desaparecido

#seq

La tendencia de los gradientes de las primeras capas ocultas de algunas redes neuronales profundas a volverse sorprendentemente planas (bajas). Los gradientes cada vez más bajos generan cambios cada vez más pequeños en los pesos de los nodos de una red neuronal profunda, lo que lleva a un aprendizaje mínimo o nulo. Los modelos que sufren el problema de desvanecimiento del gradiente se vuelven difíciles o imposibles de entrenar. Las celdas de Memoria a corto plazo de larga duración solucionan este problema.

Compara con el problema de gradiente con alto crecimiento.