Esta página contiene los términos del glosario de Evaluación de idiomas. Para todos los términos del glosario, haz clic aquí.
A
atención
Cualquiera de un amplio rango de mecanismos de la red neuronal para agregar información de un conjunto de entradas de manera dependiente de los datos Un mecanismo de atención típico podría consistir en una suma ponderada sobre un conjunto de entradas, en la que el peso de cada entrada se calcula por otra parte de la red neuronal.
Consulta también la autoatención y la autoatención de varios encabezados, que son los componentes básicos de Transformers.
B
bolsa de palabras
Una representación de las palabras en una frase o pasaje, sin importar el orden. Por ejemplo, una bolsa de palabras representa las tres frases siguientes de forma idéntica:
- el perro salta
- salta el perro
- un perro salta
Cada palabra se asigna a un índice en un vector disperso, en el que el vector tiene un índice para cada palabra del vocabulario. Por ejemplo, la frase el perro salta se asigna a un vector de atributos con valores distintos de cero en los tres índices correspondientes a las palabras el, perro y saltos. El valor distinto de cero puede ser cualquiera de los siguientes:
- Un 1 para indicar la presencia de una palabra
- Es la cantidad de veces que una palabra aparece en la bolsa. Por ejemplo, si la frase fuera el perro negro es un perro con pelaje negro, entonces tanto negro como perro se representarían con un 2, mientras que las demás palabras con un 1.
- Otro valor, como el logaritmo de la cantidad de veces que una palabra aparece en la bolsa.
BERT (codificador bidireccional de transformaciones de los transformadores)
Una arquitectura de modelo para la representación de texto Un modelo BERT entrenado puede actuar como parte de un modelo más grande para la clasificación de texto y otras tareas del AA.
BERT tiene las siguientes características:
- Usa la arquitectura de Transformer y, por lo tanto, depende de la autoatención.
- Usa la parte codificador del transformador. El trabajo del codificador es producir buenas representaciones de texto, en lugar de realizar una tarea específica como la clasificación.
- Es bidireccional.
- Usa el enmascaramiento para el entrenamiento no supervisado.
Las variantes de BERT incluyen:
Consulta Abrir BERT: capacitación previa de vanguardia para procesamiento de lenguaje natural a fin de obtener una descripción general de BERT.
bigrama
N-grama en el que N=2.
bidireccional
Término usado para describir un sistema que evalúa el texto que se antecede y sigue una sección de texto de destino. Por el contrario, un sistema unidireccional solo evalúa el texto que precede una sección de texto de destino.
Por ejemplo, considera un modelo de lenguaje enmascarado que debe determinar las probabilidades de la palabra o las palabras que representan el subrayado en la siguiente pregunta:
¿Qué es _____ contigo?
Un modelo unidireccional tendría que basarse en sus probabilidades solo en el contexto proporcionado por las palabras "Qué", "es" y "el". Por el contrario, un modelo de lenguaje bidireccional también podría obtener contexto de “con” y “tú”, lo que podría ayudar al modelo a generar mejores predicciones.
modelo de lenguaje bidireccional
Modelo de lenguaje que determina la probabilidad de que un token determinado esté presente en una ubicación determinada en un extracto de texto en función del texto anterior y siguiente
BLEU (Estudio de evaluación bilingüe)
Una puntuación entre 0.0 y 1.0, inclusive, que indica la calidad de una traducción entre dos idiomas humanos (por ejemplo, entre inglés y ruso). Una puntuación BLEU de 1.0 indica una traducción perfecta; una puntuación BLEU de 0.0 indica una traducción terrible.
C
modelo de lenguaje causal
Sinónimo de modelo de idioma unidireccional.
Consulta el modelo de lenguaje bidireccional para contrastar los diferentes enfoques direccionales en el modelado de lenguaje.
flor florecer
Oración o frase con un significado ambiguo. Las fallas de flores representan un problema importante para la comprensión del lenguaje natural. Por ejemplo, el titular La cinta roja que sostiene un rascacielos es una flor floreciente porque un modelo CLN podría interpretar el titular en sentido literal o figurado.
D
decodificador
En general, cualquier sistema de AA que convierte una representación procesada, densa o interna en una representación más sin procesar, dispersa o externa.
Los decodificadores suelen ser un componente de un modelo más grande, en el que con frecuencia se sincronizan con un codificador.
En las tareas de secuencia a secuencia, un decodificador comienza con el estado interno que genera el codificador para predecir la siguiente secuencia.
Consulta Transformer para ver la definición de un decodificador dentro de la arquitectura de Transformer.
ruidoso
Un enfoque común para el aprendizaje autosuperado, en el que:
La anulación de ruido permite aprender de ejemplos sin etiqueta. El conjunto de datos original funciona como objetivo o etiqueta y los datos inconsistentes como entrada.
Algunos modelos de lenguaje enmascarado usan ruido de la siguiente manera:
- El ruido se agrega artificialmente a una oración sin etiquetar mediante el enmascaramiento de algunos tokens.
- El modelo intenta predecir los tokens originales.
E
capa de incorporación
Una capa oculta especial que se entrena con un atributo categórico de alta dimensión para aprender de forma gradual un vector de incorporación de menor dimensión. Una capa de incorporación permite que una red neuronal entrene con mucha más eficacia que el entrenamiento solo en el atributo categórico de dimensiones altas.
Por ejemplo, la Tierra actualmente admite unas 73,000 especies de árboles. Supongamos que las especies de árboles son un atributo en el modelo, por lo que la capa de entrada del modelo incluye un vector one-hot de 73,000 elementos.
Por ejemplo, tal vez baobab
se represente de la siguiente manera:
Un arreglo de 73,000 elementos es muy largo. Si no agregas una capa de incorporación al modelo, el entrenamiento llevará mucho tiempo debido a la multiplicación de 72,999 ceros. Quizás elijas la capa de incorporación de 12 dimensiones. En consecuencia, la capa de incorporación aprenderá gradualmente un nuevo vector de incorporación para cada especie de árbol.
En ciertas situaciones, el hashing es una alternativa razonable a una capa de incorporación.
espacio de incorporaciones
Espacio de vector de d dimensiones al que se mapean atributos de un espacio de vector de mayor dimensión. Idealmente, el espacio de incorporaciones contiene una estructura que produce resultados matemáticos significativos; por ejemplo, en un espacio de incorporaciones ideal, la adición y resta de incorporaciones puede resolver tareas de analogía de palabras.
El producto escalar de dos incorporaciones es una medida de su similitud.
vector de incorporación
En términos generales, una matriz de números de punto flotante tomados de cualquier capa oculta que describe las entradas a esa capa oculta. A menudo, un vector de incorporación es el arreglo de números de punto flotante entrenados en una capa de incorporación. Por ejemplo, supongamos que una capa de incorporación debe aprender un vector de incorporación para cada una de las 73,000 especies de árboles en la Tierra. Quizás el siguiente arreglo es el vector de incorporación para un árbol baobab:
Un vector de incorporación no es un conjunto de números al azar. Una capa de incorporación determina estos valores a través del entrenamiento, de manera similar a la forma en que una red neuronal aprende otras ponderaciones durante el entrenamiento. Cada elemento del arreglo es una calificación a lo largo de alguna característica de la especie de árbol. ¿Qué elemento representa qué especie de árbol? Es muy difícil de determinar para los humanos.
La parte notablemente matemática de un vector de incorporación es que los elementos similares tienen conjuntos de números de punto flotante similares. Por ejemplo, las especies arbóreas similares tienen un conjunto más similar de números de punto flotante que las especies arbóreas diferentes. Las secuoyas y secuoyas están relacionadas con las especies de árboles, por lo que tendrán un conjunto más similar de números de punta flotante que las secuoyas y las palmeras de coco. Los números en el vector de incorporación cambiarán cada vez que vuelvas a entrenar el modelo, incluso si vuelves a entrenar el modelo con una entrada idéntica.
codificador
En general, cualquier sistema de AA que se convierte de una representación sin procesar, dispersa o externa a una representación más procesada, densa o más interna.
Los codificadores suelen ser un componente de un modelo más grande, en el que con frecuencia se sincronizan con un decodificador. Algunos Transformers emparejan codificadores con decodificadores, aunque otros solo usan el codificador o el decodificador.
Algunos sistemas usan el resultado del codificador como entrada para una red de clasificación o regresión.
En las tareas de secuencia a secuencia, un codificador toma una secuencia de entrada y muestra un estado interno (un vector). Luego, el decodificador usa ese estado interno para predecir la siguiente secuencia.
Consulta Transformer para ver la definición de un codificador en la arquitectura de Transformer.
G
GPT (transformador generativo previamente entrenado)
Una familia de modelos de lenguaje grande basados en Transformers desarrolladas por OpenAI.
Las variantes de GPT se pueden aplicar a varias modalidades, incluidas las siguientes:
- Generación de imágenes (por ejemplo, ImageGPT)
- Generación de texto a imagen (por ejemplo, DALL-E).
L
LaMDA (modelo de lenguaje para aplicaciones de diálogo)
Un modelo de lenguaje grande basado en Transformers desarrollado por Google entrenado en un gran conjunto de datos de diálogo que puede generar respuestas conversacionales realistas.
LaMDA: nuestra innovadora tecnología para conversaciones ofrece una descripción general.
modelo de lenguaje
Modelo que estima la probabilidad de que un token o una secuencia de tokens ocurran en una secuencia más larga.
modelo de lenguaje grande
Término informal sin una definición estricta que, por lo general, hace referencia a un modelo de lenguaje que tiene una gran cantidad de parámetros. Algunos modelos de lenguaje grandes contienen más de 100,000 millones de parámetros.
M
modelo de lenguaje enmascarado
Modelo de lenguaje que predice la probabilidad de que los tokens candidatos completen espacios en blanco en una secuencia. Por ejemplo, un modelo de lenguaje enmascarado puede calcular probabilidades de palabras candidatas para reemplazar el subrayado en la siguiente oración:
El ____ en el sombrero regresó.
Por lo general, la literatura usa la string "MASK" (MASK) en lugar de un subrayado. Por ejemplo:
La "MASK" (máscara) en el sombrero volvió.
Los modelos de lenguaje enmascarados más modernos son bidireccionales.
metaaprendizaje
Subconjunto de aprendizaje automático que descubre o mejora un algoritmo de aprendizaje. Un sistema de metaaprendizaje también puede intentar entrenar un modelo para aprender rápidamente una nueva tarea a partir de una pequeña cantidad de datos o de la experiencia obtenida en tareas anteriores. Por lo general, los algoritmos de aprendizaje automático intentan lograr lo siguiente:
- Mejora o aprende funciones de ingeniería manual (como un inicializador o un optimizador).
- Sé más eficiente en cuanto a datos y procesamiento.
- Mejorar la generalización
El metaaprendizaje está relacionado con pocos aprendizaje por aprendizaje.
modality
Una categoría de datos de alto nivel Por ejemplo, los números, el texto, las imágenes, el video y el audio son cinco modalidades diferentes.
paralelismo de modelos
Una forma de escalar el entrenamiento o la inferencia que coloca diferentes partes de un modelo en diferentes dispositivos. El paralelismo de modelos permite que los modelos sean demasiado grandes para caber en un solo dispositivo.
Consulta también el paralelismo de datos.
atención automática en varias cabezas
Extensión de autoatención que aplica el mecanismo de autoatención varias veces para cada posición en la secuencia de entrada.
Transformers introdujo la autoatención de varios encabezados.
modelo multimodal
Modelo cuyas entradas o salidas incluyen más de una modalidad. Por ejemplo, considera un modelo que toma una imagen y una leyenda de texto (dos modalidades) como atributos y genera una puntuación que indica qué tan apropiado es la leyenda de texto para la imagen. Por lo tanto, las entradas de este modelo son multimodales y la salida es unimodal.
N
comprensión del lenguaje natural
Determinar las intenciones de un usuario en función de lo que el usuario escribió o dijo. Por ejemplo, un motor de búsqueda usa la comprensión del lenguaje natural para determinar qué busca el usuario en función de lo que escribió o dijo.
N-grama
Secuencia ordenada de N palabras. Por ejemplo, realmente loco es un 2-grama. Debido a que el orden es relevante, loco realmente es un 2-grama diferente a realmente loco.
N | Nombres para este tipo de n-grama | Ejemplos |
---|---|---|
2 | bigrama o 2-grama | para ir, ir a comer, almorzar o cenar |
3 | trigrama o 3-grama | comí demasiado, tres ratones ciegos, los peajes |
4 | 4-grama | caminar en el parque, polvo en el viento, el niño comió lentejas |
Muchos modelos de comprensión del lenguaje natural se basan en n.-gramas para predecir la siguiente palabra que el usuario escribirá o dirá. Por ejemplo, supongamos que un usuario escribió tres tristes. Un modelo CLN basado en trigramas probablemente predeciría que el usuario escribirá a continuación mouse.
Compara los n-gramas con la bolsa de palabras, que son conjuntos de palabras sin orden.
CLN
Abreviatura de comprensión del lenguaje natural.
P
canalización
Una forma de paralelismo de modelos en la que el procesamiento de un modelo se divide en etapas consecutivas y cada etapa se ejecuta en un dispositivo diferente. Mientras una etapa procesa un lote, la etapa anterior puede funcionar en el siguiente.
Consulta también la capacitación por etapas.
S
autoatención (también llamada capa de autoatención)
Una capa de red neuronal que transforma una secuencia de incorporaciones (por ejemplo, incorporaciones token) en otra secuencia. Cada incorporación en la secuencia de salida se construye mediante la integración de la información de los elementos de la secuencia de entrada a través de un mecanismo de atención.
La parte self de la autoatención se refiere a la secuencia que se atiende a sí misma en lugar de a otro contexto. La atención automática es uno de los componentes principales de Transformers y usa terminología de búsqueda en el diccionario, como “consulta”, “clave” y “valor”.
Una capa de autoatención comienza con una secuencia de representaciones de entrada, una para cada palabra. La representación de entrada para una palabra puede ser una incorporación simple. Para cada palabra en una secuencia de entrada, la red asigna la relevancia de la palabra a cada elemento en toda la secuencia de palabras. Las puntuaciones de relevancia determinan cuánto la representación final de la palabra incorpora las representaciones de otras palabras.
Por ejemplo, considera la siguiente oración:
El animal no cruzó la calle porque estaba muy cansado.
En la siguiente ilustración (de Transformer: Una nueva arquitectura de red neuronal para comprender el lenguaje), se muestra un patrón de atención de la capa de autoatención para el pronombre it, con la oscuridad de cada línea que indica cuánto contribuye cada palabra a la representación:
La capa de autoatención destaca las palabras que son relevantes para la palabra "&". En este caso, la capa de atención aprendió a destacar las palabras a las que podría referirse, asignando el peso más alto a animal.
Para una secuencia de n tokens, la atención automática transforma una secuencia de incorporaciones n veces por separado, una vez en cada posición de la secuencia.
Consulta también la atención y la atención automática a varias cabezas.
Análisis de opiniones
Usar algoritmos estadísticos o de aprendizaje automático para determinar la actitud general de un grupo (positiva o negativa) hacia un servicio, producto, organización o tema. Por ejemplo, mediante el entendimiento del lenguaje natural, un algoritmo podría realizar un análisis de opiniones en los comentarios textuales de un curso universitario para determinar en qué grado les gustó o disgustó el curso a los alumnos en general.
tarea de secuencia a secuencia
Una tarea que convierte una secuencia de entrada de tokens en una secuencia de salida de tokens. Por ejemplo, estos son dos tipos populares de tareas de secuencia a secuencia:
- Traductores:
- Secuencia de entrada de muestra: "Te amo".
- Secuencia de salida de muestra: &jet t'aime"
- Respuestas a preguntas:
- Ejemplo de secuencia de entrada: "¿Necesito mi automóvil en la ciudad de Nueva York?"
- Ejemplo de secuencia de salida: &No; mantén el auto en casa"
atributo disperso
feature cuyos valores son predominantemente cero o están vacíos. Por ejemplo, un atributo que contiene un solo valor de 1 y un millón de valores de 0 es disperso. Por el contrario, un atributo denso tiene valores que no son cero o están vacíos.
En el aprendizaje automático, una cantidad sorprendente de atributos son dispersos. Los atributos categóricos suelen ser escasos. Por ejemplo, de las 300 especies de árboles posibles en un bosque, un solo ejemplo podría identificar solo un árbol de arce. O bien, entre los millones de posibles videos en una biblioteca de videos, un solo ejemplo podría identificar solamente "Casablanca".
Por lo general, en un modelo, se representan atributos dispersos con codificación one-hot. Si la codificación one-hot es grande, puedes colocar una capa de incorporación sobre la codificación one-hot para lograr una mayor eficiencia.
representación dispersa
Almacenar solo las posiciones de elementos distintos de cero en un atributo disperso.
Por ejemplo, supongamos que un atributo categórico llamado species
identifica las 36 especies de árbol en un bosque en particular. Además, supone que cada ejemplo identifica solo una especie.
Podrías usar un vector de un solo 1 para representar las especies arbóreas en cada ejemplo.
Un vector one-hot contendría un solo 1
(para representar la especie de árbol en particular en ese ejemplo) y 35 0
(para representar las 35 especies de árboles no en ese ejemplo). Por lo tanto, la representación one-hot de maple
podría verse de la siguiente manera:
De manera alternativa, la representación dispersa simplemente identifica la posición de una especie en particular. Si maple
está en la posición 24, la representación dispersa de maple
sería simplemente:
24
Ten en cuenta que la representación dispersa es mucho más compacta que la representación one-hot.
entrenamiento en etapas
Táctica para entrenar un modelo en una secuencia de etapas discretas El objetivo puede ser acelerar el proceso de entrenamiento o lograr una mejor calidad del modelo.
A continuación, se muestra una ilustración del enfoque de apilamiento progresivo:
- La etapa 1 contiene 3 capas ocultas, la etapa 2 contiene 6 capas ocultas y la etapa 3 contiene 12 capas ocultas.
- La etapa 2 comienza el entrenamiento con los pesos aprendidos en las 3 capas ocultas de la etapa 1. La etapa 3 comienza el entrenamiento con los pesos aprendidos en las 6 capas ocultas de la etapa 2.
Consulta también la canalización.
T
token
En un modelo de lenguaje, la unidad atómica en la que se entrena el modelo y sobre la que se hacen predicciones. Por lo general, un token es uno de los siguientes:
- una palabra, por ejemplo, la frase "perros como gatos" consta de tres tokens de palabras: "perros" y "me gusta", y "gatos".
- un carácter, por ejemplo, la frase "pescado para bicicletas" consta de nueve tokens de caracteres. (Ten en cuenta que el espacio en blanco cuenta como uno de los tokens).
- subpalabras, en las que una sola palabra puede ser uno o varios tokens. Una subpalabra consiste en una palabra raíz, un prefijo o un sufijo. Por ejemplo, un modelo de lenguaje que usa subpalabras como tokens puede ver la palabra “perros” como dos tokens (la palabra raíz “perro”) y el sufijo plural “&s”. Ese mismo modelo de idioma podría ver la palabra única "altar" como dos subpalabras (la palabra raíz "alto" y el sufijo "er").
En dominios fuera de los modelos de lenguaje, los tokens pueden representar otros tipos de unidades atómicas. Por ejemplo, en visión artificial, un token puede ser un subconjunto de una imagen.
Transformador
Arquitectura de red neuronal desarrollada en Google que se basa en mecanismos de autoatención para transformar una secuencia de incorporaciones de entrada en una secuencia de incorporaciones de salida sin depender de convoluciones o redes neuronales recurrentes. Un Transformer se puede ver como una pila de capas de autoservicio.
Un Transformer puede incluir cualquiera de los siguientes elementos:
- un codificador
- un decodificador
- un codificador y un decodificador
Un codificador transforma una secuencia de incorporaciones en una nueva secuencia de la misma longitud. Un codificador incluye N capas idénticas, cada una de las cuales contiene dos subcapas. Estas dos subcapas se aplican en cada posición de la secuencia de incorporación de entrada y transforman cada elemento de la secuencia en una incorporación nueva. La primera subcapa del codificador agrega información de toda la secuencia de entrada. La segunda subcapa del codificador transforma la información agregada en una incorporación de salida.
Un decodificador transforma una secuencia de incorporaciones de entrada en una secuencia de incorporaciones de salida, posiblemente con una longitud diferente. Un decodificador también incluye N capas idénticas con tres subcapas, dos de las cuales son similares a las subcapas del codificador. La tercera subcapa del decodificador toma la salida del codificador y aplica el mecanismo de autoatención para recopilar información de ella.
La entrada de blog Transformer: A Novel Neural Network Architecture for Language Understanding (Transformación: Una nueva arquitectura de red neuronal para comprender el lenguaje) proporciona una buena introducción a Transformers.
trigrama
N-grama en el que N=3.
U
unidireccional
Un sistema que solo evalúa el texto que se antecede a una sección de texto de destino. Por el contrario, un sistema bidireccional evalúa tanto el texto que precede como sigue una sección de texto de destino. Consulta bidireccional para obtener más detalles.
modelo de lenguaje unidireccional
Un modelo de lenguaje que basa sus probabilidades solo en los tokens que aparecen antes, no después de los tokens de destino. Compara esto con el modelo de lenguaje bidireccional.
W
incorporación de palabras
Representa cada palabra de un conjunto de palabras dentro de un vector de incorporación, es decir, representa cada palabra como un vector de valores de punto flotante entre 0.0 y 1.0. Las palabras con significados similares tienen representaciones más similares que las palabras con significados diferentes. Por ejemplo, zanahorias, apio y pepinos tendrían representaciones relativamente similares, que serían muy diferentes de las representaciones de aeronaves, gafas de sol y pasta de dientes.