Glosario sobre aprendizaje automático: Evaluación de idiomas

Organiza tus páginas con colecciones Guarda y categoriza el contenido según tus preferencias.

Esta página contiene los términos del glosario de Evaluación de idiomas. Para todos los términos del glosario, haz clic aquí.

A

atención

#language

Cualquiera de un amplio rango de mecanismos de la red neuronal para agregar información de un conjunto de entradas de manera dependiente de los datos Un mecanismo de atención típico podría consistir en una suma ponderada sobre un conjunto de entradas, en la que el peso de cada entrada se calcula por otra parte de la red neuronal.

Consulta también la autoatención y la autoatención de varios encabezados, que son los componentes básicos de Transformers.

B

bolsa de palabras

#language

Una representación de las palabras en una frase o pasaje, sin importar el orden. Por ejemplo, una bolsa de palabras representa las tres frases siguientes de forma idéntica:

  • el perro salta
  • salta el perro
  • un perro salta

Cada palabra se asigna a un índice en un vector disperso, en el que el vector tiene un índice para cada palabra del vocabulario. Por ejemplo, la frase el perro salta se asigna a un vector de atributos con valores distintos de cero en los tres índices correspondientes a las palabras el, perro y saltos. El valor distinto de cero puede ser cualquiera de los siguientes:

  • Un 1 para indicar la presencia de una palabra
  • Es la cantidad de veces que una palabra aparece en la bolsa. Por ejemplo, si la frase fuera el perro negro es un perro con pelaje negro, entonces tanto negro como perro se representarían con un 2, mientras que las demás palabras con un 1.
  • Otro valor, como el logaritmo de la cantidad de veces que una palabra aparece en la bolsa.

BERT (codificador bidireccional de transformaciones de los transformadores)

#language

Una arquitectura de modelo para la representación de texto Un modelo BERT entrenado puede actuar como parte de un modelo más grande para la clasificación de texto y otras tareas del AA.

BERT tiene las siguientes características:

Las variantes de BERT incluyen:

Consulta Abrir BERT: capacitación previa de vanguardia para procesamiento de lenguaje natural a fin de obtener una descripción general de BERT.

bigrama

#seq
#language

N-grama en el que N=2.

bidireccional

#language

Término usado para describir un sistema que evalúa el texto que se antecede y sigue una sección de texto de destino. Por el contrario, un sistema unidireccional solo evalúa el texto que precede una sección de texto de destino.

Por ejemplo, considera un modelo de lenguaje enmascarado que debe determinar las probabilidades de las palabras que representan el subrayado en la siguiente pregunta:

¿Qué es _____ contigo?

Un modelo unidireccional tendría que basarse en sus probabilidades solo en el contexto proporcionado por las palabras "Qué", "es" y "el". Por el contrario, un modelo de lenguaje bidireccional también podría obtener contexto de “con” y “tú”, lo que podría ayudar al modelo a generar mejores predicciones.

modelo de lenguaje bidireccional

#language

Modelo de lenguaje que determina la probabilidad de que un token determinado esté presente en una ubicación determinada en un extracto de texto en función del texto anterior y siguiente

BLEU (Estudio de evaluación bilingüe)

#language

Una puntuación entre 0.0 y 1.0, inclusive, que indica la calidad de una traducción entre dos idiomas humanos (por ejemplo, entre inglés y ruso). Una puntuación BLEU de 1.0 indica una traducción perfecta; una puntuación BLEU de 0.0 indica una traducción terrible.

C

modelo de lenguaje causal

#language

Sinónimo de modelo de idioma unidireccional.

Consulta el modelo de lenguaje bidireccional para contrastar los diferentes enfoques direccionales en el modelado de lenguaje.

flor florecer

#language

Oración o frase con un significado ambiguo. Las fallas de flores representan un problema importante para la comprensión del lenguaje natural. Por ejemplo, el titular La cinta roja que sostiene un rascacielos es una flor floreciente porque un modelo CLN podría interpretar el titular en sentido literal o figurado.

D

decodificador

#language

En general, cualquier sistema de AA que convierte una representación procesada, densa o interna en una representación más sin procesar, dispersa o externa.

Los decodificadores suelen ser un componente de un modelo más grande, en el que con frecuencia se sincronizan con un codificador.

En las tareas de secuencia a secuencia, un decodificador comienza con el estado interno que genera el codificador para predecir la siguiente secuencia.

Consulta Transformer para ver la definición de un decodificador dentro de la arquitectura de Transformer.

ruidoso

#language

Un enfoque común para el aprendizaje autosuperado, en el que:

  1. Ruido se agrega de forma artificial al conjunto de datos.
  2. El modelo intenta eliminar el ruido.

La anulación de ruido permite aprender de ejemplos sin etiqueta. El conjunto de datos original funciona como objetivo o etiqueta y los datos inconsistentes como entrada.

Algunos modelos de lenguaje enmascarado usan ruido de la siguiente manera:

  1. El ruido se agrega artificialmente a una oración sin etiquetar mediante el enmascaramiento de algunos tokens.
  2. El modelo intenta predecir los tokens originales.

E

incorporaciones

#language

Atributo categórico representado como un atributo de valor continuo. Por lo general, una incorporación es la traducción de un vector de alta dimensión en un espacio de baja dimensión. Por ejemplo, puedes representar las palabras en una oración en inglés de cualquiera de estas dos maneras:

  • Como un vector disperso con un millón de elementos (dimensiones altas) en el que todos los elementos son números enteros. Cada celda del vector representa una palabra en inglés diferente; el valor en una celda representa la cantidad de veces que esa palabra aparece en una oración. Debido a que es poco probable que una sola oración en inglés contenga más de 50 palabras, casi todas las celdas del vector contendrán un 0. Las pocas celdas que no son 0 contendrán un número entero bajo (generalmente 1), que representa la cantidad de veces que esa palabra apareció en la oración.
  • Como un vector denso de varios cientos de elementos (dimensiones bajas) en el que cada elemento tiene un valor de punto flotante entre 0 y 1. Esta es una incorporación.

En TensorFlow, las incorporaciones se entrenan mediante una propagación inversa de pérdida como cualquier otro parámetro en una red neuronal.

espacio de incorporaciones

#language

Espacio de vector de d dimensiones al que se mapean atributos de un espacio de vector de mayor dimensión. Idealmente, el espacio de incorporaciones contiene una estructura que produce resultados matemáticos significativos; por ejemplo, en un espacio de incorporaciones ideal, la adición y resta de incorporaciones puede resolver tareas de analogía de palabras.

El producto escalar de dos incorporaciones es una medida de su similitud.

codificador

#language

En general, cualquier sistema de AA que se convierte de una representación sin procesar, dispersa o externa a una representación más procesada, densa o más interna.

Los codificadores suelen ser un componente de un modelo más grande, en el que con frecuencia se sincronizan con un decodificador. Algunos Transformers emparejan codificadores con decodificadores, aunque otros solo usan el codificador o el decodificador.

Algunos sistemas usan el resultado del codificador como entrada para una red de clasificación o regresión.

En las tareas de secuencia a secuencia, un codificador toma una secuencia de entrada y muestra un estado interno (un vector). Luego, el decodificador usa ese estado interno para predecir la siguiente secuencia.

Consulta Transformer para ver la definición de un codificador en la arquitectura de Transformer.

G

GPT (transformador generativo previamente entrenado)

#language

Una familia de modelos de lenguaje grande basados en Transformers desarrolladas por OpenAI.

Las variantes de GPT se pueden aplicar a varias modalidades, incluidas las siguientes:

  • Generación de imágenes (por ejemplo, ImageGPT)
  • Generación de texto a imagen (por ejemplo, DALL-E).

L

LaMDA (modelo de lenguaje para aplicaciones de diálogo)

#language

Un modelo de lenguaje grande basado en Transformers desarrollado por Google entrenado en un gran conjunto de datos de diálogo que puede generar respuestas conversacionales realistas.

LaMDA: nuestra innovadora tecnología para conversaciones ofrece una descripción general.

modelo de lenguaje

#language

Modelo que estima la probabilidad de que un token o una secuencia de tokens ocurran en una secuencia más larga.

modelo de lenguaje grande

#language

Término informal sin una definición estricta que, por lo general, hace referencia a un modelo de lenguaje que tiene una gran cantidad de parámetros. Algunos modelos de lenguaje grandes contienen más de 100,000 millones de parámetros.

M

modelo de lenguaje enmascarado

#language

Modelo de lenguaje que predice la probabilidad de que los tokens candidatos completen espacios en blanco en una secuencia. Por ejemplo, un modelo de lenguaje enmascarado puede calcular probabilidades de palabras candidatas para reemplazar el subrayado en la siguiente oración:

El ____ en el sombrero regresó.

Por lo general, la literatura usa la string "MASK" (MASK) en lugar de un subrayado. Por ejemplo:

La "MASK" (máscara) en el sombrero volvió.

Los modelos de lenguaje enmascarados más modernos son bidireccionales.

metaaprendizaje

#language

Subconjunto de aprendizaje automático que descubre o mejora un algoritmo de aprendizaje. Un sistema de metaaprendizaje también puede intentar entrenar un modelo para aprender rápidamente una nueva tarea a partir de una pequeña cantidad de datos o de la experiencia obtenida en tareas anteriores. Por lo general, los algoritmos de aprendizaje automático intentan lograr lo siguiente:

  • Mejora o aprende funciones de ingeniería manual (como un inicializador o un optimizador).
  • Sé más eficiente en cuanto a datos y procesamiento.
  • Mejorar la generalización

El metaaprendizaje está relacionado con pocos aprendizaje por aprendizaje.

modality

#language

Una categoría de datos de alto nivel Por ejemplo, los números, el texto, las imágenes, el video y el audio son cinco modalidades diferentes.

paralelismo de modelos

#language

Una forma de escalar el entrenamiento o la inferencia que coloca diferentes partes de un modelo en diferentes dispositivos. El paralelismo de modelos permite que los modelos sean demasiado grandes para caber en un solo dispositivo.

Consulta también el paralelismo de datos.

atención automática en varias cabezas

#language

Extensión de autoatención que aplica el mecanismo de autoatención varias veces para cada posición en la secuencia de entrada.

Transformers introdujo la autoatención de varios encabezados.

modelo multimodal

#language

Modelo cuyas entradas o salidas incluyen más de una modalidad. Por ejemplo, considera un modelo que toma una imagen y una leyenda de texto (dos modalidades) como atributos y genera una puntuación que indica qué tan apropiado es la leyenda de texto para la imagen. Por lo tanto, las entradas de este modelo son multimodales y la salida es unimodal.

N

comprensión del lenguaje natural

#language

Determinar las intenciones de un usuario en función de lo que el usuario escribió o dijo. Por ejemplo, un motor de búsqueda usa la comprensión del lenguaje natural para determinar qué busca el usuario en función de lo que escribió o dijo.

N-grama

#seq
#language

Secuencia ordenada de N palabras. Por ejemplo, realmente loco es un 2-grama. Debido a que el orden es relevante, loco realmente es un 2-grama diferente a realmente loco.

N Nombres para este tipo de n-grama Ejemplos
2 bigrama o 2-grama para ir, ir a comer, almorzar o cenar
3 trigrama o 3-grama comí demasiado, tres ratones ciegos, los peajes
4 4-grama caminar en el parque, polvo en el viento, el niño comió lentejas

Muchos modelos de comprensión del lenguaje natural se basan en n.-gramas para predecir la siguiente palabra que el usuario escribirá o dirá. Por ejemplo, supongamos que un usuario escribió tres tristes. Un modelo CLN basado en trigramas probablemente predeciría que el usuario escribirá a continuación mouse.

Compara los n-gramas con la bolsa de palabras, que son conjuntos de palabras sin orden.

CLN

#language

Abreviatura de comprensión del lenguaje natural.

P

canalización

#language

Una forma de paralelismo de modelos en la que el procesamiento de un modelo se divide en etapas consecutivas y cada etapa se ejecuta en un dispositivo diferente. Mientras una etapa procesa un lote, la etapa anterior puede funcionar en el siguiente.

Consulta también la capacitación por etapas.

S

autoatención (también llamada capa de autoatención)

#language

Una capa de red neuronal que transforma una secuencia de incorporaciones (por ejemplo, incorporaciones token) en otra secuencia de incorporaciones. Cada incorporación en la secuencia de salida se construye mediante la integración de la información de los elementos de la secuencia de entrada a través de un mecanismo de atención.

La parte self de la autoatención se refiere a la secuencia que se atiende a sí misma en lugar de a otro contexto. La atención automática es uno de los componentes principales de Transformers y usa terminología de búsqueda en el diccionario, como “consulta”, “clave” y “valor”.

Una capa de autoatención comienza con una secuencia de representaciones de entrada, una para cada palabra. La representación de entrada para una palabra puede ser una incorporación simple. Para cada palabra en una secuencia de entrada, la red asigna la relevancia de la palabra a cada elemento en toda la secuencia de palabras. Las puntuaciones de relevancia determinan cuánto la representación final de la palabra incorpora las representaciones de otras palabras.

Por ejemplo, considera la siguiente oración:

El animal no cruzó la calle porque estaba muy cansado.

En la siguiente ilustración (de Transformer: Una nueva arquitectura de red neuronal para comprender el lenguaje), se muestra un patrón de atención de la capa de autoatención para el pronombre it, con la oscuridad de cada línea que indica cuánto contribuye cada palabra a la representación:

La siguiente oración aparece dos veces: "El animal" no cruzó la calle porque estaba demasiado cansado.  Las líneas conectan la palabra en una oración con cinco tokens (la calle, la calle, &el3, y el punto) en la otra oración.  La línea entre "animal" y "animal" es la más fuerte.

La capa de autoatención destaca las palabras que son relevantes para la palabra "&". En este caso, la capa de atención aprendió a destacar las palabras a las que podría referirse, asignando el peso más alto a animal.

Para una secuencia de n tokens, la atención automática transforma una secuencia de incorporaciones n veces por separado, una vez en cada posición de la secuencia.

Consulta también la atención y la atención automática a varias cabezas.

Análisis de opiniones

#language

Usar algoritmos estadísticos o de aprendizaje automático para determinar la actitud general de un grupo (positiva o negativa) hacia un servicio, producto, organización o tema. Por ejemplo, mediante el entendimiento del lenguaje natural, un algoritmo podría realizar un análisis de opiniones en los comentarios textuales de un curso universitario para determinar en qué grado les gustó o disgustó el curso a los alumnos en general.

tarea de secuencia a secuencia

#language

Una tarea que convierte una secuencia de entrada de tokens en una secuencia de salida de tokens. Por ejemplo, estos son dos tipos populares de tareas de secuencia a secuencia:

  • Traductores:
    • Secuencia de entrada de muestra: "Te amo".
    • Secuencia de salida de muestra: &jet t'aime"
  • Respuestas a preguntas:
    • Ejemplo de secuencia de entrada: "¿Necesito mi automóvil en la ciudad de Nueva York?"
    • Ejemplo de secuencia de salida: &No; mantén el auto en casa"

entrenamiento en etapas

#language

Táctica para entrenar un modelo en una secuencia de etapas discretas El objetivo puede ser acelerar el proceso de entrenamiento o lograr una mejor calidad del modelo.

A continuación, se muestra una ilustración del enfoque de apilamiento progresivo:

  • La etapa 1 contiene 3 capas ocultas, la etapa 2 contiene 6 capas ocultas y la etapa 3 contiene 12 capas ocultas.
  • La etapa 2 comienza el entrenamiento con los pesos aprendidos en las 3 capas ocultas de la etapa 1. La etapa 3 comienza el entrenamiento con los pesos aprendidos en las 6 capas ocultas de la etapa 2.

Tres etapas, etiquetadas como "Etapa 1", "Etapa 2" y "Etapa 3".
          Cada etapa contiene un número diferente de capas: la etapa 1 contiene 3 capas, la etapa 2 contiene 6 capas y la etapa 3 contiene 12 capas.
          Las 3 capas de la etapa 1 se convierten en las primeras 3 capas de la etapa 2.
          Del mismo modo, las 6 capas de la etapa 2 se convierten en las primeras 6 capas de la etapa 3.

Consulta también la canalización.

T

token

#language

En un modelo de lenguaje, la unidad atómica en la que se entrena el modelo y sobre la que se hacen predicciones. Por lo general, un token es uno de los siguientes:

  • una palabra, por ejemplo, la frase "perros como gatos" consta de tres tokens de palabras: "perros" y "me gusta", y "gatos".
  • un carácter, por ejemplo, la frase "pescado para bicicletas" consta de nueve tokens de caracteres. (Ten en cuenta que el espacio en blanco cuenta como uno de los tokens).
  • subpalabras, en las que una sola palabra puede ser uno o varios tokens. Una subpalabra consiste en una palabra raíz, un prefijo o un sufijo. Por ejemplo, un modelo de lenguaje que usa subpalabras como tokens puede ver la palabra “perros” como dos tokens (la palabra raíz “perro”) y el sufijo plural “&s”. Ese mismo modelo de idioma podría ver la palabra única "altar" como dos subpalabras (la palabra raíz "alto" y el sufijo "er").

En dominios fuera de los modelos de lenguaje, los tokens pueden representar otros tipos de unidades atómicas. Por ejemplo, en visión artificial, un token puede ser un subconjunto de una imagen.

Transformador

#language

Arquitectura de red neuronal desarrollada en Google que se basa en mecanismos de autoatención para transformar una secuencia de incorporaciones de entrada en una secuencia de incorporaciones de salida sin depender de convoluciones o redes neuronales recurrentes. Un Transformer se puede ver como una pila de capas de autoservicio.

Un Transformer puede incluir cualquiera de los siguientes elementos:

Un codificador transforma una secuencia de incorporaciones en una nueva secuencia de la misma longitud. Un codificador incluye N capas idénticas, cada una de las cuales contiene dos subcapas. Estas dos subcapas se aplican en cada posición de la secuencia de incorporación de entrada y transforman cada elemento de la secuencia en una incorporación nueva. La primera subcapa del codificador agrega información de toda la secuencia de entrada. La segunda subcapa del codificador transforma la información agregada en una incorporación de salida.

Un decodificador transforma una secuencia de incorporaciones de entrada en una secuencia de incorporaciones de salida, posiblemente con una longitud diferente. Un decodificador también incluye N capas idénticas con tres subcapas, dos de las cuales son similares a las subcapas del codificador. La tercera subcapa del decodificador toma la salida del codificador y aplica el mecanismo de autoatención para recopilar información de ella.

La entrada de blog Transformer: A Novel Neural Network Architecture for Language Understanding (Transformación: Una nueva arquitectura de red neuronal para comprender el lenguaje) proporciona una buena introducción a Transformers.

trigrama

#seq
#language

N-grama en el que N=3.

U

unidireccional

#language

Un sistema que solo evalúa el texto que se antecede a una sección de texto de destino. Por el contrario, un sistema bidireccional evalúa tanto el texto que precede como sigue una sección de texto de destino. Consulta bidireccional para obtener más detalles.

modelo de lenguaje unidireccional

#language

Un modelo de lenguaje que basa sus probabilidades solo en los tokens que aparecen antes, no después de los tokens de destino. Compara esto con el modelo de lenguaje bidireccional.

W

incorporación de palabras

#language

Representa cada palabra de un conjunto de palabras en una incorporación, es decir, representa cada palabra como un vector de valores de punto flotante entre 0.0 y 1.0. Las palabras con significados similares tienen representaciones más similares que las palabras con significados diferentes. Por ejemplo, zanahorias, apio y pepinos tendrían representaciones similares, lo que sería muy diferente de las representaciones de avión, gafas de sol y pasta de dientes.