Glosario de aprendizaje automático: evaluación de lenguajes

Esta página contiene los términos del glosario de Evaluación del lenguaje. Para ver todos los términos del glosario, haz clic aquí.

A

Attention,

#language

Mecanismo usado en una red neuronal que indica la importancia de una palabra en particular o una parte de una palabra. La atención comprime la cantidad de información que un modelo necesita para predecir el siguiente token o palabra. Un mecanismo de atención típico puede consistir en una suma ponderada sobre un conjunto de entradas, en la que otra parte de la red neuronal calcula el peso de cada entrada.

Consulta también la autoatención y la autoatención de varias cabezas, que son los componentes básicos de los Transformer.

codificador automático

#language
#image

Sistema que aprende a extraer la información más importante de la entrada. Los codificadores automáticos son una combinación de un codificador y un decodificador. Los codificadores automáticos se basan en el siguiente proceso de dos pasos:

  1. El codificador asigna la entrada a un formato (intermedio) de dimensión baja (generalmente) con pérdida.
  2. El decodificador compila una versión con pérdida de la entrada original asignando el formato de menor dimensión al formato de entrada original de dimensión más alta.

Los codificadores automáticos se entrenan de extremo a extremo cuando el decodificador intenta reconstruir la entrada original del formato intermedio del codificador con la mayor precisión posible. Debido a que el formato intermedio es más pequeño (dimensiones más bajas) que el formato original, el codificador automático se ve obligado a aprender qué información de la entrada es esencial, y el resultado no será perfectamente idéntico a la entrada.

Por ejemplo:

  • Si los datos de entrada son un gráfico, la copia no exacta sería similar al gráfico original, pero algo modificado. Es posible que la copia no exacta quite el ruido del gráfico original o rellene algunos píxeles faltantes.
  • Si los datos de entrada son texto, un codificador automático generaría un texto nuevo que imita el texto original (pero no es idéntico a él).

Consulta también los codificadores automáticos variacionales.

modelo de regresión automática

#language
#image
#IAgenerativa

model que infiere una predicción a partir de sus propias predicciones anteriores. Por ejemplo, los modelos de lenguaje de regresión automática predicen el siguiente token en función de los tokens previstos con anterioridad. Todos los modelos de lenguaje extensos basados en Transformer son autorregresivos.

Por el contrario, los modelos de imagen basados en GAN no suelen ser autorregresivos, ya que generan una imagen en un solo pase hacia adelante y no de manera iterativa por pasos. Sin embargo, algunos modelos de generación de imágenes son de regresión automáticos porque generan una imagen en pasos.

B

bolsa de palabras

#language

Representación de las palabras de una frase o pasaje, sin importar el orden. Por ejemplo, una bolsa de palabras representa las siguientes tres frases de forma idéntica:

  • el perro salta
  • salta el perro
  • perro salta el

Cada palabra se asigna a un índice en un vector disperso, donde el vector tiene un índice para cada palabra del vocabulario. Por ejemplo, la frase el perro salta se asigna a un vector de atributos con valores distintos de cero en los tres índices correspondientes a las palabras el, perro y salta. El valor distinto de cero puede ser cualquiera de los siguientes:

  • Un 1 para indicar la presencia de una palabra
  • Es un recuento de la cantidad de veces que una palabra aparece en el bolso. Por ejemplo, si la frase fuera el perro granate es un perro con pelaje granate, entonces tanto negro como perro se representarían con 2, mientras que las otras palabras se representarían con 1.
  • Otro valor, como el logaritmo de la cantidad de veces que una palabra aparece en la bolsa

BERT (Representaciones de codificador bidireccional de transformadores)

#language

Una arquitectura de modelo para la representación de texto Un modelo BERT entrenado puede actuar como parte de un modelo más grande para la clasificación de texto o para otras tareas de AA.

BERT tiene las siguientes características:

Las variantes de BERT incluyen las siguientes:

Consulta BERT de fuente abierta: Entrenamiento previo de vanguardia para procesamiento de lenguaje natural a fin de obtener una descripción general de BERT.

bidireccional

#language

Término que se usa para describir un sistema que evalúa el texto que antecede y sigue a una sección de texto objetivo. Por el contrario, un sistema unidireccional solo evalúa el texto que precede a una sección de texto objetivo.

Por ejemplo, considera un modelo de lenguaje enmascarado que debe determinar las probabilidades de la palabra o palabras que representan el subrayado en la siguiente pregunta:

¿Qué _____ contigo?

Un modelo de lenguaje unidireccional tendría que basar sus probabilidades solo en el contexto proporcionado por las palabras "Qué", "es" y "el". Por el contrario, un modelo de lenguaje bidireccional también podría obtener contexto de “con” y de “tú”, lo que podría ayudar al modelo a generar mejores predicciones.

modelo de lenguaje bidireccional

#language

modelo de idioma que determina la probabilidad de que un token determinado esté presente en una ubicación determinada en un extracto de texto según el texto anterior y siguiente.

bigrama

#seq
#language

n-grama en el que n=2.

BLEU (Estudio de Evaluación Bilingüe)

#language

Una puntuación entre 0.0 y 1.0 inclusive, que indica la calidad de una traducción entre dos idiomas humanos (por ejemplo, entre inglés y ruso). Una puntuación BLEU de 1.0 indica una traducción perfecta; una puntuación BLEU de 0.0 indica una traducción mala.

C

modelo de lenguaje causal

#language

Sinónimo de modelo de lenguaje unidireccional.

Consulta modelo de lenguaje bidireccional para contrastar diferentes enfoques direccionales en el modelado de lenguaje.

indicaciones de cadena de pensamiento

#language
#IAgenerativa

Es una técnica de ingeniería de indicación que motiva a un modelo de lenguaje extenso (LLM) a explicar su razonamiento, paso a paso. Por ejemplo, considera la siguiente indicación y presta especial atención a la segunda oración:

¿Cuántas fuerzas g experimentaría un conductor en un automóvil que va de 0 a 60 millas por hora en 7 segundos? En la respuesta, se muestran todos los cálculos relevantes.

Es probable que la respuesta del LLM sea la siguiente:

  • Muestra una secuencia de fórmulas físicas, conectando los valores 0, 60 y 7 en los lugares adecuados.
  • Explica por qué eligió esas fórmulas y qué significan las distintas variables.

La indicación de cadena de pensamiento obliga al LLM a realizar todos los cálculos, lo que podría conducir a una respuesta más correcta. Además, el mensaje de cadena de pensamiento permite al usuario examinar los pasos del LLM para determinar si la respuesta tiene sentido o no.

análisis de circunscripciones

#language

Dividir una oración en estructuras gramaticales más pequeñas ("componentes"). Una parte posterior del sistema de AA, como un modelo de comprensión del lenguaje natural, puede analizar los componentes con mayor facilidad que la oración original. Por ejemplo, considera la siguiente oración:

Mi amigo adoptó dos gatos.

Un analizador de votaciones puede dividir esta oración en los dos componentes que se indican a continuación:

  • Mi amigo es una frase nominal.
  • adoptó dos gatos es una frase verbal.

Estos componentes pueden subdividirse en componentes más pequeños. Por ejemplo, la frase verbal

adoptó dos gatos

se subdivide en lo siguiente:

  • adopted es un verbo.
  • dos gatos es otra frase nominal.

flor de accidente

#language

Oración o frase con un significado ambiguo. Los Crash blossom presentan un problema importante para la comprensión del lenguaje natural. Por ejemplo, el título La cinta roja que sostiene un rascacielos es un fallo porque un modelo de CLN podría interpretar el título de forma literal o figurada.

D

decodificador

#language

En general, cualquier sistema de AA que convierte una representación procesada, densa o interna a una representación más sin procesar, dispersa o externa.

Los decodificadores suelen ser un componente de un modelo más grande, en el que con frecuencia se vinculan con un codificador.

En las tareas de secuencia a secuencia, un decodificador comienza con el estado interno generado por el codificador para predecir la siguiente secuencia.

Consulta Transformador para obtener la definición de un decodificador dentro de la arquitectura de transformadores.

reducción de ruido

#language

Un enfoque común para el aprendizaje autosupervisado en el que sucede lo siguiente:

  1. Ruido se agrega artificialmente al conjunto de datos.
  2. El model intenta quitar el ruido.

La reducción de ruido permite el aprendizaje de ejemplos sin etiqueta. El conjunto de datos original sirve como el objetivo o la etiqueta, y los datos ruidosos como entrada.

Algunos modelos de lenguaje enmascarados usan la reducción de ruido de la siguiente manera:

  1. Para agregar ruido a una oración sin etiqueta de forma artificial, se enmascaran algunos de los tokens.
  2. El modelo intenta predecir los tokens originales.

mensajes directos

#language
#IAgenerativa

Sinónimo de mensaje sin ejemplos.

E

editar distancia

#language

Es una medida de qué tan similares son dos cadenas de texto entre sí. En el aprendizaje automático, la distancia de edición es útil porque es simple y fácil de calcular, y es una manera eficaz de comparar dos strings que se sabe que son similares o encontrar strings similares a una string determinada.

Existen varias definiciones de distancia de edición, cada una con operaciones de string diferentes. Por ejemplo, la distancia de Landshtein considera la menor cantidad de operaciones de eliminación, inserción y reemplazo.

Por ejemplo, la distancia de Levenshtein entre las palabras "corazón" y "darts" es de 3 porque las siguientes 3 ediciones son la menor cantidad de cambios para convertir una palabra en la otra:

  1. corazón → deart (sustituye “h” por “d”)
  2. deart → dart (borrar "e")
  3. dart → dardos (insertar "s")

Embedding Layer

#language
#fundamentals

Una capa oculta especial que se entrena en un atributo categórico de alta dimensión para aprender de forma gradual un vector de incorporación de menor dimensión. Una capa de incorporación permite que una red neuronal se entrene de manera mucho más eficiente que entrenar solo con un atributo categórico de alta dimensión.

Por ejemplo, actualmente, la Tierra tiene alrededor de 73,000 especies de árboles. Supongamos que la especie de árbol es un atributo de tu modelo, por lo que su capa de entrada incluye un vector one-hot de 73,000 elementos. Por ejemplo, quizás baobab se represente de la siguiente manera:

Un array de 73,000 elementos. Los primeros 6,232 elementos tienen el valor 0. El siguiente elemento contiene el valor 1. Los 66,767 elementos finales tienen el valor cero.

Un array de 73,000 elementos es muy largo. Si no agregas una capa de incorporación al modelo, el entrenamiento requerirá mucho tiempo debido a que se multiplican 72,999 ceros. Quizás elijas que la capa de incorporación tenga 12 dimensiones. En consecuencia, la capa de incorporación aprenderá de forma gradual un nuevo vector de incorporación para cada especie arbórea.

En ciertas situaciones, el hashing es una alternativa razonable a una capa de incorporación.

espacio de incorporaciones

#language

Espacio de vector de d dimensiones al que se asignan los atributos de un espacio vectorial de mayor dimensión. Lo ideal es que el espacio de incorporaciones contenga una estructura que produzca resultados matemáticos significativos; por ejemplo, en un espacio de incorporaciones ideal, la adición y sustracción de incorporaciones puede resolver tareas de analogía de palabras.

El producto escalar de dos incorporaciones es la medida de su similitud.

vector de incorporación

#language

En términos generales, es un array de números de punto flotante tomado de cualquier capa oculta que describe las entradas a esa capa oculta. A menudo, un vector de incorporación es un array de números de punto flotante entrenados en una capa de incorporación. Por ejemplo, supongamos que una capa de incorporación debe aprender un vector de incorporación para cada una de las 73,000 especies arbóreas de la Tierra. Quizás el siguiente array sea el vector de incorporación de un árbol baobab:

Es un array de 12 elementos, cada uno con un número de punto flotante entre 0.0 y 1.0.

Un vector de incorporación no es un conjunto de números aleatorios. Una capa de incorporación determina estos valores a través del entrenamiento, de manera similar a la forma en que una red neuronal aprende otros pesos durante el entrenamiento. Cada elemento del array es una calificación según alguna característica de una especie arbórea. ¿Qué elemento representa la característica de qué especie de árbol? Eso es muy difícil de determinar para los humanos.

La parte matemáticamente notable de un vector de incorporación es que elementos similares tienen conjuntos similares de números de punto flotante. Por ejemplo, las especies de árboles similares tienen un conjunto de números de punto flotante más parecido que el de las especies arbóreas diferentes. Las secuoyas y las secuoyas son especies arbóreas relacionadas, por lo que tendrán números de punta flotante más similares a los de las secuoyas y las palmas de coco. Los números en el vector de incorporación cambiarán cada vez que vuelvas a entrenar el modelo, incluso si vuelves a entrenarlo con una entrada idéntica.

codificador

#language

En general, cualquier sistema de AA que convierte una representación externa, dispersa o sin procesar en una representación más procesada, densa o más interna.

Los codificadores suelen ser un componente de un modelo más grande, en el que con frecuencia se vinculan con un decodificador. Algunos transformadores vinculan codificadores con decodificadores, mientras que otros usan solo el codificador o el decodificador.

Algunos sistemas usan la salida del codificador como entrada a una red de clasificación o regresión.

En las tareas de secuencia a secuencia, un codificador toma una secuencia de entrada y muestra un estado interno (un vector). Luego, el decodificador usa ese estado interno para predecir la siguiente secuencia.

Consulta Transformador para ver la definición de un codificador en la arquitectura de transformadores.

F.

mensaje con ejemplos limitados

#language
#IAgenerativa

Un mensaje que contiene más de un ejemplo (algunos “pocos”) que demuestra cómo debe responder el modelo de lenguaje extenso. Por ejemplo, el siguiente mensaje extenso contiene dos ejemplos que muestran un modelo de lenguaje extenso cómo responder una consulta.

Partes de un mensaje Notas
¿Cuál es la moneda oficial del país especificado? La pregunta que quieres que el LLM responda.
Francia: EUR Un ejemplo:
Reino Unido: GBP Otro ejemplo.
India: Es la consulta real.

Por lo general, los mensajes con ejemplos limitados producen resultados más deseables que los mensajes sin ejemplos y los mensajes únicos. Sin embargo, el mensaje con ejemplos limitados requiere un mensaje más largo.

Los mensajes con ejemplos limitados son una forma de aprendizaje con ejemplos limitados que se aplica al aprendizaje basado en mensajes.

Violín tradicional

#language

Una biblioteca de configuración centrada en Python que establece los valores de las funciones y clases sin código ni infraestructura invasivos. En el caso de Pax, y otras bases de código de AA, estas funciones y clases representan modelos y, también, hiperparámetros de entrenamiento.

Fiddle supone que las bases de código de aprendizaje automático suelen dividirse en los siguientes elementos:

  • Código de biblioteca, que define las capas y los optimizadores.
  • El código del conjunto de datos "glue", que llama a las bibliotecas y conecta todo.

Fiddle captura la estructura de llamada del código glue de una forma no evaluada y mutable.

ajuste

#language
#image
#IAgenerativa

Un segundo pase de entrenamiento específico para una tarea que se realiza en un modelo previamente entrenado a fin de definir mejor sus parámetros para un caso de uso específico. Por ejemplo, la secuencia de entrenamiento completa para algunos modelos de lenguaje extenso es la siguiente:

  1. Entrenamiento previo: Entrena un modelo de lenguaje extenso con un amplio conjunto de datos general, como todas las páginas de Wikipedia en inglés.
  2. Ajuste: Entrena el modelo previamente entrenado para que realice una tarea específica, como responder consultas médicas. Por lo general, el ajuste implica cientos o miles de ejemplos enfocados en la tarea específica.

Como otro ejemplo, la secuencia de entrenamiento completa para un modelo de imagen grande es la siguiente:

  1. Entrenamiento previo: Entrena un modelo de imagen grande con un amplio conjunto de datos de imágenes general, como todas las imágenes de los elementos comunes de Wikimedia.
  2. Ajuste: Entrena el modelo previamente entrenado para que realice una tarea específica, como generar imágenes de orcas.

La optimización puede implicar cualquier combinación de las siguientes estrategias:

  • Modificar todos los parámetros existentes del modelo previamente entrenado A veces, esto se denomina ajuste completo.
  • Modificar solo algunos de los parámetros existentes del modelo previamente entrenado (por lo general, las capas más cercanas a la capa de salida) y mantener otros parámetros existentes sin cambios (por lo general, las capas más cercanas a la capa de entrada) Consulta Ajuste eficiente de parámetros.
  • Agregar más capas, por lo general, sobre las capas existentes más cercanas a la capa de salida

La optimización es una forma de aprendizaje por transferencia. Por lo tanto, el ajuste puede usar una función de pérdida diferente o un tipo de modelo diferente de los que se usan para entrenar el modelo previamente entrenado. Por ejemplo, puedes ajustar un modelo de imagen grande previamente entrenado para producir un modelo de regresión que muestre la cantidad de aves en una imagen de entrada.

Compara y contrasta el ajuste con los siguientes términos:

Lino

#language

Una biblioteca de código abierto de alto rendimiento para el aprendizaje profundo compilada en JAX. Flax proporciona funciones para el entrenamiento de redes neuronales y métodos para evaluar su rendimiento.

Formador de linaza

#language

Una biblioteca de código abierto Transformer compilada en Flax, diseñada principalmente para el procesamiento de lenguaje natural y la investigación multimodal.

G

IA generativa

#language
#image
#IAgenerativa

Un campo transformador emergente sin una definición formal. Dicho esto, la mayoría de los expertos coinciden en que los modelos de IA generativa pueden crear ("generar") contenido que cumpla con las siguientes características:

  • complejo
  • coherente
  • original

Por ejemplo, un modelo de IA generativa puede crear ensayos o imágenes sofisticados.

Algunas tecnologías anteriores, como las LSTM y las RNN, también pueden generar contenido original y coherente. Algunos expertos consideran estas tecnologías anteriores como IA generativa, mientras que otros consideran que la verdadera IA generativa requiere resultados más complejos que los que pueden producir esas tecnologías anteriores.

Compara esto con el AA predictivo.

GPT (transformador generativo previamente entrenado)

#language

Una familia de modelos de lenguaje extensos basados en Transformer desarrolladas por OpenAI.

Las variantes de GPT se pueden aplicar a múltiples modalidades, incluidas las siguientes:

  • generación de imágenes (por ejemplo, ImageGPT)
  • generación de texto a imagen (por ejemplo, DALL-E).

H

alucinación

#language

La producción de resultados que parecen creíbles, pero con datos incorrectos, por parte de un modelo de IA generativa que pretende hacer una aserción sobre el mundo real. Por ejemplo, un modelo de IA generativa que afirma que Barack Obama murió en 1865 está alucinando.

I

aprendizaje en contexto

#language
#IAgenerativa

Sinónimo de mensajes con ejemplos limitados.

L

LaMDA (modelo de lenguaje para aplicaciones de diálogos)

#language

Un modelo de lenguaje extenso basado en Transformer y desarrollado por Google, entrenado en un conjunto de datos de diálogo grande que puede generar respuestas de conversación realistas.

LaMDA: nuestra innovadora tecnología de conversación proporciona una descripción general.

de lenguaje extenso

#language

model que estima la probabilidad de que un model o una secuencia de tokens se produzcan en una secuencia más larga de tokens.

modelo de lenguaje extenso

#language

Término informal sin definición estricta que, por lo general, hace referencia a un modelo de lenguaje que tiene una gran cantidad de parámetros. Algunos modelos de lenguaje extenso contienen más de 100,000 millones de parámetros.

M

modelo de lenguaje enmascarado

#language

Modelo de lenguaje que predice la probabilidad de que los tokens candidatos completen los espacios en blanco en una secuencia. Por ejemplo, un modelo de lenguaje enmascarado puede calcular las probabilidades de que palabras candidatas reemplacen el subrayado en la siguiente oración:

El ____ del sombrero volvió.

Normalmente, en la literatura se utiliza la cadena "MASK" en lugar de subrayada. Por ejemplo:

La "MASK" del sombrero volvió.

La mayoría de los modelos de lenguaje enmascarado modernos son bidireccionales.

metaaprendizaje

#language

Es un subconjunto de aprendizaje automático que descubre o mejora un algoritmo de aprendizaje. Un sistema de metaaprendizaje también puede apuntar a entrenar un modelo para que aprenda rápidamente una tarea nueva a partir de una pequeña cantidad de datos o de la experiencia obtenida en tareas anteriores. Por lo general, los algoritmos de metaaprendizaje intentan lograr lo siguiente:

  • Mejorar o aprender funciones de ingeniería manual (como un inicializador o un optimizador)
  • Aumenta la eficiencia de los datos y el procesamiento.
  • Mejora la generalización.

El metaaprendizaje está relacionado con el aprendizaje de pocos pasos.

modality

#language

Una categoría de datos de alto nivel Por ejemplo, los números, el texto, las imágenes, el video y el audio son cinco modalidades diferentes.

paralelismo de modelos

#language

Forma de escalar el entrenamiento o la inferencia que coloca diferentes partes de un model en diferentes model. El paralelismo de modelos permite modelos que son demasiado grandes para caber en un solo dispositivo.

Para implementar el paralelismo de modelos, un sistema suele hacer lo siguiente:

  1. Fragmenta (divide) el modelo en partes más pequeñas.
  2. Distribuye el entrenamiento de esas partes más pequeñas entre varios procesadores. Cada procesador entrena su propia parte del modelo.
  3. Combina los resultados para crear un modelo único.

El paralelismo de modelos ralentiza el entrenamiento.

Consulta también paralelismo de datos.

autoatención de varias cabezas

#language

Es una extensión de la autoatención que aplica el mecanismo de autoatención varias veces para cada posición en la secuencia de entrada.

Los Transformers incorporaron la autoatención de varias cabezas.

modelo multimodal

#language

Modelo cuyas entradas o salidas incluyen más de una modalidad. Por ejemplo, considera un modelo que toma una imagen y una leyenda de texto (dos modalidades) como atributos, y genera una puntuación que indica qué tan apropiada es la leyenda de texto para la imagen. Por lo tanto, las entradas de este modelo son multimodales y la salida es unimodal.

N

comprensión del lenguaje natural

#language

Determinar las intenciones de un usuario en función de lo que el usuario escribió o dijo. Por ejemplo, un motor de búsqueda utiliza la comprensión del lenguaje natural para determinar lo que el usuario está buscando en función de lo que escribió o dijo.

n-grama

#seq
#language

Secuencia ordenada de n palabras. Por ejemplo, realmente loco es un 2-grama. Debido a que el orden es relevante, loco realmente es un 2-grama diferente a realmente loco.

N Nombres para este tipo de n-grama Ejemplos
2 bigrama o 2-grama llegar, ir, almorzar, cenar
3 trigrama o 3-grama comió demasiado, tres ratones ciegos, las campanas redoblan
4 4-grama caminé en el parque, mojado con el viento, el niño comió lentejas

Muchos modelos de comprensión del lenguaje natural se basan en n-gramas para predecir la siguiente palabra que el usuario escribirá. Por ejemplo, supongamos que un usuario escribió tres tristes. Un modelo CLN basado en trigramas probablemente predeciría que el usuario escribirá a continuación tigres.

Compara los n-gramas con la bolsa de palabras, que son conjuntos de palabras desordenados.

CLN

#language

Abreviatura de comprensión del lenguaje natural.

O

mensaje único

#language
#IAgenerativa

Un mensaje que contiene un ejemplo que demuestra cómo debería responder el modelo de lenguaje extenso. Por ejemplo, el siguiente mensaje contiene un ejemplo que muestra un modelo de lenguaje extenso cómo debería responder una consulta.

Partes de un mensaje Notas
¿Cuál es la moneda oficial del país especificado? La pregunta que quieres que el LLM responda.
Francia: EUR Un ejemplo:
India: Es la consulta real.

Compara y contrasta el mensaje único con los siguientes términos:

P

ajuste eficiente de parámetros

#language
#IAgenerativa

Un conjunto de técnicas para ajustar un gran modelo de lenguaje previamente entrenado (PLM) de forma más eficiente que el ajuste completo. Por lo general, el ajuste eficiente en los parámetros ajusta muchos menos parámetros que el ajuste completo, pero suele producir un modelo de lenguaje extenso que funciona igual (o casi igual) que un modelo de lenguaje extenso compilado a partir de un ajuste completo.

Compara y contrasta el ajuste eficiente de parámetros con lo siguiente:

El ajuste eficiente en relación con los parámetros también se conoce como ajuste eficiente en términos de parámetros.

canalización

#language

Una forma de paralelismo de modelos en la que el procesamiento de un modelo se divide en etapas consecutivas y cada etapa se ejecuta en un dispositivo diferente. Mientras una etapa procesa un lote, la etapa anterior puede funcionar en el siguiente.

Consulta también la capacitación en etapas.

PLM

#language
#IAgenerativa

Abreviatura de modelo de lenguaje previamente entrenado.

codificación posicional

#language

Una técnica para agregar información sobre la posición de un token en una secuencia a la incorporación del token. Los modelos de transformador usan la codificación posicional para comprender mejor la relación entre las diferentes partes de la secuencia.

Una implementación común de la codificación posicional usa una función sinusoidal. (Específicamente, la frecuencia y la amplitud de la función sinusoidal están determinadas por la posición del token en la secuencia). Esta técnica permite que un modelo Transformer aprenda a ocuparse de diferentes partes de la secuencia según su posición.

modelo previamente entrenado

#language
#image
#IAgenerativa

Modelos o componentes del modelo (como un vector de incorporación) que ya se entrenaron. En algunas ocasiones, incluirás vectores de incorporación previamente entrenados en una red neuronal. Otras veces, tu modelo entrenará los vectores de incorporación por sí mismo en lugar de depender de las incorporaciones previamente entrenadas.

El término modelo de lenguaje previamente entrenado hace referencia a un modelo de lenguaje extenso que pasó por entrenamiento previo.

entrenamiento previo

#language
#image
#IAgenerativa

Es el entrenamiento inicial de un modelo en un conjunto de datos grande. Algunos modelos previamente entrenados son gigantes y, por lo general, deben perfeccionarse mediante un entrenamiento adicional. Por ejemplo, los expertos en AA pueden entrenar previamente un modelo de lenguaje extenso con un conjunto de datos de texto extenso, como todas las páginas en inglés de Wikipedia. Después del entrenamiento previo, el modelo resultante se puede definir mejor mediante cualquiera de las siguientes técnicas:

mensaje

#language
#IAgenerativa

Cualquier texto que se ingrese como entrada en un modelo de lenguaje extenso para condicionar el modelo a fin de que se comporte de cierta manera Los mensajes pueden ser tan breves como una frase o arbitrariamente largos (por ejemplo, el texto completo de una novela). Los mensajes se dividen en varias categorías, incluidas las que se muestran en la siguiente tabla:

Categoría del mensaje Ejemplo Notas
Pregunta ¿A qué velocidad vuela la paloma?
Instrucción Escribe un poema divertido sobre el arbitraje. Un mensaje que le solicita al modelo de lenguaje extenso que realice una acción.
Ejemplo Traduce el código de Markdown a HTML. Por ejemplo:
Markdown: * elemento de lista
HTML: <ul> <li>elemento de la lista</li> </ul>
La primera oración de este mensaje de ejemplo es una instrucción. El resto de la consigna es el ejemplo.
Rol Explica por qué el descenso de gradientes se usa en el entrenamiento de aprendizaje automático para obtener un doctorado en física. La primera parte de la oración es una instrucción; la frase "para un doctorado en física" es la parte del rol.
Entrada parcial para que el modelo complete El primer ministro del Reino Unido vive en Un mensaje de entrada parcial puede terminar de manera abrupta (como en este ejemplo) o con un guion bajo.

Un modelo de IA generativa puede responder a un mensaje con texto, código, imágenes, incorporaciones, videos y casi cualquier cosa.

aprendizaje basado en indicaciones

#language
#IAgenerativa

Es una capacidad de ciertos modelos que les permite adaptar su comportamiento en respuesta a entradas de texto arbitrarias (mensajes). En un paradigma típico de aprendizaje basado en mensajes, un modelo de lenguaje extenso genera texto para responder a un mensaje. Por ejemplo, supongamos que un usuario ingresa el siguiente mensaje:

Resumir la tercera ley del movimiento de Newton

Un modelo capaz de aprendizaje basado en mensajes no está entrenado específicamente para responder al mensaje anterior. En cambio, el modelo "conoce" muchos hechos sobre física, reglas generales del lenguaje y lo que constituye respuestas generalmente útiles. Ese conocimiento es suficiente para proporcionar una respuesta útil (con suerte). Los comentarios humanos adicionales ("Esa respuesta fue demasiado complicada" o "¿Cuál es una reacción?") permiten que algunos sistemas de aprendizaje basado en mensajes mejoren gradualmente la utilidad de sus respuestas.

diseño de mensajes

#language
#IAgenerativa

Sinónimo de ingeniería rápida.

ingeniería de mensajes

#language
#IAgenerativa

Es el arte de crear mensajes que generan las respuestas deseadas de un modelo de lenguaje extenso. Los seres humanos realizan ingeniería de indicaciones. Escribir mensajes bien estructurados es esencial para garantizar respuestas útiles a partir de un modelo de lenguaje extenso. La ingeniería de mensajes depende de muchos factores, incluidos los siguientes:

  • El conjunto de datos que se usa para entrenar previamente y, posiblemente, ajustar el modelo de lenguaje extenso.
  • La temperatura y otros parámetros de decodificación que usa el modelo para generar respuestas.

Consulta Introducción al diseño de mensajes para obtener más detalles sobre cómo escribir mensajes útiles.

Diseño de mensajes es sinónimo de ingeniería de mensajes.

ajuste de mensaje

#language
#IAgenerativa

Un mecanismo de ajuste eficiente de parámetros que aprende un "prefijo" que el sistema le antepone al mensaje real.

Una variación de ajuste de mensajes, a veces llamada ajuste de prefijo, es agregar el prefijo en todas las capas. Por el contrario, la mayoría de los ajustes de mensajes solo agregan un prefijo a la capa de entrada.

R

solicitud de roles

#language
#IAgenerativa

Es una parte opcional de un mensaje que identifica un público objetivo para la respuesta de un modelo de IA generativa. Sin un mensaje de función, un modelo de lenguaje extenso proporciona una respuesta que puede o no ser útil para la persona que hace las preguntas. Con un mensaje de rol, un modelo de lenguaje extenso puede responder de una manera que sea más apropiada y útil para un público objetivo específico. Por ejemplo, la parte de solicitud de función de los siguientes mensajes está en negrita:

  • Resume este artículo para obtener un doctorado en economía.
  • Describe cómo funcionan las mareas para un niño de diez años.
  • Explicar la crisis financiera de 2008 Háblale como lo harías a un niño pequeño o a un golden retriever.

S

Autoatención (también llamada capa de autoatención)

#language

Capa de una red neuronal que transforma una secuencia de incorporaciones (por ejemplo, incorporaciones de token) en otra secuencia de incorporaciones. Cada incorporación en la secuencia de salida se construye mediante la integración de la información de los elementos de la secuencia de entrada a través de un mecanismo de atención.

La parte del yo de la autoatención se refiere a la secuencia que asiste a sí misma en lugar de a algún otro contexto. La autoatención es uno de los componentes principales de los Transformers y usa terminología de búsqueda de diccionario, como "consulta", "clave" y "valor".

Una capa de autoatención comienza con una secuencia de representaciones de entrada, una para cada palabra. La representación de entrada de una palabra puede ser una incorporación simple. Para cada palabra en una secuencia de entrada, la red califica la relevancia de la palabra en relación con cada elemento de la secuencia completa de palabras. Las puntuaciones de relevancia determinan en qué medida la representación final de la palabra incorpora las representaciones de otras palabras.

Por ejemplo, considera la siguiente oración:

El animal no cruzó la calle porque estaba demasiado cansado.

En la siguiente ilustración (de Transformer: A Novel Neural Network Architecture for Language Understanding) se muestra el patrón de atención de una capa de autoatención para el pronombre it. La oscuridad de cada línea indica cuánto contribuye cada palabra a la representación:

La siguiente oración aparece dos veces: “El animal no cruzó la calle porque estaba demasiado cansado”.  Las líneas conectan la palabra “it” en una oración con cinco tokens (“El”, “animal”, “calle”, “it” y
 el punto) de la otra oración.  La línea entre &quot;it&quot; y &quot;animal&quot; es más fuerte.

La capa de autoatención destaca las palabras que son relevantes para "ella". En este caso, la capa de atención aprendió a destacar las palabras a las que podría hacer referencia y le asignó el peso más alto a animal.

Para una secuencia de n tokens, la autoatención transforma una secuencia de incorporaciones n veces diferentes, una vez en cada posición de la secuencia.

Consulta también la atención y la atención automática de varias cabezas.

Análisis de opiniones

#language

Usar algoritmos estadísticos o de aprendizaje automático para determinar la actitud general de un grupo (positiva o negativa) hacia un servicio, producto, organización o tema. Por ejemplo, con la comprensión del lenguaje natural, un algoritmo podría realizar un análisis de opiniones en los comentarios textuales de un curso universitario para determinar en qué medida a los alumnos les gustó o no el curso en general.

tarea de secuencia por secuencia

#language

Una tarea que convierte una secuencia de entrada de tokens en una secuencia de salida de tokens. Por ejemplo, los siguientes son dos tipos populares de tareas de secuencia por secuencia:

  • Traductores:
    • Ejemplo de secuencia de entrada: "Te amo".
    • Secuencia de salida de muestra: "Je t'aime".
  • Respuestas a preguntas:
    • Ejemplo de secuencia de entrada: "¿Necesito mi automóvil en la ciudad de Nueva York?"
    • Secuencia de salida de ejemplo: "No. No pierdas el auto en casa".

atributo disperso

#language
#fundamentals

Un atributo cuyos valores son predominantemente cero o están vacíos. Por ejemplo, un atributo que contiene un solo valor de 1 y un millón de valores de 0 es disperso. Por el contrario, un atributo denso tiene valores que en su mayoría no son cero ni vacíos.

En el aprendizaje automático, una cantidad sorprendente de atributos son atributos dispersos. Los atributos categóricos suelen ser atributos dispersos. Por ejemplo, de las 300 especies de árboles posibles en un bosque, un solo ejemplo podría identificar solo un árbol de arce. O, entre los millones de videos posibles en una biblioteca de videos, un solo ejemplo podría identificar solo "Casablanca".

En un modelo, por lo general, representas atributos dispersos con la codificación one-hot. Si la codificación one-hot es grande, puedes colocar una capa de incorporación sobre la codificación one-hot para obtener una mayor eficiencia.

representación dispersa

#language
#fundamentals

Almacenar solo las posiciones de elementos que no sean cero en un atributo disperso

Por ejemplo, supongamos que un atributo categórico llamado species identifica las 36 especies de árbol en un bosque en particular. Además, supongamos que cada ejemplo identifica solo una especie.

Podrías usar un vector one-hot para representar las especies arbóreas de cada ejemplo. Un vector one-hot debería contener un único elemento 1 (para representar las especies de árbol en particular de ese ejemplo) y 35 0 (para representar las 35 especies de árboles que no se incluyen en ese ejemplo). Por lo tanto, la representación one-hot de maple podría verse de la siguiente manera:

Vector en el que las posiciones 0 a 23 tienen el valor 0, la posición 24 contiene el valor 1 y las posiciones 25 a 35 tienen el valor 0.

Por otro lado, la representación dispersa simplemente identificaría la posición de la especie en particular. Si maple está en la posición 24, la representación dispersa de maple simplemente sería:

24

Ten en cuenta que la representación dispersa es mucho más compacta que la representación one-hot.

entrenamiento por etapas

#language

Táctica de entrenar un modelo en una secuencia de etapas discretas. El objetivo puede ser acelerar el proceso de entrenamiento o lograr una mejor calidad del modelo.

A continuación, se muestra una ilustración del enfoque de apilado progresivo:

  • La etapa 1 contiene 3 capas ocultas, la etapa 2 contiene 6 capas ocultas y la etapa 3 contiene 12 capas ocultas.
  • La etapa 2 comienza con el entrenamiento con los pesos aprendidos en las 3 capas ocultas de la etapa 1. La etapa 3 comienza con el entrenamiento con los pesos aprendidos en las 6 capas ocultas de la etapa 2.

Tres etapas, que se denominan &quot;Etapa 1&quot;, &quot;Etapa 2&quot; y &quot;Etapa 3&quot;.
          Cada etapa contiene una cantidad diferente de capas: la etapa 1 contiene 3 capas, la etapa 2 contiene 6 capas y la etapa 3 contiene 12 capas.
          Las 3 capas del paso 1 se convierten en las primeras 3 capas del paso 2.
          De manera similar, las 6 capas de la etapa 2 se convierten en las primeras 6 capas de la etapa 3.

Consulta también la canalización.

T

T5

#language

Un modelo de aprendizaje por transferencia de texto a texto presentado por Google AI en 2020. T5 es un modelo de codificador-decodificador, basado en la arquitectura de transformador, entrenado con un conjunto de datos extremadamente grande. Es eficaz en una variedad de tareas de procesamiento de lenguaje natural, como generar texto, traducir idiomas y responder preguntas de manera conversacional.

T5 recibe su nombre de las cinco "T" de "Transformador de transferencia de texto a texto".

T5X

#language

Un framework de aprendizaje automático de código abierto diseñado para compilar y entrenar modelos de procesamiento de lenguaje natural (PLN) a gran escala. T5 se implementa en la base de código T5X (compilada en JAX y Flax).

temperatura

#language
#image
#IAgenerativa

Es un hiperparámetro que controla el grado de aleatorización de la salida de un modelo. Las temperaturas más altas generan un resultado más aleatorio, mientras que las temperaturas más bajas generan un resultado menos aleatorio.

Elegir la mejor temperatura depende de la aplicación específica y de las propiedades deseadas del resultado del modelo. Por ejemplo, es probable que aumentes la temperatura cuando crees una aplicación que genere resultados de creatividades. Por el contrario, es probable que debas bajar la temperatura cuando compiles un modelo que clasifique imágenes o texto para mejorar la precisión y coherencia del modelo.

La temperatura se suele usar con softmax.

intervalo de texto

#language

El intervalo de índice del array asociado con una subsección específica de una string de texto. Por ejemplo, la palabra good en la string de Python s="Be good now" ocupa el intervalo de texto de 3 a 6.

token

#language

En un modelo de lenguaje, es la unidad atómica con la que se entrena el modelo y con la que realiza predicciones. Por lo general, un token es uno de los siguientes:

  • una palabra, por ejemplo, la frase "perros como gatos" consta de tres tokens de palabras: "perros", "me gusta" y "gatos".
  • un carácter; por ejemplo, la frase "pez bici" consta de nueve tokens de caracteres. (Ten en cuenta que el espacio en blanco cuenta como uno de los tokens).
  • subpalabras, en las que una sola palabra puede ser un solo token o varios tokens. Una subpalabra consiste en una palabra raíz, un prefijo o un sufijo. Por ejemplo, un modelo de lenguaje que usa subpalabras como tokens podría ver la palabra "perros" como dos tokens (la palabra raíz "perro" y el sufijo plural "s"). Ese mismo modelo de lenguaje podría ver la sola palabra “más alto” como dos subpalabras (la palabra raíz “alto” y el sufijo “er”).

En dominios fuera de los modelos de lenguaje, los tokens pueden representar otros tipos de unidades atómicas. Por ejemplo, en la visión artificial, un token puede ser un subconjunto de una imagen.

Transformer

#language

Arquitectura de red neuronal desarrollada en Google que se basa en mecanismos de autoatención para transformar una secuencia de incorporaciones de entrada en una secuencia de incorporaciones de salida sin depender de convoluciones ni redes neuronales recurrentes. Un transformador se puede ver como una pila de capas de autoatención.

Un transformador puede incluir cualquiera de los siguientes elementos:

Un codificador transforma una secuencia de incorporaciones en una secuencia nueva de la misma longitud. Un codificador incluye N capas idénticas, cada una de las cuales contiene dos subcapas. Estas dos subcapas se aplican en cada posición de la secuencia de incorporación de entrada y transforman cada elemento de la secuencia en una nueva incorporación. La primera subcapa del codificador agrega información de toda la secuencia de entrada. La segunda subcapa del codificador transforma la información agregada en una incorporación de salida.

Un decodificador transforma una secuencia de incorporaciones de entrada en una secuencia de incorporaciones de salida, posiblemente con una longitud diferente. Un decodificador también incluye N capas idénticas con tres subcapas, dos de las cuales son similares a las subcapas del codificador. La tercera subcapa de decodificador toma la salida del codificador y aplica el mecanismo de autoatención para recopilar información de ella.

La entrada de blog Transformer: A Novel Neural Network Architecture for Language Understanding (Transformer: una nueva arquitectura de red neuronal para comprender el lenguaje) brinda una buena introducción a los transformadores.

trigrama

#seq
#language

n-grama en el que n=3.

U

unidireccional

#language

Un sistema que solo evalúa el texto que precede a una sección de texto de destino. Por el contrario, un sistema bidireccional evalúa el texto que precede y sigue a una sección de texto objetivo. Consulta bidireccional para obtener más detalles.

modelo de lenguaje unidireccional

#language

Un modelo de lenguaje que basa sus probabilidades solo en los tokens que aparecen antes, no después, de los tokens de destino. Compara esto con el modelo de lenguaje bidireccional.

V

codificador automático variacional (VAE)

#language

Un tipo de codificador automático que aprovecha la discrepancia entre las entradas y las salidas para generar versiones modificadas de las entradas Los codificadores automáticos variacionales son útiles para la IA generativa.

Los VAE se basan en la inferencia variacional: una técnica para estimar los parámetros de un modelo de probabilidad.

M

incorporación de palabras

#language

Representar cada palabra de un conjunto de palabras dentro de un vector de incorporación, es decir, representar cada palabra como un vector de valores de punto flotante entre 0.0 y 1.0. Las palabras con significados similares tienen representaciones más parecidas que las palabras con significados diferentes. Por ejemplo, zanahorias, apio y pepinos tendrían representaciones relativamente similares, que serían muy distintas de las representaciones de avión, gafas de sol y pasta de dientes.

Z

mensaje sin ejemplos

#language
#IAgenerativa

Un mensaje que no proporciona un ejemplo de cómo quieres que responda el modelo de lenguaje extenso. Por ejemplo:

Partes de un mensaje Notas
¿Cuál es la moneda oficial del país especificado? La pregunta que quieres que el LLM responda.
India: Es la consulta real.

El modelo de lenguaje extenso puede responder con cualquiera de las siguientes opciones:

  • Rupia
  • INR
  • Rupia hindú
  • La rupia
  • La rupia india

Todas las respuestas son correctas, aunque es posible que prefieras un formato en particular.

Compara y contrasta el mensaje sin ejemplos con los siguientes términos: