Esta página contiene los términos del glosario de los modelos de imágenes. Para todos los términos del glosario, haz clic aquí.
A
realidad aumentada
Tecnología que superpone una imagen generada por computadora en la vista del usuario en el mundo real, lo que proporciona una vista compuesta.
B
cuadro de límite
En una imagen, las coordenadas (x, y) de un rectángulo alrededor de un área de interés, como el perro en la imagen a continuación.
C
convolución
En matemáticas, de manera informal, es una combinación de dos funciones. En el aprendizaje automático, una convolución mezcla el filtro convolucional y la matriz de entrada para entrenar pesos.
El término “convolución” en el aprendizaje automático suele ser una forma abreviada de referirse a la operación convolucional o la capa convolucional.
Sin convoluciones, un algoritmo de aprendizaje automático tendría que aprender un peso separado para cada celda en un tensor grande. Por ejemplo, un entrenamiento de algoritmo de aprendizaje automático en imágenes de 2K x 2K se vería forzado a encontrar 4 millones de pesos separados. Gracias a las convoluciones, un algoritmo de aprendizaje automático solo debe encontrar ponderaciones para cada celda en el filtro convolucional, lo que reduce drásticamente la memoria necesaria para entrenar el modelo. Cuando se aplica el filtro convolucional, simplemente se replica en las celdas, de modo que cada una se multiplica por el filtro.
filtro convolucional (convolutional filter)
Uno de los dos actores en una operación convolucional (el otro es una porción de una matriz de entrada). Un filtro convolucional es una matriz que tiene el mismo rango que la matriz de entrada, pero una forma más pequeña. Por ejemplo, dada una matriz de entrada de 28 x 28, el filtro podría ser cualquier matriz 2D menor que 28 x 28.
En la manipulación fotográfica, todas las celdas en un filtro convolucional se suelen establecer en un patrón constante de unos y ceros. En el aprendizaje automático, los filtros convolucionales suelen iniciarse con números aleatorios y, luego, la red entrena los valores ideales.
capa convolucional (convolutional layer)
Una capa de una red neuronal profunda en la que un filtro convolucional pasa una matriz de entrada. Por ejemplo, considera el siguiente filtro convolucional:
En la siguiente animación, se muestra una capa convolucional que consta de 9 operaciones que involucran la matriz de entrada de 5 x 5. Observa que cada operación convolucional funciona en una porción diferente de 3 x 3 de la matriz de entrada. La matriz 3 x 3 resultante (a la derecha) consta de los resultados de las 9 operaciones convolucionales:
red neuronal convolucional (convolutional neural network)
Red neuronal en la que al menos una capa es una capa convolucional. Una red neuronal convolucional típica consiste en una combinación de las siguientes capas:
Las redes neuronales convolucionales han tenido un gran éxito en ciertos tipos de problemas, como el reconocimiento de imágenes.
operación convolucional (convolutional operations)
La siguiente operación matemática de dos pasos:
- Multiplicación por elementos del filtro convolucional y una porción de una matriz de entrada (la porción de la matriz de entrada tiene el mismo rango y tamaño que el filtro convolucional)
- Suma de todos los valores en la matriz de producto resultante
Por ejemplo, considera la siguiente matriz de entrada de 5 x 5:
Ahora, imagina el siguiente filtro convolucional de 2x2:
Cada operación convolucional implica una sola porción de 2 x 2 de la matriz de entrada. Por ejemplo, supongamos que usamos la porción de 2 x 2 en la parte superior izquierda de la matriz de entrada. Por lo tanto, la operación de convolución en esta porción se verá de la siguiente manera:
Una capa convolucional consiste en una serie de operaciones convolucionales que actúan en porciones diferentes de la matriz de entrada.
D
aumento de datos
Aumenta de forma artificial el rango y la cantidad de ejemplos de entrenamiento mediante la transformación de los ejemplos existentes para crear ejemplos adicionales. Por ejemplo, supongamos que las imágenes son uno de tus atributos, pero tu conjunto de datos no contiene suficientes ejemplos de imágenes para que el modelo aprenda asociaciones útiles. Lo ideal es que agregues suficientes imágenes etiquetadas a tu conjunto de datos para que tu modelo se entrene correctamente. Si eso no es posible, el aumento de datos puede rotar, estirar y reflejar cada imagen para producir muchas variantes de la imagen original, lo que posiblemente genere suficientes datos etiquetados para permitir un excelente entrenamiento.
Red neuronal convolucional separable en profundidad (septCNN)
Una arquitectura de red neuronal convolucional basada en Inception, pero en la que los módulos de Inception se reemplazan por convoluciones independientes a nivel profundo. También se conoce como Xception.
Una convolución separable en profundidad (también abreviada como convolución separable) factoriza una convolución estándar en 3D en dos operaciones de convolución separadas que son más eficientes a nivel computacional: primero, una convolución en profundidad, con una profundidad de 1 (n ✕ n ✕ 1) y, en segundo lugar, una convolución de extremo 1 (convoluciones 1 y longitud).
Para obtener más información, consulta Xception: Deep Learning with Depthwise Separable Convolutions (Xception: Deep Learning with Depthwise Separable Convolutions).
submuestreo
Término sobrecargado que puede significar cualquiera de las siguientes opciones:
- Reducir la cantidad de información de un atributo para entrenar un modelo de manera más eficiente Por ejemplo, antes de entrenar un modelo de reconocimiento de imágenes, reduce las muestras de imágenes de alta resolución a un formato de resolución más baja.
- Entrenar con un porcentaje desproporcionadamente bajo de ejemplos de clase sobrerrepresentadas a fin de mejorar el entrenamiento del modelo en clases subrepresentadas Por ejemplo, en un conjunto de datos con desequilibrio de clases, los modelos tienden a aprender mucho sobre la clase principal y no sobre la clase minoritaria. La reducción de muestreo ayuda a equilibrar la cantidad de entrenamiento en las clases mayoritarias y minoritarias.
I
reconocimiento de imágenes
Proceso que clasifica objetos, patrones o conceptos en una imagen. El reconocimiento de imágenes también se conoce como clasificación de imágenes.
Para obtener más información, consulta Práctica de AA: Clasificación de imágenes.
intersección sobre la unión (IoU)
La intersección de dos conjuntos divididos por su unión. En las tareas de detección de imágenes de aprendizaje automático, IoU se usa para medir la exactitud del cuadro de límite previsto del modelo con respecto al cuadro de límite verdad fundamental. En este caso, la IoU para los dos cuadros es la proporción entre el área superpuesta y el área total, y sus valores varían de 0 (no se superponen el cuadro de límite previsto y el cuadro de límite de verdad fundamental) a 1 (el cuadro de límite previsto y el cuadro de límite de verdad fundamental tienen las mismas coordenadas).
Por ejemplo, en la imagen a continuación:
- El cuadro de límite predicho (las coordenadas que delimitan el lugar en el que el modelo predice que se encuentra la tabla nocturna en la pintura) se destaca en púrpura.
- El cuadro de límite de verdad fundamental (las coordenadas que determinan dónde se encuentra la tabla nocturna en la pintura) está resaltado en verde.
Aquí, la intersección de los cuadros de límite para la predicción y la verdad fundamental (parte inferior izquierda) es 1, y la unión de los cuadros de límite para la predicción y la verdad fundamental (parte inferior derecha) es 7, por lo que la IoU es \(\frac{1}{7}\).


mil
puntos clave
Las coordenadas de características particulares en una imagen. Por ejemplo, para un modelo de reconocimiento de imágenes que distingue especies de flores, los puntos clave pueden ser el centro de cada pétalo, el tallo, el estambre, etcétera.
L
puntos de referencia
Sinónimo de puntos clave.
M
MNIST
Un conjunto de datos de dominio público compilado por LeCun, Cortes y Burges que contiene 60,000 imágenes, y cada imagen muestra cómo un ser humano escribió de forma manual un dígito del 0 al 9. Cada imagen se almacena como un arreglo de números enteros de 28 x 28, donde cada número entero es un valor de escala de grises entre 0 y 255, ambos incluidos.
MNIST es un conjunto de datos canónico para el aprendizaje automático que suele usarse para probar nuevos enfoques de aprendizaje automático. Para obtener más información, consulta La base de datos MNIST de dígitos escritos a mano.
P
reducción
Reducir una matriz (o matrices) creada por una capa convolucional anterior a una matriz más pequeña. Por lo general, la reducción implica tomar el valor máximo o promedio en el área combinada. Por ejemplo, supongamos que tenemos la siguiente matriz de 3 x 3:
Una operación de reducción, al igual que una operación convolucional, divide esa matriz en porciones y, luego, desliza esa operación convolucional en segmentos. Por ejemplo, supongamos que la operación de reducción divide la matriz convolucional en porciones de 2 x 2 con un segmento de 1 x 1. Como se muestra en el siguiente diagrama, se producen cuatro operaciones de reducción. Imagina que cada operación de reducción elige el valor máximo de los cuatro en esa porción:
La reducción permite aplicar la invariancia traslacional en la matriz de entrada.
La reducción para aplicaciones de visión se conoce más formalmente como reducción espacial. Por lo general, las aplicaciones de series temporales se refieren a la reducción como reducción temporal. De manera menos formal, la reducción a menudo se denomina submuestreo o reducción de muestreo.
R
invariancia rotacional (rotational invariance)
En un problema de clasificación de imágenes, la capacidad de un algoritmo para clasificar imágenes de forma correcta, incluso cuando cambia la orientación de la imagen. Por ejemplo, el algoritmo aún puede identificar una raqueta de tenis, ya sea que apunte hacia arriba, hacia los costados o hacia abajo. Ten en cuenta que la invariancia rotacional no siempre es conveniente; por ejemplo, un 9 al revés no debe clasificarse como un 9.
Consulta también la invariancia traslacional y la invariancia de tamaño.
S
invariancia de tamaño (size invariance)
En un problema de clasificación de imágenes, la capacidad de un algoritmo para clasificar correctamente imágenes, incluso cuando cambia el tamaño de la imagen. Por ejemplo, el algoritmo aún puede identificar un gato si consume 2 millones de píxeles o 200,000 píxeles. Ten en cuenta que incluso los mejores algoritmos de clasificación de imágenes aún tienen límites prácticos sobre la invariancia de tamaño. Por ejemplo, es poco probable que un algoritmo (o humano) clasifique correctamente una imagen de gato que consume solo 20 píxeles.
Consulta también la invariancia traslacional y la invariancia rotacional.
reducción espacial
Consulta reducción.
stride
En una operación convolucional o de reducción, el delta en cada dimensión de la siguiente serie de porciones de entrada. Por ejemplo, la siguiente animación muestra un segmento (1,1) durante una operación convolucional. Por lo tanto, la siguiente porción de entrada comienza una posición a la derecha de la porción de entrada anterior. Cuando la operación llega al borde derecho, la siguiente porción está completamente hacia la izquierda, pero una posición hacia abajo.
En el ejemplo anterior, se muestra un segmento bidimensional. Si la matriz de entrada es tridimensional, el segmento también sería tridimensional.
submuestreo
Consulta reducción.
T
invariancia traslacional
En un problema de clasificación de imágenes, la capacidad de un algoritmo para clasificar correctamente imágenes, incluso cuando cambia la posición de los objetos dentro de la imagen. Por ejemplo, el algoritmo aún puede identificar un perro, ya sea en el centro del marco o en el extremo izquierdo.
Consulta también la invariancia de tamaño y la invariancia rotacional.