Glosario sobre aprendizaje automático: modelos de imágenes

Esta página contiene términos del glosario de los modelos de imágenes. Para ver todos los términos del glosario, haz clic aquí.

R

realidad aumentada

#image

Una tecnología que superpone una imagen generada por computadora en la vista del usuario del mundo real, lo que proporciona una vista compuesta.

M

cuadro de límite

#image

En una imagen, las coordenadas (x, y) de un rectángulo alrededor de un área de interés, como el perro en la imagen a continuación.

Fotografía de un perro sentado en un sofá Un cuadro de límite verde con coordenadas de la parte superior izquierda de (275, 1271) y coordenadas inferior derecha de (2954, 2761) circunscribe el cuerpo del perro.

C

convolución

#image

En matemáticas, por casualidad, es una combinación de dos funciones. En el aprendizaje automático, una convolución mezcla el filtro convolucional y la matriz de entrada para entrenar pesos.

El término "convolución" en el aprendizaje automático suele ser una forma abreviada de referirse a la operación convolucional o la capa convolucional.

Sin convoluciones, un algoritmo de aprendizaje automático tendría que aprender un peso independiente para cada celda en un tensor grande. Por ejemplo, un entrenamiento de algoritmo de aprendizaje automático en imágenes de 2K x 2K se vería obligado a encontrar 4 millones de pesos separados. Gracias a las convoluciones, un algoritmo de aprendizaje automático solo debe encontrar pesos para cada celda del filtro convolucional, lo que reduce de forma drástica la memoria necesaria para entrenar el modelo. Cuando se aplica el filtro convolucional, este se replica en todas las celdas de modo que cada una se multiplique por el filtro.

filtro convolucional (convolutional filter)

#image

Uno de los dos actores en una operación convolucional (El otro es una porción de una matriz de entrada). Un filtro convolucional es una matriz que tiene el mismo rango que la de entrada, pero una forma más pequeña. Por ejemplo, en una matriz de entrada de 28 × 28, el filtro puede ser cualquier matriz 2D menor que 28 × 28.

En la manipulación fotográfica, todas las celdas de un filtro convolucional generalmente se establecen en un patrón constante de unos y ceros. Por lo general, en el aprendizaje automático, los filtros convolucionales se inicializan con números aleatorios y, luego, la red entrena los valores ideales.

capa convolucional

#image

Una capa de una red neuronal profunda en la que un filtro convolucional pasa una matriz de entrada. Por ejemplo, considera el siguiente filtro convolucional:

Una matriz de 3x3 con los siguientes valores: [[0,1,0], [1,0,1], [0,1,0]]

En la siguiente animación, se muestra una capa convolucional que consta de 9 operaciones que involucran la matriz de entrada de 5 x 5. Ten en cuenta que cada operación convolucional funciona en una porción diferente de 3 x 3 de la matriz de entrada. La matriz de 3x3 resultante (a la derecha) consta de los resultados de las 9 operaciones convolucionales:

Una animación que muestra dos matrices. La primera es la de 5x5: [[128,97,53,201,198], [35,22,25,200,195], [37,24,28,197,182], [33,28,92,195,179], [31,41].
          La segunda matriz es la de 3 x 3: [[181,303,618], [115,338,605], [169,351,560]].
          La segunda matriz se calcula mediante la aplicación del filtro convolucional [[0, 1, 0], [1, 0, 1], [0, 1, 0]] en diferentes subconjuntos 3 x 3 de la matriz 5 x 5.

red neuronal convolucional (convolutional neural network)

#image

Red neuronal en la que al menos una capa es una capa convolucional. Una red neuronal convolucional típica consiste en una combinación de las siguientes capas:

Las redes neuronales convolucionales han tenido un gran éxito en ciertos tipos de problemas, como el reconocimiento de imágenes.

operación convolucional (convolutional operation)

#image

La siguiente operación matemática de dos pasos:

  1. Multiplicación por elementos del filtro convolucional y una porción de una matriz de entrada (la porción de la matriz de entrada tiene el mismo rango y tamaño que el filtro convolucional).
  2. Suma de todos los valores en la matriz de producto resultante.

Por ejemplo, considera la siguiente matriz de entrada de 5 x 5:

La matriz de 5x5: [[128,97,53,201,198], [35,22,25,200,195], [37,24,28,197,182], [33,28,92,195,179], [31,40,100,170].

Ahora, imagina el siguiente filtro convolucional de 2×2:

La matriz de 2 x 2: [[1, 0], [0, 1]]

Cada operación convolucional implica una sola porción de 2 x 2 de la matriz de entrada. Por ejemplo, supongamos que usamos la porción de 2 x 2 en la parte superior izquierda de la matriz de entrada. Por lo tanto, la operación de convolución en esta porción se verá de la siguiente manera:

Aplicando el filtro convolucional [[1, 0], [0, 1]] a la sección 2x2 de la parte superior izquierda de la matriz de entrada, que es [[128,97], [35,22]].
          El filtro convolucional deja los 128 y 22 intactos, pero pone en cero los 97 y 35. En consecuencia, la operación de convolución produce el valor 150 (128 + 22).

Una capa convolucional consiste en una serie de operaciones convolucionales que actúan en porciones diferentes de la matriz de entrada.

D

aumento de datos

#image

Aumenta de forma artificial el rango y la cantidad de ejemplos de entrenamiento mediante la transformación de los ejemplos existentes para crear ejemplos adicionales. Por ejemplo, imagina que las imágenes son uno de tus atributos, pero tu conjunto de datos no contiene suficientes ejemplos de imágenes para que el modelo aprenda asociaciones útiles. Lo ideal sería agregar suficientes imágenes etiquetadas a tu conjunto de datos para permitir que tu modelo se entrene correctamente. Si eso no es posible, la magnificación de datos puede rotar, estirar y reflejar cada imagen para producir muchas variantes de la imagen original, lo que posiblemente producirá suficientes datos etiquetados para permitir un excelente entrenamiento.

red neuronal convolucional profunda (sepCNN)

#image

Una arquitectura de red neuronal convolucional basada en Inception, pero en la que los módulos de Inception se reemplazan por convoluciones separables en profundidad. También se conoce como Xception.

Una convolución separable en profundidad (también abreviada como convolución separable) factoriza una convolución estándar en 3D en dos operaciones de convolución separadas que son más eficientes en términos de procesamiento: primero, una convolución en profundidad, con una profundidad de 1 (n ✕ n ✕ 1) y, luego, una profundidad de 1 (con v1).

Para obtener más información, consulta Xception: Deep Learning with Depthwise Separable Convolutions.

submuestreo

#image

Término sobrecargado que puede significar cualquiera de las siguientes opciones:

  • Reducir la cantidad de información de un atributo para entrenar un modelo de forma más eficiente Por ejemplo, antes de entrenar un modelo de reconocimiento de imágenes, se reduce el muestreo de las imágenes de alta resolución a un formato de menor resolución.
  • Entrenar con un porcentaje desproporcionadamente bajo de ejemplos de clase sobrerrepresentadas para mejorar el entrenamiento de modelos en clases poco representadas Por ejemplo, en un conjunto de datos con desequilibrio de clases, los modelos tienden a aprender mucho sobre la clase mayor y no sobre la clase menor. La reducción de muestreo ayuda a equilibrar la cantidad de entrenamiento en las clases mayoritarias y minoritarias.

I

reconocimiento de imágenes

#image

Es un proceso que clasifica objetos, patrones o conceptos en una imagen. El reconocimiento de imágenes también se conoce como clasificación de imágenes.

Para obtener más información, consulta Práctica de AA: Clasificación de imágenes.

intersección sobre la unión (IoU)

#image

La intersección de dos conjuntos dividido por la unión. En las tareas de detección de imágenes de aprendizaje automático, se usa IoU para medir la exactitud del cuadro de límite previsto del modelo con respecto al cuadro de límite verdad fundamental. En este caso, la IoU de los dos cuadros es la relación entre el área superpuesta y el área total, y su rango de valores (desde el 0 [sin superposición del cuadro de límite previsto y el cuadro de límite de verdad fundamental]) hasta el 1 (el cuadro de límite previsto y el cuadro de límite de verdad fundamental tienen exactamente las mismas coordenadas).

Por ejemplo, en la siguiente imagen:

  • El cuadro de límite previsto (las coordenadas que delimitan el lugar en el que el modelo predice que se ubique la tabla nocturna en la pintura) se destaca en púrpura.
  • El cuadro de límite de la verdad fundamental (las coordenadas que delimitan el lugar donde se encuentra la mesa nocturna en la pintura) está dibujado en verde.

La pintura de Van Gogh, "La habitación de Vincent en Arles", con dos cuadros de límite diferentes alrededor de la mesa de noche, junto a la cama. El cuadro de límite de verdad fundamental (en verde) circunscribe perfectamente la tabla nocturna. El cuadro de límite previsto (en púrpura) está desplazado un 50% hacia abajo y hacia la derecha del cuadro de límite de verdad fundamental; encierra el cuarto inferior derecho de la tabla nocturna, pero omite el resto de la tabla.

Aquí, la intersección de los cuadros de límite para la predicción y la verdad fundamental (abajo a la izquierda) es 1, y la unión de cuadros de límite para predicción y verdad fundamental (abajo a la derecha) es 7, por lo que la IoU es \(\frac{1}{7}\).

La misma imagen que se muestra arriba, pero con cada cuadro de límite dividido en cuatro cuadrantes. Hay siete cuadrantes en total, ya que el cuadrante inferior derecho del cuadro de límite de verdad fundamental y el cuadrante superior izquierdo del cuadro de límite previsto se superponen. Esta sección superpuesta (destacada en verde) representa la intersección y tiene un área de 1. La misma imagen que se muestra arriba, pero con cada cuadro de límite dividido en cuatro cuadrantes. Hay siete cuadrantes en total, ya que el cuadrante inferior derecho del cuadro de límite de verdad fundamental y el cuadrante superior izquierdo del cuadro de límite previsto se superponen.
          Todo el interior encerrado por ambos cuadros de límite (destacado en verde) representa la unión y tiene un área de 7.

K

puntos clave

#image

Las coordenadas de características particulares en una imagen. Por ejemplo, para un modelo de reconocimiento de imagen que distingue a las especies de flores, los puntos clave pueden ser el centro de cada pétalo, el tallo, el estambre, etcétera.

L

puntos de referencia

#image

Sinónimo de puntos clave.

L

MNIST

#image

Un conjunto de datos de dominio público compilado por LeCun, Cortes y Burges que contiene 60,000 imágenes, cada una de las cuales muestra cómo una persona escribió manualmente un dígito particular del 0 al 9. Cada imagen se almacena como un array de números enteros de 28 × 28, donde cada número entero es un valor de escala de grises entre 0 y 255, ambos incluidos.

MNIST es un conjunto de datos canónico para el aprendizaje automático que suele usarse para probar nuevos enfoques de aprendizaje automático. Para obtener más información, consulta La base de datos MNIST de dígitos escritos a mano.

P

reducción (pooling)

#image

Reducir una matriz (o matrices) creada por una capa convolucional anterior a una matriz más pequeña. Por lo general, la reducción implica tomar el valor máximo o promedio en el área agrupada. Por ejemplo, supongamos que tenemos la siguiente matriz de 3 x 3:

La matriz de 3x3 [[5,3,1], [8,2,5], [9,4,3]].

Una operación de reducción, al igual que una convolucional, divide esa matriz en porciones y luego desliza esa operación convolucional en segmentaciones. Por ejemplo, supongamos que la operación de reducción divide la matriz convolucional en porciones de 2 x 2 con un paso de 1 x 1. Como se ilustra en el siguiente diagrama, se producen cuatro operaciones de reducción. Imagina que cada operación de reducción elige el valor máximo de las cuatro en esa porción:

La matriz de entrada es 3x3 con los valores: [[5,3,1], [8,2,5], [9,4,3]].
          La submatriz 2x2 de la esquina superior izquierda de la matriz de entrada es [[5,3], [8,2]], por lo que la operación de reducción superior izquierda produce el valor 8 (que es el máximo de 5, 3, 8 y 2). La submatriz 2x2 de la esquina superior derecha de la matriz de entrada es [[3,1], [2,5]], por lo que la operación de reducción superior derecha produce el valor 5. La submatriz 2x2 de la esquina inferior izquierda de la matriz de entrada es [[8,2], [9,4]], por lo que la operación de reducción inferior izquierda produce el valor
 9.  La submatriz inferior derecha de 2x2 de la matriz de entrada es [[2,5], [4,3]], por lo que la operación de reducción inferior derecha produce el valor 5.  En resumen, la operación de reducción produce la matriz 2x2 [[8,5], [9,5]].

La reducción permite aplicar la invariancia traslacional en la matriz de entrada.

La reducción para aplicaciones de visión se conoce más formalmente como reducción espacial. Por lo general, las aplicaciones de series temporales se refieren a la reducción como reducción temporal. De manera menos formal, la reducción a menudo se denomina submuestreo o reducción de muestreo.

(der.)

invariancia rotacional (rotational invariance)

#image

En un problema de clasificación de imágenes, es la capacidad de un algoritmo para clasificar correctamente imágenes, incluso cuando cambia la orientación de la imagen. Por ejemplo, el algoritmo puede identificar una raqueta de tenis aun si apunta hacia arriba, hacia los lados o hacia abajo. Ten en cuenta que la invariancia rotacional no siempre es deseable; por ejemplo, un 9 al revés no debe clasificarse como un 9.

Consulta también la invariancia traslacional y la invariancia de tamaño.

4

invariancia de tamaño (size invariance)

#image

En un problema de clasificación de imágenes, es la capacidad de un algoritmo para clasificar correctamente imágenes, incluso cuando cambia el tamaño de la imagen. Por ejemplo, el algoritmo aún puede identificar a un gato si consume 2 millones de píxeles o 200,000 píxeles. Ten en cuenta que incluso los mejores algoritmos de clasificación de imágenes aún tienen límites prácticos sobre la invariancia de tamaño. Por ejemplo, es poco probable que un algoritmo (o persona) clasifique correctamente una imagen de gato que consuma solo 20 píxeles.

Consulta también la invariancia traslacional y la invariancia rotacional.

reducción espacial

#image

Consulta reducción.

stride

#image

En una operación convolucional o de reducción, el delta en cada dimensión de la siguiente serie de porciones de entrada. Por ejemplo, la siguiente animación muestra un segmento (1,1) durante una operación convolucional. Por lo tanto, la siguiente porción de entrada comienza una posición a la derecha de la porción de entrada anterior. Cuando la operación alcanza el borde derecho, la siguiente porción se extiende hacia la izquierda, pero una posición hacia abajo.

Una matriz de entrada de 5x5 y un filtro convolucional de 3×3. Debido a que
     el segmento es (1,1), se aplicará un filtro convolucional 9 veces. La primera porción convolucional evalúa la submatriz 3x3 de la esquina superior izquierda de la matriz de entrada. La segunda porción evalúa la submatriz de 3 x 3 del centro. La tercera porción convolucional evalúa la submatriz de 3 x 3 de la esquina superior derecha.  La cuarta porción evalúa la submatriz 3x3 del lado izquierdo izquierdo.
     La quinta porción evalúa la submatriz del medio 3x3. La sexta porción evalúa la submatriz de 3 x 3 del lado derecho. La séptima porción evalúa la submatriz 3x3 en la parte inferior izquierda.  La octava porción evalúa la submatriz de 3 x 3 de la parte inferior central. La novena porción evalúa la submatriz de 3 x 3 de la parte inferior derecha.

En el ejemplo anterior, se muestra un segmento bidimensional. Si la matriz de entrada es tridimensional, el segmento también tendría ese formato.

submuestreo

#image

Consulta reducción.

T

invariancia traslacional

#image

En un problema de clasificación de imágenes, es la capacidad de un algoritmo para clasificar correctamente imágenes, incluso cuando cambia la posición de los objetos dentro de la imagen. Por ejemplo, el algoritmo aún puede identificar un perro, ya sea en el centro del marco o en el extremo izquierdo.

Consulta también la invariancia de tamaño y la invariancia rotacional.