Glosario sobre aprendizaje automático

En este glosario se definen los términos generales de aprendizaje automático, así como los términos específicos de TensorFlow.

A

prueba A/B (A/B testing)

Forma estadística de comparar dos (o más) técnicas, generalmente con una variante nueva contra una de control. La prueba A/B tiene como objetivo determinar no solo qué técnica se desempeña mejor, sino también comprender si la diferencia tiene importancia estadística. Por lo general, la prueba A/B considera solo dos técnicas con una medición, pero se puede aplicar a un número finito de técnicas y mediciones.

exactitud (accuracy)

Fracción de predicciones que se realizaron correctamente en un modelo de clasificación. En la clasificación de clases múltiples, la exactitud se define de la siguiente manera:

$$\text{Exactitud} = \frac{\text{Predicciones correctas}} {\text{Número total de ejemplos}}$$

En la clasificación binaria, la exactitud tiene la siguiente definición:

$$\text{Exactitud} = \frac{\text{Verdaderos positivos} + \text{Verdaderos negativos}} {\text{Número total de ejemplos}}$$

Consulta verdadero positivo y verdadero negativo.

función de activación (activation function)

Función (como ReLU o sigmoide) que incorpora la suma ponderada de todas las entradas de la capa anterior y genera un valor de resultado (generalmente no lineal) que pasa a la siguiente capa.

AdaGrad

Algoritmo de descenso de gradientes que reajusta los gradientes de cada parámetro y le asigna una tasa de aprendizaje independiente a cada parámetro. Para obtener una explicación completa, consulta este artículo.

AUC (área bajo la curva ROC)

Métrica de evaluación que considera todos los umbrales de clasificación posibles.

El área bajo la curva ROC es la probabilidad de que un clasificador tenga más seguridad de que un ejemplo positivo elegido al azar sea realmente positivo con respecto a que un ejemplo negativo elegido al azar sea positivo.

B

propagación inversa (backpropagation)

Algoritmo principal para realizar descenso de gradientes en redes neuronales. Primero, los valores de resultado de cada nodo se calculan (se almacenan en caché) y se propagan hacia adelante. Después, el derivado parcial del error con respecto a cada parámetro se calcula y se propaga hacia atrás a través del gráfico.

modelo de referencia (baseline)

Modelo simple o heurístico que se usa como punto de partida para comparar la eficacia del desempeño de un modelo. Un modelo de referencia ayuda a los programadores de modelos a cuantificar el rendimiento mínimo esperado en un problema en particular.

lote (batch)

Conjunto de ejemplos que se usa en una iteración (es decir, una actualización del gradiente) del entrenamiento de modelos.

Consulta también tamaño del lote.

tamaño del lote (batch size)

Número de ejemplos que hay en un lote. Por ejemplo, el tamaño del lote de SGD es 1, mientras que el de un minilote suele ser entre 10 y 1,000. Por lo general, se fija el tamaño del lote durante el entrenamiento y la inferencia; sin embargo, TensorFlow permite tamaños de lotes dinámicos.

ordenada al origen (bias)

Una intersección o un desplazamiento del origen. En los modelos de aprendizaje automático, se hace referencia a la ordenada al origen (también conocida como el término de la ordenada al origen) como b o w0. Por ejemplo, la ordenada al origen es la b en la siguiente fórmula:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

No se debe confundir con el sesgo de predicción.

clasificación binaria (binary classification)

Tipo de tarea de predicción que da como resultado una de dos clases mutuamente exclusivas. Por ejemplo, un modelo de aprendizaje automático que evalúa mensajes de correo electrónico y da como resultado "es spam" o "no es spam" es un clasificador binario.

discretización (binning)

Consulta agrupamiento.

agrupamiento (bucketing)

Conversión de un atributo (generalmente continuo) en varios atributos binarios denominados agrupamientos o discretizaciones, que en general se basan en un rango de valores. Por ejemplo, en lugar de representar la temperatura como una función continua de punto flotante, podrías dividir los rangos de temperatura en discretizaciones. Para datos de temperatura con una variación de un décimo de un grado, todas las temperaturas entre 0.0 y 15.0 grados podrían colocarse en un primer grupo, las de 15.1 a 30.0 grados podrían constituir un segundo grupo y las de 30.1 a 50.0 grados podrían ser un tercer grupo.

C

capa de calibración (calibration layer)

Ajuste posterior a la predicción, generalmente para dar cuenta del margen de predicción. Las predicciones ajustadas y las probabilidades deben coincidir con la distribución del conjunto de etiquetas observado.

muestreo de candidatos (candidate sampling)

Optimización en el entrenamiento en la que una probabilidad se calcula para todas las etiquetas positivas (por ejemplo, a través de softmax), pero solo para una muestra aleatoria de etiquetas negativas. Por ejemplo, si tenemos un ejemplo etiquetado como beagle y perro, el muestreo de candidatos computa las probabilidades predichas y los términos de pérdida correspondientes para los resultados de la clase de beagle y perro, además de un subconjunto aleatorio de las clases restantes (gato, paleta, cerca). La idea es que las clases negativas puedan aprender del refuerzo negativo de forma menos frecuente, siempre y cuando las positivas obtengan el refuerzo positivo adecuado y este se observe empíricamente. La motivación para el muestreo de candidatos es una mejora en la eficiencia de cálculo al no calcular las predicciones para todos los negativos.

datos categóricos (categorical data)

Atributos que tienen un conjunto discreto de valores posibles. Por ejemplo, considera un atributo categórico denominado house style, que tenga un conjunto discreto de tres valores posibles: Tudor, ranch, colonial. Al representar house style como datos categóricos, el modelo puede aprender los impactos de Tudor, ranch y colonial por separado en el precio de las casas.

En algunas ocasiones, los valores del conjunto discreto son mutuamente exclusivos y solo se puede aplicar un valor a un ejemplo determinado. Por ejemplo, un atributo categórico de car maker probablemente permitiría un solo valor (por ejemplo, Toyota). Otras veces, es posible que se pueda aplicar más de un valor. Un solo auto podría estar pintado de más de un color diferente, de manera que el atributo categórico de car color probablemente permitiría que un solo ejemplo tuviera varios valores (por ejemplo, red y white).

En ocasiones, los atributos categóricos se denominan atributos discretos.

Compara esto con los datos numéricos.

centroide (centroid)

El centro de un clúster se determina mediante un algoritmo k-medios o k-mediana. Por ejemplo, si k es 3, entonces el algoritmo k-medios o k-mediana encuentra 3 centroides.

punto de control (checkpoint)

Datos que capturan el estado de las variables de un modelo en un momento en particular. Los puntos de control permiten exportar pesos del modelo, así como llevar a cabo el entrenamiento en varias sesiones. Los puntos de control también permiten que el entrenamiento continúe después de los errores (por ejemplo, la interrupción temporal de tareas). Ten en cuenta que el gráfico en sí no se incluye en un punto de control.

clase (class)

Valor de un conjunto de valores de segmentación enumerados para una etiqueta. Por ejemplo, en un modelo de clasificación binaria que detecta spam, las dos clases son es spam y no es spam. En un modelo de clasificación de clases múltiples que identifica razas de perros, las clases serían poodle, beagle, pug, etc.

conjunto de datos de clase desequilibrada (class-imbalanced data set)

Problema de clasificación binaria en el que las etiquetas de las dos clases tienen frecuencias significativamente diferentes. Por ejemplo, un conjunto de datos de enfermedades en el que 0.0001 de los ejemplos tienen etiquetas positivas y 0.9999 tienen etiquetas negativas es un problema de clase desequilibrada, pero un predictor de partidos de fútbol en el que 0.51 de los ejemplos etiquetan a un equipo como ganador y 0.49 etiquetan al otro equipo como ganador no es un problema de este tipo.

modelo de clasificación (classification model)

Tipo de modelo de aprendizaje automático para distinguir entre dos o más clases discretas. Por ejemplo, un modelo de clasificación de procesamiento de lenguaje natural podría determinar si una oración de entrada está en francés, español o italiano. Compara esto con el modelo de regresión.

umbral de clasificación (classification threshold)

Criterio de valor escalar que se aplica a la predicción de un modelo para separar la clase positiva de la negativa. Se usa al asignar resultados de regresión logística a la clasificación binaria. Por ejemplo, considera un modelo de regresión logística que determina la probabilidad de que un mensaje de correo electrónico determinado sea spam. Si el umbral de clasificación es 0.9, los valores de regresión logística por encima de 0.9 se clasifican como spam y aquellos por debajo de esa cifra se clasifican como no es spam.

agrupamiento en clústeres (clustering)

Agrupar Ejemplos relacionados, particularmente durante el aprendizaje no supervisado. Una vez que todos los ejemplos están agrupados, una persona puede, de forma opcional, asignar un significado a cada clúster.

Existen muchos algoritmos de agrupamiento en clústeres. Por ejemplo, el algoritmo k-medios agrupa ejemplos sobre la base de su proximidad a un centroide, como en el siguiente diagrama:

image/svg+xml 50 or so examples clustered into two groups. altura del árbol ancho del árbol centroide clúster 1 clúster 2

Un investigador humano podría luego revisar los clústeres y, por ejemplo, etiquetar el grupo 1 como "árboles enanos" y el grupo 2 como "árboles grandes".

Otro ejemplo podría ser un algoritmo de agrupamiento basado en la distancia de ejemplo desde un punto central, como se ilustra a continuación:

image/svg+xml Three sets of examples, each somewhat further from the center. clúster 1 clúster 2 clúster 3

filtrado colaborativo (collaborative filtering)

Tarea de realizar predicciones acerca de los intereses de un usuario en función de los intereses de muchos otros usuarios. El filtrado colaborativo se usa con frecuencia en los sistemas de recomendaciones.

matriz de confusión (confusion matrix)

Tabla de N×N que resume el nivel de éxito de las predicciones de un modelo de clasificación; es decir, la correlación entre la etiqueta y la clasificación del modelo. Un eje de una matriz de confusión es la etiqueta que el modelo predijo; el otro es la etiqueta real. N representa el número de clases. En un problema de clasificación binaria, N=2. Por ejemplo, aquí se muestra un ejemplo de una matriz de confusión para un problema de clasificación binaria:

Es tumor (predicho) No es tumor (predicho)
Es tumor (real) 18 1
No es tumor (real) 6 452

La matriz de confusión anterior muestra que, de las 19 muestras que realmente tenían tumores, el modelo clasificó correctamente 18 como con tumores (18 verdaderos positivos) y clasificó 1 de manera incorrecta como sin tumor (1 falso negativo). De manera similar, de las 458 muestras que en realidad no tenían tumores, 452 se clasificaron correctamente (452 verdaderos negativos) y 6 se clasificaron de manera incorrecta (6 falsos positivos).

La matriz de confusión de un problema de clasificación de clases múltiples puede ayudarte a determinar patrones de error. Por ejemplo, una matriz de confusión podría revelar que un modelo entrenado para reconocer dígitos escritos a mano tiende a predecir de manera incorrecta 9 en lugar de 4, o 1 en lugar de 7.

Las matrices de confusión contienen información suficiente para calcular una variedad de métricas de rendimiento, incluidas la precisión y la recuperación.

atributo continuo (continuous feature)

Atributo de punto flotante con un rango infinito de valores posibles. Compara esto con el atributo discreto.

convergencia (convergence)

Suele referirse informalmente a un estado que se alcanza durante el entrenamiento, en el que la pérdida y la pérdida de validación cambian muy poco o nada con cada iteración después de un determinado número de iteraciones. En otras palabras, un modelo alcanza la convergencia cuando el entrenamiento adicional de los datos con los que se cuenta no mejora el modelo. En el aprendizaje profundo, los valores de pérdida a veces permanecen constantes o casi constantes durante muchas iteraciones antes de descender finalmente, lo cual produce una falsa sensación de convergencia temporal.

Consulta también interrupción anticipada.

Consulta también Convex Optimization de Boyd y Vandenberghe.

atributo convexo (convex function)

Atributo en el que la región por encima del gráfico del atributo es un conjunto convexo. El atributo convexo prototípico tiene una forma similar a la letra U. Por ejemplo, los siguientes son todos atributos convexos:a

Un atributo convexo típico tiene una forma similar a la letra "U".

Por el contrario, el siguiente atributo no es convexo. Observa cómo la región por encima del gráfico no es un conjunto convexo:

Función no convex Una función no convexa. mínimo local mínimo local mínimo global

Un atributo estrictamente convexo tiene exactamente un punto mínimo local, que también es el punto mínimo global. Los atributos clásicos con forma de U son atributos estrictamente convexos. Sin embargo, algunos atributos convexos (por ejemplo, las líneas rectas) no lo son.

Muchos de los atributos de pérdida comunes, incluidos los siguientes, son atributos convexos:

Muchas variaciones del descenso de gradientes garantizan encontrar un punto cerca del mínimo de un atributo estrictamente convexo. De manera similar, muchas variaciones del descenso de gradientes estocástico tienen una alta probabilidad (aunque no una garantía) de encontrar un punto cercano al mínimo de un atributo estrictamente convexo.

La suma de dos atributos convexos (por ejemplo, pérdida L2 + regularización L1) es un atributo convexo.

Los modelos profundos nunca son atributos convexos. Notablemente, los algoritmos diseñados para la optimización convexa tienden a encontrar soluciones razonablemente buenas en las redes profundas, de todos modos, aunque no está garantizado que esas soluciones sean un mínimo global.

optimización convexa (convex optimization)

Proceso en el que se usan técnicas matemáticas, como el descenso de gradientes, para encontrar el mínimo de un atributo convexo. Gran parte de la investigación sobre el aprendizaje automático se ha centrado en formular distintos problemas como problemas de optimización convexa y en solucionar esas cuestiones de manera más eficaz.

Para obtener información completa, consulta Convex Optimization de Boyd y Vandenberghe.

conjunto convexo (convex set)

Subconjunto del espacio euclídeo en el que una línea dibujada entre dos puntos cualesquiera en el subconjunto permanece completamente dentro del subconjunto. Por ejemplo, las dos formas que se muestran a continuación son conjuntos convexos:

Un rectángulo y una semielipse son conjuntos convexos.

Por el contrario, las dos formas que se muestran a continuación no son conjuntos convexos:

Un gráfico circular con un sector faltante y un fuego artificial son conjuntos no convexos.

convolución (convolution)

En matematicas, la convolución es (informalmente) una manera de mezclar dos funciones que mide cuanta superposición hay entre las dos funciones En aprendizaje automático, una convolución mezcla el filtro convolucional y la matriz de entrada para entrenar pesos.

El término "convolución" suele usarse en aprendizaje automático para referirse de forma abreviada a una operación convolucional o a una capa convolucional.

Sin convoluciones, un algoritmo de aprendizaje automático tendría que aprender un peso separado para cada celda en un tensor grande. Por ejemplo, un entrenamiento de algoritmo de aprendizaje automático en imágenes de 2K x 2K se vería obligado a encontrar 4 millones de pesos distintos. Gracias a las convoluciones, un algoritmo de aprendizaje automático solo tiene que encontrar pesos para cada celda en el filtro convolucional, lo que reduce drásticamente la memoria necesaria para entrenar el modelo. Cuando se aplica el filtro convolucional, solo se replica a través de las celdas, por lo que cada una se multiplica por el filtro.

filtro convolucional (convolutional filter)

Uno de los dos protagonistas de una operación convolucional (el otro es una porción de una matriz de entrada). Un filtro convolucional es una matriz que tiene el mismo rango que la de entrada, pero una forma más pequeña. Por ejemplo, en una matriz de entrada 28 x 28, el filtro podría ser cualquier matriz 2D más pequeña que 28 x 28.

En la manipulación fotográfica, todas las celdas de un filtro convolucional suelen fijarse a un patrón constante de unos y ceros. En el aprendizaje automático, los filtros convolucionales generalmente se inician con números aleatorios y luego la red entrena los valores ideales.

capa convolucional (convolutional layer)

Una capa de una red neuronal profunda en la que un filtro convolucional pasa a lo largo de una matriz de entrada. Por ejemplo, considera el siguiente filtro convolucional de 3 x 3:

En la siguiente animación, se muestra una capa convolucional que consta de 9 operaciones que involucran la matriz de entrada de 5 x 5. Como se puede observar, cada operación convolucional funciona en una porción diferente de 3 x 3 de la matriz de entrada. La matriz 3 x 3 resultante (a la derecha) contiene los resultados de las 9 operaciones convolucionales:

red neuronal convolucional (convolutional neural network)

Una red neuronal en la que al menos una capa es una capa convolucional. Una red neuronal convolucional típica consiste en una combinación de las siguientes capas:

  • capas convolucionales
  • capas de reducción
  • capas densas

Las redes neuronales convolucionales han tenido un gran éxito en ciertos tipos de problemas, como el reconocimiento de imágenes.

operación convolucional (convolutional operation)

La siguiente operación matemática de dos pasos:

  1. Multiplicación por elementos del filtro convolucional y una porción de una matriz de entrada (la porción de la matriz de entrada tiene el mismo rango y tamaño que el filtro convolucional).
  2. Suma de todos los valores en la matriz de producto resultante.

Por ejemplo, consideremos la siguiente matriz de entrada de 5 x 5:

Ahora imaginemos el siguiente filtro convolucional de 2 x 2:

Cada operación convolucional implica una sola porción de 2 x 2 de la matriz de entrada. Por ejemplo, supongamos que usamos la porción de 2 x 2 en la parte superior izquierda de la matriz de entrada. La operación de convolución en esta porción se verá de la siguiente manera:

Una capa convolucional consiste en una serie de operaciones convolucionales que actúan en porciones diferentes de la matriz de entrada.

costo (cost)

Sinónimo de pérdida.

entropía cruzada (cross-entropy)

Una generalización de pérdida logística en problemas de clasificación de clases múltiples. La entropía cruzada cuantifica la diferencia entre dos distribuciones de probabilidad. Consulta también perplejidad.

Estimador personalizado (custom Estimator)

Estimador que escribes tú mismo siguiendo estas instrucciones.

Compara esto con estimadores prediseñados.

D

análisis de datos (data analysis)

El proceso de obtener una comprensión de los datos mediante la consideración de muestras, mediciones y visualizaciones. El análisis de datos puede ser particularmente útil cuando se recibe por primera vez un conjunto de datos, antes de crear el primer modelo. También es crucial para comprender los experimentos y problemas de depuración del sistema.

DataFrame

Tipo de datos Python popular que se usa para representar conjuntos de datos de ejemplo en Pandas. Un DataFrame es análogo a una tabla. Cada columna del DataFrame tiene un nombre (un encabezado) y cada fila se identifica con un número.

conjunto de datos (data set)

Colección de ejemplos.

API del conjunto de datos (tf.data) (Dataset API)

API de TensorFlow de alto nivel para leer datos y transformarlos en un formato que requiere un algoritmo de aprendizaje automático. Un objeto tf.data.Dataset representa una secuencia de elementos en la que cada uno de ellos contiene uno o más Tensors. Un objeto tf.data.Iterator proporciona acceso a los elementos de un Dataset.

Para obtener detalles sobre la API del conjunto de datos, consulta la sección sobre cómo importar datos de la Guía para programadores de TensorFlow.

límite de decisión (decision boundary)

Separador entre clases aprendido por un modelo en problemas de clasificación de clases múltiples o de clase binaria. Por ejemplo, en la siguiente imagen, que representa un problema de clasificación binaria, el límite de decisión es la frontera entre la clase anaranjada y la azul:

Un límite bien definido entre una clase y otra.

capa densa (dense layer)

Sinónimo de capa completamente conectada.

modelo profundo (deep model)

Tipo de red neuronal que contiene varias capas ocultas. Los modelos profundos se basan en la capacidad de entrenar no linealidades.

Compara esto con el modelo amplio.

atributo denso (dense feature)

Atributo en el que la mayoría de los valores son distintos a cero, por lo general un tensor de valores de punto flotante. Compara esto con el atributo disperso.

dispositivo (device)

Categoría de hardware que puede ejecutar una sesión de TensorFlow y que incluye CPU, GPU y TPU.

atributo discreto (discrete feature)

Atributo con un conjunto finito de valores posibles. Por ejemplo, un atributo cuyos valores solo pueden ser animal, vegetal o mineral es un atributo discreto (o categórico). Compara esto con el atributo continuo.

regularización de retirados (dropout regularization)

Forma de regularización que resulta útil en el entrenamiento de redes neuronales. La regularización de retirados funciona al quitar una selección aleatoria de un número fijo de unidades de una capa de la red para un solo paso de gradiente. Mientras más unidades se extraigan, mejor será la regularización. Esto es análogo a entrenar la red para emular un conjunto exponencialmente grande de redes más pequeñas. Para obtener información completa, consulta Dropout: A Simple Way to Prevent Neural Networks from Overfitting.

modelo dinámico (dynamic model)

Modelo que se entrena en línea con actualizaciones continuas. Esto significa que constantemente ingresan datos al modelo.

E

interrupción anticipada (early stopping)

Método de regularización que implica finalizar el entrenamiento del modelo antes de que la pérdida de entrenamiento deje de disminuir. En la interrupción anticipada, el entrenamiento del modelo finaliza cuando la pérdida en un conjunto de datos de validación comienza a aumentar, es decir, cuando empeora el rendimiento de la generalización.

incorporaciones (embeddings)

Atributo categórico representado como un atributo de valor continuo. Por lo general, las incorporaciones son una traslación de un vector de dimensiones altas a un espacio de dimensiones bajas. Por ejemplo, puedes representar las palabras de una oración en inglés de cualquiera de las dos formas siguientes:

  • Como un vector disperso con un millón de elementos (dimensiones altas) en el que todos los elementos son números enteros. Cada celda del vector representa una palabra distinta en inglés; el valor de la celda representa la cantidad de veces que esa palabra aparece en una oración. Dado que es poco probable que una sola oración en inglés contenga más de 50 palabras, casi todas las celdas del vector contendrán un 0. Algunas celdas que no sean 0 contendrán un número entero bajo (generalmente 1), que representa la cantidad de veces que la palabra apareció en la oración.
  • Como un vector denso de varios cientos de elementos (dimensiones bajas) en el que cada elemento tiene un valor de punto flotante entre 0 y 1. Esto es una incorporación.

En TensorFlow, las incorporaciones se entrenan mediante propagación inversa de la pérdida, al igual que cualquier otro parámetro en una red neuronal.

minimización del riesgo empírico (ERM, empirical risk minimization)

Elección de la función del modelo que minimiza la pérdida en el conjunto de entrenamiento. Compara esto con la minimización del riesgo estructural.

ensamble (ensemble)

Ensamble de las predicciones de varios modelos. Puedes crear un ensamble a través de una o más de las siguientes opciones:

  • diferentes inicializaciones
  • diferentes hiperparámetros
  • diferentes estructuras generales

Los modelos amplios y profundos son un tipo de ensamble.

repeticiones (epoch)

Recorrido de entrenamiento completo por todo el conjunto de datos, de manera que cada ejemplo se observe una vez. Por lo tanto, las repeticiones representan N/iteraciones de entrenamiento del tamaño del lote, donde N es el número total de ejemplos.

Estimador (Estimator)

Instancia de la clase tf.Estimator que sintetiza la lógica que desarrolla un gráfico de TensorFlow y ejecuta una sesión de TensorFlow. Puedes crear tus propios estimadores personalizados (como se describe aquí) o instanciar estimadores prediseñados creados por otras personas.

ejemplo (example)

Fila de un conjunto de datos. Un ejemplo contiene uno o más atributos y, posiblemente, una etiqueta. Consulta también ejemplo etiquetado y ejemplo sin etiqueta.

F

falso negativo (FN, false negative)

Ejemplo en el que el modelo predijo de manera incorrecta la clase negativa. Por ejemplo, el modelo infirió que un mensaje de correo electrónico en particular no era spam (la clase negativa), pero ese mensaje de correo electrónico en realidad era spam.

falso positivo (FP, false positive)

Ejemplo en el que el modelo predijo de manera incorrecta la clase positiva. Por ejemplo, el modelo infirió que un mensaje de correo electrónico en particular era spam (la clase positiva), pero ese mensaje de correo electrónico en realidad no era spam.

tasa de falsos positivos (tasa de FP) (false positive rate (FP rate))

Eje x en una curva ROC. La tasa de FP se define de la siguiente manera:

$$\text{Tasa de falsos positivos} = \frac{\text{Falsos positivos}}{\text{Falsos positivos} + \text{Verdaderos negativos}}$$

atributo (feature)

Variable de entrada que se usa para realizar predicciones.

Columna de atributos (Feature column - tf.feature_column)

Función que especifica cómo un modelo debería interpretar un atributo específico. Una lista que recopile los resultados arrojados por llamadas a tales funciones es un parámetro obligatorio para todos los constructores de estimadores.

Las funciones tf.feature_column permiten que los modelos experimenten fácilmente con diferentes representaciones de los atributos de entrada. Para obtener más información, consulta el capítulo Columnas de atributos de la Guía para desarrolladores de TensorFlow.

"Columna de atributos" es terminología específica de Google. Una columna de atributos se conoce como un "espacio de nombres" en el sistema de VW (en Yahoo/Microsoft) o como un campo.

combinación de atributos (feature cross)

Atributo sintético que se forma al combinar (tomar el producto cartesiano de) atributos binarios individuales obtenidos directamente de datos categóricos o mediante discretización de atributos continuos. Los atributos combinados ayudan a representar relaciones no lineales.

ingeniería de atributos (feature engineering)

Proceso en el que se determina qué atributos podrían ser útiles para entrenar un modelo y luego convertir los datos sin procesar de los archivos de registro y otras fuentes en dichos atributos. En TensorFlow, la ingeniería de atributos suele implicar la conversión de entradas del archivo de registro sin procesar en búferes del protocolo tf.Example. Consulta también tf.Transform.

En algunas ocasiones, la ingeniería de atributos se denomina extracción de atributos.

conjunto de atributos (feature set)

Grupo de atributos con el que se entrena el modelo de aprendizaje automático. Por ejemplo, código postal, tamaño de la propiedad y estado de la propiedad pueden conformar un conjunto de atributos simples para un modelo que predice los precios de la vivienda.

especificación de atributos (feature spec)

Describe la información necesaria para extraer datos de atributos del búfer del protocolo tf.Example. Dado que el búfer del protocolo tf.Example es simplemente un contenedor de datos, debes especificar lo siguiente:

  • los datos que se van a extraer (es decir, las claves de los atributos)
  • el tipo de datos (por ejemplo, flotante o número entero)
  • la longitud (fija o variable)

La API de Estimator proporciona opciones para producir una especificación de atributos a partir de una lista de Columnas de atributos.

aprendizaje en pocos intentos (few-shot learning)

Enfoque de aprendizaje automático que suele usarse para la clasificación de objetos, diseñado para aprender clasificadores efectivos a partir de solo un pequeño número de ejemplos de entrenamiento.

Consulta también aprendizaje en un solo intento.

softmax completo (full softmax)

Consulta softmax. Compara esto con el muestreo de candidatos.

capa completamente conectada (fully connected layer)

Capa oculta en la que cada nodo está conectado a cada uno de los nodos de la capa oculta subsiguiente.

Una capa completamente conectada también se conoce como una capa densa.

G

generalización (generalization)

Se refiere a la capacidad del modelo de realizar predicciones correctas sobre datos nuevos nunca antes vistos, en oposición a los datos que se usan para entrenar el modelo.

modelo lineal generalizado (generalized linear model)

Generalización de modelos de regresión de mínimos cuadrados que se basan en el ruido gaussiano, con respecto a otros tipos de modelos basados en otros tipos de ruidos, como el ruido de Poisson o el ruido categórico. Entre los ejemplos de modelos lineales generalizados se incluyen los siguientes:

  • regresión logística
  • regresión de clases múltiples
  • regresión de mínimos cuadrados (least squares regression)

Los parámetros de un modelo lineal generalizado pueden encontrarse a través de optimización convexa.

Los modelos lineales generalizados tienen las siguientes propiedades:

  • La predicción promedio del modelo óptimo de regresión de mínimos cuadrados es igual a la etiqueta promedio de los datos de entrenamiento.
  • La probabilidad promedio predicha por el modelo óptimo de regresión de mínimos cuadrados es igual a la etiqueta promedio de los datos de entrenamiento.

La potencia de un modelo lineal generalizado está limitada por sus atributos. A diferencia de un modelo profundo, un modelo lineal generalizado no puede "aprender atributos nuevos".

gradiente (gradient)

Vector de los derivados parciales con respecto a todas las variables independientes. En el aprendizaje automático, el gradiente es el vector de los derivados parciales del atributo del modelo. El gradiente apunta en la dirección del aumento más inclinado.

recorte de gradiente (gradient clipping)

Limitación de los valores del gradiente antes de aplicarlos. El recorte de gradiente ayuda a garantizar la estabilidad numérica y previene el crecimiento excesivo de gradientes.

descenso de gradientes (gradient descent)

Técnica para minimizar la pérdida mediante el cálculo de los gradientes de pérdida con respecto a los parámetros del modelo, condicionados con los datos de entrenamiento. Informalmente, el descenso de gradientes ajusta los parámetros de manera iterativa, lo que permite encontrar de forma gradual la mejor combinación de pesos y sesgos para minimizar la pérdida.

gráfico (graph)

En TensorFlow, especificación de cálculo. Los nodos del gráfico representan operaciones. Las conexiones están orientadas y representan el paso del resultado de una operación (un Tensor) como un operando para otra operación. Para visualizar un gráfico, usa TensorBoard.

H

heurística (heuristic)

Solución práctica y no óptima para un problema, que es suficiente para progresar o para aprender de ella.

capa oculta (hidden layer)

Capa sintética en una red neuronal entre la capa de entrada (es decir, los atributos) y la capa de salida (la predicción). Una red neuronal contiene una o más capas ocultas.

pérdida de bisagra (hinge loss)

Una familia de funciones de pérdida para la clasificación diseñadas a fin de encontrar el límite de decisión lo más distante posible de cada ejemplo de entrenamiento, para así maximizar el margen entre los ejemplos y el límite. Las máquinas de vectores soporte de Kernel (KSVM) usan la pérdida de bisagra (o un atributo relacionado, como la pérdida de bisagra al cuadrado). Para la clasificación binaria, el atributo de pérdida de bisagra se define de la siguiente manera:

$$\text{pérdida} = \text{máx.}(0, 1 - (y' * y))$$

donde y' es el resultado sin procesar del modelo de clasificación:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

y, a su vez, y es la etiqueta verdadera, ya sea -1 o +1.

Por consiguiente, el diseño de una pérdida de bisagra con (y * y') tiene el siguiente aspecto:

Pérdida de bisagra vs. (y * y') Un gráfico de de pérdida de bisagra con clasificación sin procesar muestra una bisagra diferente en la coordenada (1,0). 0 -2 -1 1 2 3 1 2 3 4 0 pérdida de bisagra (y * y')

datos de exclusión (holdout data)

Ejemplos que de manera intencional no se usan (se "excluyen") durante el entrenamiento. El conjunto de datos de validación y el conjunto de datos de prueba son ejemplos de datos de exclusión. Los datos de exclusión ayudan a evaluar la capacidad del modelo para realizar generalizaciones con respecto a datos que no sean los datos con los que se entrenó. La pérdida en el conjunto de exclusión proporciona una mejor estimación de la pérdida en un conjunto de dados nunca antes vistos que la pérdida en el conjunto de entrenamiento.

hiperparámetro (hyperparameter)

Las "perillas" que los usuarios ajustan durante ejecuciones sucesivas de entrenamiento de un modelo. Por ejemplo, una tasa de aprendizaje es un hiperparámetro.

Compara esto con el parámetro.

hiperplano (hyperplane)

Límite que separa un espacio en dos subespacios. Por ejemplo, una línea es un hiperplano en dos dimensiones y un plano es un hiperplano en tres dimensiones. En el aprendizaje automático, un hiperplano generalmente es el límite que separa un espacio de dimensiones altas. Las máquinas de vectores soporte de Kernel usan hiperplanos para separar las clases positivas de las negativas, frecuentemente en un espacio de dimensiones muy altas.

I

independiente e idénticamente distribuido (i.i.d, independently and identically distributed)

Datos que se obtienen de una distribución que no cambia y en los que cada valor obtenido no depende de valores que se obtuvieron anteriormente. Los datos i.i.d. son el gas ideal del aprendizaje automático; son una construcción matemática útil pero casi nunca se encuentran exactamente en el mundo real. Por ejemplo, la distribución de los visitantes de una página web pueden ser datos i.i.d. en una ventana de tiempo breve, es decir, la distribución no cambia durante esa ventana breve y la visita de una persona por lo general es independiente de la visita de otra. Sin embargo, si amplías esa ventana de tiempo, pueden aparecer las diferencias por temporadas en los visitantes de la página web.

inferencia (inference)

En aprendizaje automático, suele hacer referencia al proceso de realizar predicciones mediante la aplicación del modelo entrenado a ejemplos sin etiqueta. En estadística, la inferencia se refiere al proceso de ajustar los parámetros de una distribución condicionada a algunos datos observados. (Consulta el artículo de Wikipedia sobre inferencia estadística).

atributo de entrada (input function)

En TensorFlow, atributo que devuelve datos de entrada al método de entrenamiento, evaluación o predicción de un estimador. Por ejemplo, el atributo de entrada de entrenamiento devuelve un lote de atributos y etiquetas del conjunto de entrenamiento.

capa de entrada (input layer)

La primera capa (aquella que recibe los datos de entrada) de una red neuronal.

instancia (instance)

Sinónimo de ejemplo.

interpretabilidad (interpretability)

Capacidad de explicar fácilmente las predicciones de un modelo. Los modelos profundos suelen ser no interpretables, es decir, las diferentes capas de un modelo profundo pueden ser difíciles de descifrar. Por el contrario, los modelos de regresión lineal y los modelos amplios generalmente son mucho más interpretables.

acuerdo entre evaluadores (inter-rater agreement)

Medida de la frecuencia con la que los evaluadores humanos están de acuerdo al realizar una tarea. Si los evaluadores no están de acuerdo, es posible que las instrucciones de la tarea se deban mejorar. En algunas ocasiones, también se denomina acuerdo entre anotadores o fiabilidad entre evaluadores. Consulta también el coeficiente kappa de Cohen, que es una de las mediciones del acuerdo entre evaluadores más populares.

iteración (iteration)

Una sola actualización de los pesos de un modelo durante el entrenamiento. Una iteración consiste en el cómputo de los gradientes de los parámetros con respecto a la pérdida en un solo lote de datos.

K

k-medios (k-means)

Algoritmo de agrupamiento popular que agrupa ejemplos en el aprendizaje no supervisado. El algoritmo k-medios básicamente hace lo siguiente:

  • Determina de forma iterativa los mejores puntos centrales k (conocidos como centroides).
  • Asigna cada ejemplo al centroide más cercano. Los ejemplos más cercanos al mismo centroide pertenecen al mismo grupo.

El algoritmo k-medios selecciona las ubicaciones del centroide para minimizar el cuadrado acumulativo de las distancias desde cada ejemplo hasta su centroide más cercano.

Por ejemplo, considera la siguiente representación de altura y ancho de perro:

image/svg+xml 50 or so examples along a two-dimensional graph. altura anchura

Si k=3, el algoritmo k-medios determinará tres centroides. Cada ejemplo se asigna a su centroide más cercano, lo que produce tres grupos:

image/svg+xml The same 50 examples clustered into 3 groups. altura anchura centroide clúster 1 clúster 2 clúster 3

Supongamos que un fabricante quiere determinar los tamaños ideales de suéteres pequeños, medianos y grandes para perros. Los tres centroides identifican la altura media y el ancho medio de cada perro en ese grupo. Por lo tanto, el fabricante debería basar los tamaños de suéter en esos tres centroides. Ten en cuenta que el centroide de un clúster no suele ser un ejemplo del clúster.

En las ilustraciones anteriores se muestra el algoritmo k-medios para ejemplos con solo dos atributos (alto y ancho). Ten en cuenta que k-medios puede agrupar ejemplos en muchos atributos.

k-mediana (k-median)

Algoritmo de agrupamiento estrechamente relacionado con k-medios. La diferencia práctica entre los dos es la siguiente:

  • En k-medios, los centroides se determinan minimizando la suma de los cuadrados de la distancia entre un centroide candidato y cada uno de sus ejemplos.
  • En k-mediana, los centroides se determinan minimizando la suma de la distancia entre un centroide candidato y cada uno de sus ejemplos.

Ten en cuenta que las definiciones de distancia también son diferentes:

  • k-medios se basa en la distancia euclidiana del centroide a un ejemplo. (En dos dimensiones, la distancia euclidiana significa usar el teorema de Pitágoras para calcular la hipotenusa). Por ejemplo, la distancia de k-medios entre (2,2) y (5,-2) sería:
$$ {\text{distancia euclidiana}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$
  • k-mediana se basa en la distancia Manhattan del centroide a un ejemplo. Esta distancia es la suma de los deltas absolutos en cada dimensión. Por ejemplo, la distancia k-mediana entre (2,2) y (5, -2) sería:
$$ {\text{distancia Manhattan}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

Keras

API de aprendizaje automático muy utilizada de Python. Keras se ejecuta en diversos entornos de aprendizaje profundo, incluido TensorFlow, donde está disponible como tf.keras.

máquinas de vectores soporte de Kernel (KSVM, Kernel Support Vector Machines)

Algoritmo de clasificación que busca maximizar el margen entre las clases positiva y negativa mediante la proyección de vectores de datos de entrada a un espacio de dimensiones más altas. Por ejemplo, considera un problema de clasificación en el que el conjunto de datos de entrada consta de cien atributos. Para maximizar el margen entre las clases positiva y negativa, las KSVM pueden asignar internamente esos atributos a un espacio de un millón de dimensiones. Las KSVM usan un atributo de pérdida denominado pérdida de bisagra.

L

Pérdida L1 (L1 loss)

Atributo de pérdida que se basa en el valor absoluto de la diferencia entre los valores que está prediciendo un modelo y los valores reales de las etiquetas. La pérdida L1 es menos sensible a los valores atípicos que la pérdida L2.

regularización L1 (L1 regularization)

Tipo de regularización que penaliza los pesos en proporción a la suma de los valores absolutos de los pesos. En los modelos que se basan en atributos dispersos, la regularización L1 ayuda a acercar los pesos de los atributos irrelevantes o poco relevantes a 0, con lo cual esos atributos se quitan del modelo. Compara esto con la regularización L2.

Pérdida L2 (L2 loss)

Consulta la pérdida al cuadrado.

regularización L2 (L2 regularization)

Tipo de regularización que penaliza los pesos en proporción a la suma de los cuadrados de los pesos. La regularización L2 ayuda a llevar los pesos de valores atípicos (aquellos con valores negativos bajos o positivos altos) más cerca del 0, pero no exactamente a ese número. (Compara esto con la regularización L1). La regularización L2 siempre mejora la regularización en los modelos lineales.

etiqueta (label)

En el aprendizaje supervisado, parte de "respuesta" o "resultado" de un ejemplo. Cada ejemplo de un conjunto de datos etiquetado consiste en uno o más atributos y una etiqueta. Por ejemplo, en un conjunto de datos de casas, los atributos pueden incluir el número de habitaciones, el número de baños y la antigüedad de la propiedad, mientras que la etiqueta puede ser el precio del inmueble. En un conjunto de datos de detección de spam, los atributos pueden incluir el asunto, el remitente y el mensaje de correo electrónico en sí, mientras que la etiqueta probablemente sería "es spam" o "no es spam".

ejemplo etiquetado (labeled example)

Ejemplo que contiene atributos y una etiqueta. En el entrenamiento supervisado, los modelos aprenden de los ejemplos etiquetados.

lambda

Sinónimo de tasa de regularización.

(Este es un término sobrecargado. Aquí nos centramos en la definición del término dentro de la regularización).

capa (layer)

Conjunto de neuronas en una red neuronal que procesan atributos de entrada, o el resultado de esas neuronas.

Además, es una abstracción en TensorFlow. Las capas son atributos de Python que toman tensores y opciones de configuración como entrada y producen otros tensores como resultado. Una vez que se componen los tensores necesarios, el usuario puede convertir el resultado en un estimador a través de un atributo del modelo.

API de capas (tf.layers) (Layers API)

API de TensorFlow para construir una red neuronal profunda como una composición de capas. Permite desarrollar diferentes tipos de capas, como las siguientes:

Al escribir un estimador personalizado, compones objetos de capas para definir las características de todas las capas ocultas.

La API de capas sigue las convenciones de la API de capas de Keras. Esto significa que, aparte de un prefijo diferente, todos los atributos de la API de capas tienen los mismos nombres y firmas que sus contrapartes en la API de capas de Keras.

tasa de aprendizaje (learning rate)

Escalar que se usa para entrenar un modelo a través del descenso de gradientes. Durante cada iteración, el algoritmo de descenso de gradientes multiplica la tasa de aprendizaje por el gradiente. El producto resultante se denomina paso de gradiente.

La tasa de aprendizaje es un hiperparámetro fundamental.

regresión de mínimos cuadrados (least squares regression)

Modelo de regresión lineal entrenado mediante la minimización de la pérdida L2.

regresión lineal (linear regression)

Tipo de modelo de regresión que da como resultado un valor continuo a partir de una combinación lineal de atributos de entrada.

regresión logística (logistic regression)

Modelo que genera una probabilidad para cada valor de etiqueta discreto posible en problemas de clasificación al aplicar una función sigmoide a una predicción lineal. Si bien la regresión logística suele usarse en problemas de clasificación binaria, también se puede utilizar en problemas de clasificación de clases múltiples (en los que se denomina regresión logística de clases múltiples o regresión multinomial).

logit

Vector de predicciones sin procesar (no normalizadas) que genera un modelo de clasificación, que comúnmente se pasa a una función de normalización. Si el modelo está resolviendo un problema de clasificación de clases múltiples, los logits generalmente se convierten en una entrada para el atributo de softmax, que luego genera un vector de probabilidades (normalizadas) con un valor para cada clase posible.

Además, en ocasiones los logits se refieren al elemento inverso de la función sigmoide. Para obtener más información, consulta tf.nn.sigmoid_cross_entropy_with_logits.

pérdida logística (log loss)

Atributo de pérdida que se usa en la regresión logística binaria.

logaritmo de probabilidad (log-odds)

Logaritmo de las probabilidades de que ocurra algún evento.

Si el evento se refiere a una probabilidad binaria, entonces las probabilidades se refieren a la relación entre la probabilidad de éxito (p) y la de fracaso (1-p). Por ejemplo, supongamos que un evento dado tiene un 90% de probabilidad de éxito y un 10% de fracaso. En este caso, las probabilidades se calculan de la siguiente manera:

$$ {\text{probabilidades}} = \frac{\text{p}} {\text{(1-p)}} = \frac{.9} {.1} = {\text{9}} $$

El logaritmo de probabilidad es, simplemente, el logaritmo de las probabilidades. Por convención, "logaritmo" se refiere al logaritmo natural, pero en realidad podría ser cualquier base superior a 1. De acuerdo con la convención, el logaritmo de probabilidad de nuestro ejemplo es:

$$ {\text{logaritmo de probabilidad}} = ln(9) ~= 2.2 $$

Los logaritmos de probabilidad son el inverso de la función sigmoide.

pérdida (loss)

Medición de la distancia entre las predicciones de un modelo y su etiqueta. Para describirla de manera más pesimista, se trata de una medición de qué tan malo es el modelo. Para determinar este valor, un modelo debe definir un atributo de pérdida. Por ejemplo, los modelos de regresión lineal generalmente usan el error cuadrático medio para un atributo de pérdida, mientras que los de regresión logística usan la pérdida logística.

M

aprendizaje automático (machine learning)

Programa o sistema que desarrolla (entrena) un modelo predictivo a partir de datos de entrada. El sistema usa el modelo aprendido para realizar predicciones útiles a partir de datos nuevos (nunca antes vistos) obtenidos de la misma distribución que la que se usó para entrenar el modelo. El aprendizaje automático también se conoce como el campo de estudio relacionado con estos programas o sistemas.

error cuadrático medio (MSE, mean squared error)

Promedio de la pérdida al cuadrado de cada ejemplo. El error cuadrático medio se calcula dividiendo la pérdida al cuadrado por el número de ejemplos. Los valores que muestra TensorFlow Playground para la "pérdida de entrenamiento" y la "pérdida de prueba" son errores cuadráticos medios.

métrica (metric)

Número de gran interés. Puede optimizarse directamente o no en un sistema de aprendizaje automático. Una métrica que el sistema intenta optimizar se denomina un objetivo.

API de métricas (tf.metrics) (Metrics API)

API de TensorFlow para evaluar modelos. Por ejemplo, tf.metrics.accuracy determina con qué frecuencia coinciden las predicciones de un modelo con las etiquetas. Al escribir un Estimador personalizado, invocas los atributos de la API de Metrics para especificar cómo se debe evaluar el modelo.

minilote (mini-batch)

Subconjunto pequeño seleccionado al azar de entre todo el lote de ejemplos que se ejecuta junto en una sola iteración de entrenamiento o inferencia. El tamaño del lote de un minilote generalmente es entre 10 y 1,000. Es mucho más eficaz calcular la pérdida en un minilote que en todos los datos de entrenamiento.

descenso de gradientes estocástico (SGD) de minilote (mini-batch stochastic gradient descent, SGD)

Algoritmo de descenso de gradientes que usa minilotes. En otras palabras, el SGD de minilote estima el gradiente en función de un subconjunto pequeño de los datos de entrenamiento. El SGD convencional usa un minilote de tamaño 1.

AA (ML)

Abreviatura de aprendizaje automático.

modelo (model)

Representación de lo que un sistema de AA aprendió de los datos de entrenamiento. Este es un término sobrecargado que puede tener cualquiera de los siguientes dos significados relacionados:

  • El gráfico de TensorFlow que expresa la estructura de cómo se calculará una predicción
  • Los sesgos y los pesos particulares de ese gráfico de TensorFlow, que se determinan mediante entrenamiento.

atributo de modelo (model function)

Función dentro de un estimador que implementa entrenamiento, inferencias y evaluación de AA. Por ejemplo, la parte de entrenamiento de un atributo de modelo podría manejar tareas como definir la topología de una red neuronal profunda o identificar su función optimizadora. Cuando se utilizan Estimadores prediseñados, alguien ya escribió el atributo del modelo. Cuando se utilizan Estimadores personalizados, es necesario escribir el atributo del modelo.

Para obtener detalles sobre cómo escribir un atributo de modelo, consulta el artículo Cómo crear Estimadores personalizados.

entrenamiento de modelos (model training)

Proceso mediante el que se determina el mejor modelo.

momento (Momentum)

Algoritmo de descenso de gradientes sofisticado en el que un paso de aprendizaje depende no solo de la derivada en el paso actual, sino también de las derivadas de los pasos que lo anteceden inmediatamente. El momento implica calcular un promedio de movimiento ponderado exponencialmente de los gradientes en el tiempo, análogo al momento en física. En algunas ocasiones, el momento previene que el aprendizaje se atasque en mínimos locales.

clasificación de clases múltiples (multi-class classification)

Problemas de clasificación que distinguen entre más de dos clases. Por ejemplo, hay aproximadamente 128 especies de arces, de modo que un modelo que categorizara especies de arces sería de clases múltiples. A la inversa, un modelo que divida los correos electrónicos en solo dos categorías (es spam y no es spam) sería un modelo de clasificación binaria.

clasificación multinomial (multinomial classification)

Sinónimo de clasificación de clases múltiples.

N

trampa de N/A (NaN trap)

Cuando un número del modelo se vuelve N/A durante el entrenamiento, lo que causa que muchos otros números del modelo eventualmente se vuelvan un N/A.

N/A significa "No es un número".

clase negativa (negative class)

En la clasificación binaria, una clase se expresa como positiva y la otra como negativa. La clase positiva es lo que estamos buscando y la clase negativa es la otra posibilidad. Por ejemplo, la clase negativa en un examen médico puede ser "no es tumor". La clase negativa en un clasificador de correo electrónico puede ser "no es spam". Consulta también la clase positiva.

red neuronal (neural network)

Modelo que, inspirado en el cerebro, está compuesto de capas (al menos una de las cuales está oculta) que consisten en unidades conectadas simples o neuronas seguidas de no linealidades.

neurona (neuron)

Nodo en una red neuronal que generalmente toma varios valores de entrada y genera un valor de salida. La neurona calcula el valor de salida mediante la aplicación una función de activación (transformación no lineal) a una suma ponderada de valores de entrada.

nodo (node)

Término sobrecargado que significa una de las siguientes opciones:

normalización (normalization)

Proceso de convertir un rango real de valores en un rango estándar de valores, generalmente -1 a +1 o 0 a 1. Por ejemplo, imagina que el rango natural de un atributo específico es 800 a 6,000. A través de resta y división, puedes normalizar esos valores en el rango -1 a +1.

Consulta también ajuste.

datos numéricos (numerical data)

Atributos representados como números enteros o de valores reales. Por ejemplo, en un modelo de bienes raíces, probablemente representarías el tamaño de una casa (en pies cuadrados o metros cuadrados) como datos numéricos. La representación de un atributo como datos numéricos indica que los valores del atributo tienen una relación matemática entre sí y posiblemente con la etiqueta. Por ejemplo, la representación del tamaño de una casa como datos numéricos indica que una casa de 200 metros cuadrados es dos veces más grande que una casa de 100 metros cuadrados. Además, es probable que el número de metros cuadrados de una casa tenga una relación matemática con el precio de la casa.

No todos los datos de números enteros deben representarse como datos numéricos. Por ejemplo, los códigos postales de algunas partes del mundo son números enteros; sin embargo, los códigos postales de números enteros no deben representarse como datos numéricos en los modelos. Eso se debe a que un código postal de 20000 no es dos veces más (o menos) potente que un código postal de 10000. Además, aunque los diferentes códigos postales se correlacionan con diferentes valores de bienes raíces, no podemos suponer que los valores de bienes raíces en el código postal 20000 son dos veces más valiosos que los valores de bienes raíces en el código postal 10000. Por lo tanto, los códigos postales deben representarse como datos categóricos.

En algunas ocasiones, las funciones numéricas se denominan atributos continuos.

Numpy

Biblioteca matemática de código abierto que proporciona operaciones entre matrices eficaces en Python. Pandas se basa en Numpy.

O

objetivo (objective)

Métrica que tu algoritmo intenta optimizar.

inferencia sin conexión (offline inference)

Generación de un grupo de predicciones, su almacenamiento y la posterior recuperación de esas predicciones a demanda. Compara esto con la inferencia en línea.

codificación de un solo 1 (one-hot encoding)

Vector disperso con las siguientes características:

  • Un elemento se establece a 1.
  • El resto de los elementos se establecen como 0.

La codificación de un solo 1 se usa comúnmente para representar cadenas de caracteres o identificadores que tienen un conjunto finito de valores posibles. Por ejemplo, imagina que un determinado conjunto de datos sobre botánica registra 15,000 especies diferentes, cada una señalada con un identificador de cadenas de caracteres único. Como parte de la ingeniería de atributos, es probable que codifiques esos identificadores de cadenas de caracteres como vectores de un solo 1, en los que el vector tiene un tamaño de 15,000.

aprendizaje en un intento (one-shot learning)

Enfoque de aprendizaje automático que suele usarse para la clasificación de objetos y que está diseñado para aprender clasificadores efectivos a partir de un solo ejemplo de entrenamiento.

Consulta también aprendizaje en pocos intentos.

uno frente a todos (one-vs.-all)

En un problema de clasificación dado con N soluciones posibles, una solución de uno frente a todos consiste en N clasificadores binarios independientes, es decir, un clasificador binario para cada resultado posible. Por ejemplo, dado un modelo que clasifica ejemplos como animal, vegetal o mineral, una solución de uno frente a todos sería proporcionar los siguientes tres clasificadores binarios independientes:

  • animal frente a no animal
  • vegetal frente a no vegetal
  • mineral frente a no mineral

inferencia en línea (online inference)

Generación de predicciones a demanda. Compara esto con la inferencia sin conexión.

operación (op, Operation)

Nodo en el gráfico de TensorFlow. En TensorFlow, cualquier procedimiento que crea, manipula o destruye un tensor es una operación. Por ejemplo, una multiplicación de matrices es una operación que toma dos Tensors como entrada y genera un Tensor como resultado.

optimizador (optimizer)

Implementación específica del algoritmo de descenso de gradiente. La clase de base de TensorFlow para los optimizadores es tf.train.Optimizer. Es posible que diferentes optimizadores aprovechen uno o más de los siguientes conceptos para mejorar la efectividad del descenso de gradientes en un conjunto de entrenamiento dado:

  • momento (Momento)
  • frecuencia de actualización (AdaGrad = Descenso de GRADientes ADAptable; Adam = ADAptable con Momento; RMSProp)
  • dispersión/regularización (Ftrl)
  • matemática más compleja (Proximal y otras)

Incluso puedes imaginar un optimizador impulsado por NN.

valores atípicos (outliers)

Valores distantes de la mayoría de los demás valores. En el aprendizaje automático, cualquiera de los siguientes son valores atípicos:

  • Pesos con valores absolutos altos.
  • valores predichos relativamente alejados de los valores reales
  • datos de entrada cuyos valores son aproximadamente 3 desviaciones estándar de la media

Los valores atípicos suelen causar problemas en el entrenamiento del modelo.

capa de salida (output layer)

Capa "final" de una red neuronal. La capa que contiene las respuestas.

sobreajuste (overfitting)

Creación de un modelo que coincide de tal manera con los datos de entrenamiento que no puede realizar predicciones correctas con datos nuevos.

P

Pandas

API de análisis de datos orientada hacia las columnas. Muchos marcos de trabajo de AA, incluido TensorFlow, admiten las estructuras de datos de Pandas como entrada. Consulta la documentación de Pandas.

parámetro (parameter)

Variable de un modelo que el sistema de AA entrena por su cuenta. Por ejemplo, los pesos son parámetros que el sistema de AA aprende de forma gradual a través de sucesivas iteraciones de entrenamiento. Compara esto con el hiperparámetro.

Servidor de parámetros (PS, Parameter Server)

Tarea que mantiene un registro de los parámetros de un modelo en una configuración distribuida.

actualización de parámetros (parameter update)

Operación de ajustar los parámetros de un modelo durante el entrenamiento, generalmente dentro de una sola iteración de descenso de gradientes.

derivada parcial (partial derivative)

Derivada en la que todas menos una de las variables se consideran una constante. Por ejemplo, la derivada parcial de f(x, y) con respecto a x es la derivada de f, considerada como una función de x sola (es decir, y se mantiene constante). La derivada parcial de f con respecto a x se centra solamente en cómo cambia x e ignora todas las otras variables de la ecuación.

estrategia de partición (partitioning strategy)

Algoritmo por el que las variables se dividen en servidores de parámetros.

rendimiento (performance)

Término sobrecargado con los siguientes significados:

  • El significado tradicional dentro de la ingeniería de software. A saber: ¿Qué tan rápidamente (o eficazmente) se ejecuta este software?
  • El significado dentro del AA. Aquí, el rendimiento responde a la siguiente pregunta: ¿qué tan correcto es este modelo? Esto significa, ¿qué tan buenas son las predicciones del modelo?

perplejidad (perplexity)

Medición de qué tan bien está logrando su tarea el modelo. Por ejemplo, imagina que tu tarea es leer las primeras letras que un usuario está escribiendo en el teclado de un smartphone y ofrecer una lista de posibles palabras para completarlas. La perplejidad, P, para esta tarea es aproximadamente el número de hipótesis que debes ofrecer para que tu lista contenga la palabra real que el usuario intenta escribir.

La perplejidad está relacionada con la entropía cruzada de la siguiente manera:

$$P= 2^{-\text{entropía cruzada}}$$

canalización (pipeline)

Infraestructura que rodea un algoritmo de aprendizaje automático. Una canalización incluye la recopilación de los datos, la colocación de los datos en archivos de datos de entrenamiento, el entrenamiento de uno o más modelos y la exportación de los modelos para la producción.

reducción (pooling)

Reducir una matriz (o matrices) creada por una capa convolucional anterior a una matriz más pequeña. Por lo general, la reducción implica tomar el valor máximo o promedio en el área a ser reducida. Por ejemplo, supongamos que tenemos la siguiente matriz de 3 x 3:

Una operación de reducción, al igual que una convolucional, desliza esa matriz en porciones y luego divide esa operación convolucional en pasos de avance. Por ejemplo, supongamos que la operación de reducción desliza la matriz convolucional en porciones de 2 x 2 con un paso de avance de 1 x 1. Como se ilustra en el siguiente diagrama, se producen cuatro operaciones de reducción. Supongamos que cada operación de reducción elige el valor máximo de las cuatro en esa porción:

La reducción permite aplicar la invariancia traslacional en la matriz de entrada.

La reducción para aplicaciones de visión se conoce más formalmente como reducción espacial. Por lo general, las aplicaciones de series de tiempo se refieren a la reducción como reducción temporal. De manera menos formal, la reducción a menudo se denomina submuestreo o reducción de muestreo.

clase positiva (positive class)

En la clasificación binaria, las dos clases posibles se etiquetan como positiva y negativa. El resultado positivo es aquello que estamos probando. (Es cierto que simultáneamente estamos probando ambos resultados, pero sigamos el juego). Por ejemplo, la clase positiva en un examen médico puede ser "es tumor". La clase positiva en un clasificador de correo electrónico puede ser "es spam".

Compara esto con la clase negativa.

precisión (precision)

Métrica para los modelos de clasificación. La precisión identifica la frecuencia con la que un modelo predijo correctamente la clase positiva. Esto significa lo siguiente:

$$\text{Precisión} = \frac{\text{Verdaderos positivos}} {\text{Verdaderos positivos} + \text{Falsos positivos}}$$

predicción (prediction)

Resultado de un modelo cuando se le proporciona un ejemplo de entrada.

sesgo de predicción (prediction bias)

Valor que indica qué tan alejado está el promedio de predicciones del promedio de etiquetas en el conjunto de datos.

Estimador prediseñado (pre-made Estimator)

Estimador que alguien desarrolló. TensorFlow proporciona varios Estimadores prediseñados, incluidos DNNClassifier, DNNRegressor y LinearClassifier. Puedes crear tus propios Estimadores prediseñados a través de estas instrucciones.

modelo previamente entrenado (pre-trained model)

Modelos o componentes del modelo (como las incorporaciones) que ya se entrenaron. En algunas ocasiones, proporcionarás incorporaciones previamente entrenadas en una red neuronal. En otras, el modelo entrenará las incorporaciones por su cuenta en lugar de basarse en las incorporaciones previamente entrenadas.

conocimiento previo (prior belief)

Tu conocimiento acerca de los datos antes de que empieces a entrenarlos. Por ejemplo, la regularización L2 se basa en una idea anterior de que los pesos deben ser pequeños y, normalmente, estar distribuidos alrededor de cero.

Q

cola (queue)

Operación de TensorFlow que implementa una estructura de datos en cola. Por lo general se usa en Entrada/Salida.

R

rango (rank)

Término sobrecargado en AA que puede significar cualquiera de las siguientes opciones:

  • El número de dimensiones en un tensor. Por ejemplo, un escalar tiene rango 0, un vector tiene rango 1 y una matriz tiene rango 2.
  • La posición ordinal de una clase en un problema de AA que categoriza clases de la más alta a la más baja. Por ejemplo, un sistema de clasificación de conducta podría ordenar las recompensas para un perro de la más alta (un filete) a la más baja (un repollo marchitado).

evaluador (rater)

Persona que proporciona etiquetas para los ejemplos. También se lo denomina "anotador".

recuperación (recall)

Métrica para los modelos de clasificación que responde a la siguiente pregunta: de todas las etiquetas positivas posibles, ¿cuántas identificó correctamente el modelo? Esto significa lo siguiente:

$$\text{Recuperación} = \frac{\text{Verdaderos positivos}} {\text{Verdaderos positivos} + \text{Falsos negativos}} $$

unidad lineal rectificada (ReLU, Rectified Linear Unit)

Atributo de activación con las siguientes reglas:

  • Si la entrada es negativa o cero, el resultado es 0.
  • Si la entrada es positiva, el resultado es igual a la entrada.

modelo de regresión (regression model)

Tipo de modelo que da como resultado valores continuos (generalmente de punto flotante). Compara esto con los modelos de clasificación, que generalmente arrojan valores discretos, como "lirio de día" o "lirio atigrado".

regularización (regularization)

Penalización sobre la complejidad de un modelo. La regularización ayuda a prevenir el sobreajuste. Entre los diferentes tipos de regularización se incluyen los siguientes:

tasa de regularización (regularization rate)

Valor escalar, representado por lambda, que especifica la importancia relativa del atributo de regularización. La siguiente ecuación de pérdida simplificada muestra la influencia de la tasa de regularización:

$$\text{minimizar(atributo de pérdida + }\lambda\text{(atributo de regularización))}$$

Al aumentar la tasa de regularización, se reduce el sobreajuste, pero es posible que el modelo sea menos exacto.

representación (representation)

Proceso de asignar datos a atributos útiles.

curva de rendimiento diagnóstico (ROC, receiver operating characteristic)

Curva de la tasa de verdaderos positivos frente a la tasa de falsos positivos en diferentes umbrales de clasificación. Consulta también el AUC.

directorio raíz (root directory)

Directorio que especificas para alojar subdirectorios del control de TensorFlow y archivos de eventos de varios modelos.

error de la raíz cuadrada de la media (RMSE, Root Mean Squared Error)

Raíz cuadrada del error cuadrático medio.

invariancia rotacional (rotational invariance)

En un problema de clasificación de imágenes, es la capacidad de un algoritmo para clasificar correctamente imágenes, incluso cuando cambia la orientación de la imagen. Por ejemplo, el algoritmo puede identificar una raqueta de tenis aun si apunta hacia arriba, hacia los lados o hacia abajo. Tenga en cuenta que la invariancia rotacional no siempre es deseable; por ejemplo, un 9 al revés no debe clasificarse como un 9.

Consulta también invariancia traslacional o invariancia de tamaño.

S

SavedModel

El formato recomendado para guardar y recuperar modelos de TensorFlow. SavedModel es un formato de serialización recuperable y neutral con respecto al lenguaje que permite que las herramientas y los sistemas de nivel superior produzcan, consuman y transformen modelos de TensorFlow.

Para obtener información completa, consulta la sección sobre cómo guardar y restaurar en la Guía para programadores de TensorFlow.

Saver

Un objeto de TensorFlow responsable de guardar controles del modelo.

ajuste (scaling)

Práctica que se usa comúnmente en la ingeniería de atributos para acotar el rango de valores de un atributo a fin de que coincida con el rango de los otros atributos en el conjunto de datos. Por ejemplo, imagina que quieres que todos los atributos de punto flotante en el conjunto de datos tengan un rango de 0 a 1. Dado el rango de un atributo en particular de 0 a 500, podrías ajustar ese atributo al dividir cada valor por 500.

Consulta también la normalización.

scikit-learn

Plataforma popular de AA de código abierto. Consulta www.scikit-learn.org.

aprendizaje semisupervisado (semi-supervised learning)

Entrenamiento de un modelo sobre datos en el que algunos de los ejemplos de entrenamiento tienen etiquetas, pero otros no. Una técnica del aprendizaje semisupervisado es inferir etiquetas para los ejemplos no etiquetados y entrenar sobre las etiquetas inferidas para crear un modelo nuevo. El aprendizaje semisupervisado puede ser útil si es costoso obtener las etiquetas, aun cuando los ejemplos no etiquetados son abundantes.

modelo de secuencia (sequence model)

Modelo cuyas entradas tienen una dependencia secuencial. Por ejemplo, la predicción del siguiente video mirado de una secuencia de videos mirados anteriormente.

sesión (session-tf.session)

Objeto que encapsula el estado del tiempo de ejecución de TensorFlow y ejecuta todo o parte de un gráfico. Al usar la API de TensorFlow de bajo nivel, uno crea y administra uno o mas objetos tf.session de forma directa. Al usar la API de Estimators, son los Estimadores los que crean instancias de objetos de sesión.

atributo sigmoide (sigmoid function)

Atributo que asigna resultados de regresión multinomial o logística (probabilidades logísticas) a probabilidades, y devuelve un valor entre 0 y 1. El atributo sigmoide tiene la siguiente fórmula:

$$y = \frac{1}{1 + e^{-\sigma}}$$

donde \(\sigma\) en los problemas de regresión logística es simplemente:

$$\sigma = b + w_1x_1 + w_2x_2 + … w_nx_n$$

En otras palabras, el atributo sigmoide convierte \(\sigma\) en una probabilidad entre 0 y 1.

En algunas redes neuronales, el atributo sigmoide actúa como atributo de activación.

invariancia de tamaño (size invariance)

En un problema de clasificación de imágenes, la capacidad de un algoritmo para clasificar correctamente imágenes, incluso cuando cambia el tamaño de la imagen. Por ejemplo, el algoritmo aún puede identificar a un gato si consume 2M píxeles o 200K píxeles. Tengamos en cuenta que incluso los mejores algoritmos de clasificación de imágenes tienen límites prácticos sobre la invariancia de tamaño. Por ejemplo, es poco probable que un algoritmo (o persona) clasifique correctamente una imagen de gato que consuma solo 20 píxeles.

Consulta también invariancia traslacional o invariancia rotacional.

softmax

Función que proporciona probabilidades para cada clase posible en un modelo de clasificación de clases múltiples. Las probabilidades suman exactamente 1.0. Por ejemplo, softmax puede determinar la probabilidad de que una imagen en particular sea un perro en 0.9, un gato en 0.08 y un caballo en 0.02. (Esto también se denomina softmax completo).

Compara esto con el muestreo de candidatos.

atributo disperso (sparse feature)

Vector de atributos cuyos valores son predominantemente cero o están vacíos. Por ejemplo, un vector que contiene un solo valor de 1 y un millón de valores de 0 es disperso. Otro ejemplo, las palabras de una búsqueda también podrían ser un atributo disperso; existen muchas palabras posibles en un idioma determinado, pero solo algunas de ellas aparecen en una búsqueda específica.

Compara esto con el atributo denso.

representación dispersa (sparse representation)

Representación de un tensor que solo almacena elementos distintos de cero.

Por ejemplo, el idioma inglés tiene aproximadamente un millón de palabras. Podemos considerar dos formas de representar un recuento de las palabras usadas en una oración en inglés:

  • Una representación densa de esta oración debe establecer un número entero para el millón de celdas, colocando un 0 en la mayoría de ellas y un entero bajo en algunas de ellas.
  • Una representación dispersa de esta oración almacena solo las celdas que realmente simbolizan una palabra de la oración. Por lo tanto, si la oración solo contenía 20 palabras únicas, la representación dispersa para la oración almacenaría un entero en solo 20 celdas.

Por ejemplo, considera dos formas de representar la oración en inglés "Dogs wag tails". Como muestran las siguientes tablas, la representación densa consume alrededor de un millón de celdas, mientras que la dispersa solo consume 3:

Representación densa
Numero de celda Palabra Ocurrencia
0 a 0
1 aardvark 0
2 aargh 0
3 aarti 0
… 140,391 palabras más con una ocurrencia de 0
140,395 dogs 1
… 633,062 palabras con una ocurrencia de 0
773,458 tails 1
… 189,136 palabras con una incidencia de 0
962,594 wag 1
… muchas más palabras con una ocurrencia de 0
Representación dispersa
Numero de celda Palabra Ocurrencia
140,395 dogs 1
773,458 tails 1
962,594 wag 1

dispersión (sparsity)

Cantidad de elementos establecidos en cero (o nulo) en un vector o matriz dividido por el número total de entradas en ese elemento. Por ejemplo, considera una matriz de 10 x 10 en la que 98 celdas contienen cero. El cálculo de dispersión es el siguiente:

$$ {\text{dispersión}} = \frac{\text{98}} {\text{100}} = {\text{0.98}} $$

La dispersión de atributos hace referencia a la dispersión de un vector de atributos, mientras que la dispersión de modelos se refiere a la dispersión de los pesos del modelo.

reducción espacial (spatial pooling)

Consulta reducción.

pérdida de bisagra al cuadrado (squared hinge loss)

Cuadrado de la pérdida de bisagra. La pérdida de bisagra al cuadrado penaliza los valores atípicos de manera más severa que la pérdida de bisagra normal.

pérdida al cuadrado (squared loss)

Atributo de pérdida que se usa en regresión lineal. (También se conoce como pérdida L2). Este atributo calcula los cuadrados de la diferencia entre el valor predicho por un modelo para un ejemplo etiquetado y el valor real de la etiqueta. Debido al componente cuadrático, este atributo de pérdida amplifica la influencia de las predicciones erróneas. Es decir, la pérdida al cuadrado reacciona de manera más severa a los valores atípicos que la pérdida L1.

modelo estático (static model)

Modelo que se entrena sin conexión.

estacionariedad (stationarity)

Propiedad de los datos en un conjunto en la que la distribución de los datos se mantiene constante en una o más dimensiones. Lo más común es que esa dimensión sea el tiempo, lo que significa que los datos que muestran estacionariedad no cambian en el tiempo. Por ejemplo, los datos que muestran estacionariedad no cambian de septiembre a diciembre.

paso (step)

Evaluación hacia adelante y hacia atrás de un lote.

tamaño del paso (step size)

Sinónimo de tasa de aprendizaje.

descenso de gradientes estocástico (SGD, stochastic gradient descent)

Algoritmo de descenso de gradientes en el que el tamaño del lote es uno. En otras palabras, el SGD se basa en un solo ejemplo elegido al azar de un conjunto de datos de maera uniforme para calcular una estimación del gradiente en cada paso.

minimización del riesgo estructural (SRM, structural risk minimization)

Algoritmo que equilibra dos objetivos:

  • el deseo de desarrollar el modelo más predictivo (por ejemplo, la pérdida más baja)
  • El deseo de mantener el modelo lo más simple posible (por ejemplo, una regularización estricta)

Por ejemplo, un atributo que minimiza la pérdida + regularización en el conjunto de entrenamiento es un algoritmo de minimización del riesgo estructural.

Para obtener más información, consulta http://www.svms.org/srm/.

Compara esto con la minimización del riesgo empírico.

segmento (stride)

En una operación convolucional o de reducción, el delta en cada dimensión de la siguiente serie de porciones de entrada. Por ejemplo, la siguiente animación muestra un segmento (1,1) durante una operación convolucional. Por lo tanto, la siguiente porción de entrada comienza una posición a la derecha de la porción de entrada anterior. Cuando la operación alcanza el borde derecho, la siguiente porción se posiciona completamente a la izquierda, pero una posición hacia abajo.

El ejemplo anterior muestra un segmento bidimensional. Si la matriz de entrada es tridimensional, el segmento también tendría ese formato.

submuestreo (subsampling)

Consulta reducción.

resumen (summary)

En TensorFlow, valor o conjunto de valores que se calcula en cada paso, generalmente se usa para realizar un seguimiento de las métricas del modelo durante el entrenamiento.

aprendizaje automático supervisado (supervised machine learning)

Entrenamiento de un modelo a partir de datos de entrada y sus etiquetas correspondientes. El aprendizaje automático supervisado es análogo a un estudiante que aprende una materia al estudiar un conjunto de preguntas y sus respuestas correspondientes. Después de dominar la asignación entre preguntas y respuestas, el estudiante puede proporcionar respuestas a preguntas nuevas (nunca antes vistas) sobre el mismo tema. Compara esto con el aprendizaje automático no supervisado.

atributo sintético (synthetic feature)

Atributo que no está presente entre los atributos de entrada, pero que se deriva de uno o más de ellos. Entre los tipos de atributos sintéticos, se incluyen los siguientes:

  • Agrupamiento de un atributo continuo en discretizaciones de rango
  • Multiplicación (o división) de un atributo por otros atributos o por sí mismo
  • Creación de una combinación de funciones

Los atributos que se crean mediante la normalización o el ajuste solos no se consideran atributos sintéticos.

T

target

Sinónimo de etiqueta.

datos temporales (temporal data)

Datos registrados en diferentes puntos en el tiempo. Por ejemplo, las ventas de abrigos de invierno registradas para cada día del año serían datos temporales.

Tensor

La principal estructura de datos en los programas de TensorFlow. Los tensores tienen estructuras de datos de N dimensiones (donde N podría ser muy grande), comúnmente escalares, vectores o matrices. Los elementos de un tensor pueden tener valores enteros, de punto flotante o de una cadena de caracteres.

Unidad de procesamiento de tensor (TPU, Tensor Processing Unit)

ASIC (circuito integrado específico de la aplicación) que optimiza el rendimiento de los programas de TensorFlow.

Rango de tensor (Tensor rank)

Consulta rango.

Forma de tensor (Tensor shape)

Número de elementos que contiene un tensor en distintas dimensiones. Por ejemplo, un Tensor de [5, 10] tiene una forma de 5 en una dimensión y de 10 en la otra.

Tamaño de tensor (Tensor size)

Número total de escalares que contiene un tensor. Por ejemplo, un Tensor de [5, 10] tiene un tamaño de 50.

TensorBoard

Panel que muestra los resúmenes generados durante la ejecución de uno o más programas de TensorFlow.

TensorFlow

Plataforma de aprendizaje automático distribuida a gran escala. El término también se refiere a la capa base de la API en la pila de TensorFlow, que admite cálculos generales en gráficos de flujo de datos.

Aunque TensorFlow se usa principalmente para el aprendizaje automático, también puedes usarlo para tareas que no sean de AA que requieran cómputo numérico a través de gráficos de flujo de datos.

TensorFlow Playground

Programa que visualiza cómo los diferentes hiperparámetros influyen en el entrenamiento del modelo (principalmente en las redes neuronales). Para probar TensorFlow Playground, visita http://playground.tensorflow.org.

TensorFlow Serving

Plataforma para implementar modelos entrenados en producción.

conjunto de prueba (test set)

Subconjunto dentro del conjunto de datos que se usa para probar un modelo después de que este pasó por la evaluación inicial a través del conjunto de validación.

Compara esto con el conjunto de entrenamiento y el conjunto de validación.

tf.Example

Búfer de protocolo estándar que se usa para describir datos de entrada para el entrenamiento o la inferencia de modelos de aprendizaje automático.

análisis de series temporales (time series analysis)

Subcampo del aprendizaje automático y la estadística que analiza datos temporales. Muchos tipos de problemas de aprendizaje automático requieren un análisis de series temporales, que incluye clasificación, agrupación en clústeres, previsión y detección de anomalías. Por ejemplo, puedes usar el análisis de series temporales para predecir las ventas futuras de abrigos de invierno por mes en función de los datos de ventas históricos.

entrenamiento (training)

Proceso de determinar los parámetros ideales que conforman un modelo.

conjunto de entrenamiento (training set)

Subconjunto del conjunto de datos que se usa para entrenar un modelo.

Compara esto con el conjunto de validación y el conjunto de prueba.

aprendizaje por transferencia (transfer learning)

Transferencia de información de una tarea de aprendizaje automático a otra. Por ejemplo, en el aprendizaje de tareas múltiples, un solo modelo resuelve varias tareas, como en el caso de un modelo profundo que tiene diferentes nodos de resultados para las distintas tareas. El aprendizaje por transferencia puede implicar la transferencia de conocimientos desde la solución de una tarea más simple hasta otra más compleja, o la transferencia de conocimientos de una tarea en la que hay más datos a otra en la que hay menos.

La mayoría de los sistemas de aprendizaje automático resuelven una única tarea. El aprendizaje por transferencia es un paso inicial hacia la inteligencia artificial, en la que un solo programa puede resolver múltiples tareas.

invariancia traslacional (traslational invariance)

En un problema de clasificación de imágenes, es la capacidad de un algoritmo para clasificar correctamente imágenes, incluso cuando cambia la posición de los objetos dentro de la imagen. Por ejemplo, el algoritmo aún puede identificar un perro, ya sea en el centro del marco o en el extremo izquierdo de este.

Consulta también invariancia de tamaño o invariancia rotacional.

verdadero negativo (VN) (TN, true negative)

Un ejemplo en el que el modelo predijo correctamente la clase negativa. Por ejemplo, el modelo infirió que un mensaje de correo electrónico en particular no era spam y realmente no lo era.

verdadero positivo (VP) (TP, true positive)

Ejemplo en el que el modelo predijo correctamente la clase positiva. Por ejemplo, el modelo infirió que un mensaje de correo electrónico en particular era spam y realmente lo era.

tasa de verdaderos positivos (tasa de VP) (true positive rate, TP rate)

Sinónimo de recuperación. Esto significa lo siguiente:

$$\text{Tasa de verdaderos positivos} = \frac{\text{Verdaderos positivos}} {\text{Verdaderos positivos} + \text{Falsos negativos}}$$

La tasa de verdaderos positivos es el eje y en una curva ROC.

U

ejemplo sin etiqueta (unlabeled example)

Ejemplo que contiene atributos, pero no etiqueta. Los ejemplos sin etiqueta son la entrada para la inferencia. En el aprendizaje semisupervisado y no supervisado, los ejemplos sin etiqueta se usan durante el entrenamiento.

aprendizaje automático no supervisado (unsupervised machine learning)

Entrenamiento de un modelo para encontrar patrones en un conjunto de datos, generalmente sin etiqueta.

El uso más común del aprendizaje automático no supervisado es la agrupación de los datos en clústeres de ejemplos similares. Por ejemplo, un algoritmo de aprendizaje automático no supervisado puede agrupar canciones en función de distintas propiedades de la música. Los clústeres resultantes pueden usarse como entrada para otros algoritmos de aprendizaje automático (por ejemplo, para un servicio de recomendaciones de música). La agrupación en clústeres puede ser útil en dominios donde las etiquetas verdaderas son difíciles de obtener. Por ejemplo, en dominios como la protección contra el abuso y el fraude, los clústeres pueden ayudar a los humanos a comprender mejor los datos.

Otro caso de aprendizaje automático no supervisado es el análisis de componentes principales (ACP). Por ejemplo, la aplicación de ACP en un conjunto de datos acerca del contenido de millones de carritos de compras podría revelar que los carritos de compras que contienen limones con frecuencia también contienen antiácidos.

Compara esto con el aprendizaje automático supervisado.

V

conjunto de validación (validation set)

Subconjunto del conjunto de datos, separado del conjunto de entrenamiento, que se usa para ajustar hiperparámetros.

Compara esto con el conjunto de entrenamiento y el conjunto de prueba.

W

Peso (weight)

Coeficiente para un atributo en un modelo lineal o una conexión en una red profunda. El objetivo de entrenar un modelo lineal es determinar el peso ideal para cada atributo. Si un peso es 0, su atributo correspondiente no contribuye al modelo.

modelo amplio (wide model)

Modelo lineal que generalmente tiene muchos atributos de entrada dispersos. Se hace referencia a este modelo como "amplio" porque se trata de un tipo especial de red neuronal con un alto número de entradas que se conectan directamente con el nodo de resultado. Con frecuencia, los modelos amplios son más fáciles de inspeccionar y depurar que los modelos profundos. Si bien los modelos amplios no pueden expresar no linealidades a través de capas ocultas, pueden usar transformaciones, como la combinación de atributos y agrupamiento para modelar no linealidades de diferentes maneras.

Compara esto con el modelo profundo.

Enviar comentarios sobre…

Glosario sobre aprendizaje automático