Organiza tus páginas con colecciones
Guarda y categoriza el contenido según tus preferencias.
Imagina que estás desarrollando una aplicación que recomienda comidas.
Un usuario ingresa sus comidas favoritas y la app le sugiere opciones similares
que podrían gustarle. Quieres desarrollar un modelo de aprendizaje automático (AA)
que pueda predecir comidas similares, de modo que tu app pueda brindar recomendaciones
de alta calidad ("Como te gustan los panqueques, te recomendamos los crepes").
Para entrenar tu modelo, seleccionas un conjunto de datos de 5,000 comidas
populares, incluidas borscht,
perro caliente,
ensalada,
pizza
y shawarma.
Figura 1. Ejemplo de comidas incluidas en el conjunto de datos correspondiente.
Crea una función meal que contenga una representación de
codificación one-hot
de cada una de las comidas del conjunto de datos.
La codificación hace referencia al proceso de
elegir una representación numérica inicial de datos para entrenar el modelo.
Figura 2. Codificaciones one-hot de borscht, perro caliente y shawarma.
Cada vector de codificación one-hot tiene una longitud de 5,000 (una entrada por cada
elemento del menú del conjunto de datos). La elipsis del diagrama representa
las 4,995 entradas que no se muestran.
Dificultades de las representaciones de datos dispersas
Si revisas estas codificaciones one-hot, observarás que la
representación de los datos presenta varios problemas.
Cantidad de pesos. Los vectores de entradas grandes representan una gran cantidad de
pesos
para una red neuronal.
Con M entradas en tu codificación one-hot y N
nodos en la primera capa de la red después de la entrada, el modelo tiene que entrenar
MxN pesos para esa capa.
Cantidad de datos. Cuantos más pesos tenga tu modelo, más datos
se necesitarán para entrenarlo de manera eficaz.
Cantidad de procesamiento. Cuantos más pesos, más procesamiento se necesita
para entrenar y usar el modelo. Esto puede hacer que se supere fácilmente la capacidad del
hardware.
Cantidad de memoria. Cuantos más pesos tenga tu modelo, más memoria
se necesitará en los aceleradores para entrenarlo y ponerlo en producción. Escalar esto
de manera eficiente es muy difícil.
Dificultad para admitir
aprendizaje automático en el dispositivo (ODML).
Si esperas ejecutar tu modelo de AA en dispositivos locales (en lugar de
publicarlo), deberás reducir la cantidad de pesos del modelo.
En este módulo, aprenderás a crear embeddings, es decir, representaciones
de menos dimensiones de datos dispersos que resuelven esos problemas.
[[["Fácil de comprender","easyToUnderstand","thumb-up"],["Resolvió mi problema","solvedMyProblem","thumb-up"],["Otro","otherUp","thumb-up"]],[["Falta la información que necesito","missingTheInformationINeed","thumb-down"],["Muy complicado o demasiados pasos","tooComplicatedTooManySteps","thumb-down"],["Desactualizado","outOfDate","thumb-down"],["Problema de traducción","translationIssue","thumb-down"],["Problema con las muestras o los códigos","samplesCodeIssue","thumb-down"],["Otro","otherDown","thumb-down"]],["Última actualización: 2025-05-16 (UTC)"],[[["This module explains how to create embeddings, which are lower-dimensional representations of sparse data that address the problems of large input vectors and lack of meaningful relations between vectors in one-hot encoding."],["One-hot encoding creates large input vectors, leading to a huge number of weights in a neural network, requiring more data, computation, and memory."],["One-hot encoding vectors lack meaningful relationships, failing to capture semantic similarities between items, like the example of hot dogs and shawarmas being more similar than hot dogs and salads."],["Embeddings offer a solution by providing dense vector representations that capture semantic relationships and reduce the dimensionality of data, improving efficiency and performance in machine learning models."],["This module assumes familiarity with introductory machine learning concepts like linear regression, categorical data, and neural networks."]]],[]]