Mantieni tutto organizzato con le raccolte
Salva e classifica i contenuti in base alle tue preferenze.
.
Immagina di sviluppare un'applicazione per suggerimenti alimentari, in cui
gli utenti inseriscono i pasti preferiti e l'app suggerisce pasti simili
che potrebbero piacere. Vuoi sviluppare un modello di machine learning (ML)
in grado di prevedere la somiglianza con gli alimenti, in modo che la tua app possa creare contenuti
consigli ("Dato che ti piacciono i pancake, ti consigliamo le crêpes").
Per addestrare il tuo modello, devi selezionare un set di dati di 5000
dei pasti, tra cui borscht,
hot dog,
insalata,
pizza,
e shawarma.
Figura 1. Campionamento degli alimenti inclusi nel set di dati degli alimenti.
Crei un elemento meal che contiene un
codifica one-hot
di ogni pasto nel set di dati.
Figura 2. Codifica one-hot di borscht, hot dog e shawarma.
Ogni vettore di codifica one-hot ha una lunghezza di 5000 (una voce per
nel set di dati). I puntini di sospensione nel diagramma rappresentano
le 4995 voci non visualizzate.
Insidie delle rappresentazioni di dati sparsi
Esaminando queste codifiche one-hot, noti due problemi fondamentali
rappresentazione dei dati.
Numero di pesi. Grandi vettori di input indicano un enorme numero
ponderazioni
per una rete neurale.
Con voci M nella codifica one-hot e N
nodi nel primo strato della rete dopo l'input, il modello deve
Le ponderazioni MxN per quel livello. Un numero elevato di ponderazioni causa ulteriori problemi:
Numero di punti dati. Maggiore è il peso del modello, maggiore sarà la quantità di dati
addestrarsi in modo efficace.
Quantità di calcolo. Maggiore è il peso, maggiore sarà il calcolo richiesto
per addestrare e utilizzare il modello. È facile superare le capacità del tuo
hardware.
Quantità di memoria. Maggiore è il peso del modello, maggiore sarà la memoria
necessaria sugli acceleratori che lo addestrano e lo pubblicano. Fare lo scale up
è molto difficile.
Difficoltà nel supportare
machine learning on-device (ODML).
Se speri di eseguire il modello ML su dispositivi locali (anziché pubblicare
devi concentrarti sul ridurre le dimensioni del modello e
per ridurre il numero di pesi.
Mancanza di relazioni significative tra i vettori. I valori dei vettori
le codifiche one-hot per gli alimenti non forniscono alcuna informazione significativa
somiglianza di alimenti. Dal punto di vista matematico, l'indice 1 ("hot dog") è
più vicino all'indice 2 ("insalata") che all'indice 4999 ("shawarma"), anche se
è più simile allo shawarma (entrambi contengono carne e pane) che all'insalata.
In questo modulo imparerai a creare incorporamenti,
di dati sparsi, che risolvono entrambi questi problemi.
[[["Facile da capire","easyToUnderstand","thumb-up"],["Il problema è stato risolto","solvedMyProblem","thumb-up"],["Altra","otherUp","thumb-up"]],[["Mancano le informazioni di cui ho bisogno","missingTheInformationINeed","thumb-down"],["Troppo complicato/troppi passaggi","tooComplicatedTooManySteps","thumb-down"],["Obsoleti","outOfDate","thumb-down"],["Problema di traduzione","translationIssue","thumb-down"],["Problema relativo a esempi/codice","samplesCodeIssue","thumb-down"],["Altra","otherDown","thumb-down"]],["Ultimo aggiornamento 2024-08-13 UTC."],[[["This module explains how to create embeddings, which are lower-dimensional representations of sparse data that address the problems of large input vectors and lack of meaningful relations between vectors in one-hot encoding."],["One-hot encoding creates large input vectors, leading to a huge number of weights in a neural network, requiring more data, computation, and memory."],["One-hot encoding vectors lack meaningful relationships, failing to capture semantic similarities between items, like the example of hot dogs and shawarmas being more similar than hot dogs and salads."],["Embeddings offer a solution by providing dense vector representations that capture semantic relationships and reduce the dimensionality of data, improving efficiency and performance in machine learning models."],["This module assumes familiarity with introductory machine learning concepts like linear regression, categorical data, and neural networks."]]],[]]