Questa pagina è stata tradotta dall'API Cloud Translation.

Glossario del machine learning: modelli di immagine

Questa pagina contiene i termini del glossario di Modelli di immagini. Per tutti i termini del glossario, fai clic qui.

A

realtà aumentata

#image

Una tecnologia che sovrappone un'immagine creata con il computer alla visione del mondo reale da parte di un utente, fornendo così una vista composita.

autoencoder

#language

#image

Un sistema che impara a estrarre le informazioni più importanti dall'input. Gli autoencoder sono una combinazione di un encoder e di un decoder. Gli autocodificatori si basano sul seguente processo in due fasi:

L'encoder mappa l'input a un formato (in genere) con perdita di dimensioni inferiori (intermedio).
Il decodificatore crea una versione con perdita dell'input originale mappando il formato di dimensioni inferiori al formato di input originale di dimensioni superiori.

Gli autoencoder vengono addestrati end-to-end facendo in modo che il decodificatore cerchi di ricostruire l'input originale dal formato intermedio dell'encoder nel modo più preciso possibile. Poiché il formato intermedio è più piccolo (di dimensioni inferiori) rispetto al formato originale, l'autoencoder è costretto a imparare quali informazioni nell'input sono essenziali e l'output non sarà perfettamente identico all'input.

Ad esempio:

Se i dati di input sono un'immagine, la copia non esatta sarà simile all'immagine originale, ma leggermente modificata. Forse la copia non esatta rimuove il rumore dalla grafica originale o completa alcuni pixel mancanti.
Se i dati di input sono di tipo testo, un autoencoder genererà un nuovo testo che assomiglia (ma non è identico) al testo originale.

Vedi anche autoencoder variazionali.

modello autoregressivo

#language

#image

#generativeAI

Un modello che deducono una previsione in base alle proprie predizioni precedenti. Ad esempio, i modelli linguistici autoregressivi prevedono il successivo token in base ai token previsti in precedenza. Tutti i modelli linguistici di grandi dimensioni basati su Transformer sono autoregressivi.

Al contrario, i modelli di immagini basati su GAN in genere non sono autoregressivi, poiché generano un'immagine in un unico passaggio in avanti e non in modo iterativo. Tuttavia, alcuni modelli di generazione di immagini sono autoregressivi perché generano un'immagine in più passaggi.

B

riquadro di delimitazione

#image

In un'immagine, le coordinate (x, y) di un rettangolo attorno a un'area di interesse, ad esempio il cane nell'immagine di seguito.

Fotografia di un cane seduto su un divano. Un riquadro delimitante verde
con coordinate in alto a sinistra (275, 1271) e in basso a destra (2954, 2761) che circoscrive il corpo del cane

C

convoluzione

#image

In matematica, in senso colloquiale, una combinazione di due funzioni. Nel machine learning, una convergenza mescola il filtro convergenza e la matrice di input per addestrare i pesi.

Il termine "convoluzione" nel machine learning è spesso un modo abbreviato per fare riferimento all'operazione di convoluzione o al livello di convoluzione.

Senza le convoluzioni, un algoritmo di machine learning dovrebbe apprendere un peso distinto per ogni cella di un grande tensore. Ad esempio, un algoritmo di machine learning addestrato su immagini 2K x 2K sarebbe costretto a trovare 4 milioni di pesi separati. Grazie alle convoluzioni, un algoritmo di machine learning deve solo trovare i pesi per ogni cella del filtro convoluzionale, riducendo notevolmente la memoria necessaria per addestrare il modello. Quando viene applicato il filtro convoluzionale, viene semplicemente replicato nelle celle in modo che ciascuna venga moltiplicata per il filtro.

Per saperne di più, consulta Introduzione alle reti neurali convolute nel corso Classificazione delle immagini.

filtro convoluzionale

#image

Uno dei due elementi di un'operazione di convoluzione. L'altro attore è un'estrazione di una matrice di input. Un filtro convoluzionale è una matrice con lo stesso rango della matrice di input, ma di dimensioni inferiori. Ad esempio, data una matrice di input 28x28, il filtro potrebbe essere qualsiasi matrice 2D inferiore a 28x28.

Nella manipolazione fotografica, tutte le celle di un filtro convoluzionale sono tipicamente impostate su un pattern costante di 1 e 0. Nel machine learning, i filtri convoluzionali vengono generalmente avviati con numeri casuali e poi la rete li addestra ai valori ideali.

Per ulteriori informazioni, consulta la sezione Convoluzione nel corso Classificazione delle immagini.

livello convoluzionale

#image

Uno strato di una rete neurale profonda in cui un filtro convoluzionale passa lungo una matrice di input. Ad esempio, considera il seguente filtro convoluzionale 3x3:

Una matrice 3x3 con i seguenti valori: [[0,1,0], [1,0,1], [0,1,0]]

L'animazione seguente mostra un livello di convoluzione costituito da 9 operazioni di convoluzione che coinvolgono la matrice di input 5x5. Tieni presente che ogni operazione di convoluzione agisce su un diverso segmento 3x3 della matrice di input. La matrice 3x3 risultante (a destra) è costituita dai risultati delle 9 operazioni di convolvezione:

Per saperne di più, consulta la sezione Livelli completamente connessi nel corso Classificazione delle immagini.

rete neurale convoluzionale

#image

Una rete neurale in cui almeno uno strato è un strato convoluzionale. Una tipica rete neurale convolzionale è costituita da una combinazione dei seguenti livelli:

Livelli convoluzionali
Livelli di pooling
Livelli densi

Le reti neurali convoluzionali hanno avuto un grande successo in determinati tipi di problemi, come il riconoscimento delle immagini.

Operazione di convoluzione

#image

La seguente operazione matematica in due passaggi:

Moltiplicazione elemento per elemento del filtro convoluzionale e di una fetta di una matrice di input. Il segmento della matrice di input ha lo stesso rango e le stesse dimensioni del filtro convoluzionale.
Somma di tutti i valori nella matrice del prodotto risultante.

Ad esempio, considera la seguente matrice di input 5 x 5:

La matrice 5 x 5: [[128,97,53,201,198], [35,22,25,200,195],
[37,24,28,197,182], [33,28,92,195,179], [31,40,100,192,177]].

Ora immagina il seguente filtro convoluzionale 2 x 2:

La matrice 2x2: [[1, 0], [0, 1]]

Ogni operazione di convoluzione coinvolge un singolo slice 2x2 della matrice di input. Ad esempio, supponiamo di utilizzare il sezionamento 2x2 in alto a sinistra della matrice di input. Pertanto, l'operazione di convergenza su questo segmento è la seguente:

Applicazione del filtro convoluzionale [[1, 0], [0, 1]] alla sezione 2x2 in alto a sinistra della matrice di input, ovvero [[128,97], [35,22]].
Il filtro convoluzionale lascia invariati 128 e 22, ma azzera 97 e 35. Di conseguenza, l'operazione di convergenza genera
il valore 150 (128 + 22).

Un livello di convoluzione è costituito da una serie di operazioni di convoluzione, ciascuna delle quali agisce su un diverso segmento della matrice di input.

D

aumento dei dati

#image

Aumentare artificialmente l'intervallo e il numero di esempi di addestramento tramite la trasformazione di esempi esistenti per creare esempi aggiuntivi. Ad esempio, immagina che le immagini siano una delle tue caratteristiche, ma che il tuo set di dati non contenga esempi di immagini sufficienti per consentire al modello di apprendere associazioni utili. Idealmente, dovresti aggiungere al set di dati un numero sufficiente di immagini etichettate per consentire al modello di addestrarsi correttamente. Se ciò non è possibile, l'aumento dei dati può ruotare, allungare e riflettere ogni immagine per produrre molte varianti dell'immagine originale, producendo eventualmente dati etichettati sufficienti per consentire un'ottima formazione.

Rete neurale convoluzionale separabile in profondità (sepCNN)

#image

Un'architettura di rete neurale convoluzionale basata su Inception, ma in cui i moduli Inception sono sostituiti da convolute separabili in profondità. È noto anche come Xception.

Una convoluzione separabile in profondità (abbreviata anche come convoluzione separabile) scompone una convoluzione 3D standard in due operazioni di convoluzione separate che sono più efficienti dal punto di vista computazionale: in primo luogo, una convoluzione in profondità, con una profondità di 1 (n ✕ n ✕ 1) e, in secondo luogo, una convoluzione puntuale, con lunghezza e larghezza pari a 1 (1 ✕ 1 ✕ n).

Per saperne di più, consulta Xception: deep learning con convoluzioni separibili in profondità.

downsampling

#image

Termine sovraccaricato che può significare una delle seguenti opzioni:

Ridurre la quantità di informazioni in una caratteristica per addestrare un modello in modo più efficiente. Ad esempio, prima di addestrare un modello di riconoscimento delle immagini, riduci la risoluzione delle immagini in un formato a risoluzione inferiore.
Addestramento su una percentuale sproporzionatamente bassa di esempi di classi rappresentate in modo eccessivo per migliorare l'addestramento del modello sulle classi sottorappresentate. Ad esempio, in un set di dati con sbilanciamento delle classi, i modelli tendono ad apprendere molto sulla classe di maggioranza e non abbastanza sulla classe di minoranza. Il sottocampionamento aiuta a bilanciare la quantità di addestramento sulle classi di maggioranza e minoranza.

Per ulteriori informazioni, consulta Set di dati: set di dati sbilanciati nel corso introduttivo al machine learning.

F

ottimizzazione

#language

#image

#generativeAI

Un secondo passaggio di addestramento specifico per l'attività eseguito su un modello preaddestrato per perfezionarne i parametri per un caso d'uso specifico. Ad esempio, la sequenza di addestramento completa per alcuni modelli linguistici di grandi dimensioni è la seguente:

Preaddestramento: addestrare un modello linguistico di grandi dimensioni su un vasto set di dati generale, come tutte le pagine di Wikipedia in lingua inglese.
Ottimizzazione: addestrare il modello preaddestrato a eseguire un'attività specifica, come rispondere a query mediche. La messa a punto in genere prevede centinaia o migliaia di esempi incentrati sull'attività specifica.

Un altro esempio è la sequenza di addestramento completa per un modello di immagini di grandi dimensioni:

Preaddestramento: addestrare un modello di immagini di grandi dimensioni su un vasto set di dati di immagini generali, come tutte le immagini di Wikimedia Commons.
Ottimizzazione: addestrare il modello preaddestrato a eseguire un'attività specifica, come la generazione di immagini di orche.

La messa a punto può comportare qualsiasi combinazione delle seguenti strategie:

Modifica di tutti i parametri esistenti del modello preaddestrato. Questa operazione è a volte chiamata ottimizzazione completa.
Modifica di alcuni dei parametri esistenti del modello preaddestrato (in genere, i livelli più vicini al livello di output), mantenendo invariati gli altri parametri esistenti (in genere, i livelli più vicini al livello di input). Consulta l'ottimizzazione efficiente dei parametri.
Aggiunta di altri livelli, in genere sopra i livelli esistenti più vicini al livello di output.

La messa a punto fine è una forma di apprendimento tramite trasferimento. Di conseguenza, la messa a punto fine potrebbe utilizzare una funzione di perdita o un tipo di modello diverso da quelli utilizzati per addestrare il modello preaddestrato. Ad esempio, potresti perfezionare un modello di immagini di grandi dimensioni preaddestrato per produrre un modello di regressione che restituisce il numero di uccelli in un'immagine di input.

Confronta e contrapponi la messa a punto fine con i seguenti termini:

Per ulteriori informazioni, consulta Ottimizzazione fine nel Machine Learning Crash Course.

G

Gemini

#language

#image

#generativeAI

L'ecosistema che comprende l'IA più avanzata di Google. Gli elementi di questo ecosistema includeono:

Vari modelli Gemini.
L'interfaccia di conversazione interattiva di un modello Gemini. Gli utenti digitano i prompt e Gemini risponde.
Varie API Gemini.
Vari prodotti aziendali basati su modelli Gemini, ad esempio Gemini per Google Cloud.

Modelli Gemini

#language

#image

#generativeAI

I modelli multimodali basati su Transformer all'avanguardia di Google. I modelli Gemini sono progettati appositamente per essere integrati con gli agenti.

Gli utenti possono interagire con i modelli Gemini in diversi modi, ad esempio tramite un'interfaccia di dialogo interattiva e tramite SDK.

IA generativa

#language

#image

#generativeAI

Un campo di trasformazione emergente senza definizione formale. Detto questo, la maggior parte degli esperti concorda sul fatto che i modelli di IA generativa possono creare ("generare") contenuti che soddisfano tutte le seguenti caratteristiche:

complesso
coerenti
originale

Ad esempio, un modello di IA generativa può creare testi o immagini sofisticati.

Anche alcune tecnologie precedenti, tra cui le LSTM e le RNN, possono generare contenuti originali e coerenti. Alcuni esperti considerano queste tecnologie precedenti come IA generativa, mentre altri ritengono che la vera IA generativa richieda un output più complesso di quanto possano produrre queste tecnologie precedenti.

È diverso dal machine learning predittivo.

I

riconoscimento immagini

#image

Un processo che classifica oggetti, pattern o concetti in un'immagine. Il riconoscimento delle immagini è noto anche come classificazione delle immagini.

Per ulteriori informazioni, consulta ML Practicum: Image Classification.

Per saperne di più, consulta il corso pratico di ML: classificazione delle immagini.

Intersection over Union (IoU)

#image

L'intersezione di due insiemi divisa per la loro unione. Nelle attività di rilevamento delle immagini con il machine learning, l'IoU viene utilizzato per misurare l'accuratezza del riquadro di delimitazione previsto dal modello rispetto al riquadro di delimitazione dei dati empirici reali. In questo caso, l'IoU per i due riquadri è il rapporto tra l'area di sovrapposizione e l'area totale e il suo valore varia da 0 (nessuna sovrapposizione tra il riquadro di delimitazione previsto e il riquadro di delimitazione dei dati empirici reali) a 1 (il riquadro di delimitazione previsto e il riquadro di delimitazione dei dati empirici reali hanno le stesse coordinate).

Ad esempio, nell'immagine seguente:

Il riquadro di delimitazione previsto (le coordinate che delimitano la posizione in cui il modello predice che si trovi la tavola da notte nel dipinto) è delineato in viola.
Il riquadro delimitante dei dati di fatto (le coordinate che delimitano la posizione effettiva della tavola notturna nel dipinto) è delineato in verde.

Qui l'intersezione dei riquadri di delimitazione per la previsione e i dati empirici reali (sotto a sinistra) è 1 e l'unione dei riquadri di delimitazione per la previsione e i dati empirici reali (sotto a destra) è 7, quindi l'IoU è \(\frac{1}{7}\).

Stessa immagine di cui sopra, ma con ogni riquadro di delimitazione diviso in quattro quadranti. Esistono in totale sette quadranti, poiché il quadrante in basso a destra
del riquadro di delimitazione dei dati empirici reali e il quadrante in alto a sinistra
del riquadro di delimitazione previsto si sovrappongono. Questa
sezione sovrapposta (evidenziata in verde) rappresenta la
intersezione e ha un'area pari a 1.

K

keypoints

#image

Le coordinate di determinate caratteristiche in un'immagine. Ad esempio, per un modello di riconoscimento delle immagini che distingue le specie di fiori, i punti chiave potrebbero essere il centro di ogni petalo, il gambo, lo stame e così via.

L

punti di riferimento

#image

Sinonimo di keypoints.

M

MMIT

#language

#image

#generativeAI

Abbreviazione di adattato alle istruzioni multimodali.

MNIST

#image

Un set di dati di dominio pubblico compilato da LeCun, Cortes e Burges contenente 60.000 immagini, ciascuna delle quali mostra come una persona ha scritto manualmente un determinato numero da 0 a 9. Ogni immagine viene memorizzata come un array di numeri interi 28 x 28, dove ogni numero intero è un valore in scala di grigi compreso tra 0 e 255, inclusi.

MNIST è un set di dati canonico per il machine learning, spesso utilizzato per testare nuovi approcci al machine learning. Per maggiori dettagli, consulta Il database MNIST di cifre scritte a mano.

MOE

#language

#image

#generativeAI

Abbreviazione di mescola di esperti.

P

raggruppamento

#image

Riduzione di una matrice (o di più matrici) creata da un livello di convoluzione precedente in una matrice più piccola. In genere, il raggruppamento comporta l'utilizzo del valore massimo o medio nell'area raggruppata. Ad esempio, supponiamo di avere la seguente matrice 3x3:

La matrice 3x3 [[5,3,1], [8,2,5], [9,4,3]].

Un'operazione di pooling, proprio come un'operazione di convoluzione, suddivide la matrice in sezioni e poi fa scorrere l'operazione di convoluzione per passaggi. Ad esempio, supponiamo che l'operazione di pooling divida la matrice di convoluzione in sezioni 2x2 con uno stride 1x1. Come illustrato nel seguente diagramma, vengono eseguite quattro operazioni di raggruppamento. Immagina che ogni operazione di raggruppamento scelga il valore massimo tra i quattro in quella frazione:

La sommatoria consente di applicare l'invarianza di traslazione nella matrice di input.

Il pooling per le applicazioni di visione è noto più formalmente come pooling spaziale. Le applicazioni di serie temporali di solito fanno riferimento al raggruppamento come raggruppamento temporale. In modo meno formale, il pooling viene spesso chiamato sottocampionamento o downsampling.

Consulta Introduzione alle reti neurali convoluzionali nel corso Praticum di ML: classificazione delle immagini.

modello post-addestrato

#language

#image

#generativeAI

Termine definito in modo approssimativo che in genere si riferisce a un modello preaddestrato sottoposto a qualche elaborazione post-trattamento, ad esempio una o più delle seguenti:

modello preaddestrato

#language

#image

#generativeAI

In genere, un modello già addestrato. Il termine potrebbe anche indicare un vettore di embedding addestrato in precedenza.

Il termine modello linguistico preaddestrato si riferisce in genere a un modello linguistico di grandi dimensioni già addestrato.

preaddestramento

#language

#image

#generativeAI

L'addestramento iniziale di un modello su un set di dati di grandi dimensioni. Alcuni modelli pre-addestrati sono giganti goffi e in genere devono essere perfezionati tramite un addestramento aggiuntivo. Ad esempio, gli esperti di ML potrebbero preaddestrare un modello linguistico di grandi dimensioni su un vasto set di dati di testo, come tutte le pagine in inglese di Wikipedia. Dopo la pre-addestramento, il modello risultante può essere ulteriormente perfezionato tramite una delle seguenti tecniche:

R

invarianza di rotazione

#image

In un problema di classificazione delle immagini, la capacità di un algoritmo di classificare correttamente le immagini anche quando cambia l'orientamento. Ad esempio, l'algoritmo può comunque identificare una racchetta da tennis se è rivolta verso l'alto, di lato o verso il basso. Tieni presente che l'invarianza di rotazione non è sempre auspicabile. Ad esempio, un 9 capovolto non deve essere classificato come 9.

Vedi anche invarianza di traslazione e invarianza di dimensione.

S

invarianza di dimensione

#image

In un problema di classificazione delle immagini, la capacità di un algoritmo di classificare correttamente le immagini anche quando le dimensioni cambiano. Ad esempio, l'algoritmo può comunque identificare un gatto indipendentemente dal fatto che consumi 2 milioni di pixel o 200.000 pixel. Tieni presente che anche i migliori algoritmi di classificazione delle immagini presentano ancora limiti pratici all'invarianza delle dimensioni. Ad esempio, è improbabile che un algoritmo (o una persona) classifichi correttamente un'immagine di un gatto che occupa solo 20 pixel.

Vedi anche invarianza di traslazione e invarianza di rotazione.

Per ulteriori informazioni, consulta il corso sul clustering.

raggruppamento spaziale

#image

Consulta la sezione pooling.

stride

#image

In un'operazione di convoluzione o pooling, il delta in ogni dimensione della successiva serie di slice di input. Ad esempio, la seguente animazione dimostra uno stride (1,1) durante un'operazione di convoluzione. Pertanto, la frazione di input successiva inizia una posizione a destra della frazione di input precedente. Quando l'operazione raggiunge il bordo destro, il segmento successivo è completamente a sinistra, ma una posizione più in basso.

L'esempio precedente mostra un passo bidimensionale. Se la matrice di input è tridimensionale, anche lo stride sarà tridimensionale.

sottocampionamento

#image

Consulta la sezione pooling.

T

temperatura

#language

#image

#generativeAI

Un iperparametro che controlla il grado di casualità dell'output di un modello. Temperature più elevate generano un output più casuale, mentre temperature più basse generano un output meno casuale.

La scelta della temperatura migliore dipende dall'applicazione specifica e dalle proprietà preferite dell'output del modello. Ad esempio, probabilmente aumenteresti la temperatura quando crei un'applicazione che genera output creativo. Al contrario, probabilmente abbasserai la temperatura quando crei un modello che classifica immagini o testo per migliorare la accuratezza e la coerenza del modello.

La temperatura viene spesso utilizzata con softmax.

invarianza traslazionale

#image

In un problema di classificazione delle immagini, la capacità di un algoritmo di classificare correttamente le immagini anche quando cambia la posizione degli oggetti all'interno dell'immagine. Ad esempio, l'algoritmo può comunque identificare un cane, che si trovi al centro o all'estremità sinistra dell'inquadratura.

Consulta anche invarianza di dimensione e invarianza di rotazione.

Glossario del machine learning: modelli di immagine Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.

A

realtà aumentata

autoencoder

modello autoregressivo

B

riquadro di delimitazione

C

convoluzione

filtro convoluzionale

livello convoluzionale

rete neurale convoluzionale

Operazione di convoluzione

D

aumento dei dati

Rete neurale convoluzionale separabile in profondità (sepCNN)

downsampling

F

ottimizzazione

G

Gemini

Modelli Gemini

IA generativa

I

riconoscimento immagini

Intersection over Union (IoU)

K

keypoints

L

punti di riferimento

M

MMIT

MNIST

MOE

P

raggruppamento

modello post-addestrato

modello preaddestrato

preaddestramento

R

invarianza di rotazione

S

invarianza di dimensione

raggruppamento spaziale

stride

sottocampionamento

T

temperatura

invarianza traslazionale

Glossario del machine learning: modelli di immagine