Glossario del machine learning: modelli di sequenza

Questa pagina contiene i termini del glossario Modelli di sequenza. Per tutti i termini del glossario, fai clic qui.

B

Bigram

#seq
#language

Un N-gram in cui N=2.

E

problema con il gradiente

#seq

La tendenza alle sfumature nelle reti neurali profonde (in particolare le reti neurali ricorrenti) a diventare sorprendentemente ripide (alta). I gradienti profondi spesso causano aggiornamenti molto grandi alle ponderazioni di ogni nodo in una rete neurale profonda.

I modelli che presentano il problema del gradiente esplosivo diventano difficili o impossibili da addestrare. Clip di sfumatura è in grado di mitigare questo problema.

Fare un confronto con il problema di sfumatura.

V

dimentica cancello

#seq

La parte di una cella di Memoria a breve termine che regola il flusso di informazioni attraverso la cella. Dimentica i limiti che mantengono il contesto decidendo quali informazioni eliminare dallo stato della cella.

G

ritaglio sfumato

#seq

Un meccanismo di uso comune per mitigare il problema di sfumatura esplosiva limitando artificialmente (clipping) il valore massimo dei gradienti quando si utilizza la discesa del gradiente per addestrare un modello.

L

Memoria a breve termine (LSTM)

#seq

Un tipo di cella in una rete neurale ricorrente utilizzata per elaborare le sequenze di dati in applicazioni come il riconoscimento della scrittura a mano libera, la traduzione automatica e i sottotitoli delle immagini. Gli LSTM risolvono il problema di gradiente che si verifica durante l'addestramento degli RNN a causa di lunghe sequenze di dati, mantenendo la cronologia in uno stato di memoria interna in base al nuovo input e al contesto delle celle precedenti nell'RNN.

LSTM

#seq

Abbreviazione per Memoria a breve termine.

No

N-gramm

#seq
#language

Una sequenza ordinata di N parole. Ad esempio, davvero pazzesco è un grammo di 2 grammi. Siccome l'ordine è pertinente, pazzissimo è un 2 grammo diverso rispetto a davvero pazzesco.

No Nomi per questo tipo di N-gram Esempi
2 bigram o 2 grammi andare, andare, andare a mangiare, pranzo, cena
3 trigramma o 3 grammi mangiare troppo, tre topi ciechi, il campanello suona
4 4 grammi camminare nel parco, polvere nel vento, il bambino ha mangiato le lenticchie

Molti modelli di comprensione del linguaggio naturale si basano su N-grammi per prevedere la parola successiva che l'utente digiterà o dirà. Ad esempio, supponiamo che un utente abbia digitato tre ciechi. È probabile che un modello NLU basato sui trigrammi preveda che l'utente selezionerà il prossimo microfono.

Contrasta con i N-gram con il sacchetto di parole, che è un insieme di parole non ordinato.

Dx

rete neurale ricorrente

#seq

Una rete neurale che viene eseguita intenzionalmente più volte, in cui parti di ogni esecuzione vengono inserite nel feed successivo. In particolare, i livelli nascosti dell'esecuzione precedente forniscono parte dell'input allo stesso livello nascosto nell'esecuzione successiva. Le reti neurali ricorrenti sono particolarmente utili per valutare le sequenze, in modo che i livelli nascosti possano imparare dalle esecuzioni precedenti della rete neurale nelle parti precedenti della sequenza.

Ad esempio, la figura che segue mostra una rete neurale ricorrente che viene eseguita quattro volte. Nota che i valori appresi nei livelli nascosti della prima esecuzione diventano parte dell'input agli stessi livelli nascosti della seconda. Analogamente, i valori appresi nel livello nascosto alla seconda esecuzione diventano parte dell'input allo stesso livello nascosto nella terza esecuzione. In questo modo, la rete neurale ricorrente addestra gradualmente e prevede il significato dell'intera sequenza invece che solo il significato delle singole parole.

Un RNN che viene eseguito quattro volte per elaborare quattro parole di input.

49

#seq

Abbreviazione per reti neurali ricorrenti.

D

modello di sequenza

#seq

Un modello i cui input hanno una dipendenza sequenziale. Ad esempio, prevedere il prossimo video guardato da una sequenza di video guardati in precedenza.

M

timetime

#seq

Una cella "srotolata" all'interno di una rete neurale ricorrente. Ad esempio, la figura seguente mostra tre passaggi (etichettati con i pedici t-1, t e t+1):

Tre tappe in una rete neurale ricorrente. L'output del primo passaggio diventa l'input del secondo passaggio. L'output del secondo timetime diventa input al terzo timetime.

trigramma

#seq
#language

Un N-gram in cui N=3.

V

problema di sfumatura

#seq

La tendenza dei gradienti dei primi livelli nascosti di alcune reti neurali profonde a diventare sorprendentemente piatta (bassa). Gradienti sempre più bassi provocano modifiche sempre più piccole alle ponderazioni sui nodi in una rete neurale profonda, il che porta all'apprendimento minimo o nullo. I modelli che presentano il problema del gradiente di scomparire diventano difficili o impossibili da addestrare. Le celle di Memoria a breve termine risolvono questo problema.

Confronta con esplosione del problema del gradiente.