Questa pagina è stata tradotta dall'API Cloud Translation.

Riduzione della perdita

Per addestrare un modello, abbiamo bisogno di un buon modo per ridurne la perdita. Un approccio iterativo è uno dei metodi ampiamente utilizzati per ridurre le perdite ed è facile ed efficiente quanto camminare lungo una collina.

Riduzione della perdita

Come riduciamo la perdita?

Gli iperparametri sono le impostazioni di configurazione utilizzate per ottimizzare le modalità di addestramento del modello.
La derivata di (y - y')² rispetto alle ponderazioni e ai bias ci indica come cambia la perdita per un determinato esempio

Semplice da calcolare e convesso

Quindi facciamo ripetutamente piccoli passi nella direzione che riduce al minimo la perdita

Questi passaggi vengono chiamati gradi di gradazione, ma sono passi di gradiente davvero negativi.
Questa strategia è chiamata discesa della gradazione.

Diagramma a blocchi della discesa del gradiente

Il ciclo di passaggio da caratteristiche ed etichette a modelli e previsioni.

Prova l'allenamento di discesa del gradiente
Una volta terminato l'allenamento, premi Riproduci ▶ per continuare

Inizializzazione peso

Per problemi convessi, i pesi possono iniziare da qualsiasi punto (ad esempio, tutti gli 0)

Convesso: pensa alla forma di una ciotola
Solo un minimo

Inizializzazione peso

Per problemi convessi, i pesi possono iniziare da qualsiasi punto (ad esempio, tutti gli 0)

Convesso: pensa alla forma di una ciotola
Solo un minimo

Premessa: non vero per le reti neurali

Non convesso: pensa a un contenitore di uova
Più di un minimo
Forte dipendenza dai valori iniziali

Grafico convesso a forma di ciotola e grafico con più minimi locali

SGD e discesa del gradiente mini-batch

Potrebbe calcolare un gradiente sull'intero set di dati a ogni passaggio, ma questo risulta essere inutile
Il gradiente di calcolo su piccoli campioni di dati funziona bene

Ad ogni passaggio, ricevi un nuovo campione casuale

Discesa del gradiente stocastico: un esempio alla volta
Discesa del gradiente mini-Batch: batch da 10 a 1000

La media delle perdite e dei gradienti viene calcolata per il batch

Centro assistenza

Indietro

Verifica le tue conoscenze

Avanti

Un approccio iterativo