Per addestrare un modello, abbiamo bisogno di un buon modo per ridurne la perdita. Un approccio iterativo è uno dei metodi ampiamente utilizzati per ridurre le perdite ed è facile ed efficiente quanto camminare lungo una collina.
Riduzione della perdita
Come riduciamo la perdita?
- Gli iperparametri sono le impostazioni di configurazione utilizzate per ottimizzare le modalità di addestramento del modello.
- La derivata di (y - y')2 rispetto alle ponderazioni e ai bias ci indica come cambia la perdita per un determinato esempio
- Semplice da calcolare e convesso
- Quindi facciamo ripetutamente piccoli passi nella direzione che riduce al minimo la perdita
- Questi passaggi vengono chiamati gradi di gradazione, ma sono passi di gradiente davvero negativi.
- Questa strategia è chiamata discesa della gradazione.
Diagramma a blocchi della discesa del gradiente
- Prova l'allenamento di discesa del gradiente
- Una volta terminato l'allenamento, premi Riproduci ▶ per continuare
Inizializzazione peso
- Per problemi convessi, i pesi possono iniziare da qualsiasi punto (ad esempio, tutti gli 0)
- Convesso: pensa alla forma di una ciotola
- Solo un minimo
Inizializzazione peso
- Per problemi convessi, i pesi possono iniziare da qualsiasi punto (ad esempio, tutti gli 0)
- Convesso: pensa alla forma di una ciotola
- Solo un minimo
- Premessa: non vero per le reti neurali
- Non convesso: pensa a un contenitore di uova
- Più di un minimo
- Forte dipendenza dai valori iniziali
SGD e discesa del gradiente mini-batch
- Potrebbe calcolare un gradiente sull'intero set di dati a ogni passaggio, ma questo risulta essere inutile
- Il gradiente di calcolo su piccoli campioni di dati funziona bene
- Ad ogni passaggio, ricevi un nuovo campione casuale
- Discesa del gradiente stocastico: un esempio alla volta
- Discesa del gradiente mini-Batch: batch da 10 a 1000
- La media delle perdite e dei gradienti viene calcolata per il batch