Riduzione della perdita

Per addestrare un modello, abbiamo bisogno di un buon modo per ridurne la perdita. Un approccio iterativo è uno dei metodi ampiamente utilizzati per ridurre le perdite ed è facile ed efficiente quanto camminare lungo una collina.

Riduzione della perdita

  • Gli iperparametri sono le impostazioni di configurazione utilizzate per ottimizzare le modalità di addestramento del modello.
  • La derivata di (y - y')2 rispetto alle ponderazioni e ai bias ci indica come cambia la perdita per un determinato esempio
    • Semplice da calcolare e convesso
  • Quindi facciamo ripetutamente piccoli passi nella direzione che riduce al minimo la perdita
    • Questi passaggi vengono chiamati gradi di gradazione, ma sono passi di gradiente davvero negativi.
    • Questa strategia è chiamata discesa della gradazione.
Il ciclo di passaggio da caratteristiche ed etichette a modelli e previsioni.
  • Per problemi convessi, i pesi possono iniziare da qualsiasi punto (ad esempio, tutti gli 0)
    • Convesso: pensa alla forma di una ciotola
    • Solo un minimo
Grafico convesso a forma di ciotola
  • Per problemi convessi, i pesi possono iniziare da qualsiasi punto (ad esempio, tutti gli 0)
    • Convesso: pensa alla forma di una ciotola
    • Solo un minimo
  • Premessa: non vero per le reti neurali
    • Non convesso: pensa a un contenitore di uova
    • Più di un minimo
    • Forte dipendenza dai valori iniziali
Grafico convesso a forma di ciotola e grafico con più minimi locali
  • Potrebbe calcolare un gradiente sull'intero set di dati a ogni passaggio, ma questo risulta essere inutile
  • Il gradiente di calcolo su piccoli campioni di dati funziona bene
    • Ad ogni passaggio, ricevi un nuovo campione casuale
  • Discesa del gradiente stocastico: un esempio alla volta
  • Discesa del gradiente mini-Batch: batch da 10 a 1000
    • La media delle perdite e dei gradienti viene calcolata per il batch