Ridurre la perdita: tasso di apprendimento

Come indicato, il vettore del gradiente ha sia una direzione che una grandezza. Gli algoritmi di discesa del gradiente moltiplicano il gradiente per uno scalare noto come tasso di apprendimento (a volte chiamato anche dimensione del passo) per determinare il punto successivo. Ad esempio, se la grandezza del gradiente è 2,5 e il tasso di apprendimento è 0,01, l'algoritmo di discesa del gradiente sceglierà il punto successivo a 0,025 dal punto precedente.

Gli iperparametri sono le manopole che i programmatori perfezionano negli algoritmi di machine learning. Quasi tutti i programmatori di machine learning dedicano una buona quantità di tempo all'ottimizzazione del tasso di apprendimento. Se scegli un tasso di apprendimento troppo basso, l'apprendimento richiederà troppo tempo:

Stessa curva a U. Molti punti sono molto vicini tra loro e il loro sentiero sta facendo progressi estremamente lenti verso il fondo degli Stati Uniti.

Figura 6. Il tasso di apprendimento è troppo basso.

Viceversa, se specifichi un tasso di apprendimento troppo elevato, il punto successivo rimbalza perennemente in modo casuale nella parte inferiore di un esperimento di meccanica quantistica che ha avuto un errore grave:

Stessa curva a U. Questo contiene pochissimi punti. La scia di punti salta sulla parte inferiore della U e poi salta di nuovo.

Figura 7. Il tasso di apprendimento è troppo elevato.

Esiste un tasso di apprendimento di Riccioli d'oro per ogni problema di regressione. Il valore di Riccioli d'oro è correlato al livello di piatta della funzione di perdita. Se sai che il gradiente della funzione di perdita è piccolo, puoi provare in sicurezza un tasso di apprendimento più elevato, che compensa la piccola sfumatura e genera un passo maggiore.

Stessa curva a U. La serie di punti arriva al punto minimo in circa otto passaggi.

Figura 8. Il tasso di apprendimento è perfetto.