Come indicato, il vettore del gradiente ha sia una direzione che una grandezza. Gli algoritmi di discesa del gradiente moltiplicano il gradiente per uno scalare noto come tasso di apprendimento (a volte chiamato anche dimensione del passo) per determinare il punto successivo. Ad esempio, se la grandezza del gradiente è 2,5 e il tasso di apprendimento è 0,01, l'algoritmo di discesa del gradiente sceglierà il punto successivo a 0,025 dal punto precedente.
Gli iperparametri sono le manopole che i programmatori perfezionano negli algoritmi di machine learning. Quasi tutti i programmatori di machine learning dedicano una buona quantità di tempo all'ottimizzazione del tasso di apprendimento. Se scegli un tasso di apprendimento troppo basso, l'apprendimento richiederà troppo tempo:
Figura 6. Il tasso di apprendimento è troppo basso.
Viceversa, se specifichi un tasso di apprendimento troppo elevato, il punto successivo rimbalza perennemente in modo casuale nella parte inferiore di un esperimento di meccanica quantistica che ha avuto un errore grave:
Figura 7. Il tasso di apprendimento è troppo elevato.
Esiste un tasso di apprendimento di Riccioli d'oro per ogni problema di regressione. Il valore di Riccioli d'oro è correlato al livello di piatta della funzione di perdita. Se sai che il gradiente della funzione di perdita è piccolo, puoi provare in sicurezza un tasso di apprendimento più elevato, che compensa la piccola sfumatura e genera un passo maggiore.
Figura 8. Il tasso di apprendimento è perfetto.