Questa appendice contiene alcuni dettagli aggiuntivi sul tasso di apprendimento.
Pianificazione del decadimento del tasso di apprendimento
La famiglia di pianificazioni di decadimento del tasso di apprendimento migliore è un problema aperto; non è chiaro come costruire un insieme di esperimenti rigorosi per rispondere con certezza a questa domanda. Anche se non conosciamo il miglior programma per la famiglia, siamo sicuri di quanto segue:
- È importante avere una programmazione (non costante).
- Modificare questa pianificazione è importante.
Tassi di apprendimento diversi funzionano meglio in momenti diversi del processo di ottimizzazione. Avere una sorta di pianificazione aumenta la probabilità che il modello raggiunga un buon tasso di apprendimento.
Miglior decadimento del tasso di apprendimento predefinito
Ti consigliamo una delle seguenti famiglie di decadimento del tasso di apprendimento come impostazione predefinita:
- Decadimento lineare
- Decadimento del coseno
Anche molte altre famiglie di pianificazioni sono probabilmente valide.
Perché alcuni articoli hanno pianificazioni del tasso di apprendimento complicate?
Molti articoli accademici utilizzano pianificazioni di decadimento del tasso di apprendimento (LR) complesse e a tratti. I lettori spesso si chiedono come gli autori siano arrivati a una programmazione così complicata. Molti programmi di decadimento LR complessi sono il risultato della messa a punto del programma in funzione del rendimento del set di convalida in modo ad hoc. Ossia:
- Inizia una singola sessione di allenamento con un semplice decadimento del tasso di apprendimento (o un tasso di apprendimento costante).
- Continua ad addestrare il modello finché il rendimento non sembra stagnare. In tal caso, metti in pausa l'addestramento. Quindi, riprendi l'addestramento con una pianificazione del decadimento del tasso di apprendimento più ripida (o un tasso di apprendimento costante più piccolo) da questo punto. Ripeti questa procedura fino alla scadenza della conferenza o del lancio.
Copiare ciecamente la pianificazione risultante in genere non è una buona idea poiché la pianificazione migliore è sensibile a una serie di altre scelte di iperparametri. Ti consigliamo di copiare l'algoritmo che ha prodotto la pianificazione, anche se questo è raramente possibile quando la pianificazione è stata prodotta in modo arbitrario da un essere umano. Questo tipo di pianificazione sensibile agli errori di convalida è adatto all'uso se può essere completamente automatizzato, ma le pianificazioni human-in-the-loop che sono una funzione dell'errore di convalida sono fragili e non facilmente riproducibili, pertanto consigliamo di evitarle. Prima di pubblicare i risultati che hanno utilizzato una pianificazione di questo tipo, prova a renderla completamente riproducibile.
Come devono essere ottimizzati gli iperparametri di Adam?
Non tutti gli iperparametri di Adam sono ugualmente importanti. Le seguenti regole pratiche corrispondono a "budget" diversi per il numero di prove in uno studio.
- Se in uno studio sono presenti meno di 10 prove, regola solo il tasso di apprendimento (di base).
- Se in uno studio vengono eseguiti 10-25 tentativi, regola il tasso di apprendimento e
beta_1
. - Se ci sono più di 25 prove, regola il tasso di apprendimento,
beta_1
eepsilon
. - Se le prove sono molte più di 25, esegui anche la messa a punto
beta_2
.
Data la difficoltà di fornire regole generali sugli spazi di ricerca e sul numero di punti da campionare dallo spazio di ricerca, considera le regole empiriche indicate in questa sezione come linee guida approssimative."