Ridurre la perdita: verifica le tue conoscenze

Verifica le tue conoscenze: dimensioni del batch

Esplora le opzioni riportate di seguito.

Quando esegui la discesa del gradiente su un set di dati di grandi dimensioni, quale delle seguenti dimensioni batch sarà probabilmente più efficiente?
Il batch completo.
Il calcolo del gradiente da un batch completo non è efficace. In altre parole, il gradiente può essere calcolato in modo molto più efficiente (e con la stessa precisione) da un batch più piccolo rispetto a un batch completo molto più grande.
Un piccolo batch o anche un batch di un esempio (SGD).
Incredibilmente, eseguire la discesa del gradiente su un piccolo batch o anche un batch di un esempio è di solito più efficiente del batch completo. Dopotutto, trovare il gradiente di un esempio è molto più economico che trovare il gradiente di milioni di esempi. Per garantire un campione rappresentativo valido, l'algoritmo raccoglie un altro piccolo batch casuale (o un batch di uno) per ogni iterazione.