Réduction de la perte: testez vos connaissances

Testez vos connaissances: taille de lot

Explorez les options ci-dessous.

Lorsque vous effectuez une descente de gradient sur un grand ensemble de données, laquelle des tailles de lot suivantes sera probablement la plus efficace ?
Lot complet.
Calculer le gradient à partir d'un lot complet est inefficace. En d'autres termes, le gradient peut généralement être calculé beaucoup plus efficacement (et avec autant de précision) à partir d'un lot plus petit qu'à partir d'un lot complet beaucoup plus grand.
Un petit lot, voire un lot d'un exemple (SGD).
Étonnamment, effectuer une descente de gradient sur un petit lot, voire sur un lot composé d'un seul exemple, est généralement plus efficace que sur le lot complet. Après tout, il est bien moins coûteux de trouver le gradient d'un exemple que de trouver le gradient de millions d'exemples. Pour garantir un échantillon représentatif, l'algorithme prélève un autre petit lot aléatoire (ou un autre lot) à chaque itération.