Réduction de la perte : testez vos connaissances

Testez vos connaissances : taille du lot

Examinez les options suivantes.

Lorsque vous effectuez une descente de gradient sur un ensemble de données de grande taille, quelles seront les tailles de lots les plus adéquates ?
Le lot entier.
Utiliser l'intégralité du lot pour calculer un gradient est inefficace. En fait, ce calcul peut s'effectuer bien plus rapidement (et avec le même niveau de précision) à partir d'un lot de moins grande taille que le lot intégral, aux dimensions très largement supérieures.
Un petit lot, voire un lot ne comportant qu'un exemple (SGD).
Cela peut paraître paradoxal, mais il est généralement plus efficace de procéder à une descente de gradient sur un petit lot, voire un lot ne comportant qu'un seul exemple, que sur le lot intégral. Après tout, il est bien moins coûteux de trouver le gradient d'un exemple que celui de millions d'exemples. Pour s'assurer d'obtenir un échantillon représentatif, l'algorithme prélève un autre petit lot aléatoire (ou un lot d'un exemple) à chaque itération.