Verlust reduzieren: Verständnis überprüfen

Überprüfen Sie Ihr Verständnis: Batchgröße

Sehen Sie sich die folgenden Optionen an.

Welche der folgenden Batchgrößen ist beim Ausführen des Gradientenabstiegs für ein großes Dataset wahrscheinlich effizienter?
Der vollständige Batch.
Die Berechnung des Gradienten aus einem vollständigen Batch ist ineffizient. Das heißt, der Gradient kann in der Regel viel effizienter (und genauso genau) aus einem kleineren Batch berechnet werden als aus einem weitaus größeren vollständigen Batch.
Eine kleine Charge oder sogar ein Batch eines Beispiels (SGD).
Erstaunlicherweise ist das Ausführen des Gradientenabstiegs bei einem kleinen Batch oder sogar bei einem Batch eines Beispiels in der Regel effizienter als der vollständige Batch. Schließlich ist es weitaus günstiger, den Gradienten eines Beispiels zu ermitteln als den von Millionen Beispielen. Damit eine gute repräsentative Stichprobe sichergestellt ist, übernimmt der Algorithmus bei jedem Durchlauf einen weiteren zufälligen kleinen Batch (oder einen Batch aus einem).