Zmniejszanie strat: sprawdź swoją wiedzę

Sprawdź, czy rozumiesz wielkość wsadu

Zapoznaj się z poniższymi opcjami.

Który z poniższych rozmiarów wsadu będzie bardziej efektywny podczas wykonywania zejścia gradientowego na dużym zbiorze danych?
Cała grupa.
Obliczenie gradientu z całej wsadu jest nieefektywne. Oznacza to, że gradient zwykle można obliczyć znacznie efektywniej (i równie dokładnie) na podstawie mniejszego wsadu niż na znacznie większej partii.
Niewielkim wsadem lub nawet 1 przykładem (SGD).
Niesamowite, że wykonanie zejścia z użyciem gradientu w małej wsadzie lub nawet na grupie jednego przykładu jest zwykle bardziej efektywne niż cały wsad. Ostatecznie znalezienie gradientu jednego przykładu jest znacznie tańsze niż znalezienie gradientu milionów przykładów. Aby zapewnić właściwą próbkę reprezentatywną, algorytm przy każdej iteracji wybiera kolejną losową małą wsad (lub jedną porcję).