Сокращение потерь: проверьте свое понимание

Проверьте свое понимание: размер партии

Изучите варианты ниже.

Какой из следующих размеров пакетов будет более эффективным при выполнении градиентного спуска для большого набора данных?
Полная партия.
Вычисление градиента на основе полной партии неэффективно. То есть градиент обычно можно вычислить гораздо эффективнее (и столь же точно) для меньшей партии, чем для гораздо большей полной партии.
Небольшая партия или даже партия из одного экземпляра (SGD).
Удивительно, но выполнение градиентного спуска для небольшой партии или даже партии одного примера обычно более эффективно, чем полная партия. В конце концов, найти градиент одного примера гораздо дешевле, чем найти градиент миллионов примеров. Чтобы обеспечить хорошую репрезентативную выборку, алгоритм собирает еще одну случайную небольшую партию (или одну партию) на каждой итерации.