Redução de perdas: verifique seu entendimento

Verifique seu conhecimento: tamanho do lote

Confira as opções abaixo.

Ao executar o gradiente descendente em um grande conjunto de dados, qual dos seguintes tamanhos de lote provavelmente será mais eficiente?
O lote completo.
A computação do gradiente de um lote completo é ineficiente. Ou seja, o gradiente geralmente pode ser calculado com muito mais eficiência (e com a mesma precisão) a partir de um lote menor do que de um lote completo muito maior.
Um lote pequeno ou até mesmo um lote de um exemplo (SGD).
Por incrível que pareça, a execução do gradiente descendente em um lote pequeno ou até mesmo em um lote de um exemplo costuma ser mais eficiente do que o lote completo. Afinal, encontrar o gradiente de um exemplo é muito mais barato do que encontrar o gradiente de milhões de exemplos. Para garantir uma boa amostra representativa, o algoritmo coleta outro lote pequeno aleatório (ou lote de um) em cada iteração.