Para treinar um modelo, precisamos de uma boa maneira de reduzir a perda dele. A abordagem iterativa é um método amplamente utilizado para reduzir a perda e é tão fácil e eficiente quanto descer um morro.
Redução da perda
Como reduzimos a perda?
- Os hiperparâmetros são as definições de configuração usadas para ajustar o treinamento do modelo.
- A derivada de (y - y')2 em relação aos pesos e vieses nos informa como a perda muda em um determinado exemplo
- Simples de calcular e convexo
- Então, damos repetidamente pequenos passos na direção que minimiza a perda
- Chamamos essas etapas de Gradiente, que são, na verdade, etapas negativas do gradiente.
- Essa estratégia é chamada de gradiente descendente.
Diagrama de blocos do gradiente descendente
- Experimente o exercício de gradiente descendente
- Quando terminar o exercício, pressione "Reproduzir" ▶ para continuar.
Inicialização de peso
- Para problemas convexos, os pesos podem começar em qualquer lugar (por exemplo, todos os zeros).
- Convex: pense em um formato de tigela
- Apenas um mínimo
Inicialização de peso
- Para problemas convexos, os pesos podem começar em qualquer lugar (por exemplo, todos os zeros).
- Convex: pense em um formato de tigela
- Apenas um mínimo
- Prenunciando: não verdadeiro para redes neurais
- Não convexo: pense em uma caixa de ovos
- Mais de um mínimo
- Alta dependência dos valores iniciais
Gradiente descendente e gradiente descendente (SGD) e minilote
- Poderia calcular o gradiente em todo o conjunto de dados em cada etapa, mas isso acaba sendo desnecessário
- A computação de gradiente em pequenas amostras de dados funciona bem
- Em cada etapa, receba uma nova amostra aleatória
- Gradiente descendente estocástico: um exemplo de cada vez.
- Gradiente descendente em minilote: lotes de 10 a 1.000
- A média de perdas e gradientes é calculada sobre o lote