Reduzir perdas

Para treinar um modelo, precisamos de uma boa maneira de reduzir a perda dele. A abordagem iterativa é um método amplamente utilizado para reduzir a perda e é tão fácil e eficiente quanto descer um morro.

Redução da perda

  • Os hiperparâmetros são as definições de configuração usadas para ajustar o treinamento do modelo.
  • A derivada de (y - y')2 em relação aos pesos e vieses nos informa como a perda muda em um determinado exemplo
    • Simples de calcular e convexo
  • Então, damos repetidamente pequenos passos na direção que minimiza a perda
    • Chamamos essas etapas de Gradiente, que são, na verdade, etapas negativas do gradiente.
    • Essa estratégia é chamada de gradiente descendente.
O ciclo de migração de atributos e rótulos para modelos e previsões.
  • Para problemas convexos, os pesos podem começar em qualquer lugar (por exemplo, todos os zeros).
    • Convex: pense em um formato de tigela
    • Apenas um mínimo
Gráfico convexo em forma de tigela
  • Para problemas convexos, os pesos podem começar em qualquer lugar (por exemplo, todos os zeros).
    • Convex: pense em um formato de tigela
    • Apenas um mínimo
  • Prenunciando: não verdadeiro para redes neurais
    • Não convexo: pense em uma caixa de ovos
    • Mais de um mínimo
    • Alta dependência dos valores iniciais
Gráfico e gráfico convexos em forma de tigela com vários mínimos locais
  • Poderia calcular o gradiente em todo o conjunto de dados em cada etapa, mas isso acaba sendo desnecessário
  • A computação de gradiente em pequenas amostras de dados funciona bem
    • Em cada etapa, receba uma nova amostra aleatória
  • Gradiente descendente estocástico: um exemplo de cada vez.
  • Gradiente descendente em minilote: lotes de 10 a 1.000
    • A média de perdas e gradientes é calculada sobre o lote