Reducción de la pérdida

Para entrenar un modelo, necesitamos una buena forma de reducir su pérdida. Un enfoque iterativo es un método muy utilizado para reducir la pérdida, y es tan sencillo y eficaz como descender una colina.

Reducción de la pérdida

¿Cómo se reduce la pérdida?

  • La derivada de (y - y')2 con respecto a los pesos y sesgos nos indica cómo cambia la pérdida en un ejemplo determinado:
    • Es simple de computar y convexa.
  • Por lo tanto, tomamos pasos pequeños reiteradamente en la dirección que minimiza la pérdida:
    • Los llamamos pasos de gradiente (aunque en realidad son pasos de gradiente negativos).
    • Esta estrategia de optimización se denomina descenso de gradientes.

Diagrama de bloques de descenso de gradientes

El ciclo de pasar de funciones y etiquetas a modelos y predicciones.

Inicialización de los pesos

  • Para los problemas convexos, los pesos pueden comenzar en cualquier parte (por ejemplo, todos los 0):
    • Son convexos; tienen la forma de un tazón.
    • Tienen un solo mínimo.
Gráfico con la forma de un tazón convexo

Inicialización de los pesos

  • Para los problemas convexos, los pesos pueden comenzar en cualquier parte (por ejemplo, todos los 0):
    • Son convexos; tienen la forma de un tazón.
    • Tienen un solo mínimo.
  • Lo anterior no es verdadero para las redes neuronales:
    • No es convexo; tiene la forma de una caja de huevos.
    • Tiene más de un mínimo.
    • Depende en gran medida de los valores iniciales.
Gráfico con la forma de un tazón convexo y gráfico con varios mínimos locales

SGD y descenso de gradientes de minilote

  • La gradiente se podría calcular en todo el conjunto de datos en cada paso, pero esto es innecesario:
  • El cálculo de la gradiente en pequeñas muestras de datos funciona bien.
    • En cada paso, se debe obtener una nueva muestra al azar.
  • Descenso de gradiente estocástico: Se toma un ejemplo por vez.
  • Descenso de gradientes de minilote: Se usan lotes de 10 a 1000.
    • La pérdida y las gradientes se promedian en el lote.

Enviar comentarios sobre…

Curso intensivo de aprendizaje automático