Réduction de la perte

Pour entraîner un modèle, nous devons trouver un moyen efficace de réduire sa perte. L'approche itérative constitue une méthode fréquemment utilisée pour réduire la perte. C'est aussi simple et efficace que de descendre d'une colline.

Réduction de la perte

Comment réduire la perte ?

  • La dérivée de (y - y')2 par rapport aux pondérations et au biais nous informe sur la variation de la perte pour un exemple donné.
    • Simple à calculer et convexe
  • Nous procédons à des petits pas répétés dans la direction permettant de réduire la perte
    • Nous les appelons des pas de gradient (mais ce sont en fait des pas de gradient négatif)
    • Cette stratégie d'optimisation est appelée descente de gradient

Schéma de la descente de gradient

Le cycle permettant de passer des caractéristiques et des étiquettes aux modèles et prédictions.

Initialisation de la pondération

  • Pour les problèmes convexes, les pondérations peuvent démarrer à n'importe quelle valeur (par exemple, elles peuvent toutes recevoir la valeur 0)
    • Convexe : imaginez une forme de bol
    • Un seul minimum
Tracé d'une courbe en forme de bol.

Initialisation de la pondération

  • Pour les problèmes convexes, les pondérations peuvent démarrer à n'importe quelle valeur (par exemple, elles peuvent toutes recevoir la valeur 0)
    • Convexe : imaginez une forme de bol
    • Un seul minimum
  • Avertissement : ceci ne s'applique pas aux réseaux de neurones
    • Non-convexe : imaginez la forme d'une boîte d'œufs
    • Plus d'un minimum
    • Les valeurs initiales sont déterminantes
Tracé d'une courbe en forme de bol et d'une courbe présentant plusieurs minimums locaux

SGD et descente de gradient par mini-lots

  • Le calcul de gradient pour l'intégralité de l'ensemble de données à chaque pas est possible, mais pas nécessaire.
  • Le calcul de gradients sur des petits échantillons de données est efficace.
    • À chaque pas, un nouvel échantillonnage aléatoire est effectué.
  • Descente de gradient stochastique : un exemple à la fois.
  • Descente de gradient par mini-lots : mini-lots comptant entre 10 et 1 000 exemples
    • Chaque lot permet d'obtenir une moyenne de la perte et des gradients.

Envoyer des commentaires concernant…

Cours d'initiation au machine learning