Réduction de la perte

Pour entraîner un modèle, nous avons besoin d'un bon moyen de réduire sa perte. Une approche itérative est une méthode couramment utilisée pour réduire la perte. Elle est aussi simple et efficace que de descendre une colline.

Réduction de la perte

  • Les hyperparamètres sont les paramètres de configuration permettant d'ajuster l'entraînement du modèle.
  • La dérivée de (y - y')2 par rapport aux pondérations et aux biais nous indique comment la perte évolue pour un exemple donné.
    • Simple à calculer et convexe
  • Nous effectuons donc de petits pas à plusieurs reprises dans la direction qui minimise la perte.
    • Nous les appelons des pas de gradient (mais ce sont en fait des pas de gradient négatif)
    • Cette stratégie est appelée descente de gradient
Cycle de passage des caractéristiques et des étiquettes aux modèles et prédictions.
  • Pour les problèmes convexes, les pondérations peuvent commencer n'importe où (par exemple, toutes les valeurs 0)
    • Convexe: pensez à une forme de bol
    • Un seul minimum
Graphique convexe en forme de bol
  • Pour les problèmes convexes, les pondérations peuvent commencer n'importe où (par exemple, toutes les valeurs 0)
    • Convexe: pensez à une forme de bol
    • Un seul minimum
  • Préfaces: ce n'est pas le cas pour les réseaux de neurones
    • Non convexe: pensez à une caisse d'œufs
    • Plus d'un minimum
    • Forte dépendance aux valeurs initiales
Graphique convexe en forme de bol et graphique avec plusieurs minimums locaux
  • Possibilité de calculer le gradient sur un ensemble de données complet à chaque étape, mais cela s'avère inutile
  • Le calcul du gradient sur de petits échantillons de données fonctionne bien
    • À chaque pas, obtenez un nouvel échantillon aléatoire
  • Descente de gradient stochastique: un exemple à la fois.
  • Descente de gradient par mini-lots: lots de 10 à 1 000
    • La perte et les gradients font l'objet d'une moyenne sur le lot