Cette page a été traduite par l'API Cloud Translation.

Réduction de la perte: la descente de gradient

Le schéma représentant l'approche itérative (Figure 1) contenait une zone verte ondulée intitulée "Calculer les mises à jour des paramètres". Nous allons maintenant remplacer cette astuce basée sur des algorithmes par une solution plus concrète.

Supposons que nous disposions du temps et des ressources de calcul nécessaires pour calculer la perte pour toutes les valeurs possibles de $w_1$. Pour les types de problèmes de régression que nous avons examinés, le tracé qui s'ensuit entre la perte et $w_1$ sera toujours convexe. En d'autres termes, le tracé sera toujours en forme de bol, comme ceci:

Graphique d'une courbe en forme de U, où l'axe vertical est étiqueté comme perte et l'axe horizontal est étiqueté comme valeur de pondération w i.

Figure 2 Les problèmes de régression permettent d'obtenir des tracés perte/pondération convexes.

Les problèmes convexes n'ont qu'un seul minimum ; autrement dit, un seul point où la pente est exactement égale à 0. C'est à ce minimum que la fonction de perte converge.

Calculer la fonction de perte pour chaque valeur concevable de $w_1$sur l'ensemble de données serait un moyen inefficace de trouver le point de convergence. Examinons un meilleur mécanisme, très utilisé pour le machine learning, appelé descente de gradient.

La première étape de la descente de gradient consiste à choisir une valeur de départ (un point de départ) pour $w_1$. Peu importe le point de départ. Par conséquent, de nombreux algorithmes définissent simplement $w_1$ sur 0 ou choisissent une valeur aléatoire. La figure suivante montre que nous avons choisi un point de départ légèrement supérieur à 0:

Graphique représentant une courbe en forme de U. Un point situé à mi-hauteur du côté gauche de la courbe est intitulé "Point de départ".

Figure 3. Point de départ de la descente de gradient.

L'algorithme de descente de gradient calcule ensuite le gradient de la courbe de perte au point de départ. Ici, dans la figure 3, le gradient de la perte est égal à la dérivée (pente) de la courbe, et vous indique dans quel sens est "plus chaud" ou "plus froid". Lorsqu'il existe plusieurs pondérations, le gradient est un vecteur de dérivées partielles par rapport aux pondérations.

Cliquez sur l'icône Plus pour en savoir plus sur les dérivées partielles et les dégradés.

Les mathématiques du machine learning sont fascinantes, et nous sommes ravis que vous ayez cliqué sur le lien pour en savoir plus. Toutefois, veuillez noter que TensorFlow gère tous les calculs de gradient à votre place. Vous n'avez donc pas besoin de comprendre les calculs fournis ici.

Dérivées partielles

Une fonction à plusieurs variables est une fonction comportant plusieurs arguments, par exemple:

$$f(x,y) = e^{2y}\sin(x)$$

La dérivée partielle $f$ par rapport à $x$, notée comme suit:

$$ \partial f \over \partial x $$

est la dérivée de $f$ considérée comme une fonction de $x$seule. Pour identifier les éléments suivants:

$$\partial f \over \partial x $$

vous devez conserver une constante $y$ (et $f$ est donc désormais une fonction d'une variable $x$) et prendre la dérivée standard de $f$ par rapport à $x$. Par exemple, lorsque $y$ est fixé à 1, la fonction précédente devient:

$$ f(x) = e^2\sin(x) $$

Il s'agit simplement d'une fonction d'une variable $x$, dont la dérivée est:

$$ e^2\cos(x) $$

D'une manière générale, si la valeur de $y$ est considérée comme fixe, la dérivée partielle de $f$ par rapport à $x$ est calculée comme suit:

$$\frac{\partial f}{\partial x}(x,y) = e^{2y}\cos(x)$$

De même, si nous fixons la valeur $x$ à la place, la dérivée partielle de $f$ par rapport à $y$ est la suivante:

$$ \frac{\partial f}{\partial y}(x,y) = 2e^{2y}\sin(x) $$

Intuitivement, une dérivée partielle vous indique dans quelle mesure la fonction change lorsque vous perturbez légèrement une variable. Dans l'exemple précédent :

$$ \frac{\partial f}{\partial x} (0,1) = e^2 \approx 7.4 $$

Ainsi, lorsque vous commencez à $(0,1)$, maintenez $y$ constant et bougez un peu $x$ $f$ le changement est environ 7,4 fois supérieur à celui que vous avez changé $x$.

En machine learning, les dérivées partielles sont principalement utilisées pour calculer le gradient d'une fonction.

Gradients

Le gradient d'une fonction, noté comme suit, est le vecteur des dérivées partielles calculées pour l'ensemble des variables indépendantes:

$$ \nabla f $$

Par exemple, si:

$$ f(x,y) = e^{2y}\sin(x) $$

puis :

$$\nabla f(x,y) = \left(\frac{\partial f}{\partial x}(x,y), \frac{\partial f}{\partial y}(x,y)\right) = (e^{2y}\cos(x), 2e^{2y}\sin(x))$$

Veuillez noter les points suivants :

$$\nabla f$$	Indique la direction de la plus forte augmentation de la fonction.
$$ {-\nabla f} $$	Indique la direction de diminution maximale de la fonction.

Le nombre de dimensions dans le vecteur est égal au nombre de variables dans la formule pour $f$. En d'autres termes, le vecteur est inclus dans l'espace du domaine de la fonction. Par exemple, le graphique de la fonction $f(x,y)$suivante:

$$ f(x,y) = 4 + (x - 2)^2 + 2y^2 $$

Lorsqu'il est observé en trois dimensions avec $z = f(x,y)$ , il ressemble à une vallée avec une valeur minimale à $(2,0,4)$:

Le gradient de $f(x,y)$ est un vecteur bidimensionnel qui vous indique dans quelle$(x,y)$ direction se déplacer pour obtenir l'augmentation maximale de la hauteur. Ainsi, la direction négative du dégradé vous oriente vers la diminution maximale de la hauteur. En d'autres termes, la valeur négative du vecteur de gradient pointe dans la vallée.

En machine learning, les gradients sont utilisés dans la descente de gradient. Nous essayons souvent de minimiser la fonction de perte comportant de nombreuses variables et, pour ce faire, nous suivons les valeurs négatives du gradient de la fonction.

Notez qu'un gradient est un vecteur. Il présente donc les deux caractéristiques suivantes:

une direction
une magnitude

Le gradient indique toujours la direction de l'augmentation la plus prononcée de la fonction de perte. L'algorithme de descente de gradient fait un pas dans la direction du gradient négatif afin de réduire la perte le plus rapidement possible.

Graphique représentant une courbe en forme de U. Un point situé sur le côté gauche de la courbe est intitulé "Point de départ". Une flèche libellée "dégradé négatif" pointe de ce point vers la droite.

Figure 4 La descente de gradient repose sur des gradients négatifs.

Pour déterminer le point suivant sur la courbe de la fonction de perte, l'algorithme de descente de gradient ajoute une fraction de l'ampleur du gradient au point de départ, comme illustré dans la figure suivante:

Figure 5. Un pas de gradient nous amène au point suivant sur la courbe de fonction de perte.

La descente de gradient répète ensuite ce processus, se rapprochant de plus en plus du minimum.

Centre d'aide

Une approche itérative

Taux d'apprentissage