Cette page a été traduite par l'API Cloud Translation.

Réduction de la perte

Pour entraîner un modèle, nous avons besoin d'un bon moyen de réduire sa perte. Une approche itérative est une méthode couramment utilisée pour réduire la perte. Elle est aussi simple et efficace que de descendre une colline.

Réduction de la perte

Comment réduire la perte ?

Les hyperparamètres sont les paramètres de configuration permettant d'ajuster l'entraînement du modèle.
La dérivée de (y - y')² par rapport aux pondérations et aux biais nous indique comment la perte évolue pour un exemple donné.

Simple à calculer et convexe

Nous effectuons donc de petits pas à plusieurs reprises dans la direction qui minimise la perte.

Nous les appelons des pas de gradient (mais ce sont en fait des pas de gradient négatif)
Cette stratégie est appelée descente de gradient

Schéma de la descente de gradient

Cycle de passage des caractéristiques et des étiquettes aux modèles et prédictions.

Essayez l'exercice de descente de gradient.
Lorsque vous aurez terminé l'exercice, appuyez sur le bouton de lecture ▶ pour continuer

Initialisation de la pondération

Pour les problèmes convexes, les pondérations peuvent commencer n'importe où (par exemple, toutes les valeurs 0)

Convexe: pensez à une forme de bol
Un seul minimum

Initialisation de la pondération

Pour les problèmes convexes, les pondérations peuvent commencer n'importe où (par exemple, toutes les valeurs 0)

Convexe: pensez à une forme de bol
Un seul minimum

Préfaces: ce n'est pas le cas pour les réseaux de neurones

Non convexe: pensez à une caisse d'œufs
Plus d'un minimum
Forte dépendance aux valeurs initiales

Graphique convexe en forme de bol et graphique avec plusieurs minimums locaux

SGD et descente de gradient par mini-lots

Possibilité de calculer le gradient sur un ensemble de données complet à chaque étape, mais cela s'avère inutile
Le calcul du gradient sur de petits échantillons de données fonctionne bien

À chaque pas, obtenez un nouvel échantillon aléatoire

Descente de gradient stochastique: un exemple à la fois.
Descente de gradient par mini-lots: lots de 10 à 1 000

La perte et les gradients font l'objet d'une moyenne sur le lot

Centre d'aide

Testez vos connaissances

Une approche itérative