Réseaux de neurones

Vous vous souvenez peut-être Exercices de croisement de caractéristiques dans le module Données catégorielles, que le problème de classification suivant est non linéaire:

Figure 1. Plan de coordonnées cartésiennes, divisé en quatre quadrants, chacun rempli de points aléatoires en forme de carré. Les points dans les quadrants 
en haut à droite et en bas à gauche sont bleus,
      et les points dans les quadrants 
en haut à gauche et en bas à droite sont orange.
Image 1. Problème de classification non linéaire. Une fonction linéaire ne peut pas séparez clairement tous les points bleus des points orange.

"Non linéaire" signifie qu'il n'est pas possible de prédire avec exactitude une étiquette avec un modèle de la forme \(b + w_1x_1 + w_2x_2\). En d'autres termes, "surface de décision" n'est pas une ligne.

Toutefois, si nous effectuons un croisement de caractéristiques $x_1$ et $x_2$, nous pouvons puis représenter la relation non linéaire entre les deux caractéristiques à l'aide d'une modèle linéaire: $b + w_1x_1 + w_2x_2 + w_3x_3$ où $x_3$ est le croisement de caractéristiques entre $x_1$ et $x_2$:

Figure 2. Même plan de coordonnées cartésiennes de points bleus et orange que dans la figure 1.  Cependant, cette fois, une courbe hyperbolique blanche est tracée au-dessus de la grille, qui sépare les points bleus des quadrants en haut à droite et en bas à gauche (maintenant ombrés avec un arrière-plan bleu) des points orange des quadrants en haut à gauche et en bas à droite (maintenant ombrés avec un arrière-plan orange).
Figure 2 : En ajoutant le croisement de caractéristiques x1x2, le modèle linéaire peut apprendre une forme hyperbolique qui sépare les points bleus des points orange.

Prenons l'exemple de l'ensemble de données suivant :

Figure 3. Plan de coordonnées cartésien, divisé en quatre quadrants.
      Un cluster circulaire de points bleus est centré à l'origine du graphique et entouré d'un anneau de points orange.
Figure 3 : Problème de classification non linéaire plus difficile.

Nous avons également vu les exercices de croisement de caractéristiques que déterminer les croisements de caractéristiques appropriés pour appliquer un modèle linéaire à ces données a demandé un peu plus d'efforts et d'expérimentation.

Mais que se passerait-il si vous ne deviez pas réaliser tous ces tests vous-même ? Les réseaux de neurones sont une famille d'architectures de modèles conçues pour trouver des modèles non linéaires dans les données. Lors de l'entraînement d'un réseau de neurones, le modèle apprend automatiquement les croisements de caractéristiques optimaux à effectuer sur les données d'entrée afin de minimiser les pertes.

Dans les sections suivantes, nous verrons de plus près comment fonctionnent les réseaux de neurones.