Apprentissage supervisé

Les tâches de l'apprentissage supervisé sont bien définies et peuvent être appliquées à une multitude de scénarios, tels que l'identification du spam ou la prédiction des précipitations.

Concepts de base de l'apprentissage supervisé

Le machine learning supervisé repose sur les concepts fondamentaux suivants:

  • Données
  • Modèle
  • Entraînement
  • Évaluation
  • Inférence

Données

Les données sont le moteur du ML. Les données se présentent sous la forme de mots et de nombres stockés dans des tables, ou de valeurs de pixels et de formes d'ondes capturées dans des fichiers image et audio. Nous stockons les données associées dans des jeux de données. Par exemple, nous pouvons avoir un ensemble de données des éléments suivants:

  • Images de chats
  • Prix des logements
  • Informations météo

Les ensembles de données sont constitués d'exemples individuels qui contiennent des caractéristiques et un libellé. Vous pouvez penser à un exemple comme à une seule ligne d'une feuille de calcul. Les caractéristiques sont les valeurs qu'un modèle supervisé utilise pour prédire l'étiquette. L'étiquette est la « réponse », ou la valeur que le modèle doit prédire. Dans un modèle météo qui prédit les précipitations, les caractéristiques peuvent être la latitude, la longitude, la température, l'humidité, la couverture des nuages, la direction du vent et la pression atmosphérique. Le libellé correspond à précipitations.

Les exemples contenant à la fois des caractéristiques et une étiquette sont appelés exemples étiquetés.

Deux exemples étiquetés

Espace réservé pour une image.

En revanche, les exemples sans étiquette contiennent des caractéristiques, mais pas d'étiquette. Une fois que vous avez créé un modèle, celui-ci prédit l'étiquette à partir des caractéristiques.

Deux exemples sans étiquette

Espace réservé pour une image.

Caractéristiques de l'ensemble de données

Un jeu de données est caractérisé par sa taille et sa diversité. La taille indique le nombre d'exemples. La diversité indique l'étendue que couvrent ces exemples. Les bons jeux de données sont à la fois volumineux et extrêmement divers.

Certains jeux de données sont à la fois volumineux et variés. Cependant, certains ensembles de données sont volumineux, mais présentent une faible diversité, tandis que d'autres sont petits, mais hautement diversifiés. En d'autres termes, un ensemble de données volumineux ne garantit pas une diversité suffisante, et un ensemble de données hautement diversifié ne garantit pas un nombre d'exemples suffisant.

Par exemple, un ensemble de données peut contenir 100 ans de données, mais uniquement pour le mois de juillet. L'utilisation de cet ensemble de données pour prédire les précipitations en janvier produirait des prédictions médiocres. À l'inverse, un ensemble de données peut ne couvrir que quelques années, mais contenir chaque mois. Cet ensemble de données peut produire des prédictions médiocres, car il ne contient pas suffisamment d'années pour tenir compte de la variabilité.

Testez vos connaissances

Quels attributs d'un ensemble de données sont les plus adaptés au ML ?
Grande taille / Forte diversité
Un grand nombre d'exemples couvrant divers cas d'utilisation est essentiel pour qu'un système de machine learning puisse comprendre les modèles sous-jacents dans les données. Un modèle entraîné à partir de ce type d'ensemble de données est plus susceptible de fournir de bonnes prédictions à partir de nouvelles données.
Grande taille / Faible diversité
La qualité des modèles de machine learning dépend des exemples utilisés pour les entraîner. Un modèle générera des prédictions de moins bonne qualité sur de nouvelles données sur lesquelles il n'a jamais été entraîné.
Petite taille / Grande diversité
La plupart des modèles ne trouvent pas de modèles fiables dans un petit ensemble de données. Les prédictions n'ont pas le degré de confiance fourni par un ensemble de données plus volumineux.
Petite taille / Faible diversité
Si votre ensemble de données est petit et présente peu de variations, le machine learning ne vous sera peut-être pas utile.

Un jeu de données peut également être caractérisé par le nombre de ses caractéristiques. Par exemple, certains ensembles de données météorologiques peuvent contenir des centaines de caractéristiques, allant des images satellite aux valeurs de couverture nuageuse. D'autres ensembles de données peuvent ne contenir que trois ou quatre caractéristiques, telles que l'humidité, la pression atmosphérique et la température. Des ensembles de données comportant davantage de caractéristiques peuvent aider un modèle à découvrir des modèles supplémentaires et à améliorer ses prédictions. Cependant, les ensembles de données comportant plus de caractéristiques ne produisent pas toujours de modèles permettant d'obtenir de meilleures prédictions, car certaines caractéristiques peuvent n'avoir aucune relation de causalité avec l'étiquette.

Modèle

Dans l'apprentissage supervisé, un modèle est une collection complexe de nombres qui définissent la relation mathématique entre des modèles de caractéristiques d'entrée spécifiques et des valeurs d'étiquettes de sortie spécifiques. Le modèle découvre ces tendances grâce à l'entraînement.

Entraînement

Avant de pouvoir effectuer des prédictions, un modèle supervisé doit être entraîné. Pour entraîner un modèle, nous lui fournissons un ensemble de données avec des exemples étiquetés. L'objectif du modèle est de trouver la meilleure solution pour prédire les étiquettes à partir des caractéristiques. Le modèle trouve la meilleure solution en comparant sa valeur prédite à la valeur réelle de l'étiquette. En fonction de la différence entre les valeurs prédites et réelles (définie comme la perte), le modèle met progressivement à jour sa solution. En d'autres termes, le modèle apprend la relation mathématique entre les caractéristiques et l'étiquette afin d'obtenir les meilleures prédictions sur les données inconnues.

Par exemple, si le modèle a prédit une pluie de 1.15 inches, mais que la valeur réelle était .75 inches, il modifie sa solution afin que sa prédiction soit plus proche de .75 inches. Une fois que le modèle a examiné chaque exemple de l'ensemble de données (dans certains cas, plusieurs fois), il arrive à une solution qui génère, en moyenne, les meilleures prédictions pour chacun des exemples.

Voici un exemple d'entraînement d'un modèle:

  1. Le modèle prend un seul exemple étiqueté et fournit une prédiction.

    Image d'un modèle effectuant une prédiction.

    Figure 1 : Modèle de ML effectuant une prédiction à partir d'un exemple étiqueté.

     

  2. Le modèle compare sa valeur prévue à la valeur réelle et met à jour sa solution.

    Image d'un modèle comparant sa prédiction à la valeur réelle.

    Figure 2 : Un modèle de ML mettant à jour sa valeur prédite.

     

  3. Le modèle répète ce processus pour chaque exemple étiqueté de l'ensemble de données.

    Image d'un modèle qui répète le processus de sa prédiction par rapport à la valeur réelle.

    Figure 3 : Un modèle de ML mettant à jour ses prédictions pour chaque exemple étiqueté dans l'ensemble de données d'entraînement.

     

De cette manière, le modèle apprend progressivement la bonne relation entre les caractéristiques et l'étiquette. Cette compréhension progressive explique également pourquoi des ensembles de données volumineux et diversifiés produisent un meilleur modèle. Le modèle a obtenu davantage de données avec une plage de valeurs plus large et a affiné sa compréhension de la relation entre les caractéristiques et l'étiquette.

Au cours de l'entraînement, les professionnels du ML peuvent apporter de légers ajustements aux configurations et aux fonctionnalités que le modèle utilise pour effectuer des prédictions. Par exemple, certaines caractéristiques ont plus de performances prédictives que d'autres. Par conséquent, les professionnels du ML peuvent sélectionner les caractéristiques que le modèle utilise pendant l'entraînement. Par exemple, supposons qu'un ensemble de données météorologiques contient time_of_day comme caractéristique. Dans ce cas, un professionnel du ML peut ajouter ou supprimer time_of_day pendant l'entraînement pour voir si le modèle effectue de meilleures prédictions avec ou sans cet élément.

Évaluation

Nous évaluons un modèle entraîné pour déterminer la qualité de son apprentissage. Lorsque nous évaluons un modèle, nous utilisons un ensemble de données étiquetées, mais nous ne donnons au modèle que les caractéristiques de l'ensemble de données. Nous comparons ensuite les prédictions du modèle aux valeurs réelles de l'étiquette.

Image montrant un modèle entraîné dont les prédictions sont comparées aux valeurs réelles.

Figure 4. Évaluer un modèle de ML en comparant ses prédictions aux valeurs réelles

 

En fonction des prédictions du modèle, nous pouvons procéder à davantage d'entraînement et d'évaluation avant de le déployer dans une application réelle.

Testez vos connaissances

Pourquoi un modèle doit-il être entraîné avant de pouvoir réaliser des prédictions ?
Un modèle doit être entraîné pour apprendre la relation mathématique entre les caractéristiques et l'étiquette d'un ensemble de données.
Un modèle n'a pas besoin d'être entraîné. Les modèles sont disponibles sur la plupart des ordinateurs.
Un modèle doit être entraîné, de sorte qu'il n'aura pas besoin de données pour effectuer ses prédictions.

Inférence

Une fois que nous sommes satisfaits des résultats de l'évaluation du modèle, nous pouvons l'utiliser pour effectuer des prédictions, appelées inférences, sur des exemples sans étiquette. Dans l'exemple de l'application météo, nous donnerions au modèle les conditions météorologiques actuelles (telles que la température, la pression atmosphérique et l'humidité relative) afin de prédire la quantité de précipitations.