Apprentissage supervisé

Les tâches de l'apprentissage supervisé sont bien définies et peuvent être appliquées à une multitude de scénarios, tels que l'identification du spam ou la prédiction des précipitations.

Concepts fondamentaux de l'apprentissage supervisé

Le machine learning supervisé repose sur les concepts fondamentaux suivants:

  • Données
  • Modèle
  • Formation
  • Évaluation
  • Inférence

Données

Les données sont le moteur du ML. Les données se présentent sous la forme de mots et de nombres stockés dans des tables, ou de valeurs de pixels et de formes d'ondes capturées dans des fichiers image et audio. Nous stockons les données associées dans des jeux de données. Par exemple, nous pouvons avoir un ensemble de données des éléments suivants:

  • Images de chats
  • Prix des logements
  • Informations météo

Les ensembles de données sont constitués d'exemples individuels contenant des caractéristiques et une étiquette. Vous pouvez considérer un exemple comme analogue à une seule ligne d’une feuille de calcul. Les caractéristiques sont les valeurs qu'un modèle supervisé utilise pour prédire l'étiquette. L'étiquette est la "réponse" ou la valeur que le modèle doit prédire. Dans un modèle météo qui prédit des précipitations, les caractéristiques peuvent être la latitude, la longitude, la température, l'humidité, la couverture cloud, la direction du vent et la pression atmosphérique. L'étiquette est rainfall amount (montant des chutes de pluie).

Les exemples qui contiennent à la fois des caractéristiques et une étiquette sont appelés exemples étiquetés.

Deux exemples étiquetés

Espace réservé pour une image.

En revanche, les exemples sans étiquette contiennent des caractéristiques, mais pas d'étiquette. Une fois que vous avez créé un modèle, celui-ci prédit l'étiquette à partir des caractéristiques.

Deux exemples sans étiquette

Espace réservé pour une image.

Caractéristiques de l'ensemble de données

Un ensemble de données est caractérisé par sa taille et sa diversité. La taille indique le nombre d'exemples. La diversité indique la plage couverte par ces exemples. Les bons jeux de données sont à la fois volumineux et très variés.

Certains jeux de données sont à la fois vastes et variés. Cependant, certains ensembles de données sont volumineux mais présentent une faible diversité, tandis que d'autres sont petits, mais extrêmement variés. En d'autres termes, un ensemble de données volumineux ne garantit pas une diversité suffisante, et un ensemble de données très diversifié ne garantit pas un nombre suffisant d'exemples.

Par exemple, un ensemble de données peut contenir 100 ans de données, mais uniquement pour le mois de juillet. L'utilisation de cet ensemble de données pour prévoir les précipitations de janvier donnerait des prédictions médiocres. À l'inverse, un ensemble de données peut ne couvrir que quelques années, mais contenir une fois par mois. Cet ensemble de données peut produire des prédictions médiocres, car il ne contient pas suffisamment d'années pour tenir compte de la variabilité.

Testez vos connaissances

Quels attributs d'un ensemble de données sont les plus adaptés au ML ?
Grande taille / Haute diversité
Un grand nombre d'exemples couvrant divers cas d'utilisation est essentiel pour qu'un système de machine learning puisse comprendre les modèles sous-jacents dans les données. Un modèle entraîné sur ce type d'ensemble de données est plus susceptible de faire de bonnes prédictions sur les nouvelles données.
Grande taille / Faible diversité
La qualité des modèles de machine learning dépend des exemples utilisés pour les entraîner. Un modèle produira des prédictions de moins bonne qualité sur de nouvelles données sur lesquelles il n'a jamais été entraîné.
Petite taille / forte diversité
La plupart des modèles ne trouvent pas de schémas fiables dans un petit ensemble de données. Les prédictions n'auront pas le niveau de confiance fourni par un ensemble de données plus volumineux.
Petite taille / Faible diversité
Si votre ensemble de données est petit et présente peu de variations, le machine learning ne vous sera peut-être pas utile.

Un ensemble de données peut également être caractérisé par le nombre de ses caractéristiques. Par exemple, certains ensembles de données météorologiques peuvent contenir des centaines de caractéristiques, allant de l'imagerie satellitaire aux valeurs de couverture nuageuse. D'autres peuvent ne contenir que trois ou quatre caractéristiques, comme l'humidité, la pression atmosphérique et la température. Des ensembles de données comportant plus de caractéristiques peuvent aider un modèle à découvrir des modèles supplémentaires et à faire de meilleures prédictions. Toutefois, les ensembles de données comportant plus de caractéristiques ne produisent pas toujours de modèles permettant d'obtenir de meilleures prédictions, car certaines caractéristiques peuvent n'avoir aucune relation de cause à effet avec l'étiquette.

Modèle

Dans l'apprentissage supervisé, un modèle est une collection complexe de nombres qui définissent la relation mathématique entre des modèles de caractéristiques d'entrée spécifiques et des valeurs d'étiquettes de sortie spécifiques. Le modèle les découvre au cours de l'entraînement.

Formation

Avant de pouvoir réaliser des prédictions, un modèle supervisé doit être entraîné. Pour entraîner un modèle, nous lui fournissons un ensemble de données avec des exemples étiquetés. L'objectif du modèle est de trouver la meilleure solution pour prédire les étiquettes à partir des caractéristiques. Le modèle trouve la meilleure solution en comparant sa valeur prédite à la valeur réelle de l'étiquette. En fonction de la différence entre les valeurs prédites et réelles (définie comme la perte), le modèle met progressivement à jour sa solution. En d'autres termes, le modèle apprend la relation mathématique entre les caractéristiques et l'étiquette afin d'obtenir les meilleures prédictions sur des données inconnues.

Par exemple, si le modèle a prédit une valeur 1.15 inches de pluie, mais que la valeur réelle était .75 inches, le modèle modifie sa solution afin que sa prédiction soit plus proche de .75 inches. Une fois que le modèle a examiné chaque exemple de l'ensemble de données (dans certains cas, plusieurs fois), il arrive à une solution permettant d'obtenir, en moyenne, les meilleures prédictions pour chacun des exemples.

Voici un exemple d'entraînement d'un modèle:

  1. Le modèle prend un seul exemple étiqueté et fournit une prédiction.

    Image d'un modèle effectuant une prédiction.

    Figure 1 : Modèle de ML effectuant une prédiction à partir d'un exemple étiqueté.

     

  2. Le modèle compare sa valeur prédite à la valeur réelle et met à jour sa solution.

    Image d'un modèle comparant sa prédiction à la valeur réelle.

    Figure 2 : Un modèle de ML met à jour sa valeur prédite.

     

  3. Le modèle répète ce processus pour chaque exemple étiqueté de l'ensemble de données.

    Image d'un modèle qui répète le processus de prédiction par rapport à la valeur réelle.

    Image 3. Un modèle de ML mettant à jour ses prédictions pour chaque exemple étiqueté de l'ensemble de données d'entraînement.

     

De cette manière, le modèle apprend progressivement la relation correcte entre les caractéristiques et l'étiquette. Cette compréhension progressive explique aussi pourquoi des ensembles de données volumineux et diversifiés produisent un meilleur modèle. Le modèle a détecté davantage de données avec une gamme de valeurs plus large et a affiné sa compréhension de la relation entre les caractéristiques et l'étiquette.

Pendant l'entraînement, les professionnels du ML peuvent apporter de subtils ajustements aux configurations et aux fonctionnalités que le modèle utilise pour effectuer des prédictions. Par exemple, certaines caractéristiques ont plus de performances prédictives que d'autres. Par conséquent, les professionnels du ML peuvent sélectionner les caractéristiques que le modèle utilise pendant l'entraînement. Par exemple, supposons qu'un ensemble de données météorologiques contient time_of_day comme caractéristique. Dans ce cas, un utilisateur du ML peut ajouter ou supprimer time_of_day pendant l'entraînement pour voir si le modèle effectue de meilleures prédictions avec ou sans cet élément.

Évaluation

Nous évaluons un modèle entraîné pour déterminer la qualité de son apprentissage. Lorsque nous évaluons un modèle, nous utilisons un ensemble de données étiqueté, mais nous ne lui donnons que les caractéristiques de l'ensemble de données. Nous comparons ensuite les prédictions du modèle aux valeurs réelles de l'étiquette.

Image montrant un modèle entraîné dont les prédictions sont comparées aux valeurs réelles.

Figure 4. Évaluer un modèle de ML en comparant ses prédictions aux valeurs réelles

 

En fonction des prédictions du modèle, nous pouvons procéder à davantage d'entraînement et d'évaluation avant de déployer le modèle dans une application réelle.

Testez vos connaissances

Pourquoi un modèle doit-il être entraîné avant de pouvoir réaliser des prédictions ?
Un modèle doit être entraîné pour apprendre la relation mathématique entre les caractéristiques et l'étiquette d'un ensemble de données.
Un modèle n'a pas besoin d'être entraîné. Ces modèles sont disponibles sur la plupart des ordinateurs.
Un modèle doit être entraîné de sorte qu'il n'ait pas besoin de données pour effectuer une prédiction.

Inférence

Une fois que nous sommes satisfaits des résultats de l'évaluation du modèle, nous pouvons l'utiliser pour effectuer des prédictions, appelées inférences, sur des exemples sans étiquette. Dans l'exemple d'une application météo, nous donnerions au modèle les conditions météorologiques actuelles (telles que la température, la pression atmosphérique et l'humidité relative) pour prédire la quantité de précipitations.