Testez vos connaissances

Les questions suivantes vous aident à consolider votre compréhension des concepts fondamentaux du ML.

Puissance prédictive

Les modèles de ML supervisés sont entraînés à l'aide d'ensembles de données contenant des exemples étiquetés. Le modèle apprend à prédire l'étiquette à partir des caractéristiques. Cependant, toutes les caractéristiques d'un ensemble de données ne possèdent pas de puissance prédictive. Dans certains cas, seules quelques caractéristiques servent de prédicteurs de l'étiquette. Dans l'ensemble de données ci-dessous, utilisez le prix comme étiquette et les autres colonnes comme caractéristiques.

Exemple d'attributs automobiles étiquetés.

Selon vous, quelles sont les trois caractéristiques les plus susceptibles de prédire le prix d'une voiture ?
Make_model, year, miles.
La marque et le modèle d'une voiture, l'année et le nombre de kilomètres sont susceptibles de faire partie des indicateurs les plus fiables de son prix.
Color, height, make_model.
La hauteur et la couleur d'une voiture ne sont pas des indicateurs fiables du prix.
Miles, boîte de vitesses, make_model.
La boîte de vitesses n'est pas un indicateur principal du prix.
Tire_size, wheel_base, year.
La taille des pneus et l'empattement ne sont pas des indicateurs fiables du prix d'une voiture.

Apprentissage supervisé et non supervisé

Selon le problème rencontré, vous choisirez soit une approche supervisée, soit une approche non supervisée. Par exemple, si vous connaissez au préalable la valeur ou la catégorie que vous souhaitez prédire, vous devez utiliser l'apprentissage supervisé. Toutefois, si vous souhaitez savoir si votre ensemble de données contient des segmentations ou des regroupements d'exemples associés, vous devez utiliser l'apprentissage non supervisé.

Supposons que vous disposiez d'un ensemble de données d'utilisateurs pour un site Web d'achat en ligne et qu'il contienne les colonnes suivantes:

Image d'une ligne d'attributs client.

Pour savoir quels types d'utilisateurs consultent le site, utiliseriez-vous l'apprentissage supervisé ou non supervisé ?
Apprentissage non supervisé
Comme nous voulons que le modèle regroupe des groupes de clients connexes, nous allons utiliser l'apprentissage non supervisé. Une fois que le modèle a regroupé les utilisateurs, nous avions créé nos propres noms pour chaque groupe, par exemple "chers à prix réduit","chasseurs d'offres", "surfeurs", "fidélisés" et "vagabonds".
L'apprentissage supervisé, car j'essaie de prédire à quelle classe appartient un utilisateur.
Dans l'apprentissage supervisé, l'ensemble de données doit contenir l'étiquette que vous essayez de prédire. Dans l'ensemble de données, aucune étiquette ne fait référence à une catégorie d'utilisateurs.

Supposons que vous disposiez d'un ensemble de données sur la consommation d'énergie pour les logements comportant les colonnes suivantes:

Image d'une rangée d'attributs d'une maison.

Quel type de ML utiliseriez-vous pour prédire le nombre de kilowattheures consommés par an pour une maison nouvellement construite ?
Apprentissage supervisé
L'apprentissage supervisé s'entraîne sur des exemples étiquetés. Dans cet ensemble de données, l'étiquette est "kilowattheures utilisées par an", car il s'agit de la valeur que le modèle doit prédire. Ces caractéristiques sont les suivantes : "Surface au sol", "Emplacement" et "Année de construction".
Apprentissage non supervisé
L'apprentissage non supervisé utilise des exemples sans étiquette. Dans cet exemple, l'étiquette est "kilowattheures utilisées par an", car il s'agit de la valeur que le modèle doit prédire.

Supposons que vous disposiez d'un ensemble de données sur les vols contenant les colonnes suivantes:

Image d'une ligne de données de vol

Si vous vouliez prédire le coût d'un billet d'auto, utiliseriez-vous la régression ou la classification ?
Régression
La sortie d'un modèle de régression est une valeur numérique.
Classification
La sortie d'un modèle de classification est une valeur discrète, généralement un mot. Dans ce cas, le coût d'un billet d'autocar correspond à une valeur numérique.
Sur la base de cet ensemble de données, pourriez-vous entraîner un modèle de classification à classer le coût d'un billet d'autocar comme "élevé", "moyen" ou "faible" ?
Oui, mais nous devons d'abord convertir les valeurs numériques de la colonne coach_ticket_cost en valeurs catégorielles.
Il est possible de créer un modèle de classification à partir de l'ensemble de données. Vous devez procéder comme suit :
  1. Déterminez le coût moyen d'un billet entre l'aéroport de départ et l'aéroport de destination.
  2. Déterminez les seuils qui peuvent être "élevé", "moyen" et "faible".
  3. Comparez le coût prévu aux seuils et générez la catégorie dans laquelle se trouve la valeur.
Non. Il n'est pas possible de créer un modèle de classification. Les valeurs coach_ticket_cost sont numériques et non catégorielles.
Avec un peu de travail, vous pourriez créer un modèle de classification.
Non. Les modèles de classification ne prédisent que deux catégories, comme spam ou not_spam. Ce modèle devrait prédire trois catégories.
Les modèles de classification peuvent prédire plusieurs catégories. On les appelle modèles de classification à classes multiples.

Entraînement et évaluation

Après avoir entraîné un modèle, nous l'évaluons à l'aide d'un ensemble de données contenant des exemples étiquetés, et comparons la valeur prédite du modèle à la valeur réelle de l'étiquette.

Sélectionnez les deux meilleures réponses à la question.

Si les prédictions du modèle sont éloignées, que pourriez-vous faire pour les améliorer ?
Réentraînez le modèle, mais n'utilisez que les caractéristiques qui, selon vous, ont les meilleures performances prédictives pour l'étiquette.
Le réentraînement du modèle avec moins de caractéristiques, mais plus de puissance prédictive, peut produire un modèle qui génère de meilleures prédictions.
Vous ne pouvez pas corriger un modèle dont les prédictions sont éloignées.
Il est possible de corriger un modèle dont les prédictions sont incorrectes. La plupart des modèles nécessitent plusieurs phases d'entraînement jusqu'à ce qu'ils fournissent des prédictions utiles.
Réentraîner le modèle à l'aide d'un ensemble de données plus volumineux et plus diversifié
Les modèles entraînés sur des ensembles de données comportant plus d'exemples et une gamme plus large de valeurs peuvent produire de meilleures prédictions, car ils offrent une solution plus généralisée pour la relation entre les caractéristiques et l'étiquette.
Essayez une autre approche d'entraînement. Par exemple, si vous avez utilisé une approche supervisée, optez pour une approche non supervisée.
Une autre approche d'entraînement ne permettrait pas d'obtenir de meilleures prédictions.

Vous êtes maintenant prêt à passer à l'étape suivante de votre transition vers le ML:

  • People + AI Guidebook (Guide People + IA) Si vous recherchez un ensemble de méthodes, de bonnes pratiques et d'exemples présentés par des Googleurs, des experts du secteur et des recherches universitaires sur l'utilisation du ML,

  • Identification de problèmes. Si vous recherchez une approche testée sur le terrain pour créer des modèles de ML et éviter les pièges courants.

  • Cours d'initiation au machine learning. Si vous êtes prêt pour une approche approfondie et pratique du ML :