Formulation : testez vos connaissances

Apprentissage supervisé

Examinez les options suivantes.

Supposons que vous souhaitiez développer un modèle de Machine Learning supervisé pour prédire la nature d'un e-mail donné, à savoir : "spam" ou "non-spam". Parmi les énoncés suivants, lesquels sont vrais ?
Les e-mails qui ne sont pas identifiés comme "spam" ou "non-spam" sont des exemples sans étiquette.
Dans la mesure où notre étiquette se compose des valeurs "spam" ou "non-spam", tout e-mail qui n'a pas encore été identifié de la sorte est un exemple sans étiquette.
Les mots figurant dans le titre de l'objet constituent de bonnes étiquettes.
Les mots figurant dans le titre de l'objet peuvent être d'excellentes caractéristiques, mais ils ne font pas de bonnes étiquettes.
Nous allons utiliser des exemples sans étiquette pour entraîner le modèle.
Nous allons utiliser des exemples étiquetés pour entraîner le modèle. Nous utiliserons ensuite le modèle entraîné sur des exemples sans étiquette pour déterminer si les e-mails doivent être classés comme spam ou non-spam.
Il se peut que certaines étiquettes ne soient pas dignes de confiance.
Certainement. Les étiquettes de cet ensemble de données proviennent probablement d'utilisateurs qui marquent des e-mails spécifiques comme spam. Puisque très peu d'utilisateurs marquent tous les messages suspects comme "spam", il peut s'avérer difficile de savoir si un e-mail entre dans cette catégorie. De plus, certains spammeurs ou botnets peuvent intentionnellement empoisonner notre modèle en fournissant des étiquettes inappropriées.

Caractéristiques et étiquettes

Examinez les options suivantes.

Supposons qu'un magasin de chaussures en ligne souhaite créer un modèle de ML supervisé proposant des recommandations personnalisées aux utilisateurs. Autrement dit, le modèle recommandera certaines paires de chaussures à Martin et d'autres à Marie. Parmi les énoncés suivants, lesquels sont vrais ?
La pointure constitue une caractéristique utile.
La pointure est un signal quantifiable qui, selon toute probabilité, influencera considérablement la satisfaction de l'utilisateur quant aux chaussures recommandées. Par exemple, si Martin chausse du 42, le modèle ne devrait pas lui recommander des chaussures en 39.
La beauté des chaussures est une caractéristique utile.
Une caractéristique pertinente doit être concrète et quantifiable. La beauté est un concept trop vague pour être considérée comme une caractéristique utile. Il s'agit plutôt d'une combinaison de caractéristiques concrètes, comme le style et la couleur. Le style et couleur seraient probablement de meilleures caractéristiques que la beauté.
Les clics de l'utilisateur sur la description d'une paire de chaussures constituent une étiquette utile.
Peut-être les utilisateurs souhaitent-ils simplement en savoir plus sur une paire de chaussures qui leur plaît. Par conséquent, les clics constituent une métrique observable et quantifiable pouvant faire office de bonne étiquette d'apprentissage.
Les chaussures qu'un utilisateur adore constituent une étiquette utile.
Ce sentiment n'est pas une métrique observable et quantifiable. Le mieux que nous puissions faire est de rechercher des données quantifiables qui y sont corrélées.

Envoyer des commentaires concernant…

Cours d'initiation au machine learning