Encadrement: testez vos connaissances

Apprentissage supervisé

Explorez les options ci-dessous.

Supposons que vous souhaitiez développer un modèle de machine learning supervisé pour prédire si un e-mail donné est de type "spam" ou "non spam". Parmi les affirmations suivantes, lesquelles sont vraies ?
Les e-mails qui ne sont pas signalés comme "spam" ou "non-spam" sont des exemples sans libellé.
Notre étiquette se compose des valeurs "spam" et "non-spam". Tout e-mail qui n'est pas encore marqué comme spam ou non-spam est un exemple sans libellé.
Les mots figurant dans l'objet seront considérés comme de bons libellés.
Les mots figurant dans l'objet de l'e-mail seront peut-être d'excellentes caractéristiques, mais ils ne feront pas de bons libellés.
Nous utiliserons des exemples sans étiquette pour entraîner le modèle.
Nous utiliserons des exemples étiquetés pour entraîner le modèle. Nous pouvons ensuite exécuter le modèle entraîné sur des exemples sans étiquette pour déduire si les e-mails sans étiquette sont du spam ou non.
Les étiquettes appliquées à certains exemples peuvent ne pas être fiables.
Absolument. Il est important de vérifier la fiabilité de vos données. Les libellés de cet ensemble de données proviennent probablement d'utilisateurs qui marquent des e-mails spécifiques comme spam. Étant donné que la plupart des utilisateurs ne marquent pas tous les e-mails suspects comme spam, nous risquons de ne pas savoir si un e-mail est un spam. De plus, les spammeurs peuvent intentionnellement empoisonner notre modèle en fournissant des étiquettes incorrectes.

Fonctionnalités et libellés

Explorez les options ci-dessous.

Imaginons qu'un magasin de chaussures en ligne souhaite créer un modèle de ML supervisé offrant des recommandations personnalisées aux utilisateurs. Autrement dit, le modèle recommandera certaines paires de chaussures à Marty et différentes paires de chaussures à Jeanne. Le système va générer des données d'entraînement à l'aide des données antérieures sur le comportement des utilisateurs. Parmi les affirmations suivantes, lesquelles sont vraies ?
La pointure de chaussure est une caractéristique utile.
La pointure de la chaussure est un signal quantifiable qui, selon toute probabilité, aura un impact important sur la probabilité que l'utilisateur apprécie les chaussures recommandées. Par exemple, si Marty porte une pointure 42, son modèle ne doit pas lui recommander de pointure 42.
La beauté des chaussures est une fonctionnalité utile.
Les caractéristiques correctes sont concrètes et quantifiables. La beauté est un concept trop vague pour être une caractéristique utile. La beauté combine probablement certaines caractéristiques concrètes, telles que le style et les couleurs. Le style et la couleur sont de meilleures caractéristiques que la beauté.
"L'utilisateur a cliqué sur la description de la chaussure" est une étiquette utile.
Les utilisateurs veulent probablement en savoir plus sur les chaussures qu'ils aiment. Par conséquent, les clics constituent une métrique observable et quantifiable pouvant servir d'étiquette d'entraînement. Étant donné que nos données d'entraînement sont basées sur le comportement antérieur des utilisateurs, nos étiquettes doivent être déterminées à partir de comportements objectifs tels que des clics fortement corrélés aux préférences utilisateur.
Le terme "chaussures qu'un utilisateur adore" est un libellé utile.
L'adoration n'est pas une métrique observable et quantifiable. La meilleure solution consiste à rechercher des métriques de proxy observables pour l'adoration.