Explorez les options ci-dessous.
Supposons que vous souhaitiez développer un modèle de machine learning supervisé pour prédire si un e-mail donné est de type "spam" ou "non spam". Parmi les affirmations suivantes, lesquelles sont vraies ?
Les e-mails qui ne sont pas signalés comme "spam" ou "non-spam" sont des exemples sans libellé.
Notre étiquette se compose des valeurs "spam" et "non-spam". Tout e-mail qui n'est pas encore marqué comme spam ou non-spam est un exemple sans libellé.
Les mots figurant dans l'objet seront considérés comme de bons libellés.
Les mots figurant dans l'objet de l'e-mail seront peut-être d'excellentes caractéristiques, mais ils ne feront pas de bons libellés.
Nous utiliserons des exemples sans étiquette pour entraîner le modèle.
Nous utiliserons des exemples étiquetés pour entraîner le modèle. Nous pouvons ensuite exécuter le modèle entraîné sur des exemples sans étiquette pour déduire si les e-mails sans étiquette sont du spam ou non.
Les étiquettes appliquées à certains exemples peuvent ne pas être fiables.
Absolument. Il est important de vérifier la fiabilité de vos données. Les libellés de cet ensemble de données proviennent probablement d'utilisateurs qui marquent des e-mails spécifiques comme spam. Étant donné que la plupart des utilisateurs ne marquent pas tous les e-mails suspects comme spam, nous risquons de ne pas savoir si un e-mail est un spam. De plus, les spammeurs peuvent intentionnellement empoisonner notre modèle en fournissant des étiquettes incorrectes.