Collecte de données: testez vos connaissances

Pour les questions suivantes, cliquez sur la flèche souhaitée pour vérifier votre réponse:

Imaginons que vous travaillez sur un modèle de machine learning lié à la publicité et que vous souhaitez prédire les dépenses publicitaires de janvier. La quantité de données pouvant être stockées sur disque est limitée. Par conséquent, vous ne devez utiliser qu'un sous-ensemble de données disponibles. Vous pouvez utiliser toutes les données les plus récentes, qui datent du mois de décembre précédent. Une autre personne vous suggère d'échantillonner des données au cours de l'année écoulée. Quel serait le meilleur motif et pourquoi ?
Données du mois précédent (décembre)
Bien que ces données soient plus récentes, elles peuvent être influencées par les effets saisonniers des dépenses des annonceurs avant les fêtes de décembre.
Données échantillonnées tout au long de l'année
Bien que ces données soient anciennes, elles sont moins susceptibles d'être influencées par les effets saisonniers des dépenses des annonceurs avant les fêtes de décembre.
Vous souhaitez afficher des vidéos que les utilisateurs souhaitent regarder. Vous utilisez comme libellé les vidéos qu'ils ont regardées sur YouTube. Cette étiquette est-elle directe ou dérivée ?
Derived
Cette étiquette est dérivée, car vous ne souhaitez pas obtenir la prédiction exacte. L'utilisateur a peut-être ouvert la vidéo, mais l'a fermée peu de temps après. Cet événement sera comptabilisé comme une vue, même si l'utilisateur n'a pas regardé la vidéo. Dans certains cas, vous pouvez utiliser une méthode heuristique comme celle-ci, mais vous devez tenir compte de votre type d'étiquette (direct ou dérivé) et de ses limites.
Direct
Bien que cette étiquette puisse conduire à une prédiction précise la plupart du temps, ce n'est pas la prédiction exacte que vous souhaitez effectuer.