Équité : tester vos connaissances

Types de biais

Examinez les options suivantes.

Parmi les prédictions du modèle suivant, quelles sont celles qui ont été affectées par un biais de sélection ?
Une application allemande pour smartphone de reconnaissance de l'écriture manuscrite utilise un modèle qui confond fréquemment le caractère ß (Eszett) et la lettre B, car l'apprentissage de ce modèle a été réalisé à l'aide d'un corpus de textes manuscrits américains majoritairement rédigés en anglais.
Ce modèle souffre d'un type de biais de sélection appelé biais de couverture : les données d'apprentissage (écriture manuscrite en anglais américain) n'étaient pas représentatives du type de données obtenues auprès du public visé par le modèle (écriture manuscrite en allemand).
Des ingénieurs ont élaboré un modèle permettant de prédire la probabilité pour qu'une personne devienne diabétique en se basant sur son alimentation quotidienne. L'apprentissage du modèle a été effectué à l'aide de 10 000 journaux alimentaires obtenus auprès d'un groupe d'individus choisis au hasard à travers le monde et représentant différents genres, groupes d'âge et origines ethniques. Cependant, lorsque le modèle a été déployé, sa précision s'est avérée très faible. Les ingénieurs ont alors découvert que les participants avaient eu tendance à minimiser la quantité de mauvais aliments consommés dans leur journal, où la consommation d'aliments sains avait été enregistrée plus régulièrement que celle d'aliments à faible valeur nutritionnelle.
Il n'y a aucun biais de sélection dans ce modèle, puisque les participants qui ont fourni les données d'apprentissage constituaient bien un échantillon représentatif d'utilisateurs et ont été choisis au hasard. Au lieu de cela, ce modèle a été affecté par un biais de fréquence. La consommation de mauvais aliments a été enregistrée à une fréquence très inférieure à la réalité.
Les ingénieurs d'une entreprise ont mis au point un modèle permettant de prédire les taux de rotation du personnel (le pourcentage d'employés quittant leur emploi chaque année) en se basant sur les données recueillies à l'aide d'une enquête adressée à tous les employés. Après plusieurs années d'utilisation, les ingénieurs ont conclu que le modèle sous-estimait ce taux de rotation de plus de 20 %. Les entretiens de départ avec des employés quittant l'entreprise ont révélé que plus de 80 % des personnes insatisfaites de leur travail avaient choisi de ne pas répondre au sondage (ce taux était de 15 % pour l'ensemble de l'entreprise).
Ce modèle était affecté par un type de biais de sélection appelé biais de non-réponse. Les personnes insatisfaites de leur travail étaient sous-représentées dans l'ensemble de données d'apprentissage, car elles avaient choisi de ne pas participer à l'enquête à un taux bien plus élevé que l'ensemble des employés.
Pour développer un système de recommandation de films, des ingénieurs sont partis de l'hypothèse selon laquelle des amateurs de films d'horreur apprécieraient également les films de science-fiction. Lorsqu'ils ont lancé l'apprentissage du modèle à l'aide des listes de films vus par 50 000 utilisateurs, ils ont découvert qu'aucune corrélation n'existait entre les préférences pour ces deux genres. En revanche, une corrélation est apparue entre les catégories "films d'horreur" et "documentaires". Surpris par ce résultat, les ingénieurs ont soumis le modèle à cinq cycles d'apprentissage supplémentaires, en variant les hyperparamètres utilisés à chaque cycle. Ils ont ainsi obtenu un modèle final présentant une corrélation de 70 % entre les préférences pour les films d'horreur et la science-fiction, ce qui leur a permis de mettre ce modèle en exploitation en toute confiance.
Aucun biais de sélection n'est visible ici, mais ce modèle a sans doute été affecté par l'effet expérimentateur, car les ingénieurs l'ont corrigé jusqu'à ce qu'il confirme leur hypothèse d'origine.

Évaluer les biais

Un modèle de détection du sarcasme a été créé à partir d'un apprentissage effectué sur 80 000 SMS, dont 40 000 messages envoyés par des adultes (18 ans et plus) et 40 000 par des mineurs (moins de 18 ans). Ce modèle a ensuite été appliqué à un ensemble d'évaluation de 20 000 messages : 10 000 adultes et 10 000 mineurs. Les matrices de confusion ci-dessous présentent les résultats obtenus pour chaque groupe (une prédiction positive indique une classification "sarcastique" ; une prédiction négative indique une classification "non sarcastique") :

Adultes

Vrais positifs (VP) : 512 Faux positifs (FP) : 51
Faux négatifs (FN) : 36 Vrais négatifs (VN) : 9401
$$\text{Précision} = \frac{VP}{VP+FP} = 0.909$$
$$\text{Rappel} = \frac{VP}{VP+FN} = 0.934$$

Mineurs

Vrais positifs (VP) : 2147 Faux positifs (FP) : 96
Faux négatifs (FN) : 2177 Vrais négatifs (VN) : 5580
$$\text{Précision} = \frac{VP}{VP+FP} = 0.957$$
$$\text{Rappel} = \frac{VP}{VP+FN} = 0.497$$

Examinez les options suivantes.

Parmi les affirmations suivantes concernant les performances de l'ensemble de test du modèle, quelles sont celles qui sont vraies ?
Globalement, le modèle fonctionne mieux sur les exemples provenant d'adultes que sur ceux des mineurs.

Le modèle atteint des taux de précision et de rappel supérieurs à 90 % dans la détection de sarcasme dans des SMS d'adultes.

Bien que le modèle atteigne un taux de précision légèrement supérieur pour les mineurs, le taux de rappel est nettement plus faible pour ces derniers, ce qui signifie que les prédictions sont moins fiables pour ce groupe.

Le modèle échoue à classer environ 50 % des messages sarcastiques dans la catégorie "sarcastique".
Le taux de rappel de 0,497 pour les mineurs indique que le modèle prédit "non sarcastique" pour environ 50 % des messages sarcastiques rédigés par des mineurs.
Près de 50 % des messages envoyés par des mineurs sont classés à tort dans la catégorie "sarcastique".
Le taux de précision de 0,957 indique que plus de 95 % des messages de mineurs classés comme "sarcastiques" sont bien sarcastiques.
Les 10 000 messages envoyés par des adultes constituent un ensemble de données avec déséquilibre des classes.
Si nous comparons le nombre de messages d'adultes réellement sarcastiques (TP + FN = 548) avec le nombre de messages réellement non sarcastiques (TN + FP = 9452), nous constatons que les libellés "non sarcastique" sont environ 17 fois plus nombreux que les libellés "sarcastique".
Les 10 000 messages envoyés par des mineurs constituent un ensemble de données avec déséquilibre des classes.
Si nous comparons le nombre de messages de mineurs qui sont réellement sarcastiques (TP + FN = 4324) avec le nombre de messages qui ne sont pas réellement sarcastiques (TN + FP = 5676), nous constatons que les libellés "non sarcastique" sont seulement 1,3 fois plus nombreux que les libellés "sarcastique". Comme la distribution des libellés entre les deux classes est proche de 50/50, nous n'avons pas affaire ici à un ensemble de données avec déséquilibre des classes.

Examinez les options suivantes.

Les ingénieurs réfléchissent à un moyen de réaliser un nouvel apprentissage pour ce modèle afin de remédier à son imprécision dans la détection de sarcasme, quelle que soit la tranche d'âge, mais le modèle a déjà été mis en exploitation. Parmi les stratégies correctives suivantes, quelles sont celles qui permettront de pallier les erreurs dans les prédictions du modèle ?
Limiter l'utilisation du modèle aux SMS envoyés par des adultes

Le modèle fonctionne bien sur les SMS des adultes (avec des taux de précision et de rappel supérieurs à 90 %). En limitant son utilisation à ce groupe, on évitera les erreurs systématiques dans la classification des SMS des mineurs.

Lorsque le modèle prédit "non sarcastique" pour les SMS envoyés par des mineurs, ajuster le résultat en attribuant la valeur "incertain" à la sortie correspondante

Le taux de précision pour les SMS envoyés par des mineurs est élevé, ce qui signifie que lorsque le modèle prédit "sarcastique" pour ce groupe, il est presque toujours correct.

Le problème est que le taux de rappel est très faible pour les mineurs. Le modèle ne détecte que 50 % environ des SMS sarcastiques. Étant donné que les prédictions négatives du modèle pour les mineurs ne valent pas mieux que des résultats aléatoires, nous pouvons éviter ces erreurs en ne fournissant aucune prédiction dans ces cas.

Limiter l'utilisation du modèle aux messages texte envoyés par des mineurs

Les erreurs systématiques dans ce modèle sont constatées uniquement sur les SMS envoyés par des mineurs. Restreindre l'utilisation du modèle au groupe présentant le plus d'erreurs n'aurait aucun intérêt.

Ajuster le résultat en sortie du modèle afin qu'il renvoie la valeur "sarcastique" pour tous les SMS envoyés par des mineurs, indépendamment des prédictions offertes par le modèle

Prédire systématiquement "sarcastique" pour les SMS des mineurs ferait passer le taux de rappel de 0,497 à 1,0, puisque le modèle n'échouerait plus à identifier le moindre message sarcastique. Cependant, cette augmentation du rappel se ferait au détriment de la précision. Tous les vrais négatifs seraient changés en faux positifs:

Vrais positifs (VP) : 4324 Faux positifs (FP) : 5676
Faux négatifs (FN) : 0 Vrais négatifs (VN) : 0

Le taux de précision passerait ainsi de 0,957 à 0,432. Une telle calibration permettrait donc de modifier le type d'erreur, mais n'en diminuerait pas l'amplitude.