[{
"type": "thumb-down",
"id": "missingTheInformationINeed",
"label":"Missing the information I need"
},{
"type": "thumb-down",
"id": "tooComplicatedTooManySteps",
"label":"Too complicated / too many steps"
},{
"type": "thumb-down",
"id": "outOfDate",
"label":"Out of date"
},{
"type": "thumb-down",
"id": "translationIssue",
"label":"Translation issue"
},{
"type": "thumb-down",
"id": "samplesCodeIssue",
"label":"Samples/Code issue"
},{
"type": "thumb-down",
"id": "otherDown",
"label":"Other"
}]
[{
"type": "thumb-up",
"id": "easyToUnderstand",
"label":"Easy to understand"
},{
"type": "thumb-up",
"id": "solvedMyProblem",
"label":"Solved my problem"
},{
"type": "thumb-up",
"id": "otherUp",
"label":"Other"
}]
Équité : tester vos connaissances
Types de biais
Examinez les options suivantes.
Parmi les prédictions du modèle suivant, quelles sont celles
qui ont été affectées par un biais de sélection ?
Une application allemande pour smartphone de reconnaissance de l'écriture manuscrite utilise un modèle qui confond fréquemment
le caractère ß (Eszett)
et la lettre B,
car l'apprentissage de ce modèle a été réalisé à l'aide
d'un corpus de textes manuscrits américains majoritairement rédigés en anglais.
Ce modèle souffre d'un type de biais de sélection appelé
biais de couverture : les données d'apprentissage (écriture manuscrite
en anglais américain) n'étaient pas représentatives du type de données
obtenues auprès du public visé par le modèle (écriture manuscrite en allemand).
Des ingénieurs ont élaboré un modèle permettant de prédire la probabilité pour qu'une personne
devienne diabétique en se basant sur son alimentation quotidienne. L'apprentissage du modèle
a été effectué à l'aide de 10 000 journaux alimentaires
obtenus auprès d'un groupe d'individus choisis au hasard à travers le monde
et représentant différents genres, groupes d'âge et origines ethniques. Cependant, lorsque le modèle a été déployé, sa précision s'est avérée très faible. Les ingénieurs ont alors découvert que les participants
avaient eu tendance à minimiser la quantité de mauvais aliments consommés
dans leur journal, où la consommation d'aliments sains avait été enregistrée
plus régulièrement que celle d'aliments à faible valeur nutritionnelle.
Il n'y a aucun biais de sélection dans ce modèle, puisque les participants qui ont fourni
les données d'apprentissage constituaient bien un échantillon représentatif d'utilisateurs et ont été choisis au hasard.
Au lieu de cela, ce modèle a été affecté par un biais de fréquence. La consommation de mauvais
aliments a été enregistrée à une fréquence très inférieure à la réalité.
Les ingénieurs d'une entreprise ont mis au point un modèle permettant
de prédire les taux de rotation du personnel (le pourcentage d'employés quittant leur emploi chaque année)
en se basant sur les données recueillies à l'aide d'une enquête adressée à tous les employés. Après plusieurs années d'utilisation,
les ingénieurs ont conclu que le modèle sous-estimait ce taux de rotation
de plus de 20 %. Les entretiens de départ avec des employés quittant l'entreprise
ont révélé que plus de 80 % des personnes insatisfaites de leur travail
avaient choisi de ne pas répondre au sondage (ce taux était de 15 % pour l'ensemble de l'entreprise).
Ce modèle était affecté par un type de biais de sélection
appelé biais de non-réponse. Les personnes insatisfaites de leur travail étaient sous-représentées
dans l'ensemble de données d'apprentissage, car elles avaient choisi
de ne pas participer à l'enquête à un taux bien plus élevé que l'ensemble des employés.
Pour développer un système de recommandation de films, des ingénieurs sont partis de l'hypothèse selon laquelle
des amateurs de films d'horreur apprécieraient également les films de science-fiction. Lorsqu'ils ont
lancé l'apprentissage du modèle à l'aide des listes de films vus par 50 000 utilisateurs,
ils ont découvert qu'aucune corrélation n'existait entre les préférences pour ces deux genres.
En revanche, une corrélation est apparue entre les catégories "films d'horreur" et "documentaires". Surpris par ce résultat, les ingénieurs ont soumis le modèle
à cinq cycles d'apprentissage supplémentaires, en variant les hyperparamètres utilisés à chaque cycle. Ils ont ainsi obtenu un modèle final présentant une corrélation de 70 %
entre les préférences pour les films d'horreur et la science-fiction,
ce qui leur a permis de mettre ce modèle en exploitation en toute confiance.
Aucun biais de sélection n'est visible ici, mais ce modèle a sans doute été affecté
par l'effet expérimentateur, car les ingénieurs l'ont corrigé jusqu'à ce qu'il confirme
leur hypothèse d'origine.
Évaluer les biais
Un modèle de détection du sarcasme
a été créé à partir d'un apprentissage effectué sur 80 000 SMS, dont 40 000 messages
envoyés par des adultes (18 ans et plus) et 40 000 par des mineurs (moins de 18 ans). Ce modèle
a ensuite été appliqué à un ensemble d'évaluation de 20 000 messages :
10 000 adultes et 10 000 mineurs. Les matrices de confusion ci-dessous présentent les résultats obtenus
pour chaque groupe (une prédiction positive indique une classification "sarcastique" ;
une prédiction négative indique une classification "non sarcastique") :
Adultes
Vrais positifs (VP) : 512
Faux positifs (FP) : 51
Faux négatifs (FN) : 36
Vrais négatifs (VN) : 9401
$$\text{Précision} = \frac{VP}{VP+FP} = 0.909$$
$$\text{Rappel} = \frac{VP}{VP+FN} = 0.934$$
Mineurs
Vrais positifs (VP) : 2147
Faux positifs (FP) : 96
Faux négatifs (FN) : 2177
Vrais négatifs (VN) : 5580
$$\text{Précision} = \frac{VP}{VP+FP} = 0.957$$
$$\text{Rappel} = \frac{VP}{VP+FN} = 0.497$$
Examinez les options suivantes.
Parmi les affirmations suivantes concernant les performances de l'ensemble de test du modèle,
quelles sont celles qui sont vraies ?
Globalement, le modèle fonctionne mieux sur les exemples provenant d'adultes
que sur ceux des mineurs.
Le modèle atteint des taux de précision et de rappel supérieurs à 90 %
dans la détection de sarcasme dans des SMS d'adultes.
Bien que le modèle atteigne un taux de précision légèrement supérieur pour les mineurs,
le taux de rappel est nettement plus faible pour ces derniers, ce qui signifie que
les prédictions sont moins fiables pour ce groupe.
Le modèle échoue à classer environ 50 % des messages sarcastiques
dans la catégorie "sarcastique".
Le taux de rappel de 0,497 pour les mineurs indique que le modèle prédit
"non sarcastique" pour environ 50 % des messages sarcastiques
rédigés par des mineurs.
Près de 50 % des messages envoyés par des mineurs sont classés à tort
dans la catégorie "sarcastique".
Le taux de précision de 0,957 indique que plus de 95 % des messages de mineurs
classés comme "sarcastiques" sont bien sarcastiques.
Si nous comparons le nombre de messages d'adultes réellement
sarcastiques (TP + FN = 548)
avec le nombre de messages réellement
non sarcastiques (TN + FP = 9452),
nous constatons que les libellés "non sarcastique"
sont environ 17 fois plus nombreux que les libellés "sarcastique".
Si nous comparons le nombre de messages de mineurs qui sont réellement
sarcastiques (TP + FN = 4324)
avec le nombre de messages qui ne sont pas réellement
sarcastiques (TN + FP = 5676), nous constatons
que les libellés "non sarcastique" sont seulement 1,3 fois plus nombreux
que les libellés "sarcastique". Comme la distribution des libellés
entre les deux classes est proche de 50/50, nous n'avons pas affaire ici
à un ensemble de données avec déséquilibre des classes.
Examinez les options suivantes.
Les ingénieurs réfléchissent à un moyen de réaliser un nouvel apprentissage
pour ce modèle afin de remédier à son imprécision dans la détection de sarcasme,
quelle que soit la tranche d'âge, mais le modèle a déjà été mis en exploitation. Parmi les stratégies correctives suivantes, quelles sont celles qui permettront
de pallier les erreurs dans les prédictions du modèle ?
Limiter l'utilisation du modèle aux SMS envoyés par des adultes
Le modèle fonctionne bien sur les SMS des adultes
(avec des taux de précision et de rappel supérieurs à 90 %).
En limitant son utilisation à ce groupe, on évitera les erreurs systématiques
dans la classification des SMS des mineurs.
Lorsque le modèle prédit "non sarcastique"
pour les SMS envoyés par des mineurs, ajuster le résultat
en attribuant la valeur "incertain" à la sortie correspondante
Le taux de précision pour les SMS envoyés par des mineurs est élevé,
ce qui signifie que lorsque le modèle prédit "sarcastique" pour ce groupe,
il est presque toujours correct.
Le problème est que le taux de rappel est très faible pour les mineurs.
Le modèle ne détecte que 50 % environ des SMS sarcastiques. Étant donné
que les prédictions négatives du modèle pour les mineurs ne valent pas mieux
que des résultats aléatoires, nous pouvons éviter ces erreurs en ne fournissant
aucune prédiction dans ces cas.
Limiter l'utilisation du modèle aux messages texte envoyés par des mineurs
Les erreurs systématiques dans ce modèle sont constatées uniquement
sur les SMS envoyés par des mineurs. Restreindre l'utilisation du modèle
au groupe présentant le plus d'erreurs n'aurait aucun intérêt.
Ajuster le résultat en sortie du modèle afin qu'il renvoie la valeur "sarcastique"
pour tous les SMS envoyés par des mineurs, indépendamment des prédictions
offertes par le modèle
Prédire systématiquement "sarcastique" pour les SMS des mineurs ferait passer
le taux de rappel de 0,497 à 1,0, puisque le modèle n'échouerait plus
à identifier le moindre message sarcastique. Cependant, cette augmentation du rappel se ferait au détriment de la précision. Tous les vrais négatifs seraient changés en faux positifs:
Vrais positifs (VP) : 4324
Faux positifs (FP) : 5676
Faux négatifs (FN) : 0
Vrais négatifs (VN) : 0
Le taux de précision passerait ainsi de 0,957 à 0,432. Une telle calibration permettrait donc de modifier le type d'erreur,
mais n'en diminuerait pas l'amplitude.