Travaux pratiques sur le ML: Équité dans l'API Perspective

Testez vos connaissances: identification et correction des biais

Identifier les biais

Dans l'exercice 1: Explorer le modèle, vous avez confirmé que le modèle classait de manière disproportionnée les commentaires comportant des termes liés à l'identité comme toxiques. Quelles métriques permettent d'expliquer la cause de ce biais ? Explorez les options ci-dessous.
Justesse

La précision mesure le pourcentage du nombre total de prédictions correctes, c'est-à-dire le pourcentage de prédictions qui sont de vrais positifs ou de vrais négatifs. La comparaison de la justesse de différents sous-groupes (par exemple, des données démographiques sur le sexe des différents sexes) nous permet d'évaluer les performances relatives du modèle pour chaque groupe et peut servir d'indicateur de l'effet d'un biais sur un modèle.

Toutefois, comme la précision considère les prédictions correctes et incorrectes de façon agrégée, elle ne fait pas la distinction entre les deux types de prédictions correctes et les deux types de prédictions incorrectes. En se basant uniquement sur la justesse, nous ne pouvons pas déterminer la répartition sous-jacente des vrais positifs, des vrais négatifs, des faux positifs et des faux négatifs, ce qui permettrait de mieux comprendre la source du biais.

False positive rate

Le taux de faux positifs (TFP) correspond au pourcentage d'exemples de commentaires négatifs réels (commentaires non toxiques) ayant été incorrectement classés comme positifs (commentaires toxiques). Le TFP est un indicateur de l'effet du biais sur le modèle. Lorsque nous comparons les TFP pour différents sous-groupes (tels que les données démographiques sur le sexe), nous apprenons que les commentaires écrits contenant des termes liés à l'identité liés au genre sont plus susceptibles d'être classés à tort comme toxiques (faux positifs) que ceux qui ne contiennent pas ces termes.

Cependant, nous ne cherchons pas à mesurer l'effet de ce biais, nous voulons trouver sa cause. Pour ce faire, nous devons examiner de plus près les entrées de la formule TFP.

Négatifs réels et positifs réels
Dans les ensembles de données d'entraînement et de test de ce modèle, les positifs réels sont les exemples de commentaires toxiques et les négatifs réels, tous les exemples non toxiques. Étant donné que les termes liés à l'identité eux-mêmes sont neutres, nous pouvons nous attendre à un nombre équilibré de commentaires réellement négatifs et de commentaires positifs concernant une identité donnée. Un nombre démesurément faible de négatifs réels indique que le modèle n'a pas vu beaucoup d'exemples de termes d'identité utilisés dans des contextes positifs ou neutres. Dans ce cas, le modèle peut apprendre une corrélation entre les termes identitaires et la toxicité.
Rappel
Le rappel est le pourcentage de prédictions positives réelles qui ont été correctement classées comme positives. Il nous indique le pourcentage de commentaires toxiques que le modèle a réussi à détecter. Ici, nous nous intéressons aux biais liés aux faux positifs (commentaires non toxiques classés comme toxiques), et le rappel ne fournit aucune information sur ce problème.

Corriger les biais

Laquelle des actions suivantes pourrait être une méthode efficace pour corriger les biais observés dans les données d'entraînement utilisées dans l'exercice 1 et l'exercice 2 ? Explorez les options ci-dessous.
Ajout d'autres exemples négatifs (non toxiques) contenant des termes liés à l'identité à l'ensemble d'entraînement.
L'ajout d'autres exemples négatifs (commentaires non toxiques) contenant des termes liés à l'identité permet d'équilibrer l'ensemble d'entraînement. Le modèle observera alors un meilleur équilibre entre les termes d'identité utilisés dans des contextes toxiques et non toxiques, de sorte qu'il puisse apprendre que les termes eux-mêmes sont neutres.
Ajout d'autres exemples positifs (toxiques) contenant des termes liés à l'identité à l'ensemble d'entraînement.
Les exemples toxiques sont déjà surreprésentés dans le sous-ensemble d'exemples contenant des termes liés à l'identité. Si nous ajoutons encore plus de ces exemples à l'ensemble d'entraînement, nous allons en fait exacerber le biais existant au lieu de le corriger.
Ajout d'autres exemples négatifs (non toxiques) sans termes liés à l'identité à l'ensemble d'entraînement.
Les termes d'identité sont déjà sous-représentés dans les exemples négatifs. L'ajout d'autres exemples négatifs sans termes d'identité n'augmenterait pas ce déséquilibre et ne contribuerait pas à corriger ce biais.
Ajout d'autres exemples positifs (toxiques) sans termes liés à l'identité à l'ensemble d'entraînement.

Il est possible que l'ajout d'autres exemples positifs sans termes liés à l'identité puisse aider à rompre l'association entre les termes identitaires et la toxicité que le modèle avait déjà apprises.

Évaluer les biais

Vous avez entièrement entraîné votre propre classificateur de toxicité du texte. Votre équipe d'ingénieurs prévoit d'utiliser ce classificateur pour supprimer automatiquement l'affichage des commentaires classés comme toxiques. Vous craignez que tout biais de toxicité dans des commentaires sexistes puisse entraîner la suppression des discours non toxiques sur le genre. Vous souhaitez évaluer les biais liés au genre dans les prédictions du classificateur. Quelle métrique devez-vous utiliser pour évaluer le modèle ? Explorez les options ci-dessous.
Taux de faux positifs (TFP)
En production, le modèle sera utilisé pour supprimer automatiquement les prédictions positives (toxiques). Votre objectif est de vous assurer que le modèle ne supprime pas les faux positifs (commentaires non toxiques qu'il a identifiés à tort comme toxiques) pour les commentaires de genre à un taux plus élevé que pour les commentaires dans l'ensemble. La comparaison des TFP des sous-groupes de sexe au TFP global est un excellent moyen d'évaluer la correction des biais pour votre cas d'utilisation.
Taux de faux négatifs (FNR)
La métrique FNR mesure la fréquence à laquelle le modèle classe mal la classe positive (ici, "toxique") en tant que classe négative ("non toxique"). Pour ce cas d'utilisation, il vous indique à quelle fréquence des commentaires réellement toxiques passent à travers le filtre et sont présentés aux utilisateurs. Votre principale préoccupation est de savoir comment les biais se manifestent en termes de suppression de propos non toxiques. Le rapport FNR ne vous donne pas d'informations sur cette dimension de performances du modèle.
Justesse
La précision mesure le pourcentage de prédictions correctes du modèle et, inversement, le pourcentage de prédictions incorrectes. Pour ce cas d'utilisation, la précision indique la probabilité que le filtre ait supprimé les discours non toxiques ou affiché des propos toxiques. Votre principale préoccupation est le premier, et non le deuxième. Étant donné que la justesse mélange les deux problèmes, elle n'est pas la métrique d'évaluation idéale à utiliser dans ce cas de figure.
AUC
L' AUC fournit une mesure absolue de la capacité prédictive d'un modèle. Il s'agit d'une bonne métrique pour évaluer les performances globales. Cependant, ici, vous vous intéressez particulièrement aux taux de suppression des commentaires, et l'AUC ne vous donne pas d'informations directes sur ce problème.
Un modérateur de contenu a été ajouté à votre équipe, et le responsable produit a décidé de modifier la façon dont votre classificateur sera déployé. Au lieu de supprimer automatiquement les commentaires classés comme toxiques, le logiciel de filtrage les signale au modérateur de contenu afin qu'il les examine. Étant donné qu'un humain examinera les commentaires marqués comme toxiques, les biais ne se manifesteront plus sous la forme de suppression de contenu. Parmi les métriques suivantes, lesquelles pourriez-vous maintenant utiliser pour mesurer les biais et les effets de leur correction ? Explorez les options ci-dessous.
Taux de faux positifs (TFP)
Le taux de faux positifs indique le pourcentage de commentaires non toxiques qui ont été classés à tort comme toxiques. Étant donné qu'un modérateur humain doit désormais vérifier tous les commentaires que le modèle classe comme "toxique" et devrait détecter la plupart des faux positifs, le TVP n'est plus une préoccupation majeure.
Taux de faux négatifs (FNR)
Même si un modérateur humain examine tous les commentaires considérés comme "toxiques" et s'assure que les faux positifs ne sont pas supprimés, il n'examinera pas les commentaires marqués comme "non toxiques". Cela laisse ouverte la possibilité d'un biais lié aux faux négatifs. Vous pouvez utiliser la métrique FNR (le pourcentage de positifs réels classés comme négatifs) pour évaluer systématiquement si les commentaires toxiques des sous-groupes de genre sont plus susceptibles d'être marqués comme non toxiques que les commentaires en général.
Précision
La précision indique le pourcentage de prédictions positives qui sont réellement positives. Dans ce cas, le pourcentage de prédictions "toxiques" correctes. Étant donné qu'un modérateur humain vérifiera toutes les prédictions "toxiques", vous n'avez pas besoin d'utiliser la précision comme l'une de vos principales métriques d'évaluation.
Rappel
Le rappel vous indique le pourcentage de positifs réels qui ont été classés correctement. À partir de cette valeur, vous pouvez obtenir le pourcentage de positifs réels qui ont été mal classés (1 – rappel), ce qui est une métrique utile pour déterminer si les commentaires toxiques liés au genre sont classés de manière disproportionnée comme "non toxiques" par rapport aux commentaires en général.