Practicum de ML: Équité dans l'API Perspective

Découvrez comment l'équipe de Jigsaw a géré le harcèlement en ligne en partenariat avec l'équipe technologique de lutte contre les abus en développant l'API Perspective, qui utilise le machine learning pour identifier les commentaires toxiques. Utilisez ensuite Fairness Indicators pour évaluer les modèles de ML et contribuer à réduire les biais involontaires dans les données d'entraînement.

Introduction

Jigsaw est une unité d'Alphabet qui développe la technologie pour rendre le monde plus sûr. En 2017, l'équipe a entrepris de lutter contre le harcèlement en ligne et a développé l'API Perspective. L'objectif de l'API Perspective est d'accroître la participation, la qualité et l'empathie des conversations en ligne à grande échelle. Les développeurs et les éditeurs peuvent utiliser Perspective pour identifier et filtrer le texte qui perturbe les dialogues constructifs sur les forums en ligne en analysant le contenu des commentaires pour détecter les textes potentiellement choquants, y compris les menaces, les insultes, le langage vulgaire et le langage toxique.

L'API Perspective prend en entrée le texte des commentaires et renvoie un "score" compris entre 0 et 1 indiquant la probabilité que le commentaire est semblable à des commentaires toxiques qu'il a déjà observés. Un score de 0 signifie une probabilité de 0% que le commentaire est toxique, un score de 1 indique une probabilité de 100% que le commentaire est toxique, et un score de 0,5 signifie une probabilité de 50% que le commentaire est toxique (c'est-à-dire que le modèle n'est pas sûr).

Description du problème

Après le lancement initial de l'API Perspective, les utilisateurs externes ont découvert une corrélation positive entre les termes liés à l'identité, contenant des informations sur l'orientation ou l'orientation sexuelle et le score de toxicité. Par exemple, l'expression "Je suis une femme noire gay" a reçu un score de toxicité de 0,87. Dans le cas présent, les termes liés à l'identité n'étant pas employés de manière péjorative, cet exemple n'a pas été correctement classé. Quel est le problème ?