Glossaire du machine learning: Équité

Cette page contient les termes du glossaire Fairness. Pour consulter tous les termes du glossaire, cliquez ici.

A

Attribut

#fairness

Synonyme de fonctionnalité.

En termes d'équité dans le machine learning, les attributs font souvent référence aux caractéristiques concernant les individus.

biais d'automatisation

#fairness

Lorsqu'un décisionnaire humain privilégie les recommandations d'un système automatisé de prise de décision plutôt que des informations sans automatisation, même lorsque le système prend des erreurs.

B

biais (éthique/équité)

#fairness
#fundamentals

1. Stéréotypage, préjudice ou favoritisme envers certains objets, personnes ou groupes par rapport à d'autres. Ces biais peuvent affecter la collecte et l'interprétation des données, la conception d'un système et la manière dont les utilisateurs interagissent avec celui-ci. Les formes de ce type de biais sont les suivantes:

2. Erreur systématique introduite par une procédure d'échantillonnage ou de création de rapports. Les formes de ce type de biais sont les suivantes:

À ne pas confondre avec le terme biaisé dans les modèles de machine learning ou le biais de prédiction.

C

biais de confirmation

#fairness

Tendance à rechercher, interpréter, favoriser et rappeler les informations d'une manière qui confirme ses croyances ou hypothèses préexistantes. Les développeurs en machine learning peuvent collecter par erreur ou étiqueter des données d'une manière qui influence un résultat en faveur de leurs croyances existantes. Le biais de confirmation est une forme de biais implicite.

Le biais du testeur est une forme de biais de confirmation dans lequel un testeur continue d'entraîner des modèles jusqu'à confirmation d'une hypothèse préexistante.

équité contrefactuelle

#fairness
Métrique d'équité qui vérifie si un classificateur produit le même résultat pour un individu que pour un autre qui est identique au premier, sauf pour un ou plusieurs attributs sensibles. L'évaluation d'un classificateur pour détecter l'équité contrefactuelle est l'une des méthodes permettant d'identifier les sources potentielles de biais dans un modèle.

Pour en savoir plus sur l'équité contrefactuelle, reportez-vous à la section Cas de collision entre deux mondes: intégrer différentes hypothèses contrefactuelles dans l'équité.

biais de couverture

#fairness

Voir biais de sélection.

D.

parité démographique

#fairness

Métrique d'équité satisfaite si les résultats de la classification d'un modèle ne dépendent pas d'un attribut sensible donné.

Par exemple, si les Lilliputiens et les Brobdingnagiiens s'appliquent tous les deux à l'Université Glubbdubdrib, la parité démographique est obtenue si le pourcentage de Lilliputiens admis est identique au pourcentage de Brobdingnagiiens admis, indépendamment du fait que l'un des groupes soit en moyenne plus qualifié que l'autre.

À l'inverse des probabilités égales et de l'égalité des chances, qui permettent aux résultats de classification agrégés de dépendre d'attributs sensibles, mais qui ne permettent pas de dépendre des attributs de vérité terrain spécifiés. Pour en savoir plus sur les compromis possibles lors de l'optimisation de la parité démographique, consultez la page Attaquer la discrimination à l'aide du machine learning plus intelligent.

impact disparate

#fairness

Les décisions concernant les personnes ayant un impact différent sur les sous-groupes de la population sont disproportionnées. Il s'agit généralement de situations dans lesquelles un processus de décision algorithmique nuit à certains sous-groupes ou en bénéficie.

Par exemple, supposons qu'un algorithme qui détermine l'éligibilité d'un Lilliputien à un prêt immobilier est plus susceptible de le classer comme "inéligible" si son adresse postale contient un certain code postal. Si les lilliputiens Big-Endian sont plus susceptibles d'avoir des adresses postales avec ce code postal que les lilliputiens Little Endilian, cet algorithme peut avoir un impact disparate.

À comparer au traitement disparate, qui se concentre sur les disparités qui résultent de caractéristiques explicites de sous-groupes dans un processus de prise de décision algorithmique.

traitement disparate

#fairness

Prise en compte des attributs sensibles des sujets dans un processus de prise de décision algorithmique afin que différents sous-groupes de personnes soient traités différemment.

Prenons l'exemple d'un algorithme qui détermine l'éligibilité des Lilliputiens à un prêt immobilier miniature en fonction des données qu'ils fournissent dans leur demande de prêt. Si l'algorithme utilise l'affiliation d'un Lilliputien comme Big-Endian ou Little-Endian comme entrée, il adopte un traitement disparate dans cette dimension.

Contraste avec l'impact disparate, qui se concentre sur les disparités dans les impacts sociétaux des décisions algorithmiques sur les sous-groupes, que ces sous-groupes soient des entrées dans le modèle ou non.

E

égalité des chances

#fairness
Métrique d'équité qui vérifie si, pour un libellé préféré (qui présente un avantage ou un avantage pour une personne) et un attribut donné, un classificateur prédit de façon égale l'étiquette préférée pour toutes les valeurs de cet attribut. En d'autres termes, l'égalité des chances mesure si les personnes qui devraient bénéficier d'une opportunité le sont également, indépendamment de leur appartenance à un groupe.

Par exemple, supposons que l'université de Glubbdubdrib admet à la fois des Lilliputiens et des Brobdingnagians dans un programme mathématique rigoureux. Les écoles secondaires de lycéens proposent un programme robuste de cours de mathématiques, et la grande majorité des étudiants sont éligibles au programme universitaire. Les écoles secondaires de Brobdingnagians n'offrent pas de cours de mathématiques. Par conséquent, beaucoup moins d'élèves sont qualifiés. L'égalité des chances est satisfaite pour le libellé préféré "admis" en fonction de la nationalité (Lilliputien ou Brobdingnagian) si les étudiants qualifiés sont également susceptibles d'être admis, qu'ils soient lilliputiens ou Brobdingnagiens.

Par exemple, supposons que 100 Lilliputiens et 100 Brobdingnagiiens s'appliquent à l'Université Glubbdubdrib, et que les décisions d'admission soient prises comme suit:

Tableau 1. Candidats lilliputiens (90% d'entre eux sont qualifiés)

  Qualifié Non défini
Accepter 45 3
Refus 45 7
Total 90 10
Pourcentage d'élèves admis admis: 45/90 = 50%
Pourcentage d'étudiants non qualifiés refusés: 7/10 = 70%
Pourcentage total d'élèves admis comme étudiants: (45 + 3)/100 = 48%

 

Tableau 2. Les candidats brobdingnagiens (10 %) sont qualifiés :

  Qualifié Non défini
Accepter 5 9
Refus 5 81
Total 10 90
Pourcentage d'élèves admis admis: 5/10 = 50%
Pourcentage d'étudiants non qualifiés refusés: 81/90 = 90%
Pourcentage total d'étudiants admis au programme: (5+9)/100 = 14%

Les exemples précédents satisfont l'égalité d'acceptation des étudiants qualifiés, car les Lilliputiens et les Brobdingnagiiens qualifiés ont chacun 50% de chances d'être admis.

Pour en savoir plus sur l'égalité des chances, consultez la page Égalité des chances dans l'apprentissage supervisé. Consultez également la page "Attaquer la discrimination à l'aide du machine learning plus intelligent" pour en savoir plus sur les compromis lors de l'optimisation de l'égalité des chances.

probabilités égalisées

#fairness
Une métrique d'équité qui vérifie si, pour un libellé et un attribut particulier, un classificateur prédit de façon équitable cette étiquette pour toutes les valeurs de cet attribut.

Par exemple, supposons que l'université de Glubbdubdrib admet les lilliputiens et les Brobdingnagiiens à un programme mathématique rigoureux. Les lycéens des lycéens proposent un programme robuste de cours de mathématiques, et la grande majorité des étudiants sont éligibles au programme universitaire. Les écoles secondaires de Brobdingnagians n'offrent pas de cours de mathématiques. Par conséquent, beaucoup moins d'élèves sont qualifiés. Les probabilités égales sont satisfaites, à condition que le demandeur ne soit pas considéré comme un lilliputien ou un Brobdingnagian s'il est qualifié. En effet, il est tout aussi susceptible d'être admis dans le programme, et, s'il n'est pas qualifié, il l'est autant.

Imaginons que 100 Lilliputiens et 100 Brobdingnagiiens s'appliquent à l'Université Glubbdubdrib. Les décisions d'admission sont prises comme suit:

Tableau 3. Candidats lilliputiens (90% d'entre eux sont qualifiés)

  Qualifié Non défini
Accepter 45 2
Refus 45 8
Total 90 10
Pourcentage d'élèves admis admis: 45/90 = 50%
Pourcentage d'étudiants non qualifiés refusés: 8/10 = 80%
Pourcentage total d'élèves lilliputiens admis: (45 + 2)/100 = 47%

 

Tableau 4. Les candidats brobdingnagiens (10 %) sont qualifiés :

  Qualifié Non défini
Accepter 5 18
Refus 5 72
Total 10 90
Pourcentage d'élèves admis admis: 5/10 = 50%
Pourcentage d'étudiants non qualifiés refusés: 72/90 = 80%
Pourcentage total d'étudiants admis au programme: (5+18)/100 = 23%

Les probabilités égales sont satisfaites, car les étudiants lilliputiens et Brobdingnagian qualifiés ont tous les deux 50% de chances d'être admis, et les lilliputiens et brobdingnagiens non qualifiés ont 80% de chances d'être rejetés.

Les probabilités égales sont formellement définies dans la section Égalité des chances dans l'apprentissage supervisé, comme suit : "predictor Ŷ satisfaise equals equals in to the protect [attribut A] and result Y if Ŷ and A are indépendante, conditional on Y."

biais du testeur

#fairness

Voir biais de confirmation.

F

contrainte d'équité

#fairness
Application d'une contrainte à un algorithme pour garantir une ou plusieurs définitions d'équité Voici quelques exemples de contraintes d'équité:

métrique d'équité

#fairness

Définition mathématique de l'"équité" mesurable. Voici quelques métriques d'équité couramment utilisées:

De nombreuses métriques d'équité s'excluent mutuellement. Consultez la section Incompatibilité des métriques d'équité.

G

biais d'attribution de groupe

#fairness

En partant du principe que ce qui est vrai pour un individu est vrai pour tous les membres de ce groupe. Les effets du biais d'attribution de groupe peuvent être amplifiés si un échantillonnage de commodité est utilisé pour la collecte des données. Dans un échantillon non représentatif, des attributions qui ne reflètent pas la réalité peuvent être effectuées.

Voir aussi biais d'homogénéité hors groupe et biais d'appartenance au groupe.

I

biais implicite

#fairness

Créer automatiquement une association ou une hypothèse en fonction des modèles et des souvenirs mentales. Le biais implicite peut affecter les éléments suivants:

  • Mode de collecte et de classification des données
  • Conception et développement de systèmes de machine learning

Par exemple, lors de la création d'un classificateur pour identifier des photos de mariage, un ingénieur peut utiliser la présence d'une robe blanche comme caractéristique. Cependant, les robes blanches ne sont une habitude que lors de certaines époques et cultures.

Voir aussi la section Biais de confirmation.

incompatibilité des métriques d'équité

#fairness

L'idée que certaines notions d'équité sont mutuellement incompatibles et ne peuvent être satisfaites simultanément Par conséquent, il n'existe pas de métrique universelle pour quantifier l'équité qui peut être appliquée à tous les problèmes de ML.

Bien que cela puisse sembler décourageant, l'incompatibilité des métriques d'équité ne signifie pas que les efforts pour l'équité sont inutiles. Il suggère plutôt de définir l'équité dans un contexte spécifique pour un problème de ML donné afin de prévenir les dangers spécifiques à ses cas d'utilisation.

Pour en savoir plus à ce sujet, consultez la page À propos de l'imposabilité de l'équité.

équité individuelle

#fairness

Métrique d'équité qui vérifie si des individus similaires sont classés de la même manière. Par exemple, la Brobdingnagian Academy peut souhaiter satisfaire l'équité individuelle en s'assurant que deux étudiants ayant des notes identiques et des scores d'examen standardisés ont la même chance d'être admis.

Notez que l'équité individuelle dépend entièrement de la manière dont vous définissez la "similitude" (dans ce cas, les notes et les scores des tests). De plus, vous pouvez courir le risque de créer de nouveaux problèmes d'équité si votre métrique de similarité manque des informations importantes (telles que la rigueur du programme d'un élève).

Pour en savoir plus sur l'équité individuelle, consultez la section équité dans la notoriété.

biais de groupes

#fairness

Affichage d'une partie d'un groupe ou de ses propres caractéristiques Si les testeurs ou les évaluateurs se composent des amis, de la famille ou des collègues du développeur de machine learning, les biais du groupe peuvent invalider les tests de produits ou l'ensemble de données.

Le biais d'appartenance est une forme de biais d'attribution de groupe. Voir aussi biais d'homogénéité de l'exogroupe.

N

biais de non-réponse

#fairness

Voir biais de sélection.

O

biais d'homogénéité de l'exogroupe

#fairness

Tendance à considérer les membres du groupe comme plus semblables que les membres du groupe lorsqu'ils comparent les attitudes, les valeurs, les caractéristiques de personnalité et d'autres caractéristiques. Le groupe d'appartenance désigne les personnes avec lesquelles vous interagissez régulièrement. Le groupe d'exclusion désigne les personnes avec lesquelles vous n'interagissez pas régulièrement. Si vous créez un ensemble de données en demandant aux utilisateurs de fournir des attributs sur les groupes externes, ces attributs peuvent être moins nuancés et plus stéréotypés que ceux que les participants répertorient pour les membres de leur groupe.

Par exemple, les Lilliputiens peuvent décrire de manière détaillée les maisons d'autres Lilliputiens, en citant de légères différences au niveau des styles architecturaux, des fenêtres, des portes et des tailles. Cependant, les mêmes lilliputiens pourraient simplement déclarer que les Brobdingnagiiens vivent tous dans des maisons identiques.

Le biais d'homogénéité de l'exogroupe est une forme de biais de représentativité.

Consultez également Biais d'appartenance.

P

biais de participation

#fairness

Synonyme de biais de non-réponse. Voir biais de sélection.

post-traitement

#fairness
#fundamentals

Ajuster la sortie d'un modèle après son exécution Le post-traitement peut être utilisé pour appliquer des contraintes d'équité sans modifier les modèles eux-mêmes.

Par exemple, vous pouvez appliquer un post-traitement à un classificateur binaire en définissant un seuil de classification de sorte que l'égalité des chances soit maintenue pour un attribut donné, en vérifiant que le taux de vrais positifs est le même pour toutes les valeurs de cet attribut.

parité prédictive

#fairness

Métrique d'équité qui vérifie si, pour un classificateur donné, les taux de précision sont équivalents pour les sous-groupes en question.

Par exemple, un modèle qui prédit l'acceptation d'un diplôme universitaire satisferait la parité prédictive de la nationalité si son taux de précision est le même pour les Lilliputiens et les Brobdingnagiiens.

La parité prédictive est parfois appelée parité prédictive des prix.

Pour en savoir plus sur la parité prédictive, consultez la section Explications sur l'équité dans la section 3.2.1.

parité des tarifs prévisionnels

#fairness

Un autre nom pour la parité prédictive.

prétraitement

#fairness
Traiter des données avant de les utiliser pour entraîner un modèle Le prétraitement peut être aussi simple que la suppression de mots d'un corpus de texte en anglais qui n'apparaît pas dans le dictionnaire anglais. Il peut également s'agir d'une méthode aussi complexe que la réexpression de points de données de manière à éliminer autant d'attributs corrélés que possible avec des attributs sensibles. Le prétraitement peut vous aider à respecter les contraintes d'équité.

proxy (attributs sensibles)

#fairness
Attribut utilisé en remplacement pour un attribut sensible. Par exemple, le code postal d'un individu peut être utilisé comme substitut de l'origine ethnique, du revenu ou de l'origine ethnique.

R

biais de fréquence

#fairness

Le fait que la fréquence à laquelle les gens écrivent sur des actions, des résultats ou des propriétés ne reflète pas leurs fréquences réelles ni le degré de propriété d'une propriété dans une classe d'individus. Les biais de rapport peuvent influer sur la composition des données à partir desquelles les systèmes de machine learning apprennent.

Par exemple, dans les livres, le mot ri est plus répandu que respiré. Un modèle de machine learning qui estime la fréquence relative du rire et de la respiration à partir d'un corpus de livres permet de déterminer que le rire est plus courant que la respiration.

S

biais d'échantillonnage

#fairness

Voir biais de sélection.

biais de sélection

#fairness

Erreurs dans les conclusions tirées des échantillons de données en raison d'un processus de sélection qui génère des différences systématiques entre les échantillons observés dans les données et ceux non observés. Les biais de sélection possibles sont les suivants:

  • biais de couverture: la population représentée dans l'ensemble de données ne correspond pas à la population sur laquelle le modèle de machine learning effectue des prédictions.
  • biais d'échantillonnage: les données ne sont pas collectées aléatoirement auprès du groupe cible.
  • biais de non-réponse (également appelé biais de participation): les utilisateurs de certains groupes refusent de participer aux enquêtes à des taux différents de ceux des autres groupes.

Par exemple, supposons que vous créiez un modèle de machine learning qui prédit le plaisir d'un film. Pour collecter les données d'entraînement, vous devez soumettre un sondage à toutes les personnes présentes au premier rang d'un cinéma projetant le film. Cette méthode peut sembler raisonnable pour rassembler un ensemble de données, mais elle peut entraîner les biais suivants:

  • biais de couverture: en effectuant un échantillonnage à partir d'une population qui a choisi de regarder le film, les prédictions de votre modèle risquent de ne pas être généralisées à des personnes qui n'ont pas déjà exprimé ce niveau d'intérêt pour le film.
  • biais d'échantillonnage: au lieu d'échantillonner aléatoirement la population cible (toutes les personnes présentes au cinéma), vous n'avez échantillonné que les personnes en première ligne. Il est possible que les personnes qui se trouvent au premier rang s'intéressent plus au film que celles qui se trouvent dans les autres lignes.
  • Biais de non-réponse: en général, les personnes ayant un avis ambitieux ont tendance à répondre plus souvent aux enquêtes facultatives que les personnes d'opinions modérées. Étant donné que l'enquête sur le film est facultative, les réponses sont plus susceptibles de former une distribution bimodale qu'une distribution normale (en forme de cloche).

attribut sensible

#fairness
Attribut humain pouvant faire l'objet d'une attention particulière pour des raisons juridiques, éthiques, sociales ou personnelles.

U

notoriété (à un attribut sensible)

#fairness

Situation dans laquelle des attributs sensibles sont présents, mais non inclus dans les données d'entraînement. Étant donné que les attributs sensibles sont souvent corrélés à d'autres attributs des données, un modèle entraîné avec une connaissance d'un attribut sensible peut tout de même avoir un impact disparate par rapport à cet attribut, ou enfreindre d'autres contraintes d'équité.