Glossaire du machine learning: Équité

Cette page contient les termes du glossaire Fairness. Pour consulter tous les termes du glossaire, cliquez ici.

A

Attribut

#fairness

Synonyme de caractéristique.

Dans l'équité en matière de machine learning, les attributs font souvent référence à des caractéristiques propres aux individus.

biais d'automatisation

#fairness

Lorsqu'un décisionnaire humain favorise les recommandations d'un système de prise de décision automatisé par rapport aux informations non automatisées, même lorsque le système automatisé de prise de décision fait des erreurs.

B

biais (éthique/équité)

#fairness
#fundamentals

1. Stéréotypage, préjugés ou favoritisme envers des choses, des personnes ou des groupes plutôt que d'autres Ces biais peuvent affecter la collecte et l'interprétation des données, la conception d'un système et la manière dont les utilisateurs interagissent avec celui-ci. Les formes de ce type de biais sont les suivantes:

2. Erreur systématique introduite par une procédure d'échantillonnage ou de création de rapports. Les formes de ce type de biais sont les suivantes:

À ne pas confondre avec le biais des modèles de machine learning ou le biais de prédiction.

C

biais de confirmation

#fairness

Tendance à rechercher, interpréter, favoriser et rappeler des informations d'une manière qui confirme des croyances ou des hypothèses préexistantes. Les développeurs en machine learning peuvent collecter ou étiqueter par inadvertance des données d'une manière qui influence un résultat en faveur de leurs croyances existantes. Le biais de confirmation est une forme de biais implicite.

Le biais expérimentateur est une forme de biais de confirmation dans lequel un expérimentateur continue d'entraîner des modèles jusqu'à ce qu'une hypothèse préexistante soit confirmée.

équité contrefactuelle

#fairness
Métrique d'équité qui vérifie si un classificateur produit le même résultat pour une personne que pour une autre qui est identique à la première, sauf en ce qui concerne un ou plusieurs attributs sensibles. L'évaluation de l'équité d'un classificateur est l'une des méthodes permettant d'identifier les sources potentielles de biais dans un modèle.

Pour en savoir plus sur l'équité contrefactuelle, consultez l'article "Quand Worlds Collide: Connecting Different Counterfactual Hysums in Fairness.

biais de couverture

#fairness

Voir biais de sélection.

D

parité démographique

#fairness

Une métrique d'équité satisfaite si les résultats d'une classification de modèle ne dépendent pas d'un attribut sensible donné.

Par exemple, si les Lilliputiens et les Brobdingnagiens s'adressent tous deux à l'Université Glubbdubdrib, la parité démographique est obtenue si le pourcentage de Lilliputiens admis est identique à celui des Brobdingnagiiens, qu'un groupe soit en moyenne plus qualifié que l'autre.

À l'inverse des probabilités égales et de l'égalité des chances, qui permettent aux résultats de classification agrégés de dépendre d'attributs sensibles, mais qui ne permettent pas aux résultats de classification de certains libellés de vérité terrain spécifiés de dépendre d'attributs sensibles. Reportez-vous à la section Attraquer les discriminations à l'aide du machine learning plus intelligent pour découvrir les compromis permettant d'explorer les compromis entre l'optimisation et la parité démographique.

impact disparate

#fairness

Prendre des décisions sur les personnes qui ont un impact différent sur les sous-groupes de population. Il s'agit généralement de situations dans lesquelles un processus de prise de décision algorithmique nuit à certains sous-groupes plutôt qu'à d'autres.

Par exemple, supposons qu'un algorithme qui détermine l'éligibilité d'un lilliputien à un prêt de maison miniature est plus susceptible de le classer comme "inéligible" si son adresse postale contient un certain code postal. Si les lilliputiens de la région de Big Endian sont plus susceptibles d'avoir des adresses postales avec ce code postal que les lilliputiens de la Petite-Endianne, cet algorithme peut avoir un impact disparate.

À comparer au traitement disparate, qui met l'accent sur les disparités qui se produisent lorsque des caractéristiques de sous-groupe sont des entrées explicites d'un processus de prise d'algorithme.

traitement disparate

#fairness

Prise en compte des sujets et des attributs sensibles dans un processus de prise de décision algorithmique afin que différents sous-groupes de personnes soient traités différemment.

Prenons l'exemple d'un algorithme qui détermine l'éligibilité des Lilliputians à un prêt immobilier miniature en fonction des données qu'ils fournissent dans leur demande de prêt. Si l'algorithme utilise l'affiliation d'un Lilliputien comme Big-Endian ou Little-Endian comme entrée, il adopte un traitement disparate sur cette dimension.

À comparer à l'impact disparate, qui se concentre sur les disparités dans l'impact sociétal des décisions algorithmiques sur les sous-groupes, qu'ils soient des entrées du modèle.

E

égalité des chances

#fairness
Une métrique d'équité qui vérifie si, pour un libellé préféré (qui confère un avantage ou un avantage à une personne), et un attribut donné, un classificateur prédit de manière égale l'étiquette préférée pour toutes les valeurs de cet attribut. En d'autres termes, l'égalité des chances mesure si les personnes qui devraient bénéficier d'une opportunité sont également susceptibles de le faire, quel que soit leur appartenance à un groupe.

Par exemple, supposons que l'université Glubbdubdrib admette à la fois des lilliputiens et des brobdingnagéiens à un programme mathématique rigoureux. Les établissements secondaires des lilliputiens proposent un programme complet de cours de mathématiques, et la plupart des étudiants sont éligibles au programme universitaire. Les établissements secondaires des Brobdingnagians n'offrent pas du tout de cours de mathématiques. Par conséquent, beaucoup moins d'élèves sont qualifiés. L'égalité des chances est satisfaite pour l'étiquette préférée "admise" en termes de nationalité (illiputien ou brobdingnagien) si les étudiants qualifiés sont également admis, qu'ils soient lilliputiens ou brobdingnaliens.

Par exemple, supposons que 100 Lilliputians et 100 Bredbdingnagians s'appliquent à l'université Glubbdubdrib, et que les admissions soient effectuées comme suit:

Tableau 1. 90% des demandeurs lilliputiens sont qualifiés

  Qualifié Non défini
Admis 45 3
Refus 45 7
Total 90 10
Pourcentage d'élèves éligibles admis: 45/90 = 50%
Pourcentage d'élèves non éligibles admis: 7/10 = 70%
Pourcentage total d'élèves lilliputiens acceptés: (45 + 3)/100 = 48%

 

Tableau 2. Les candidats brobdingnaguiens (10% sont qualifiés):

  Qualifié Non défini
Admis 5 9
Refus 5 81
Total 10 90
Pourcentage d'élèves admis admis: 5/10 = 50%
Pourcentage d'élèves non éligibles admis: 81/90 = 90%
Nombre total d'élèves admis au programme Brobdingnagian: (5 + 9)/100 = 14%

Les exemples précédents satisfont l'égalité des chances pour l'acceptation des étudiants qualifiés, car les Lilliputiens et les Brobdingnagien qualifiés ont 50% de chances d'être admis.

Pour en savoir plus sur l'égalité des chances, consultez la page "Equality ofOpportunity in Supervised Learning". Reportez-vous également à la section Attacking discrimination withsmart machine learning" (Attaquer la discrimination à l'aide du machine learning plus intelligent) pour découvrir les compromis permettant d'optimiser l'égalité des chances.

probabilités égales

#fairness
Métrique d'équité qui vérifie si, pour un libellé et un attribut particuliers, un classificateur prédit ce libellé de manière tout aussi équitable pour toutes les valeurs de cet attribut.

Par exemple, supposons que l'université Glubbdubdrib admette à la fois des lilliputiens et des brobdingnagiiens à un programme mathématique rigoureux. Les établissements d'enseignement secondaire proposent des programmes de cours de mathématiques fiables, et la grande majorité des étudiants sont éligibles au programme universitaire. Les établissements d'enseignement secondaire n'offrent pas du tout de cours de mathématiques et, par conséquent, beaucoup moins d'élèves sont qualifiés. Les chances égales sont satisfaites, à condition que le candidat soit un Lilliputien ou un Brobdingnagian, s'il est qualifié, il est tout aussi susceptible d'être admis au programme et, s'il n'est pas qualifié, il est également susceptible d'être refusé.

Imaginons que 100 Lilliputians et 100 Brobdingnagians s'appliquent à l'université Glubbdubdrib. Les admissions se font de la manière suivante:

Tableau 3. 90% des demandeurs lilliputiens sont qualifiés

  Qualifié Non défini
Admis 45 2
Refus 45 8
Total 90 10
Pourcentage d'élèves éligibles admis: 45/90 = 50 %
Pourcentage d'élèves non éligibles admis: 8/10 = 80 %
Pourcentage total d'élèves lilliputiens admis: (45 + 2)/100 = 47%

 

Tableau 4. Les candidats brobdingnaguiens (10% sont qualifiés):

  Qualifié Non défini
Admis 5 18
Refus 5 72
Total 10 90
Pourcentage d'élèves admis admis: 5/10 = 50 %
Pourcentage d'élèves non éligibles admis: 72/90 = 80 %
Nombre total d'élèves admis au programme Brobdingnagian: (5 + 18)/100 = 23%

Les probabilités égales sont satisfaites, car les étudiants Lilliputian et Brobdingnagian qualifiés ont 50% de chances d'être admis, et les Lilliputian et Brobdingnagian non qualifiés ont 80% de chances d'être rejetés.

Les probabilités égales sont formellement définies dans "Equality of Opportunity in Supervised Learning" comme suit : "predictor Ŷ satisfait les probabilités égales en ce qui concerne l'attribut A et le résultat Y protégés si Ŷ et A sont indépendants, sous condition dans Y.

biais de l'expérimentateur

#fairness

Voir biais de confirmation.

F

contrainte d'équité

#fairness
Appliquer une contrainte à un algorithme pour garantir qu'une ou plusieurs définitions d'équité sont satisfaites Exemples de contraintes d'équité:

métrique d'équité

#fairness

Définition mathématique de l'équité qui est mesurable Voici quelques métriques d'équité couramment utilisées:

De nombreuses métriques d'équité s'excluent mutuellement. Consultez la section Incompatibilité des métriques d'équité.

G

biais d'attribution de groupe

#fairness

Considérer que ce qui est vrai pour un individu est vrai pour tous les membres de ce groupe. Les effets du biais d'attribution de groupe peuvent être accentués si un échantillonnage de commodité est utilisé pour la collecte de données. Dans un échantillon non représentatif, des attributions qui ne reflètent pas la réalité peuvent être effectuées.

Consultez également les articles Biais d'homogénéité de l'exogroupe et Biais d'homogénéité au sein du groupe.

I

biais implicite

#fairness

Créer automatiquement une association ou une hypothèse basée sur les modèles et les souvenirs mentaux. Les biais implicites peuvent affecter les éléments suivants:

  • Comment les données sont collectées et classées
  • Conception et développement de systèmes de machine learning

Par exemple, lors de la création d'un classificateur pour identifier des photos de mariage, un ingénieur peut utiliser la présence d'une robe blanche sur une photo. Cependant, les robes blanches ne sont coutumières qu'à certaines époques et cultures.

Voir aussi biais de confirmation.

incompatibilité des métriques d'équité

#fairness

L'idée que certaines notions d'équité sont incompatibles et ne peuvent pas être satisfaites simultanément Par conséquent, il n'existe pas de métrique universelle pour quantifier l'équité pouvant être appliquée à tous les problèmes de ML.

Bien que cela puisse sembler décourageant, l'incompatibilité des métriques d'équité ne signifie pas que les efforts d'équité sont fructueux. Au lieu de cela, il suggère que l'équité doit être définie de façon contextuelle pour un problème de ML donné, dans le but d'éviter les préjudices spécifiques à ses cas d'utilisation.

Pour en savoir plus sur ce sujet, consultez l'article "possible de l'impartialité".

équité individuelle

#fairness

Métrique d'équité qui vérifie si des individus similaires sont classés de la même manière. Par exemple, la Brobdingnagian Academy peut souhaiter assurer l'équité individuelle en s'assurant que deux élèves ayant des notes identiques et des notes standardisées ont autant de chances d'être admis.

Notez que l'équité individuelle dépend entièrement de la façon dont vous définissez la "similarité" (dans ce cas, les notes et les résultats aux examens). Vous pouvez également présenter un risque d'introduire de nouveaux problèmes d'équité si votre métrique de similarité manque des informations importantes (telles que la rigueur du programme d'un élève).

Pour en savoir plus sur l'équité individuelle, consultez l'article " Fairness through Awareness.

biais d'appartenance

#fairness

Fait preuve de partielle pour un groupe donné ou pour des caractéristiques propres. Si les testeurs ou les évaluateurs sont composés d'amis, de membres de la famille ou de collègues de machine learning, le biais de groupe peut invalider les tests de produit ou l'ensemble de données.

Le biais d'appartenance est une forme de biais de représentativité. Voir aussi biais d'homogénéité de l'exogroupe.

N

biais de non-réponse

#fairness

Voir biais de sélection.

O

biais d'homogénéité de l'exogroupe

#fairness

Tendance à considérer les membres d'un groupe comme plus semblables que les autres lorsqu'il s'agit de comparer des attitudes, des valeurs, des caractéristiques de personnalité et d'autres caractéristiques. Le groupe d'appartenance désigne les personnes avec qui vous interagissez régulièrement, tandis que l'exogroupe désigne les personnes avec lesquelles vous n'interagissez pas régulièrement. Si vous créez un ensemble de données en demandant aux utilisateurs de fournir des attributs sur les groupes externes, ces attributs peuvent être moins nuancés et plus stéréotypés que les attributs répertoriés par les participants dans leur groupe.

Par exemple, les Lilliputiens peuvent décrire les maisons d'autres Lilliputiens de manière détaillée, en citant de petites différences dans les styles architecturaux, les fenêtres, les portes et les tailles. Cependant, les mêmes Lilliputiens pourraient simplement déclarer que les Brobdingnagians vivent tous dans des maisons identiques.

Le biais d'homogénéité de l'exogroupe est une forme de biais de représentativité.

Consultez également l'article Biais d'appartenance.

P

biais de participation

#fairness

Synonyme de biais de non-réponse. Voir biais de sélection.

post-traitement

#fairness
#fundamentals

Ajuster la sortie d'un modèle après son exécution Le post-traitement permet d'appliquer des contraintes d'équité sans modifier les modèles eux-mêmes.

Par exemple, vous pouvez appliquer un post-traitement à un classificateur binaire en définissant un seuil de classification de sorte que l'égalité des chances soit maintenue pour un attribut donné, en vérifiant que le taux de vrais positifs est le même pour toutes les valeurs de cet attribut.

parité prédictive

#fairness

Métrique d'équité qui vérifie si, pour un classificateur donné, les taux de précision sont équivalents pour les sous-groupes envisagés

Par exemple, un modèle qui prédit l'acceptation d'une université serait conforme à la parité prédictive pour la nationalité si son taux de précision est le même pour les Lilliputiens et les Brobdingnades.

La parité prédictive est parfois appelée parité de débit prédictive.

Pour en savoir plus sur la parité prédictive, consultez la section Explications de l'équité (section 3.2.1).

parité du taux de prédiction

#fairness

Un autre nom pour la parité prédictive.

prétraitement

#fairness
Traitement des données avant leur utilisation pour entraîner un modèle. Il peut s'agir de simplement supprimer des mots d'un corpus de textes anglais qui ne figurent pas dans le dictionnaire anglais, ou d'être aussi complexe que de réexprimer des points de données de manière à éliminer autant d'attributs corrélés que possible avec des attributs sensibles. Le prétraitement permet de respecter les contraintes d'équité.

proxy (attributs sensibles)

#fairness
Attribut utilisé comme valeur de remplacement pour un attribut sensible. Par exemple, le code postal d'un individu peut être utilisé comme proxy pour ses revenus, sa race ou son origine ethnique.

R

biais de fréquence

#fairness

Le fait que la fréquence à laquelle les gens écrivent à propos d'actions, de résultats ou de propriétés ne reflète pas leurs fréquences réelles ni le degré de caractéristiques d'une propriété d'une classe d'individus. Le biais de reporting peut influer sur la composition des données à partir desquelles les systèmes de machine learning apprennent.

Par exemple, dans les livres, le mot ri est plus répandu que respiré. Un modèle de machine learning qui estime la fréquence relative du rire et de la respiration à partir d'un corpus de livres déterminerait probablement que le rire est plus courant que la respiration.

S

biais d'échantillonnage

#fairness

Voir biais de sélection.

biais de sélection

#fairness

Erreurs dans les conclusions tirées des données échantillonnées en raison d'un processus de sélection qui génère des différences systématiques entre les échantillons observés dans les données et ceux non observés. Il existe plusieurs formes de biais de sélection:

  • biais de couverture: la population représentée dans l'ensemble de données ne correspond pas à la population sur laquelle le modèle de machine learning effectue des prédictions.
  • biais d'échantillonnage : les données ne sont pas collectées aléatoirement auprès du groupe cible.
  • biais de non-réponse (également appelé biais de participation): les utilisateurs de certains groupes refusent de participer à des enquêtes à des taux différents de ceux des autres groupes.

Par exemple, supposons que vous créiez un modèle de machine learning prédisant la satisfaction d'un film. Pour collecter les données d'entraînement, vous devez envoyer une enquête à tous les participants au premier rang d'un cinéma. Cela peut sembler raisonnable pour rassembler un ensemble de données, mais cette forme de collecte de données peut introduire les biais suivants:

  • biais de couverture: en échantillonnant à partir d'une population qui a choisi de voir le film, les prédictions de votre modèle risquent de ne pas être généralisées aux personnes qui ne l'ont pas déjà exprimé.
  • Biais d'échantillonnage: au lieu d'échantillonner aléatoirement la population visée (toutes les personnes dans le film), vous n'avez échantillonné que les personnes au premier rang. Il est possible que les personnes assises au premier rang s'intéressent davantage au film que les autres.
  • biais de non-réponse: en général, les personnes qui ont des opinions fortes ont tendance à répondre plus souvent aux enquêtes facultatives que les personnes qui ont des opinions modérées. Étant donné que l'enquête sur le film est facultative, les réponses sont plus susceptibles de former une distribution bimodale qu'une distribution normale (en cloche).

attribut sensible

#fairness
Attribut humain pouvant faire l'objet d'une attention particulière pour des raisons juridiques, éthiques, sociales ou personnelles.

U

ignorance (vers un attribut sensible)

#fairness

Situation dans laquelle des attributs sensibles sont présents, mais ne sont pas inclus dans les données d'entraînement. Étant donné que les attributs sensibles sont souvent corrélés à d'autres attributs des données de l'un d'eux, un modèle entraîné avec une méconnaissance d'un attribut sensible peut avoir un impact disparate par rapport à cet attribut ou enfreindre d'autres contraintes d'équité.