Équité : identifier les biais

Lorsque vous explorez vos données pour déterminer la meilleure façon de les représenter dans votre modèle, il est important d'être conscient des problèmes d'équité et de procéder à une vérification proactive des sources de biais potentielles.

Où le biais pourrait-il se cacher ? Voici trois signaux d'alerte à surveiller dans votre ensemble de données.

Valeurs de caractéristiques manquantes

Si votre ensemble de données comporte une ou plusieurs caractéristiques dont les valeurs sont manquantes dans un grand nombre d'exemples, cela peut indiquer que certaines caractéristiques clés sont sous-représentées.

Par exemple, le tableau ci-dessous présente un résumé des statistiques clés d'un sous-ensemble de caractéristiques de l'ensemble de données sur l'immobilier en Californie, stockées dans un DataFrame Pandas et générées via DataFrame.describe. Notez que toutes les caractéristiques ont une valeur count égale à 17 000, ce qui indique qu'il ne manque aucune valeur :

longitude latitude total_rooms population households median_income median_house_value
count 17000,0 17000,0 17000,0 17000,0 17000,0 17000,0 17000,0
mean -119,6 35,6 2643,7 1429,6 501,2 3,9 207,3
std 2,0 2,1 2179,9 1147,9 384,5 1,9 116,0
min -124,3 32,5 2,0 3,0 1,0 0,5 15,0
25% -121,8 33,9 1462,0 790,0 282,0 2,6 119,4
50% -118,5 34,2 2127,0 1167,0 409,0 3,5 180,4
75% -118,0 37,7 3151,2 1721,0 605,2 4,8 265,0
max -114,3 42,0 37937,0 35682,0 6082,0 15,0 500,0

Supposons plutôt que trois caractéristiques (population, households et median_income) affichent 3000 valeurs seulement sur la ligne "count", ce qui signifierait qu'il manque 14 000 valeurs pour chacune d'elles :

longitude latitude total_rooms population households median_income median_house_value
count 17000,0 17000,0 17000,0 3000,0 3000,0 3000,0 17000,0
mean -119,6 35,6 2643,7 1429,6 501,2 3,9 207,3
std 2,0 2,1 2179,9 1147,9 384,5 1,9 116,0
min -124,3 32,5 2,0 3,0 1,0 0,5 15,0
25% -121,8 33,9 1462,0 790,0 282,0 2,6 119,4
50% -118,5 34,2 2127,0 1167,0 409,0 3,5 180,4
75% -118,0 37,7 3151,2 1721,0 605,2 4,8 265,0
max -114,3 42,0 37937,0 35682,0 6082,0 15,0 500,0

Avec 14 000 valeurs manquantes, il serait beaucoup plus difficile d'établir une corrélation exacte entre le revenu moyen par foyer et le prix médian des logements. Avant d'entraîner un modèle avec ces données, il serait prudent de rechercher la cause de ces valeurs manquantes pour s'assurer qu'aucun biais latent n'est à l'origine des données manquantes sur le revenu et la population.

Valeurs de caractéristiques inattendues

Lors de l'exploration des données, vous devez également rechercher des exemples contenant des valeurs de caractéristiques particulièrement inhabituelles ou anormales. Ces valeurs inattendues pourraient indiquer qu'un problème est survenu pendant la collecte des données ou qu'il existe d'autres inexactitudes susceptibles d'introduire un biais.

Consultez les exemples suivants extraits de l'ensemble de données sur l'immobilier en Californie :

longitude latitude total_rooms population households median_income median_house_value
1 -121,7 38,0 7105,0 3523,0 1088,0 5,0 0,2
2 -122,4 37,8 2479,0 1816,0 496,0 3,1 0,3
3 -122,0 37,0 2813,0 1337,0 477,0 3,7 0,3
4 -103,5 43,8 2212,0 803,0 144,0 5,3 0,2
5 -117,1 32,8 2963,0 1162,0 556,0 3,6 0,2
6 -118,0 33,7 3396,0 1542,0 472,0 7,4 0,4

Pouvez-vous identifier des valeurs de caractéristiques inattendues ?

Asymétrie des données

Toute forme d'asymétrie dans vos données, c'est-à-dire certains groupes ou caractéristiques sous-représentés ou surreprésentés par rapport à leur prévalence réelle, peut introduire un biais dans votre modèle.

Si vous avez terminé l'exercice de programmation de la validation, vous vous souvenez peut-être avoir découvert comment l'absence de répartition aléatoire de l'ensemble de données sur l'immobilier en Californie lors de sa division en ensembles d'apprentissage et de validation entraînait une forte asymétrie des données. La figure 1 illustre un sous-ensemble de données extraites de l'ensemble de données complet et représentant exclusivement la région nord-ouest de la Californie.

Carte de l'État de Californie sur laquelle sont superposées les données de l'ensemble de données sur l'immobilier en Californie.Chaque point représente un îlot résidentiel.Les points sont tous regroupés dans le nord-ouest de la Californie, sans aucun point dans le sud de l'État, ce qui illustre l'asymétrie géographique des données.

Figure 1 : Carte de l'État de Californie sur laquelle sont superposées les données de l'ensemble de données sur l'immobilier en Californie. Chaque point représente un îlot résidentiel, avec des couleurs allant du bleu au rouge correspondant au prix médian des logements, respectivement du plus bas au plus élevé.

Si cet échantillon non représentatif était utilisé pour entraîner un modèle visant à prédire le prix des logements dans l'ensemble de la Californie, le manque de données sur l'immobilier dans les parties méridionales de l'État poserait problème. Le biais géographique codé dans le modèle pourrait avoir une incidence défavorable sur les acquéreurs de logements dans les communautés non représentées.