Justiça: identificação de tendências

À medida que você explora seus dados para determinar a melhor maneira de representar esses modelos no modelo, é importante considerar os problemas de imparcialidade e auditar proativamente fontes em potencial de viés.

Onde o viés pode parecer distorcido? Veja três sinais de alerta no seu conjunto de dados.

Valores de atributo ausente

Se o conjunto de dados tiver um ou mais atributos sem muitos valores, isso poderá indicar que determinadas características importantes dele são sub-representadas.

Por exemplo, a tabela abaixo mostra um resumo das principais estatísticas de um subconjunto de recursos no conjunto de dados de habitação da Califórnia, armazenado em um DataFrame do pandas e gerado via DataFrame.describe. Todos os recursos têm um count de 17000, indicando que não há valores ausentes:

longitude latitude total_rooms population households median_income median_house_value
contagem 17.000,0 17.000,0 17.000,0 17.000,0 17.000,0 17.000,0 17.000,0
média -119,6 35,6 2.643,7 1.429,6 501,2 3,9 207,3
padrão 2 2.1 2179,9 1147,9 384,5 1.9 116,0
min -124,3 32,5 2 3 1.0 0,5 15
25% -121,8 33,9 1462,0 790,0 282,0 2.6 119,4
50% -118,5 34,2 2127,0 1167,0 409,0 3.5 180,4
75% -118,0 37,7 3151,2 1721,0 605,2 4,8 265,0
max -114,3 42,0 37937,0 35682,0 6082,0 15 500,0

Vamos supor que três recursos (population, households e median_income) tenham apenas uma contagem de 3000. Em outras palavras, que havia 14.000 valores ausentes para cada recurso:

longitude latitude total_rooms population households median_income median_house_value
contagem 17.000,0 17.000,0 17.000,0 3000,0 3000,0 3000,0 17.000,0
média -119,6 35,6 2.643,7 1.429,6 501,2 3,9 207,3
padrão 2 2.1 2179,9 1147,9 384,5 1.9 116,0
min -124,3 32,5 2 3 1.0 0,5 15
25% -121,8 33,9 1462,0 790,0 282,0 2.6 119,4
50% -118,5 34,2 2127,0 1167,0 409,0 3.5 180,4
75% -118,0 37,7 3151,2 1721,0 605,2 4,8 265,0
max -114,3 42,0 37937,0 35682,0 6082,0 15 500,0

Esses 14.000 valores ausentes dificultariam a correlação precisa de renda familiar com preços médios de casas. Antes de treinar um modelo com esses dados, é prudente investigar a causa desses valores ausentes para garantir que não haja vieses latentes responsáveis pela ausência de dados de renda e população.

Valores de atributo inesperados

Ao analisar os dados, procure também exemplos que contenham valores de recursos que se destacam como especialmente não característicos ou incomuns. Esses valores de recurso inesperados podem indicar problemas ocorridos durante a coleta de dados ou outras imprecisões que podem introduzir viés.

Por exemplo, veja os seguintes exemplos do conjunto de dados de habitação da Califórnia:

longitude latitude total_rooms population households median_income median_house_value
1 -121,7 38.0 7105,0 3523,0 1088,0 5 0,2
2 -122,4 37,8 2479,0 1816,0 496,0 3.1 0,3
3 -122,0 37,0 2813,0 1337,0 477,0 3.7 0,3
4 -103,5 43,8 2212,0 803,0 144,0 5.3 0,2
5 -117,1 32,8 2.963,0 1162,0 556,0 3.6 0,2
6 -118,0 33,7 3396,0 1542,0 472,0 7.4 0,4

Você consegue identificar valores de atributo inesperados?

Desvios nos dados

Qualquer tipo de distorção nos dados, em que determinados grupos ou características são sub-representados ou super-representados em relação à precedência real deles, pode introduzir vieses no modelo.

Se você concluiu o exercício de programação de validação, pode se lembrar de descobrir como uma falha na ordem aleatória do conjunto de dados de habitação da Califórnia antes de dividi-lo em conjuntos de treinamento e validação resultou em um desvio de dados pronunciado. A Figura 1 mostra um subconjunto de dados extraídos do conjunto completo que representa exclusivamente a região noroeste da Califórnia.

Um mapa de estado da Califórnia sobreposto por dados do conjunto de dados de habitação da Califórnia.
          Cada ponto representa um conjunto habitacional. Os pontos são agrupados no noroeste da Califórnia,
          sem pontos no sul da Califórnia, ilustrando o desvio geográfico dos dados

Figura 1. Mapa de estado da Califórnia sobreposto por dados do conjunto de dados de habitação da Califórnia. Cada ponto representa um bloco habitacional, com cores que vão de azul a vermelho, correspondente ao preço médio da casa, de baixo para alto, respectivamente.

Se essa amostra não representativa fosse usada para treinar um modelo para prever preços de casas na Califórnia, a falta de dados imobiliários de partes sul da Califórnia seria problemática. O viés geográfico codificado no modelo pode afetar negativamente os compradores de imóveis em comunidades não representadas.