Equidad: Identificación de sesgo

A medida que exploras tus datos para determinar la mejor manera de representarlos en tu modelo, es importante tener en cuenta los problemas de equidad y realizar una auditoría proactiva para detectar posibles fuentes de sesgo.

¿Dónde podría estar el sesgo? Estos son tres indicadores de advertencia a los que debe prestar atención en su conjunto de datos.

Atributos con valores faltantes

Si tu conjunto de datos tiene uno o más atributos que tienen valores faltantes para una gran cantidad de ejemplos, podría ser un indicador de que ciertas características clave de tu conjunto de datos están subrepresentadas.

Por ejemplo, en la siguiente tabla, se muestra un resumen de las estadísticas clave de un subconjunto de atributos del conjunto de datos de Viviendas de California, almacenado en un DataFrame de Pandas y generado mediante DataFrame.describe. Ten en cuenta que todos los atributos tienen un count de 17,000, lo que indica que no faltan valores:

longitude latitude total_rooms population households median_income median_house_value
cantidad 17,000.0 17,000.0 17,000.0 17,000.0 17,000.0 17,000.0 17,000.0
media -119,6 35,6 2,643.7 1,429.6 501,2 3.9 207,3
estándar 2.0 2.1 2,179.9 1,147.9 384,5 1.9 116,0
min -124,3 32,5 2.0 3.0 1.0 0.5 15.0
25% -121,8 33,9 1,462.0 790,0 282,0 2.6 119,4
50% -118,5 34,2 2,127.0 1,167.0 409,0 3.5 180,4
75% -118,0 37,7 3,151.2 1,721.0 605,2 4.8 265,0
máx. -114,3 42,0 37,937.0 35,682.0 6,082.0 15.0 500

En cambio, supongamos que tres atributos (population, households y median_income) solo tenían un recuento de 3000; en otras palabras, hubo 14,000 valores faltantes para cada atributo:

longitude latitude total_rooms population households median_income median_house_value
cantidad 17,000.0 17,000.0 17,000.0 3,000.0 3,000.0 3,000.0 17,000.0
media -119,6 35,6 2,643.7 1,429.6 501,2 3.9 207,3
estándar 2.0 2.1 2,179.9 1,147.9 384,5 1.9 116,0
min -124,3 32,5 2.0 3.0 1.0 0.5 15.0
25% -121,8 33,9 1,462.0 790,0 282,0 2.6 119,4
50% -118,5 34,2 2,127.0 1,167.0 409,0 3.5 180,4
75% -118,0 37,7 3,151.2 1,721.0 605,2 4.8 265,0
máx. -114,3 42,0 37,937.0 35,682.0 6,082.0 15.0 500

Estos 14,000 valores faltantes harían que sea mucho más difícil correlacionar con exactitud el ingreso medio de los hogares con la mediana del precio de las casas. Antes de entrenar un modelo con estos datos, sería prudente investigar la causa de estos valores faltantes para garantizar que no haya sesgos latentes responsables de datos de ingresos y población faltantes.

Valores de atributos inesperados

Cuando exploras los datos, también debes buscar ejemplos que contengan valores de atributos que se destaquen, en especial, como inusuales o inusuales. Estos valores de atributos inesperados podrían indicar problemas que surgieron durante la recopilación de datos y otras imprecisiones que podrían generar sesgos.

Por ejemplo, observa los siguientes ejemplos extraídos del conjunto de datos de viviendas de California:

longitude latitude total_rooms population households median_income median_house_value
1 -121,7 38.0 7,105.0 3,523.0 1,088.0 5.0 0.2
2 -122,4 37.8 2,479.0 1,816.0 496,0 3.1 0.3
3 -122,0 37,0 2,813.0 1,337.0 477,0 3.7 0.3
4 -103,5 43,8 2,212.0 803,0 144,0 5.3 0.2
5 -117,1 32,8 2,963.0 1,162.0 556,0 3.6 0.2
6 -118,0 33,7 3,396.0 1,542.0 472,0 7.4 0.4

¿Puedes identificar algún valor de atributo inesperado?

Sesgo de datos

Cualquier tipo de sesgo en tus datos, en el que ciertos grupos o características pueden estar sub o sobrerrepresentados con respecto a su prevalencia en el mundo real, puede ingresar sesgo en tu modelo.

Si completaste el Ejercicio de programación sobre validación, es posible que recuerdes haber descubierto que los datos se distorsionaron de manera significativa debido a que no se aleatorizó el conjunto de datos de California antes de dividirlo en conjuntos de entrenamiento y de validación. En la Figura 1, se muestra un subconjunto de datos extraído del conjunto de datos completo que representa de forma exclusiva la región del noroeste de California.

Un mapa del estado de California superpuesto con datos del conjunto de datos de Viviendas de California.
          Cada punto representa un bloque de viviendas. Todos los puntos están agrupados en la región del noroeste de California, sin ningún punto en el sur de California, lo que ilustra la distorsión geográfica de los datos.

Figura 1 Mapa del estado de California con datos del conjunto de datos de Viviendas de California superpuestos. Cada punto representa un bloque de viviendas, con colores que van de azul a rojo, correspondientes al precio medio de la casa y van desde el más bajo hasta el más alto, respectivamente.

Si esta muestra no representativa se usara para entrenar un modelo a fin de predecir los precios de viviendas de California en todo el estado, la falta de datos de viviendas del sur de California sería problemático. El sesgo geográfico codificado en el modelo puede afectar de forma negativa a los compradores de viviendas en comunidades no representadas.