Equidad: Identificación de sesgo

A medida que exploras tus datos para determinar la mejor forma de representarlos en tu modelo, es importante tener en cuenta los problemas de equidad y realizar controles de manera proactiva para identificar posibles fuentes de sesgo.

¿En dónde podría manifestarse el sesgo? Hay que estar atento a estos tres indicadores de advertencia en tu conjunto de datos.

Atributos con valores faltantes

Si tu conjunto de datos contiene una gran cantidad de ejemplos en donde uno o más atributos no tienen valores, esto podría indicar que algunas características clave de tu conjunto de datos están subrepresentadas.

Por ejemplo, la tabla siguiente muestra un resumen de las estadísticas clave de un subconjunto de atributos del conjunto de datos de Viviendas de California, almacenado en un DataFrame de Pandas y generado mediante DataFrame.describe. Ten en cuenta que todos los atributos tienen un count de 17,000, lo que indica que no faltan valores:

longitude latitude total_rooms population households median_income median_house_value
count 17,000.0 17,000.0 17,000.0 17,000.0 17,000.0 17,000.0 17,000.0
mean -119.6 35.6 2,643.7 1,429.6 501.2 3.9 207.3
std 2.0 2.1 2,179.9 1,147.9 384.5 1.9 116.0
min -124.3 32.5 2.0 3.0 1.0 0.5 15.0
25% -121.8 33.9 1,462.0 790.0 282.0 2.6 119.4
50% -118.5 34.2 2,127.0 1,167.0 409.0 3.5 180.4
75% -118.0 37.7 3,151.2 1,721.0 605.2 4.8 265.0
max -114.3 42.0 37,937.0 35,682.0 6,082.0 15.0 500.0

En cambio, supongamos que tres atributos (population, households y median_income) tuvieron solo un recuento de 3000 (en otras palabras, hubo 14,000 valores faltantes para cada atributo):

longitude latitude total_rooms population households median_income median_house_value
count 17,000.0 17,000.0 17,000.0 3,000.0 3,000.0 3,000.0 17,000.0
mean -119.6 35.6 2,643.7 1,429.6 501.2 3.9 207.3
std 2.0 2.1 2,179.9 1,147.9 384.5 1.9 116.0
min -124.3 32.5 2.0 3.0 1.0 0.5 15.0
25% -121.8 33.9 1,462.0 790.0 282.0 2.6 119.4
50% -118.5 34.2 2,127.0 1,167.0 409.0 3.5 180.4
75% -118.0 37.7 3,151.2 1,721.0 605.2 4.8 265.0
max -114.3 42.0 37,937.0 35,682.0 6,082.0 15.0 500.0

Estos 14,000 valores faltantes dificultarían mucho más la posibilidad de correlacionar con exactitud los ingresos promedio de los hogares con la mediana del valor de las casas. Antes de entrenar un modelo con estos datos, sería prudente investigar la causa de la falta de estos valores para asegurarse de que no haya sesgos latentes responsables de la ausencia de los datos de ingresos y población.

Atributos con valores inesperados

Cuando exploras los datos, debes buscar también ejemplos que contengan atributos con valores que se destaquen por ser atípicos o inusuales. Este tipo de valores pueden ser una señal de problemas que surgieron durante la recopilación de datos, así como también de otros factores que pueden generar sesgo.

Por ejemplo, observa los siguientes ejemplos extraídos del conjunto de datos de Viviendas de California:

longitude latitude total_rooms population households median_income median_house_value
1 -121.7 38.0 7,105.0 3,523.0 1,088.0 5.0 0.2
2 -122.4 37.8 2,479.0 1,816.0 496.0 3.1 0.3
3 -122.0 37.0 2,813.0 1,337.0 477.0 3.7 0.3
4 -103.5 43.8 2,212.0 803.0 144.0 5.3 0.2
5 -117.1 32.8 2,963.0 1,162.0 556.0 3.6 0.2
6 -118.0 33.7 3,396.0 1,542.0 472.0 7.4 0.4

¿Puedes identificar algunos atributos con valores inesperados?

Distorsión de datos

Toda distorsión presente en los datos que ocasione que ciertos grupos o características estén sub o sobrerrepresentados con respecto a su prevalencia en el mundo real puede introducir sesgo en tu modelo.

Si completaste el Ejercicio de programación sobre validación, es posible que recuerdes haber descubierto que los datos se distorsionaron de manera significativa debido a que no se aleatorizó el conjunto de datos de California antes de dividirlo en conjuntos de entrenamiento y de validación. La Figura 1 muestra un subconjunto de datos extraído del conjunto de datos completo que representa exclusivamente la región del noroeste de California.

Mapa del estado de California con datos superpuestos del conjunto de datos de Viviendas de California.Cada punto representa un bloque de viviendas.Los puntos están agrupados en la región del noroeste de California. No hay ningún punto en la región del sur California, lo que ilustra la distorsión geográfica de los datos.

Figura 1. Mapa del estado de California con datos superpuestos del conjunto de datos de Viviendas de California. Cada punto representa un bloque de viviendas, con colores que varían de azul a rojo para representar la mediana del valor de las casas, que va de menor a mayor, respectivamente.

Si se utilizara esta muestra no representativa para entrenar un modelo con el fin de predecir los valores de las viviendas de California a nivel estatal, la falta de datos de las viviendas del sur de este estado representaría un problema. El sesgo geográfico codificado en el modelo podría afectar de manera negativa a los compradores de viviendas de las comunidades no representadas.

Enviar comentarios sobre…

Curso intensivo de aprendizaje automático