Glosario de aprendizaje automático: Equidad

Organiza tus páginas con colecciones Guarda y categoriza el contenido según tus preferencias.

Esta página contiene los términos del glosario de Equidad. Para todos los términos del glosario, haz clic aquí.

A

atributo

#fairness

Sinónimo de feature.

En la equidad del aprendizaje automático, los atributos a menudo se refieren a las características que pertenecen a las personas.

sesgo de automatización

#fairness

Cuando una persona que toma decisiones favorece las recomendaciones que hace un sistema de toma de decisiones automatizado en lugar de la información que se genera sin automatización, incluso cuando el sistema de toma de decisiones automatizado genera errores.

B

sesgo (ética/equidad)

#fairness
#fundamentals

1. Estereotipos, prejuicios o favoritismo sobre algunas cosas, personas o grupos por sobre otras. Estos sesgos pueden afectar la recopilación y la interpretación de datos, el diseño de un sistema y la forma en que los usuarios interactúan con él. Entre las formas de este tipo de sesgo, se incluyen las siguientes:

2. Error sistemático debido a un procedimiento de muestreo o de generación de informes Entre las formas de este tipo de sesgo, se incluyen las siguientes:

No debe confundirse con el término de ordenada al origen en los modelos de aprendizaje automático o el sesgo de predicción.

C

sesgo de confirmación

#fairness

La tendencia a buscar, interpretar, favorecer y recuperar información de una manera que confirme las creencias o hipótesis preexistentes. Los desarrolladores de aprendizaje automático pueden recopilar o etiquetar de forma involuntaria datos de formas que influyan en un resultado que respalde sus creencias existentes. El sesgo de confirmación es una forma de sesgo implícito.

El sesgo de investigación es una forma de sesgo de confirmación en el que un investigador continúa entrenando modelos hasta que se confirma una hipótesis preexistente.

equidad contrafactual

#fairness
Una métrica de equidad que verifica si un clasificador produce el mismo resultado para un individuo que para otro individual que es idéntico al primero, excepto con respecto a uno o más atributos sensibles. Evaluar un clasificador en función de la justicia contrafactual es un método para exponer las posibles fuentes de sesgo en un modelo.

Consulta Cuando los mundos se enfrentan: integrar diferentes suposiciones contrafactuales en equidad para obtener un análisis más detallado de la equidad contrafactual.

sesgo de cobertura

#fairness

Consulta el sesgo de selección.

D

paridad demográfica

#fairness

Una métrica de equidad que se cumple si los resultados de la clasificación de un modelo no dependen de un atributo sensible dado.

Por ejemplo, si tanto los lilliputianos como los brobdingagianos se postulan a la Universidad de Glubbdubdrib, se logra la paridad demográfica si el porcentaje de lilliputianos admitidos es el mismo que el porcentaje de broddingas admitidos, independientemente de que un grupo esté, en promedio, más calificado que el otro.

Compara esto con las probabilidades igualadas y la igualdad de oportunidades, que permiten que los resultados de clasificación agregados dependan de atributos sensibles, pero no permiten que los resultados de clasificación para ciertas etiquetas de verdad fundamental específicas dependan de atributos sensibles. Consulta Cómo atacar la discriminación con un aprendizaje automático más inteligente para obtener una visualización de las compensaciones cuando se realizan optimizaciones en función de la paridad demográfica.

impacto dispar

#fairness

Tomar decisiones sobre personas que afectan a diferentes subgrupos de población de manera desproporcionada. Por lo general, esto se refiere a situaciones en las que un proceso de toma de decisiones algorítmico daña o beneficia a algunos subgrupos más que a otros.

Por ejemplo, supongamos que un algoritmo que determina la elegibilidad de un liliiputiano para un préstamo en vivienda en miniatura tiene más probabilidades de clasificarlo como “no apto” si su dirección de correo postal contiene un código postal determinado. Si los lilliputianos de extremo a extremo tienen más probabilidades de tener direcciones de correo postal con este código postal que los de Lilliputian de Little-Endian, este algoritmo puede generar un impacto dispar.

Compara esto con el tratamiento dispar, que se centra en las disparidades que resultan cuando las características del subgrupo son entradas explícitas a un proceso de toma de decisiones algorítmico.

tratamiento dispar

#fairness

Factores sujetos a atributos sensibles en un proceso algorítmico de toma de decisiones, en el que los diferentes subgrupos de personas reciben un trato diferente.

Por ejemplo, considera un algoritmo que determina la elegibilidad de los libertarios para un préstamo en vivienda en miniatura en función de los datos que proporcionan en su solicitud de préstamo. Si el algoritmo utiliza la afiliación de un litigante como Big-Endian o Little-Endian como entrada, está aplicando un tratamiento dispar en esa dimensión.

Compara esto con el impacto dispar, que se centra en las disparidades en el impacto social de las decisiones algorítmicas en subgrupos, independientemente de que esos subgrupos sean entradas para el modelo.

E

igualdad de oportunidades

#fairness
Una métrica de equidad que verifica si, para una etiqueta preferida (que confiere una ventaja o un beneficio a una persona) y un atributo determinado, un clasificador predice esa etiqueta preferida de manera equitativa para todos los valores de ese atributo. En otras palabras, la igualdad de oportunidades mide si las personas que deberían calificar para una oportunidad tienen la misma probabilidad de hacerlo sin importar su membresía de grupo.

Por ejemplo, supongamos que la Universidad de Glubbdubdrib admite a los lilliputianos y a los brobdingnagianos en un riguroso programa de matemáticas. Las escuelas secundarias de Lilliputian ofrecen un plan de estudios sólido de clases de matemáticas, y la mayoría de los estudiantes están calificados para el programa universitario. Las escuelas secundarias de Brobdingnagians no ofrecen clases de matemáticas y, como resultado, muchos menos están calificados. La igualdad de oportunidades se cumple con la etiqueta preferida "admitido" con respecto a la nacionalidad (Lilliputian o Brobdingnagian) si los estudiantes calificados tienen las mismas probabilidades de que se los admita, independientemente de que sean lilliputianos o brobdingnagianos.

Por ejemplo, supongamos que 100 lilliputianos y 100 brobdingagianos aplican a la Universidad de Glubbdubdrib y las decisiones de admisión se toman de la siguiente manera:

Tabla 1: Postulantes de Liliiputiano (90% son calificados)

  Calificado No cumple con los requisitos
Admitido 45 3
Rechazados 45 7
Total 90 10
Porcentaje de alumnos aptos admitidos: 45/90 = 50%
Porcentaje de estudiantes no calificados rechazados: 7/10 = 70%
Porcentaje total de estudiantes lilliputianos admitidos: (45+3)/100 = 48%

 

Tabla 2: Postulantes de Brobdingnagian (10% son calificados):

  Calificado No cumple con los requisitos
Admitido 5 9
Rechazados 5 81
Total 10 90
Porcentaje de estudiantes aptos admitidos: 5/10 = 50%
Porcentaje de estudiantes no calificados rechazados: 81/90 = 90%
Porcentaje total de estudiantes brobdingaginos admitidos: (5+9)/100 = 14%

Los ejemplos anteriores satisfacen las igualdades de oportunidades para la aceptación de estudiantes calificados, ya que ambos tienen un 50% de probabilidades de ser admitidos.

Consulta Igualdad de oportunidades en el aprendizaje supervisado para obtener un análisis más detallado de la igualdad de oportunidades. Consulta también cómo atacar la discriminación con un aprendizaje automático más inteligente para obtener una visualización que aproveche las ventajas de la optimización al igualar las oportunidades.

probabilidad igualada

#fairness
Una métrica de equidad que verifica si, para cualquier etiqueta y atributo en particular, un clasificador predice esa etiqueta de manera equitativa para todos los valores de ese atributo.

Por ejemplo, supongamos que la Universidad de Glubbdubdrib admite tanto a los lilliputianos como a los brobdingagianos en un riguroso programa de matemáticas. Las escuelas secundarias de Lilliputian ofrecen un plan de estudios sólido de clases de matemáticas y la gran mayoría de los estudiantes están calificados para el programa universitario. Las escuelas secundarias de Brobdingnagians no ofrecen clases de matemáticas y, como resultado, muchos menos estudiantes están calificados. Las probabilidades equitativas se cumplen siempre que no importa si un solicitante es lilliputiano o brobdingnagiano, si cumple con los requisitos, tiene la misma probabilidad de que se los admita en el programa y, si no lo son, también es probable que se rechace.

Digamos que 100 lilliputianos y 100 brobdingagianos aplican a la universidad de Glubbdubdrib y las decisiones de admisión se toman de la siguiente manera:

Tabla 3: Postulantes de Liliiputiano (90% son calificados)

  Calificado No cumple con los requisitos
Admitido 45 2
Rechazados 45 8
Total 90 10
Porcentaje de estudiantes calificados admitidos: 45/90 = 50%
Porcentaje de estudiantes no calificados rechazados: 8/10 = 80%
Porcentaje total de estudiantes lilliputianos admitidos: (45+2)/100 = 47%

 

Tabla 4. Postulantes de Brobdingnagian (10% son calificados):

  Calificado No cumple con los requisitos
Admitido 5 18
Rechazados 5 72
Total 10 90
Porcentaje de estudiantes aptos admitidos: 5/10 = 50%
Porcentaje de estudiantes no calificados rechazados: 72/90 = 80%
Porcentaje total de estudiantes brobdingaginos admitidos: (5+18)/100 = 23%

Las probabilidades igualadas se cumplen porque los estudiantes lilliputianos y brobdingagianos calificados tienen un 50% de probabilidades de ser admitidos, y los lilliputianos y brobdingagianos no calificados tienen un 80% de probabilidades de ser rechazados.

Las probabilidades ecualizadas se definen formalmente en la Igualdad de oportunidades en el aprendizaje supervisado de la siguiente manera: el predictor Ŷ satisface las probabilidades ecualizadas con respecto al atributo protegido A y el resultado Y si Ŷ y A son independientes y condicionales en Y.

sesgo de experimentador

#fairness

Consulta el sesgo de confirmación.

F

restricción de equidad

#fairness
Aplicar una restricción a un algoritmo para garantizar que se cumplan una o más definiciones de equidad Estos son algunos ejemplos de restricciones de equidad:

métrica de equidad

#fairness

Definición matemática de "equidad" que se puede medir Estas son algunas de las métricas de equidad más usadas:

Muchas métricas de equidad son mutuamente excluyentes; consulta incompatibilidad de las métricas de equidad.

G

sesgo de correspondencia

#fairness

Suponer que lo que es verdadero para un individuo también lo es para todos en ese grupo Los efectos del sesgo de correspondencia pueden agravarse si se usa un muestreo de conveniencia para la recopilación de datos. En una muestra no representativa, se pueden realizar atribuciones que no reflejan la realidad.

Consulta también el sesgo de homogeneidad de los demás y el sesgo endogrupal.

I

sesgo implícito

#fairness

Hacer una asociación o suposición automáticamente según los modelos y los recuerdos mentales de cada uno El sesgo implícito puede afectar lo siguiente:

  • Cómo se recopilan y clasifican los datos
  • Cómo se diseñan y desarrollan los sistemas de aprendizaje automático.

Por ejemplo, cuando se compila un clasificador para identificar fotos de bodas, un ingeniero puede usar la presencia de un vestido blanco en una foto como atributo. Sin embargo, los vestidos blancos se han acostumbrado solo durante ciertas épocas y en ciertas culturas.

Consulta también el sesgo de confirmación.

incompatibilidad de las métricas de equidad

#fairness

La idea de que algunas nociones de equidad son incompatibles entre sí y no se pueden satisfacer de forma simultánea. Como resultado, no hay una sola métrica universal para cuantificar la equidad que se pueda aplicar a todos los problemas de AA.

Si bien esto puede parecer desalentador, la incompatibilidad de las métricas de equidad no implica que los esfuerzos de equidad no tengan resultado. En cambio, sugiere que la equidad debe definirse contextualmente para un problema de AA dado, con el objetivo de evitar daños específicos para sus casos prácticos.

Consulta “Sobre la (im)posibilidad de la equidad” para obtener un análisis más detallado de este tema.

equidad individual

#fairness

Una métrica de equidad que verifica si las personas similares se clasifican de manera similar. Por ejemplo, la Academia Brobdingnagian puede querer satisfacer la equidad individual asegurándose de que dos estudiantes con calificaciones idénticas y puntuaciones de exámenes estandarizadas tengan la misma probabilidad de obtener admisión.

Ten en cuenta que la equidad individual se basa completamente en la forma en que defines la similitud (en este caso, las calificaciones y las calificaciones de las pruebas), y puedes correr el riesgo de introducir nuevos problemas de equidad si tu métrica de similitud omite información importante (como el rigor del plan de estudios de un alumno).

Consulta Equidad a través del reconocimiento para obtener un análisis más detallado de la equidad individual.

sesgo endogrupal (in-group bias)

#fairness

Mostrar parcialidad al propio grupo o a sus propias características Si los evaluadores o evaluadores consisten en amigos, familiares o colegas del desarrollador de aprendizaje automático, el sesgo en grupo puede invalidar las pruebas del producto o el conjunto de datos.

El sesgo endogrupal es una forma de sesgo de correspondencia. Consulta también el sesgo de homogeneidad de los demás.

N

sesgo de no respuesta (non-response bias)

#fairness

Consulta el sesgo de selección.

O

sesgo de homogeneidad de los demás (out-group homogeneity bias)

#fairness

La tendencia a ver a los miembros externos a un grupo como más parecidos que los miembros del grupo cuando se comparan actitudes, valores, rasgos de personalidad y otras características. Endogrupal refiere a las personas con las que interactúas regularmente; los demás refiere a las personas con las que no interactúas regularmente. Si creas un conjunto de datos pidiéndoles a las personas que proporcionen atributos sobre los demás grupos, esos atributos pueden ser menos matizados y más estereotipados que los atributos que los participantes enumeran para las personas en su grupo.

Por ejemplo, los lilliputianos podrían describir las casas de otros lilliputianos con gran detalle, citando pequeñas diferencias en los estilos arquitectónicos, las ventanas, las puertas y los tamaños. Sin embargo, los mismos lilliputianos podrían simplemente declarar que los brobdingagianos viven todos en casas idénticas.

El sesgo de homogeneidad de los demás es un tipo de sesgo de correspondencia.

Consulta también el sesgo endogrupal.

P

sesgo de participación (participation bias)

#fairness

Sinónimo de sesgo de no respuesta. Consulta el sesgo de selección.

posprocesamiento

#fairness
#fundamentals

Ajustar la salida de un modelo después de que se ejecute El procesamiento posterior se puede usar para aplicar restricciones de equidad sin modificar los modelos.

Por ejemplo, se podría aplicar el procesamiento posterior a un clasificador binario mediante la configuración de un umbral de clasificación de modo que la igualdad de oportunidades se mantenga para algún atributo verificando que la tasa de verdaderos positivos sea la misma para todos los valores de ese atributo.

paridad predictiva

#fairness

Una métrica de equidad que verifica si, para un clasificador determinado, las tasas de precisión son equivalentes para los subgrupos en cuestión.

Por ejemplo, un modelo que predice que la aceptación de la universidad satisface la paridad predictiva de la nacionalidad si su tasa de precisión es la misma para los lilliputianos y los brobdingagianos.

La paridad predictiva también se conoce como paridad de tasas predictivas.

Consulta la explicación de las definiciones de equidad (sección 3.2.1) para obtener un análisis más detallado de la paridad predictiva.

paridad de frecuencia predictiva

#fairness

Otro nombre para la paridad predictiva.

procesamiento previo

#fairness
Procesar datos antes de usarlos para entrenar un modelo El procesamiento previo puede ser tan simple como quitar palabras de un corpus de texto en inglés que no aparecen en el diccionario de inglés o puede ser tan complejo como reexpresar datos de una manera que elimina la mayor cantidad posible de atributos que estén relacionados con atributos sensibles. El procesamiento previo puede ayudar a satisfacer las restricciones de equidad.

proxy (atributos sensibles)

#fairness
Un atributo que se usa como sustituto de un atributo sensible. Por ejemplo, el código postal de una persona se puede usar como un proxy para sus ingresos, raza o etnia.

R

sesgo de reporte

#fairness

El hecho de que la frecuencia con la que las personas escriben sobre acciones, resultados o propiedades no sea un reflejo de sus frecuencias reales o el grado en el que una propiedad es característica de una clase de individuos. El sesgo de informes puede influir en la composición de los datos que los sistemas de aprendizaje automático aprenden.

Por ejemplo, en los libros, la palabra reír es más frecuente que la que se respirar. Un modelo de aprendizaje automático que estima la frecuencia relativa de la risa y la respiración de un corpus de libros probablemente determine que la risa es más común que la respiración.

S

sesgo muestral

#fairness

Consulta el sesgo de selección.

sesgo de selección

#fairness

Errores en las conclusiones que se extraen de los datos de muestra debido a un proceso de selección que genera diferencias sistemáticas entre las muestras observadas en los datos y las no observadas. Existen las siguientes formas de sesgo de selección:

  • sesgo de cobertura: La población representada en el conjunto de datos no coincide con la población sobre la cual el modelo de aprendizaje automático realiza predicciones.
  • sesgo muestral: Los datos no se recopilan aleatoriamente del grupo objetivo.
  • sesgo de no respuesta (también llamado sesgo de participación): Los usuarios de ciertos grupos rechazan realizar encuestas con frecuencias diferentes a los de otros grupos.

Por ejemplo, supongamos que creas un modelo de aprendizaje automático que predice el disfrute de una persona por una película. Para recopilar datos de entrenamiento, reparte una encuesta a todas las personas que están en la primera fila de un cine en el que se muestra la película. A primera vista, esto puede parecer una forma razonable de recopilar un conjunto de datos; sin embargo, esta forma de recopilación de datos puede introducir las siguientes formas de sesgo de selección:

  • sesgo de cobertura: si muestras una población que decidió ver la película, es posible que las predicciones de tu modelo no generalicen a las personas que aún no expresaron ese nivel de interés en la película.
  • sesgo muestral: en lugar de realizar un muestreo aleatorio de la población prevista (todas las personas en la película), solo se hicieron muestras de las personas en la primera fila. Es posible que las personas sentadas en la primera fila estén más interesadas en la película que aquellas en otras filas.
  • sesgo de no respuesta: en general, las personas con opiniones sólidas tienden a responder encuestas opcionales con más frecuencia que las personas con opiniones moderadas. Como la encuesta de la película es opcional, es más probable que las respuestas formen una distribución bimodal en lugar de una distribución normal (con forma de campana).

atributo sensible

#fairness
Un atributo humano que puede tener especial consideración por motivos legales, éticos, sociales o personales.

U

desconocimiento (a un atributo sensible)

#fairness

Una situación en la que están presentes atributos sensibles, pero no se incluyen en los datos de entrenamiento Debido a que los atributos sensibles a menudo están correlacionados con otros atributos de los datos de uno, un modelo entrenado con la falta de conocimiento acerca de un atributo sensible aún podría tener un impacto dispar con respecto a ese atributo, o puede infringir otras restricciones de equidad.