Equidad: Comprueba tu comprensión

Tipos de sesgo

Explora las opciones que aparecen a continuación.

¿Cuáles de las siguientes predicciones del modelo se vieron afectadas por el sesgo de selección?
Una app alemana de reconocimiento de escritura a mano para smartphones utiliza un modelo que, de manera incorrecta y frecuente, clasifica el carácter ß (Eszett) como el carácter B. Esto se debe a que se entrenó en función de un corpus estadounidense de muestras de escritura a mano que en su mayoría estaban escritas en inglés.
Este modelo se vio afectado por un tipo de sesgo de selección llamado sesgo de cobertura: los datos de entrenamiento (escritura a mano en inglés estadounidense) no eran representativos del tipo de datos brindado por el público objetivo del modelo (escritura a mano en alemán).
Los ingenieros construyeron un modelo para predecir la probabilidad de que una persona padezca diabetes según su ingesta diaria de alimentos. El modelo se entrenó a partir de 10,000 "diarios de alimentación" recopilados de un conjunto de personas de todo el mundo seleccionadas al azar que representan distintos grupos de edad, orígenes étnicos y géneros. Sin embargo, el modelo era muy inexacto cuando se implementó. Posteriormente, los ingenieros descubrieron que las personas que participaron en los diarios de alimentación no querían admitir el verdadero volumen de alimentos no saludables que comían y que era más probable que registraran el consumo de alimentos nutritivos en lugar de refrigerios menos saludables.
No hay sesgo de selección presente en este modelo; los participantes que proporcionaron datos de entrenamiento formaban parte de una muestra de usuarios representativa y se eligieron al azar. En cambio, el modelo se vio afectado por el sesgo de reporte. La ingesta de alimentos no saludables se registró con mucha menor frecuencia que la real.
Los ingenieros de una empresa desarrollaron un modelo para predecir las tasas de rotación de personal (el porcentaje de empleados que renuncian cada año) en función de los datos recopilados a partir de una encuesta enviada a todos los empleados. Después de usar este modelo por varios años, los ingenieros determinaron que el modelo subestimaba la rotación en más de un 20%. Cuando realizaron entrevistas de salida a los empleados que dejaban la empresa, descubrieron que más del 80% de las personas que no estaban satisfechas con sus trabajos eligieron no completar la encuesta, en comparación con la tasa de no participación del 15% en toda la empresa.
Este modelo se vio afectado por un tipo de sesgo de selección denominado sesgo de no respuesta. Las personas que no estaban satisfechas con sus trabajos tuvieron poca representación en el conjunto de datos de entrenamiento debido a que la mayor parte de ellas (en comparación con la población total de empleados) decidió no participar en la encuesta.
Los ingenieros que estaban desarrollando un sistema de recomendación de películas formularon la hipótesis de que las personas a quienes les gustan las películas de terror también disfrutan de las películas de ciencia ficción. Sin embargo, cuando entrenaron un modelo en función de 50,000 listas de películas vistas por los usuarios, no mostró tal correlación entre la preferencia por las películas de terror y las de ciencia ficción. En cambio, mostró una correlación sólida entre la preferencia por las películas de terror y los documentales. Debido a que eso les pareció extraño, volvieron a entrenar el modelo cinco veces más con distintos parámetros. El modelo entrenado final mostró una correlación del 70% entre la preferencia por las películas de terror y las de ciencia ficción. Por lo tanto, lo lanzaron para su producción.
Si bien no hay evidencia del sesgo de selección, es posible que este modelo se haya visto afectado por el sesgo de investigación, dado que los ingenieros continuaron iterando su modelo hasta que confirmó su hipótesis preexistente.

Evaluación de sesgo

Se entrenó un modelo de detección de sarcasmo con 80,000 mensajes de texto: 40,000 enviados por adultos (18 años o más) y 40,000 mensajes enviados por menores (18 años o menos). Luego, el modelo se evaluó con un conjunto de prueba de 20,000 mensajes: 10,000 de adultos y 10,000 de menores. Las siguientes matrices de confusión muestran los resultados de cada grupo (una predicción positiva conlleva la clasificación de "sarcástico"; una negativa indica "no sarcástico"):

Adultos

Verdaderos positivos (VP): 512 Falsos positivos (FP): 51
Falsos negativos (FN): 36 Verdaderos negativos (VN): 9401
$$\text{Precisión} = \frac{TP}{TP+FP} = 0.909$$
$$\text{Recuperación} = \frac{VP}{VP+FN} = 0.934$$

Menores
Verdaderos positivos (VP): 2147 Falsos positivos (FP): 96
Falsos negativos (FN): 2177 Verdaderos negativos (VN): 5580
$$\text{Precisión} = \frac{TP}{TP+FP} = 0.957$$
$$\text{Recuperación} = \frac{TP}{TP+FN} = 0.497$$

Explora las opciones que aparecen a continuación.

¿Cuál de las siguientes afirmaciones acerca del rendimiento del conjunto de prueba es verdadera?
En general, el rendimiento del modelo es mejor con los ejemplos de los adultos que con los ejemplos de los menores.

El modelo alcanza tasas de precisión y recuperación superiores al 90% para detectar sarcasmo en los mensajes de texto de los adultos.

Si bien el modelo alcanza una tasa de precisión un poco mayor en el caso de los menores en comparación con los adultos, la tasa de recuperación es significativamente menor en los menores, lo que da como resultado predicciones menos confiables para este grupo.

El modelo no logra clasificar aproximadamente el 50% de los mensajes sarcásticos como "sarcástico".
La tasa de recuperación de 0.497 en el caso de los menores indica que el modelo arroja predicciones de "no sarcástico" para alrededor del 50% de los mensajes de texto sarcásticos de este grupo.
Aproximadamente el 50% de los mensajes enviados por los menores se clasifican como "sarcástico" de manera incorrecta.
La tasa de precisión de 0.957 indica que más del 95% de los mensajes de los menores que se clasificaron como "sarcástico" realmente lo son.
Los 10,000 mensajes enviados por los adultos conforman un conjunto de datos desequilibrado.
Si comparamos la cantidad de mensajes de adultos que realmente son sarcásticos (VP + FN = 548) con la cantidad de mensajes que realmente no lo son (VN + FP = 9,452), podemos observar que las etiquetas "no sarcástico" superan a las etiquetas "sarcástico" por una proporción de 17:1 aproximadamente.
Los 10,000 mensajes enviados por los menores conforman un conjunto de datos desequilibrado.
Si comparamos la cantidad de mensajes de menores que realmente son sarcásticos (VP + FN = 4,324) con la cantidad de mensajes que realmente no lo son (VN + FP = 5,676), podemos observar que hay una proporción de 1.3:1 entre las etiquetas "no sarcástico" y "sarcástico". Debido a que la distribución de las etiquetas entre las dos clases se acerca bastante a 50/50, este conjunto de datos no está desequilibrado.

Explora las opciones que aparecen a continuación.

Los ingenieros están trabajando para volver a entrenar este modelo a fin de solucionar las incoherencias en la exactitud de la detección del sarcasmo en todos los grupos de edades; sin embargo, el modelo ya se lanzó a producción. ¿Cuál de las siguientes estrategias provisorias ayudará a mitigar los errores de las predicciones del modelo?
Restringir el uso del modelo a mensajes de texto enviados por adultos.

El modelo tiene un buen rendimiento con los mensajes de texto enviados por adultos (con tasas de precisión y recuperación superiores al 90%), por lo que restringir su uso a este grupo evitará los errores sistemáticos que se generan cuando se clasifican los mensajes de texto de los menores.

Cuando el modelo realiza una predicción "no sarcástico" para mensajes de texto enviados por menores, ajusta el resultado para que el modelo devuelva un valor de "incierto" en su lugar.

La tasa de precisión es alta en el caso de los mensajes de texto enviados por menores, lo que implica que, cuando el modelo realiza una predicción de "sarcástico" para este grupo, casi siempre es correcta.

El problema es que la recuperación es muy baja para menores, ya que el modelo no logra identificar el sarcasmo en el 50% de los ejemplos aproximadamente. Dado que las predicciones negativas del modelo para menores no son mucho mejores que las suposiciones al azar, estos errores se pueden evitar si no se realiza una predicción en estos casos.

Restringir el uso del modelo a los mensajes de texto enviados por menores.

Los errores sistemáticos de este modelo se relacionan específicamente con los mensajes de texto enviados por menores. No ayudaría restringir el uso del modelo al grupo que es más susceptible a presentar errores.

Ajustar el resultado del modelo para que muestre "sarcástico" para todos los mensajes de texto enviados por menores, sin importar lo que predijo originalmente.

Arrojar predicciones de "sarcástico" en todas las instancias de mensajes de texto de menores aumentaría la tasa de recuperación de 0.497 a 1.0, debido a que el modelo no tendría más inconvenientes para identificar los mensajes como sarcásticos. No obstante, este aumento de la recuperación afectaría la precisión. Todos los verdaderos negativos pasarían a ser falsos positivos:

Verdaderos positivos (VP): 4,324 Falsos positivos (FP): 5,676
Falsos negativos (FN): 0 Verdaderos negativos (VN): 0

Esto reduciría la tasa de precisión de 0.957 a 0.432. Por lo tanto, incorporar esta calibración modificaría el tipo de error pero no reduciría la magnitud del error.

Enviar comentarios sobre…

Curso intensivo de aprendizaje automático