Equidad: Comprueba tu comprensión

Tipos de sesgo

Explora las siguientes opciones.

¿Cuál de las siguientes predicciones del modelo se vio afectada por el sesgo de selección?
Una app alemana de reconocimiento de escritura a mano para smartphones utiliza un modelo que, de manera incorrecta y frecuente, clasifica el carácter ß (Eszett) como el carácter B. Esto se debe a que se entrenó en función de un corpus estadounidense de muestras de escritura a mano que en su mayoría estaban escritas en inglés.
Este modelo se vio afectado por un tipo de sesgo de selección llamado sesgo de cobertura: los datos de entrenamiento (escritura a mano en inglés estadounidense) no eran representativos del tipo de datos proporcionado por el público objetivo del modelo (escritura a mano en alemán).
Los ingenieros crearon un modelo para predecir la probabilidad de que una persona padezca diabetes según su ingesta diaria de alimentos. El modelo se entrenó con 10,000 diarios de alimentación recopilados de un grupo de personas de todo el mundo elegidas al azar y que representan una variedad de grupos etarios, orígenes étnicos y géneros diferentes. Sin embargo, el modelo era muy inexacto cuando se implementó. Posteriormente, los ingenieros descubrieron que las personas que participaron en los diarios de alimentación no querían admitir el verdadero volumen de alimentos no saludables que comían y que era más probable que registraran el consumo de alimentos nutritivos en lugar de refrigerios menos saludables.
No hay sesgo de selección en este modelo; los participantes que proporcionaron datos de entrenamiento eran una muestra representativa de usuarios y se eligieron al azar. En su lugar, este modelo se vio afectado por el sesgo de reporte. La transferencia de alimentos no saludables se informó con una frecuencia mucho menor que en los casos reales.
Los ingenieros de una empresa desarrollaron un modelo para predecir las tasas de rotación del personal (el porcentaje de empleados que renuncian a sus trabajos cada año) según los datos recopilados de una encuesta enviada a todos los empleados. Después de varios años de uso, los ingenieros determinaron que el modelo subestimaba la rotación en más de un 20%. Cuando realizaron entrevistas de salida con empleados que abandonaban la empresa, descubrieron que más del 80% de las personas que no estaban satisfechas con sus trabajos eligieron no completar la encuesta, en comparación con la tasa de inhabilitación de toda la empresa del 15%.
Este modelo se vio afectado por un tipo de sesgo de selección denominado sesgo de no respuesta. Las personas que no estaban satisfechas con sus trabajos estaban subrepresentadas en el conjunto de datos de entrenamiento porque inhabilitaron la encuesta en toda la empresa a tasas mucho más altas que la población total de empleados.
Los ingenieros que desarrollan un sistema de recomendación de películas formularon la hipótesis de que a las personas que les gustan las películas de terror también les gustarán las películas de ciencia ficción. Sin embargo, cuando entrenaron un modelo para 50,000 listas de usuarios, no mostró esa correlación entre las preferencias de terror y ciencia ficción; en cambio, mostró una fuerte correlación entre las preferencias de terror y los documentales. Esto parecía extraño para ellos, por lo que volvieron a entrenar el modelo cinco veces más con hiperparámetros diferentes. Su modelo entrenado final mostró una correlación del 70% entre las preferencias de terror y ciencia ficción, por lo que la lanzaron con seguridad a la producción.
No hay evidencia del sesgo de selección, pero es posible que este modelo se haya visto afectado por el sesgo de investigación, ya que los ingenieros siguieron iterando en su modelo hasta que confirmó su hipótesis preexistente.

Evaluación de sesgo

Un modelo de detección de sarcasmo se entrenó con 80,000 mensajes de texto: 40,000 mensajes enviados por adultos (mayores de 18 años) y 40,000 mensajes enviados por menores (menos de 18 años). Luego, el modelo se evaluó en un conjunto de prueba de 20,000 mensajes: 10,000 de adultos y 10,000 de menores. Las siguientes matrices de confusión muestran los resultados de cada grupo (una predicción positiva significa una clasificación de "sarcástico") y una negativa significa "no sarcástico":

Adultos

Verdaderos positivos (VP): 512 Falsos positivos (FP): 51
Falsos negativos (FN): 36 Verdaderos negativos (VN): 9401
$$\text{Precision} = \frac{TP}{TP+FP} = 0.909$$
$$\text{Recall} = \frac{TP}{TP+FN} = 0.934$$

Menores de edad

Verdaderos positivos (VP): 2,147 Falsos positivos (FP): 96
Falsos negativos (FN): 2177 Verdaderos negativos (VN): 5580
$$\text{Precision} = \frac{TP}{TP+FP} = 0.957$$
$$\text{Recall} = \frac{TP}{TP+FN} = 0.497$$

Explora las siguientes opciones.

¿Cuál de las siguientes afirmaciones sobre el rendimiento del conjunto de prueba es verdadera?
En general, el modelo funciona mejor con ejemplos de adultos que con menores.

El modelo alcanza tasas de precisión y recuperación superiores al 90% cuando detecta sarcasmo en los mensajes de texto de los adultos.

Si bien el modelo alcanza una tasa de precisión un poco más alta para los menores que los adultos, la tasa de recuperación es significativamente menor para los menores, lo que da como resultado predicciones menos confiables para este grupo.

El modelo no clasifica aproximadamente el 50% de los mensajes "sarcásticos" de los menores como "sarcástico".
La tasa de recuperación de 0.497 para menores indica que el modelo predice "no sarcástico" para aproximadamente el 50% de los menores.
Aproximadamente el 50% de los mensajes enviados por los menores se clasifican como "sarcástico" de manera incorrecta.
La tasa de precisión de 0.957 indica que más del 95% de los menores de edad clasificados como sarcástico son realmente sarcásticos.
Los 10,000 mensajes enviados por los adultos conforman un conjunto de datos desequilibrado.
Si comparamos la cantidad de mensajes de adultos que realmente son sarcásticos (VP + FN = 548) con la cantidad de mensajes que realmente no lo son (VN + FP = 9,452), vemos que las etiquetas "no sarcástico" superan a las etiquetas "sarcástico" en una proporción de aproximadamente 1.
Los 10,000 mensajes enviados por los menores conforman un conjunto de datos desequilibrado.
Si comparamos la cantidad de mensajes de menores que realmente son sarcásticos (VP + FN = 4,324) con la cantidad de mensajes que realmente no lo son (VN + FP = 5,676), vemos que hay una proporción de 1.3:1 entre las etiquetas "sarcástico" y "no sarcástico". Dado que la distribución de las etiquetas entre las dos clases es bastante cercana a 50/50, este no es un conjunto de datos desequilibrado.

Explora las siguientes opciones.

Los ingenieros están trabajando para volver a entrenar este modelo a fin de abordar las inconsistencias en la precisión de la detección del sarcasmo en todos los grupos etarios, pero el modelo ya se lanzó a producción. ¿Cuál de las siguientes estrategias provisorias ayudará a mitigar los errores de las predicciones del modelo?
Restringir el uso del modelo a los mensajes de texto enviados por adultos.

El modelo funciona bien con mensajes de texto de adultos (con tasas de precisión y recuperación superiores al 90%), por lo que restringir su uso a este grupo evitará los errores sistemáticos que se deben clasificar como mensajes de texto para menores.

Cuando el modelo prediga “no sarcástico” para mensajes de texto enviados por menores, ajusta el resultado para que el modelo muestre un valor “no estoy seguro”.

La tasa de precisión de los mensajes de texto que envían los menores es alta, lo que significa que cuando el modelo predice el "sarcástico" para este grupo, casi siempre es correcto.

El problema es que la recuperación es muy baja para los menores. El modelo no logra identificar el sarcasmo en aproximadamente el 50% de los ejemplos. Dado que las predicciones negativas del modelo para menores no son mejores que las suposiciones aleatorias, podemos evitar estos errores si no se proporciona una predicción en estos casos.

Restringir el uso del modelo a los mensajes de texto enviados por menores.

Los errores sistemáticos de este modelo son específicos de los mensajes de texto enviados por menores. Restringir el uso del modelo al grupo que es más susceptible a errores no ayudaría.

Ajusta el resultado del modelo de modo que muestre "sarcástico" para todos los mensajes de texto que enviaron los menores, sin importar lo que el modelo predijo originalmente.

Si se predice siempre "sarcástico" para los menores, los mensajes de texto aumentarían la tasa de recuperación de 0.497 a 1.0, ya que el modelo ya no identificaría los mensajes como sarcásticos. Sin embargo, este aumento en la recuperación se generaría a costa de la precisión. Todos los verdaderos negativos cambiarían a falsos positivos:

Verdaderos positivos (VP): 4,324 Falsos positivos (FP): 5,676
Falsos negativos (FN): 0 Verdaderos negativos (VN): 0

lo que reduciría la tasa de precisión de 0.957 a 0.432. Por lo tanto, agregar esta calibración cambiaría el tipo de error, pero no mitigaría la magnitud del error.