Módulo 3: Respuesta

1. Cómo definir las conclusiones clave

Decidiste incluir un conjunto de preguntas en tu tarjeta de datos, preguntas que consideras importantes para tus lectores. Sin embargo, no es tan simple como responder estas preguntas y llamarlo tarjeta de datos. Se requiere una consideración cuidadosa para garantizar que la tarjeta de datos final esté optimizada para la experiencia del lector.

Cuando las personas leen las Tarjetas de datos, quieren tomar decisiones muy específicas, como las siguientes:

  • ¿Este conjunto de datos es adecuado para mi caso de uso?
  • ¿Puedo permitir que otras personas usen este conjunto de datos?
  • ¿Cómo puedo usar este conjunto de datos de forma segura sin agregar riesgo a mis modelos?

Si los lectores pueden acceder a la información correcta de manera eficiente, son muy capaces de tomar decisiones relacionadas con los conjuntos de datos en sus contextos. La importancia o utilidad de la información depende del tipo de decisión que debe tomar el lector y de sus antecedentes. Por ejemplo, cuando se decide si se usará un conjunto de datos, un oficial de cumplimiento puede consultar las licencias asociadas a él, pero un ingeniero puede consultar la pila técnica. Ambos lectores hacen las mismas preguntas, pero esperan respuestas diferentes.

Las tarjetas de datos deben describir tu conjunto de datos de forma integral para que los lectores puedan tomar decisiones con confianza. Estas descripciones integrales te ayudan a decidir qué quieres que los lectores obtengan de tu tarjeta de datos y a determinar el tipo de información precisa, sólida y organizada que debes documentar en ella. Por supuesto, el desafío es que es imposible determinar todas las decisiones posibles que deben tomar los lectores de tu tarjeta de datos.

2. Planifica tu tarjeta de datos

  • Para determinar las decisiones que deben tomar los lectores de tu tarjeta de datos y el nivel de detalle que debe incluir, responde la pregunta de cada categoría en la siguiente tabla:

Lectores

Decisiones

Objetivos

Relevancia

Nuance

¿Quién es el público principal?

¿Qué decisiones tomarán sobre el conjunto de datos?

¿Qué quieren obtener de la tarjeta de datos?

¿Qué contenido específico necesitan de la tarjeta de datos para alcanzar sus objetivos?

Según lo que sabes sobre el lector, ¿qué tan detallado o matizado debe ser tu contenido?

Ejemplo: Ingenieros de software de producción

Ejemplo: ¿Debo usar el conjunto de datos para probar un modelo de aprendizaje automático (AA) que está en producción?

Ejemplo: Dame una descripción general del conjunto de datos. Dime cómo se implementa.

Ejemplo: Usos adecuados e inadecuados, uso anterior y resultados en modelos anteriores

Ejemplo: Muy matizada. Énfasis en el uso técnico y la usabilidad para la integración en sistemas de producción

Puedes usar tu tabla para evaluar tu tarjeta de datos y asegurarte de que tus lectores de alta prioridad la encuentren útil. Si bien existen muchos enfoques para evaluar tu tarjeta de datos, te recomendamos uno que consiste en calificar la gravedad de la usabilidad.

Si bien las definiciones precisas pueden variar, la siguiente escala de gravedad proporciona una calificación de qué tan grave es un problema y su impacto sin tener en cuenta la priorización. En este contexto, nos referimos a la usabilidad de tu tarjeta de datos, que, si no se aborda, puede afectar la confianza que deposita un lector en la tarjeta de datos y su utilidad.

  • Para evaluar qué tan útil es el estado de tu tarjeta de datos para cada grupo de público de la tabla anterior, responde las preguntas en la siguiente escala de gravedad:

Incumplimiento

Gravedad

Corrección

¿Qué respuestas no son útiles para el lector?

En una escala del 1 al 5, ¿con qué urgencia se debe solucionar este problema? (Selecciona la casilla de verificación que corresponda):

  • ☐ 1 = Catastrófico. Corrige este problema antes de que se lance la Tarjeta de datos.
  • ☐ 2 = Problema grave Es importante corregirlo y tiene alta prioridad.
  • ☐ 3 = Problema menor Se le asignó una prioridad baja.
  • ☐ 4 = Problema solo estético. Corrige el problema si el tiempo lo permite.
  • ☐ 5 = Esto no es un problema.

¿Cuál es la solución?

3. Busca la cantidad justa

Por lo general, cuando creas tu primera tarjeta de datos, suele ocurrir una de las siguientes dos situaciones:

  • Demasiada información abruma a los lectores.
  • Si hay muy poca información, los lectores se confundirán.

Como creador de una tarjeta de datos, debes seleccionar y priorizar la información que se incluye en ella. Un buen artefacto de transparencia proporciona suficiente contexto para que los lectores obtengan una comprensión clara. De lo contrario, les indica a dónde deben ir.

Quieres proporcionar información que facilite la comprensión y el uso del conjunto de datos. A veces, la complejidad de tu conjunto de datos aumenta, lo que afecta la densidad de la información y las explicaciones que debes resumir en tu tarjeta de datos.

Independientemente del nivel de experiencia de tus lectores, cualquiera puede experimentar una sobrecarga de información, por lo que es importante presentar la información correcta, que incluye lo siguiente:

  • El tipo de información que debes proporcionar
  • La cantidad de información que tienes para ofrecer
  • Los detalles que contiene

Tus respuestas deben resumir todo lo posible sin detallar todo, y reflejar el contexto necesario para que los lectores obtengan estadísticas sobre tu conjunto de datos.

Heurísticas

Creamos un conjunto de heurísticas que puedes usar para calificar la experiencia general de lectura de tu tarjeta de datos. Consideramos que estas heurísticas son objetivos que las Tarjetas de datos deben cumplir para que sean exitosas y se adopten de manera adecuada en la práctica y a gran escala. En la siguiente tabla, se incluyen estos objetivos y sus descripciones:

Objetivo

Descripción

Coherente

Las Tarjetas de datos deben ser comparables entre sí, independientemente de la modalidad o el dominio de los datos, para que las afirmaciones sean fáciles de interpretar y validar en el contexto de uso. Si bien la implementación de las Tarjetas de datos únicas es relativamente sencilla, observamos que los equipos y las organizaciones deben preservar la comparabilidad cuando amplían la adopción.

Integral

En lugar de crearse como el último paso en el ciclo de vida de un conjunto de datos, debería ser fácil crear una tarjeta de datos de forma simultánea con el conjunto de datos. Además, la responsabilidad de completar los campos de una tarjeta de datos debe distribuirse y asignarse a la persona más adecuada. Esto requiere métodos estandarizados que se extiendan más allá de la Tarjeta de datos y se apliquen a los diversos informes que se generan en el ciclo de vida del conjunto de datos.

Inteligible y conciso

Los lectores tienen diferentes niveles de dominio, lo que afecta su interpretación de la Tarjeta de datos. En situaciones en las que la competencia de los stakeholders difiere, las personas con el modelo mental más sólido del conjunto de datos se convierten en responsables de la toma de decisiones de facto. Por último, las tareas más urgentes o desafiantes pueden reducir la participación de los interesados no tradicionales en las decisiones, que se dejan en manos del "experto". Esto conlleva el riesgo de omitir perspectivas críticas que reflejan las necesidades situadas de las partes interesadas laterales y de nivel inferior. Una tarjeta de datos debe comunicar de manera eficiente al lector con la menor competencia y permitir que los lectores con mayor competencia encuentren más información según sea necesario. El contenido y el diseño deben avanzar en el proceso de deliberación del lector sin abrumarlo y fomentar la cooperación de las partes interesadas hacia un modelo mental compartido del conjunto de datos para la toma de decisiones.

4. Califica tus heurísticas

  • Para revisar las respuestas de tu tarjeta de datos, usa el siguiente cuadro de evaluación que creamos para calificar cada heurística. Al final, puedes calcular la puntuación general de tu tarjeta de datos, lo que te ayudará a mantenerte en el camino correcto. También puedes incluir comentarios para capturar contexto adicional y elementos de acción necesarios para mejorar cada heurística.

Heurística

Criterios

Comentarios

Puntuación

Autoevalúa tu tarjeta de datos completada según las siguientes heurísticas.

Criterios para la heurística

Toma nota especial de las áreas en las que se puede mejorar la tarjeta de datos.

Solo números, autoevaluación (0-10)

Inteligible
El diseño y el contenido de tu artefacto de transparencia son eficaces, pertinentes y fáciles de entender para la mayoría de los agentes expertos y no expertos.

  • Eficaz: La mayoría de los agentes pueden obtener respuestas adecuadas a preguntas razonables sobre el conjunto de datos o el modelo.
  • Pertinente: Las explicaciones, las visualizaciones y los resultados de los análisis incluidos son pertinentes y prácticos para la mayoría de los agentes.
  • Comprensible: La información puede ser comprendida fácilmente por agentes expertos y no expertos.

.

.

Integral
La tarjeta de datos facilita a los lectores la comprensión de qué trata el conjunto de datos o el modelo, cómo se creó y qué es importante saber antes de usarlo.

  • Con propósito: La información que establece el contexto del conjunto de datos y es útil para todas las partes interesadas es legible.
  • Completa: La información es coherente y completa, y describe de manera adecuada todas las etapas del ciclo de vida de un conjunto de datos.
  • En profundidad: Los resúmenes son legibles para los lectores en general y se vinculan a información adicional más detallada o específica para los lectores avanzados.

.

.

Coherente
La tarjeta de datos sigue las convenciones de la plataforma y de la industria, y mantiene la coherencia dentro de sí misma y en otras tarjetas de transparencia similares.

  • Reconocible: Las secciones están organizadas en un orden lógico para que los lectores puedan reconocer dónde encontrar la información.
  • Estandarizado: Utiliza términos estándares de la industria y describe las desviaciones o personalizaciones cuando corresponde.
  • Claro: El mismo término significa el mismo concepto cada vez que se usa.

.

.

Concisa
El diseño y el contenido de la tarjeta reducen la información vasta y compleja a fragmentos significativos y fáciles de comprender de importancia relativa que satisfacen las necesidades de los lectores principiantes y experimentados.

  • Comprensible: El significado y la importancia relativos de las palabras clave, los pares clave-valor y los resúmenes visuales son fáciles de comprender.
  • De un vistazo: Se entiende de un vistazo si los lectores pueden usar el conjunto de datos para alcanzar sus objetivos y cómo pueden hacerlo.
  • Contextual: Se destila o se abstrae el conocimiento y el contexto de fondo para comprender sin sacrificar la naturaleza y los matices del conjunto de datos.

.

.

Puntuación total = (Puntos totales/120)

.

.

/120

5. Análisis detallado

Sabemos que los datos son información sobre personas, culturas o empresas que se capturó de forma estructurada para un propósito específico. Sin embargo, como se mencionó varias veces, todas son matizadas y están entrelazadas por varias dimensiones con diferentes grados. De este modo, el análisis que realizas en tu conjunto de datos ofrece una ventana al pensamiento que se ha puesto en el conjunto de datos en sí, lo que ayuda a comprender sus complejidades.

Por ejemplo, un análisis interseccional de las personas puede explorar las combinaciones de factores humanos dentro de un conjunto de datos para identificar posibles resultados desproporcionados, como cuando un modelo entrenado en un conjunto de datos funciona mejor para un subgrupo que para otros. Un análisis desagregado desglosa el conjunto de datos en función de diferentes factores para revelar patrones importantes para los subgrupos o las poblaciones marginadas que suelen quedar ocultos por los datos agregados más grandes, de modo que los lectores puedan anticipar los resultados.

Con esto, descubrimos que la interseccionalidad y los análisis desagregados (IDA) son formas eficaces de comunicar una variedad de resultados plausibles en diferentes circunstancias en una Tarjeta de datos a través del establecimiento de relaciones claras en un conjunto de datos. El IDA puede ofrecer a los lectores pistas vitales sobre la representación en tu conjunto de datos, como la correlación entre las etiquetas y las entidades sensibles, las brechas en tu conjunto de datos, como el hecho de que el conjunto de datos solo tenga fotografías tomadas durante el día, y la relación entre las variables que posteriormente pueden hacer que los modelos de IA aprendan correlaciones espurias o se centren en variables proxy. Estos análisis se vuelven aún más útiles cuando se sitúan en circunstancias del mundo real que reflejan la experiencia que los usuarios afectados podrían tener con un producto o servicio que utiliza tu conjunto de datos.

Por ejemplo, la presentación de los resultados del IDA en una tarjeta de datos ayuda a los lectores a desarrollar de forma proactiva una intuición sobre el rendimiento de su modelo de AA en subconjuntos, también conocidos como segmentos, de su conjunto de datos. Si bien esto requiere que los creadores de conjuntos de datos sean más diligentes en sus análisis del conjunto de datos y su presentación en la Tarjeta de datos, en última instancia, puede generar mejores resultados del producto para las partes interesadas.

La IDA puede ayudar a los lectores a comprender mejor cómo usar tu conjunto de datos en sus modelos. Si tienes problemas, trabaja con expertos, equipos de productos y personas con experiencia para ayudarte a definir tus análisis. La IDA suele estar arraigada en contextos que deben explicarse a los lectores o requieren asistencia adicional para que estos puedan interpretarlos de manera adecuada.

6. Analiza tus datos

Para analizar tu conjunto de datos, sigue estos pasos:

  1. Explora antes de comenzar tu análisis. Desarrolla una intuición sobre los sesgos y los desequilibrios en tu conjunto de datos con una herramienta, como TensorFlow Data Validation (TFDV) o la Herramienta de interpretabilidad del aprendizaje (LIT). Usa los resultados para definir el diseño de tu análisis.
  2. Diseña tu análisis con cuidado. Los resultados del análisis se ven muy influenciados por los objetivos de tu evaluación, el acceso a la experiencia y los recursos para realizar el análisis, cuándo y dónde lo realizas, y los contextos de los modelos de IA en los que se realiza el análisis.
  3. Comienza con los factores relevantes para el uso previsto. Cuando crees grupos de interés y luego los expandas, ten en cuenta los factores demográficos, socioculturales, de comportamiento y morfológicos que pueden afectar más tus casos de uso previstos.
  4. Denuncia, no comentes. Ten en cuenta que los factores y las suposiciones que afectan los análisis de equidad existen en construcciones sociales históricas y culturalmente específicas que son difíciles de cuantificar. Ten cuidado de no agregar comentarios que puedan confundir al lector. En cambio, proporciona formas de reproducir análisis que puedan ayudar a los lectores a calibrar los resultados en su propio contexto.
  5. Planifica el futuro. Ten en cuenta los factores adicionales que podrían aparecer en el futuro. Para ello, observa la representación en tu conjunto de datos, mantén los valores constantes en diferentes situaciones o combina tu análisis con un rango de valores de factores adicionales relevantes para tu conjunto de datos.
  6. Proporciona más contexto para los resultados no reproducibles. Si los interesados de nivel inferior no pueden reproducir las métricas, proporciona suficiente contexto sobre el análisis. Si un lector puede usar esta información para sopesar las ventajas y desventajas del conjunto de datos, se puede generar confianza en él.

7. Felicitaciones

¡Felicitaciones! Tienes varias formas de proporcionar las respuestas correctas en tu tarjeta de datos. Ahora puedes auditarlos.