Módulo 2: Inspección

1. Adquisición de conocimientos

Los temas surgen de forma natural a medida que exploras la tipología de las partes interesadas, capturas sus necesidades de información únicas y aplicas diferentes niveles de detalle para formular tus preguntas. Para ayudarte a ordenar y estructurar tu tema de preguntas, creamos un marco de trabajo de adquisición de conocimiento que te proporciona un enfoque sólido, deliberado y repetible para producir documentación de transparencia.

La adquisición de conocimiento es la extracción, la estructuración y la organización del conocimiento de una fuente (por lo general, expertos humanos) para que se pueda usar, por ejemplo, en el producto o la tecnología en los que trabajas.

Nuestro marco de trabajo se llama OFTEn, una herramienta conceptual para considerar de forma sistemática cómo se promulgan los temas en todas las partes de una tarjeta de datos. La creamos a través de investigaciones detalladas sobre la transparencia de los conjuntos de datos, tanto inductivas como deductivas.

OFTEn

OFTEn es una abreviatura de las etapas generales del ciclo de vida del conjunto de datos: Orígenes, Factuales, Transformaciones, Experiencia y n = 1 (muestras).

Origins

La etapa de Orígenes incluye las diversas actividades de planificación que determinan el resultado final, como la definición de requisitos, los métodos de recopilación o abastecimiento, y las decisiones de diseño y políticas.

Los temas que surgen de las preguntas sobre el tipo de origen incluyen los siguientes:

  • Autores y propietarios
  • Motivaciones
  • Aplicaciones previstas
  • Métodos de recopilación
  • Licencias
  • Versiones
  • Fuentes
  • Errata
  • Partes responsables

Factuals

La etapa de Factuals representa los atributos estadísticos y otros atributos fácticos que describen el conjunto de datos, las desviaciones del plan original y cualquier análisis previo a la manipulación.

Los temas que surgen de las preguntas de tipo fáctico incluyen los siguientes:

  • Cantidad de instancias
  • Cantidad de atributos
  • Cantidad de etiquetas
  • Fuente de las etiquetas
  • Fuente de datos
  • Desglose de subgrupos
  • Forma de las funciones
  • Descripción de las funciones
  • Faltan elementos o hay duplicados
  • Criterio de inclusión

Transformaciones

La etapa de Transformaciones incluye resúmenes de las tareas de etiquetado, anotación o validación. Según el conjunto de datos, es posible que surjan procesos de adjudicación entre evaluadores aquí. Además, la ingeniería de funciones y las modificaciones realizadas para controlar la privacidad, la seguridad o los recuentos de información de identificación personal (PII) se consideran transformaciones.

Los temas que captan preguntas sobre el tipo de transformación incluyen los siguientes:

  • Calificación o anotación
  • Filtros
  • Procesando
  • Validación
  • Propiedades estadísticas
  • Atributos sintéticos
  • Manejo de la PII
  • Variables sensibles
  • Impacto en la equidad
  • Sesgos

Experiencia

La etapa de experiencia implica usar los datos para tareas específicas, recibir capacitación sobre el acceso, realizar modificaciones para que se adapten a la tarea, adquirir resultados y compararlos con otros conjuntos de datos similares, y observar cualquier comportamiento esperado o inesperado.

Los temas que ilustran preguntas sobre el tipo de experiencia incluyen los siguientes:

  • Rendimiento previsto
  • Aplicación no intencional
  • Rendimiento inesperado
  • Advertencias
  • Estadísticas
  • Experiencias
  • Historias
  • Usar
  • Evaluación de casos de uso

n = 1 (muestras)

La etapa n = 1 (muestras) abarca los detalles de los datos de distribución, la demostración de los datos notables con atributos específicos y, cuando corresponda, el modelado de los resultados en ellos.

Los temas que demuestran las preguntas de tipo muestra incluyen los siguientes:

  • Ejemplos o vínculos a ejemplos típicos y valores atípicos
  • Ejemplos que generan falsos positivos o falsos negativos
  • Ejemplos que demuestran el manejo de valores de atributos nulos o cero.

Ejemplo

Por ejemplo, el siguiente conjunto de preguntas se organizó con OFTEn:

Quién

Qué

Cuándo

Dónde

Por qué

Cómo

Orígenes

¿Quién publica el conjunto de datos? ¿Son diferentes de los propietarios de los conjuntos de datos?

¿Cuáles son los incentivos para los etiquetadores, proveedores y expertos de datos empleados para este conjunto de datos?

¿Cuándo se creó este conjunto de datos? ¿Se lanzó?

¿De dónde provino la financiación?

¿Por qué se creó este conjunto de datos? ¿Cuál era la distribución a priori del proceso?

¿Cómo se decidieron los métodos y cuántas partes participaron?

Fácticos

¿Sobre quién son los datos? ¿Los etiquetadores son representativos de las personas que se incluyen en los datos?

¿Cuáles son los subgrupos de los datos que pueden afectar los resultados en el aprendizaje automático?

¿Qué período representan los datos? ¿Cuándo vencen los datos o se ejecutan de forma anormal?

¿Dónde se puede acceder al conjunto de datos? ¿Dónde se recopilaron o crearon los datos?

¿Por qué se eligieron las métricas informadas? ¿Por qué se eligieron esas etiquetas específicas?

¿Cuántas etiquetas únicas existen en el conjunto de datos? ¿Cómo se generaron?

Transformaciones

¿Cómo se gestionó la PII en este conjunto de datos? ¿Se pueden usar los resultados de este conjunto de datos para identificar a personas físicas?

¿Qué métodos se usaron para limpiar o verificar este conjunto de datos?

¿Cuándo y cómo se deben diseñar las funciones? ¿Es necesario actualizarlos?

¿Las funciones de ubicación se correlacionan con otras funciones sensibles?

¿Por qué se aplicaron las transformaciones elegidas al conjunto de datos?

¿Cómo se manejan los sesgos o la PII en los datos?

Experiencia

¿Quién puede usar este conjunto de datos y para qué tareas? ¿Se requiere alguna capacitación?

¿Cuáles fueron los métodos, los resultados o los errores que se descubrieron cuando se usó el conjunto de datos?

¿En qué circunstancias y cuándo no se debe usar este conjunto de datos?

¿En qué lugares del mundo se puede acceder a este conjunto de datos? ¿Dónde se usó?

¿Por qué la representación esperada del conjunto de datos es diferente de la representación observada?

¿Qué tan costosos son los datos en diferentes partes del mundo?

n = 1 (muestras)

¿El punto de datos es típico o atípico? ¿Cómo se comportan los modelos aquí?

¿Cuál es el tamaño del punto de datos? ¿Cuál es el proceso de consentimiento, ocultamiento y retiro para intervenir en un punto de datos?

¿Cuándo cambia el resultado de un punto de datos? ¿Mostrar ejemplos a través de datos contrafácticos?

¿Qué factores se incluyen en el punto de datos? ¿Cuáles son los riesgos si las predicciones no son correctas?

¿Por qué este punto de datos de la imagen se recortó de una manera determinada? ¿Por qué no se completan ciertas categorías en este punto de datos?

¿Cómo se relaciona este punto de datos con una entrada del mundo real? ¿Cómo se relaciona el resultado con una salida del mundo real?

Descubrimos que las tarjetas de datos con una estructura OFTEn subyacente clara son fáciles de expandir y actualizar. Con OFTEn, las tarjetas de datos pueden crecer con el tiempo para incluir temas que suelen excluirse de la documentación, como los comentarios de los agentes de nivel inferior, las diferencias notables entre versiones y las auditorías o investigaciones ad hoc de los productores o agentes.

Resumen

En la siguiente tabla, se resume el marco de trabajo OFTEn y se describen las etapas generales del ciclo de vida de un conjunto de datos:

Etapa

Descripción

Orígenes

Son las primeras etapas del ciclo de vida de un conjunto de datos, cuando se toman las decisiones para crearlo.

Fácticos

Procesos de recopilación de datos reales y resultados sin procesar

Transformaciones

Los datos sin procesar se transforman en una forma utilizable a través de operaciones como el filtrado, la validación, el análisis, el formato y la limpieza.

Experiencia

El conjunto de datos se prueba, se compara o se implementa en la práctica (experimental, de producción o de investigación).

n = 1 (muestras)

Muestras reales del conjunto de datos (o viñetas) que representan datos normales y valores atípicos

Existen dos formas de usar OFTEn cuando creas una tarjeta de datos:

  • De forma inductiva, OFTEn apoya las actividades con agentes para formular preguntas sobre conjuntos de datos y modelos relacionados que son fundamentales para la toma de decisiones. Descubrimos que, cuando muchos agentes se reúnen para intercambiar ideas sobre preguntas con una estructura OFTEn, se revela información necesaria para la toma de decisiones específicas.
  • De forma deductiva, OFTEn se puede usar para evaluar si una tarjeta de datos representa con precisión el conjunto de datos, lo que genera efectos formativos en la documentación y el conjunto de datos. Por ejemplo, los conjuntos de datos en etapa inicial están más sesgados hacia los datos de origen y los datos fácticos, mientras que se espera que los conjuntos de datos avanzados estén sesgados hacia la experiencia.

Con OFTEn, puedes intercambiar ideas y verificar qué tan bien tus preguntas abarcan el ciclo de vida de tu conjunto de datos, lo que garantiza que tu contenido sea integral y optimizado. No solo te ayuda a encontrar redundancias en los tipos de preguntas que creas, sino que también aborda las brechas que puedas encontrar en el camino.

2. Cómo formular preguntas con OFTEn

  1. Piensa en algunos de los recorridos de información de los interesados y los agentes (AIJ) que formulaste en el módulo anterior y, luego, usa las siguientes instrucciones para estructurar tus ideas.

9bd35227601ae104.png

  1. Si algunas de tus preguntas ya se ajustan bien a una de las categorías de OFTEn, etiquétalas como tales.
  2. Si tus preguntas no se incluyen en ninguna de las categorías de OFTEn, elige uno de los agentes del módulo anterior y, luego, crea al menos una pregunta por categoría de OFTEn para el agente.
  3. Crea preguntas adicionales basadas en las cinco preguntas (quién, qué, dónde, cuándo y por qué) y una H (cómo) para ampliar la profundidad de tu categoría de OFTEn.
  4. Si corresponde, repite estos pasos para el siguiente agente.

3. Dimensiones

Ahora que comprendes OFTEn y creaste preguntas para incluir en tu tarjeta de datos, puedes descubrir estadísticas sobre tus preguntas haciendo una primera revisión de tu tarjeta de datos. Para ello, presentamos las dimensiones, que son descripciones de alto nivel de los diferentes tipos de juicios que realizan los lectores y que proporcionan estadísticas orientativas sobre la utilidad y la legibilidad de la tarjeta de datos. En otras palabras, ¿puede tu tarjeta de datos ayudar a los lectores a llegar a una conclusión fundamentada sobre tu conjunto de datos?

Accountable

Una tarjeta de datos responsable es propiedad de personas que demuestran una propiedad, reflexión, razonamiento y toma de decisiones sistemáticos adecuados con respecto al conjunto de datos y su uso, y que se encargan de su mantenimiento.

Áreas de ejemplo

Preguntas de ejemplo

Autoría, responsabilidad, mantenimiento e intenciones

Como [perspectiva], quiero saber…

…sobre los publicadores del conjunto de datos.

…las restricciones y políticas de acceso del conjunto de datos.

…las explicaciones y motivaciones para crear el conjunto de datos.

Utilidad o uso

Una tarjeta de datos útil proporciona detalles que satisfacen las necesidades de información de los lectores, lo que lleva a un proceso de toma de decisiones responsable que establece la idoneidad del conjunto de datos para sus tareas y objetivos.

Áreas de ejemplo

Preguntas de ejemplo

Necesidades del productor, necesidades del agente, necesidades del usuario y necesidades de la sociedad

Como [perspectiva], quiero saber…

…las definiciones y explicaciones de los términos técnicos que se usan en la documentación (métricas, puntuaciones, términos específicos de la industria, acrónimos).

…las expectativas en torno al uso del conjunto de datos con otros conjuntos de datos o tablas (ingeniería de atributos, combinación, muestreo y análisis comparativo).

…las aplicaciones previstas del conjunto de datos.

Calidad

Una tarjeta de datos de alta calidad resume el rigor, la integridad y la completitud del conjunto de datos, y suele comunicarse de una manera accesible y comprensible para los lectores de diferentes orígenes.

Áreas de ejemplo

Preguntas de ejemplo

Validez, confiabilidad, integridad y reproducibilidad

Como [perspectiva], quiero saber…

…si hay patrones conocidos (correlaciones, sesgos o asimetrías) dentro del conjunto de datos.

…todos los procesos de validación del conjunto de datos, sus explicaciones y sus resultados.

…qué medidas de privacidad y seguridad se aplicaron al conjunto de datos.

Impacto o consecuencias del uso

Una tarjeta de datos que detalla de forma adecuada el impacto del uso del conjunto de datos establece expectativas sobre los resultados cuando se usa y administra el conjunto de datos, y reconoce cualquier consecuencia de primer o segundo orden que podría afectar negativamente los objetivos de los lectores.

Áreas de ejemplo

Preguntas de ejemplo

Eficacia, relevancia, beneficio para el grupo,implicaciones de las desviaciones

Como [perspectiva], quiero saber…

…el uso anterior y el rendimiento asociado del conjunto de datos (por ejemplo, los modelos entrenados)

…las políticas asociadas con el conjunto de datos (por ejemplo, la licencia)

…si hay patrones conocidos (correlaciones, sesgos o asimetrías) en el conjunto de datos.

Riesgos y recomendaciones

Una tarjeta de datos que ofrece buenas recomendaciones informa a los lectores sobre los riesgos y las limitaciones conocidos y potenciales que se derivan de la procedencia, la representación, el uso o el contexto de uso de los datos, y proporciona suficiente información y alternativas para ayudar a los lectores a tomar decisiones responsables.

Áreas de ejemplo

Preguntas de ejemplo

Magnitud del riesgo, mitigaciones, recomendaciones y daño al grupo

Como [perspectiva], quiero saber…

…la seguridad (riesgos, limitaciones y compensaciones) de usar el conjunto de datos.

…cualquier representación sociocultural, geográfica o económica de las personas en el conjunto de datos.

…si faltan atributos en el conjunto de datos o en su documentación.

Resumen

Con las dimensiones, puedes evaluar tu conjunto de preguntas para asegurarte de que se alineen con tus objetivos y los resultados deseables. Aunque aún no hayas respondido una pregunta en tu tarjeta de datos, es mejor detectar cualquier error antes de profundizar en el proceso de documentación del conjunto de datos.

En la siguiente tabla, se resumen las cinco dimensiones:

Etapa

Descripción

Responsabilidad

Son declaraciones que expresan las decisiones reflexivas, razonables y sistemáticas de los diferentes stakeholders con respecto a la confianza en el conjunto de datos.

Utilidad

Proporciona detalles que satisfacen las necesidades del proceso de toma de decisiones responsable de los lectores y establece la idoneidad de los casos de uso en relación con sus objetivos.

Calidad

Resume el rigor, la integridad y la exhaustividad del conjunto de datos de una manera accesible para muchos lectores.

Impacto y consecuencias

Información que ayuda a los lectores a lograr los resultados deseados cuando usan y administran el conjunto de datos, y reconoce las consecuencias que podrían afectar negativamente sus objetivos.

Riesgos y recomendaciones

Informa a los lectores sobre los riesgos conocidos y potenciales asociados con el conjunto de datos que se derivan de la representación, el uso o el contexto de uso.

Con estos diferentes tipos de dimensiones, puedes descubrir estadísticas sobre la calidad, la legibilidad y la utilidad del contenido de tu tarjeta de datos incluso antes de que comiences a completarla. Te ayudan a identificar elementos de acción que contribuyen a una plantilla de Tarjeta de datos más sólida y refinada.

4. Evalúa tus preguntas con dimensiones

  1. Comienza con una sola dimensión y, luego, determina cuánta fluidez y experiencia son necesarias para llegar a una conclusión fundamentada según la complejidad de tu conjunto de preguntas.
  2. Proporciona una justificación y un razonamiento sobre qué tan bien tu conjunto de preguntas admite actualmente esa dimensión.
  3. Proporciona evidencia que respalde tu justificación con una o dos preguntas de ejemplo de tu conjunto de preguntas.
  4. Si tu dimensión parece no ser adecuada, anota los pasos que se deben seguir para mejorarla o abordar sus deficiencias. Si trabajas con un equipo de partes interesadas, asigna responsabilidades en caso de que algunas de ellas estén mejor equipadas para abordar ciertas preguntas.
  5. Repite estos pasos para la siguiente dimensión.

A continuación, se muestra una plantilla de ejemplo que puedes usar para registrar la evaluación de tus dimensiones:

3f33557b62abe5ce.png

Este proceso de evaluación puede tardar entre 15 minutos y una hora, según la cantidad de preguntas que crees y la variedad de partes interesadas que debas tener en cuenta para tu tarjeta de datos.

5. Felicitaciones

¡Felicitaciones! Puedes inspeccionar las preguntas que creaste para tu tarjeta de datos. Ahora puedes responderlas.