1. Adquisición de conocimientos
Los temas surgen de forma natural a medida que exploras la tipología de las partes interesadas, capturas sus necesidades de información únicas y aplicas diferentes niveles de detalle para formular tus preguntas. Para ayudarte a ordenar y estructurar tu tema de preguntas, creamos un marco de trabajo de adquisición de conocimiento que te proporciona un enfoque sólido, deliberado y repetible para producir documentación de transparencia.
La adquisición de conocimiento es la extracción, la estructuración y la organización del conocimiento de una fuente (por lo general, expertos humanos) para que se pueda usar, por ejemplo, en el producto o la tecnología en los que trabajas.
Nuestro marco de trabajo se llama OFTEn, una herramienta conceptual para considerar de forma sistemática cómo se promulgan los temas en todas las partes de una tarjeta de datos. La creamos a través de investigaciones detalladas sobre la transparencia de los conjuntos de datos, tanto inductivas como deductivas.
OFTEn
OFTEn es una abreviatura de las etapas generales del ciclo de vida del conjunto de datos: Orígenes, Factuales, Transformaciones, Experiencia y n = 1 (muestras).
Origins
La etapa de Orígenes incluye las diversas actividades de planificación que determinan el resultado final, como la definición de requisitos, los métodos de recopilación o abastecimiento, y las decisiones de diseño y políticas.
Los temas que surgen de las preguntas sobre el tipo de origen incluyen los siguientes:
- Autores y propietarios
- Motivaciones
- Aplicaciones previstas
- Métodos de recopilación
- Licencias
- Versiones
- Fuentes
- Errata
- Partes responsables
Factuals
La etapa de Factuals representa los atributos estadísticos y otros atributos fácticos que describen el conjunto de datos, las desviaciones del plan original y cualquier análisis previo a la manipulación.
Los temas que surgen de las preguntas de tipo fáctico incluyen los siguientes:
- Cantidad de instancias
- Cantidad de atributos
- Cantidad de etiquetas
- Fuente de las etiquetas
- Fuente de datos
- Desglose de subgrupos
- Forma de las funciones
- Descripción de las funciones
- Faltan elementos o hay duplicados
- Criterio de inclusión
Transformaciones
La etapa de Transformaciones incluye resúmenes de las tareas de etiquetado, anotación o validación. Según el conjunto de datos, es posible que surjan procesos de adjudicación entre evaluadores aquí. Además, la ingeniería de funciones y las modificaciones realizadas para controlar la privacidad, la seguridad o los recuentos de información de identificación personal (PII) se consideran transformaciones.
Los temas que captan preguntas sobre el tipo de transformación incluyen los siguientes:
- Calificación o anotación
- Filtros
- Procesando
- Validación
- Propiedades estadísticas
- Atributos sintéticos
- Manejo de la PII
- Variables sensibles
- Impacto en la equidad
- Sesgos
Experiencia
La etapa de experiencia implica usar los datos para tareas específicas, recibir capacitación sobre el acceso, realizar modificaciones para que se adapten a la tarea, adquirir resultados y compararlos con otros conjuntos de datos similares, y observar cualquier comportamiento esperado o inesperado.
Los temas que ilustran preguntas sobre el tipo de experiencia incluyen los siguientes:
- Rendimiento previsto
- Aplicación no intencional
- Rendimiento inesperado
- Advertencias
- Estadísticas
- Experiencias
- Historias
- Usar
- Evaluación de casos de uso
n = 1 (muestras)
La etapa n = 1 (muestras) abarca los detalles de los datos de distribución, la demostración de los datos notables con atributos específicos y, cuando corresponda, el modelado de los resultados en ellos.
Los temas que demuestran las preguntas de tipo muestra incluyen los siguientes:
- Ejemplos o vínculos a ejemplos típicos y valores atípicos
- Ejemplos que generan falsos positivos o falsos negativos
- Ejemplos que demuestran el manejo de valores de atributos nulos o cero.
Ejemplo
Por ejemplo, el siguiente conjunto de preguntas se organizó con OFTEn:
Quién | Qué | Cuándo | Dónde | Por qué | Cómo | |
Orígenes | ¿Quién publica el conjunto de datos? ¿Son diferentes de los propietarios de los conjuntos de datos? | ¿Cuáles son los incentivos para los etiquetadores, proveedores y expertos de datos empleados para este conjunto de datos? | ¿Cuándo se creó este conjunto de datos? ¿Se lanzó? | ¿De dónde provino la financiación? | ¿Por qué se creó este conjunto de datos? ¿Cuál era la distribución a priori del proceso? | ¿Cómo se decidieron los métodos y cuántas partes participaron? |
Fácticos | ¿Sobre quién son los datos? ¿Los etiquetadores son representativos de las personas que se incluyen en los datos? | ¿Cuáles son los subgrupos de los datos que pueden afectar los resultados en el aprendizaje automático? | ¿Qué período representan los datos? ¿Cuándo vencen los datos o se ejecutan de forma anormal? | ¿Dónde se puede acceder al conjunto de datos? ¿Dónde se recopilaron o crearon los datos? | ¿Por qué se eligieron las métricas informadas? ¿Por qué se eligieron esas etiquetas específicas? | ¿Cuántas etiquetas únicas existen en el conjunto de datos? ¿Cómo se generaron? |
Transformaciones | ¿Cómo se gestionó la PII en este conjunto de datos? ¿Se pueden usar los resultados de este conjunto de datos para identificar a personas físicas? | ¿Qué métodos se usaron para limpiar o verificar este conjunto de datos? | ¿Cuándo y cómo se deben diseñar las funciones? ¿Es necesario actualizarlos? | ¿Las funciones de ubicación se correlacionan con otras funciones sensibles? | ¿Por qué se aplicaron las transformaciones elegidas al conjunto de datos? | ¿Cómo se manejan los sesgos o la PII en los datos? |
Experiencia | ¿Quién puede usar este conjunto de datos y para qué tareas? ¿Se requiere alguna capacitación? | ¿Cuáles fueron los métodos, los resultados o los errores que se descubrieron cuando se usó el conjunto de datos? | ¿En qué circunstancias y cuándo no se debe usar este conjunto de datos? | ¿En qué lugares del mundo se puede acceder a este conjunto de datos? ¿Dónde se usó? | ¿Por qué la representación esperada del conjunto de datos es diferente de la representación observada? | ¿Qué tan costosos son los datos en diferentes partes del mundo? |
n = 1 (muestras) | ¿El punto de datos es típico o atípico? ¿Cómo se comportan los modelos aquí? | ¿Cuál es el tamaño del punto de datos? ¿Cuál es el proceso de consentimiento, ocultamiento y retiro para intervenir en un punto de datos? | ¿Cuándo cambia el resultado de un punto de datos? ¿Mostrar ejemplos a través de datos contrafácticos? | ¿Qué factores se incluyen en el punto de datos? ¿Cuáles son los riesgos si las predicciones no son correctas? | ¿Por qué este punto de datos de la imagen se recortó de una manera determinada? ¿Por qué no se completan ciertas categorías en este punto de datos? | ¿Cómo se relaciona este punto de datos con una entrada del mundo real? ¿Cómo se relaciona el resultado con una salida del mundo real? |
Descubrimos que las tarjetas de datos con una estructura OFTEn subyacente clara son fáciles de expandir y actualizar. Con OFTEn, las tarjetas de datos pueden crecer con el tiempo para incluir temas que suelen excluirse de la documentación, como los comentarios de los agentes de nivel inferior, las diferencias notables entre versiones y las auditorías o investigaciones ad hoc de los productores o agentes.
Resumen
En la siguiente tabla, se resume el marco de trabajo OFTEn y se describen las etapas generales del ciclo de vida de un conjunto de datos:
Etapa | Descripción |
Orígenes | Son las primeras etapas del ciclo de vida de un conjunto de datos, cuando se toman las decisiones para crearlo. |
Fácticos | Procesos de recopilación de datos reales y resultados sin procesar |
Transformaciones | Los datos sin procesar se transforman en una forma utilizable a través de operaciones como el filtrado, la validación, el análisis, el formato y la limpieza. |
Experiencia | El conjunto de datos se prueba, se compara o se implementa en la práctica (experimental, de producción o de investigación). |
n = 1 (muestras) | Muestras reales del conjunto de datos (o viñetas) que representan datos normales y valores atípicos |
Existen dos formas de usar OFTEn cuando creas una tarjeta de datos:
- De forma inductiva, OFTEn apoya las actividades con agentes para formular preguntas sobre conjuntos de datos y modelos relacionados que son fundamentales para la toma de decisiones. Descubrimos que, cuando muchos agentes se reúnen para intercambiar ideas sobre preguntas con una estructura OFTEn, se revela información necesaria para la toma de decisiones específicas.
- De forma deductiva, OFTEn se puede usar para evaluar si una tarjeta de datos representa con precisión el conjunto de datos, lo que genera efectos formativos en la documentación y el conjunto de datos. Por ejemplo, los conjuntos de datos en etapa inicial están más sesgados hacia los datos de origen y los datos fácticos, mientras que se espera que los conjuntos de datos avanzados estén sesgados hacia la experiencia.
Con OFTEn, puedes intercambiar ideas y verificar qué tan bien tus preguntas abarcan el ciclo de vida de tu conjunto de datos, lo que garantiza que tu contenido sea integral y optimizado. No solo te ayuda a encontrar redundancias en los tipos de preguntas que creas, sino que también aborda las brechas que puedas encontrar en el camino.
2. Cómo formular preguntas con OFTEn
- Piensa en algunos de los recorridos de información de los interesados y los agentes (AIJ) que formulaste en el módulo anterior y, luego, usa las siguientes instrucciones para estructurar tus ideas.
- Si algunas de tus preguntas ya se ajustan bien a una de las categorías de OFTEn, etiquétalas como tales.
- Si tus preguntas no se incluyen en ninguna de las categorías de OFTEn, elige uno de los agentes del módulo anterior y, luego, crea al menos una pregunta por categoría de OFTEn para el agente.
- Crea preguntas adicionales basadas en las cinco preguntas (quién, qué, dónde, cuándo y por qué) y una H (cómo) para ampliar la profundidad de tu categoría de OFTEn.
- Si corresponde, repite estos pasos para el siguiente agente.
3. Dimensiones
Ahora que comprendes OFTEn y creaste preguntas para incluir en tu tarjeta de datos, puedes descubrir estadísticas sobre tus preguntas haciendo una primera revisión de tu tarjeta de datos. Para ello, presentamos las dimensiones, que son descripciones de alto nivel de los diferentes tipos de juicios que realizan los lectores y que proporcionan estadísticas orientativas sobre la utilidad y la legibilidad de la tarjeta de datos. En otras palabras, ¿puede tu tarjeta de datos ayudar a los lectores a llegar a una conclusión fundamentada sobre tu conjunto de datos?
Accountable
Una tarjeta de datos responsable es propiedad de personas que demuestran una propiedad, reflexión, razonamiento y toma de decisiones sistemáticos adecuados con respecto al conjunto de datos y su uso, y que se encargan de su mantenimiento.
Áreas de ejemplo | Preguntas de ejemplo |
Autoría, responsabilidad, mantenimiento e intenciones | Como [perspectiva], quiero saber… |
Utilidad o uso
Una tarjeta de datos útil proporciona detalles que satisfacen las necesidades de información de los lectores, lo que lleva a un proceso de toma de decisiones responsable que establece la idoneidad del conjunto de datos para sus tareas y objetivos.
Áreas de ejemplo | Preguntas de ejemplo |
Necesidades del productor, necesidades del agente, necesidades del usuario y necesidades de la sociedad | Como [perspectiva], quiero saber… |
Calidad
Una tarjeta de datos de alta calidad resume el rigor, la integridad y la completitud del conjunto de datos, y suele comunicarse de una manera accesible y comprensible para los lectores de diferentes orígenes.
Áreas de ejemplo | Preguntas de ejemplo |
Validez, confiabilidad, integridad y reproducibilidad | Como [perspectiva], quiero saber… |
Impacto o consecuencias del uso
Una tarjeta de datos que detalla de forma adecuada el impacto del uso del conjunto de datos establece expectativas sobre los resultados cuando se usa y administra el conjunto de datos, y reconoce cualquier consecuencia de primer o segundo orden que podría afectar negativamente los objetivos de los lectores.
Áreas de ejemplo | Preguntas de ejemplo |
Eficacia, relevancia, beneficio para el grupo,implicaciones de las desviaciones | Como [perspectiva], quiero saber… |
Riesgos y recomendaciones
Una tarjeta de datos que ofrece buenas recomendaciones informa a los lectores sobre los riesgos y las limitaciones conocidos y potenciales que se derivan de la procedencia, la representación, el uso o el contexto de uso de los datos, y proporciona suficiente información y alternativas para ayudar a los lectores a tomar decisiones responsables.
Áreas de ejemplo | Preguntas de ejemplo |
Magnitud del riesgo, mitigaciones, recomendaciones y daño al grupo | Como [perspectiva], quiero saber… |
Resumen
Con las dimensiones, puedes evaluar tu conjunto de preguntas para asegurarte de que se alineen con tus objetivos y los resultados deseables. Aunque aún no hayas respondido una pregunta en tu tarjeta de datos, es mejor detectar cualquier error antes de profundizar en el proceso de documentación del conjunto de datos.
En la siguiente tabla, se resumen las cinco dimensiones:
Etapa | Descripción |
Responsabilidad | Son declaraciones que expresan las decisiones reflexivas, razonables y sistemáticas de los diferentes stakeholders con respecto a la confianza en el conjunto de datos. |
Utilidad | Proporciona detalles que satisfacen las necesidades del proceso de toma de decisiones responsable de los lectores y establece la idoneidad de los casos de uso en relación con sus objetivos. |
Calidad | Resume el rigor, la integridad y la exhaustividad del conjunto de datos de una manera accesible para muchos lectores. |
Impacto y consecuencias | Información que ayuda a los lectores a lograr los resultados deseados cuando usan y administran el conjunto de datos, y reconoce las consecuencias que podrían afectar negativamente sus objetivos. |
Riesgos y recomendaciones | Informa a los lectores sobre los riesgos conocidos y potenciales asociados con el conjunto de datos que se derivan de la representación, el uso o el contexto de uso. |
Con estos diferentes tipos de dimensiones, puedes descubrir estadísticas sobre la calidad, la legibilidad y la utilidad del contenido de tu tarjeta de datos incluso antes de que comiences a completarla. Te ayudan a identificar elementos de acción que contribuyen a una plantilla de Tarjeta de datos más sólida y refinada.
4. Evalúa tus preguntas con dimensiones
- Comienza con una sola dimensión y, luego, determina cuánta fluidez y experiencia son necesarias para llegar a una conclusión fundamentada según la complejidad de tu conjunto de preguntas.
- Proporciona una justificación y un razonamiento sobre qué tan bien tu conjunto de preguntas admite actualmente esa dimensión.
- Proporciona evidencia que respalde tu justificación con una o dos preguntas de ejemplo de tu conjunto de preguntas.
- Si tu dimensión parece no ser adecuada, anota los pasos que se deben seguir para mejorarla o abordar sus deficiencias. Si trabajas con un equipo de partes interesadas, asigna responsabilidades en caso de que algunas de ellas estén mejor equipadas para abordar ciertas preguntas.
- Repite estos pasos para la siguiente dimensión.
A continuación, se muestra una plantilla de ejemplo que puedes usar para registrar la evaluación de tus dimensiones:
Este proceso de evaluación puede tardar entre 15 minutos y una hora, según la cantidad de preguntas que crees y la variedad de partes interesadas que debas tener en cuenta para tu tarjeta de datos.
5. Felicitaciones
¡Felicitaciones! Puedes inspeccionar las preguntas que creaste para tu tarjeta de datos. Ahora puedes responderlas.