1. Acquisition de connaissances
Les thèmes émergent naturellement lorsque vous explorez votre typologie de parties prenantes, que vous capturez leurs besoins uniques en informations et que vous appliquez différentes granularités pour cadrer vos questions. Pour vous aider à trier et à structurer vos questions, nous avons créé un framework d'acquisition de connaissances qui vous offre une approche solide, délibérée et reproductible pour produire des documents de transparence.
L'acquisition de connaissances consiste à extraire, structurer et organiser des connaissances à partir d'une source (généralement des experts humains) afin qu'elles puissent être utilisées, par exemple, dans le produit ou la technologie sur lesquels vous travaillez.
Notre framework s'appelle OFTEn. Il s'agit d'un outil conceptuel permettant d'examiner systématiquement la façon dont les thèmes se propagent dans toutes les parties d'une fiche de données. Nous l'avons créé en menant des études détaillées sur la transparence des ensembles de données par induction et déduction.
OFTEn
OFTEn est l'abréviation des étapes générales du cycle de vie de l'ensemble de données : Origines, Factuals, Transformations, Experience et n = 1 (échantillons).
Origins
L'étape des origines comprend les différentes activités de planification qui déterminent le résultat final, comme la définition des exigences, les méthodes de collecte ou d'approvisionnement, ainsi que les décisions de conception et de règles.
Voici quelques thèmes qui ressortent des questions sur l'origine :
- Auteurs et propriétaires
- Motivations
- Applications prévues
- Méthodes de collecte
- Licences
- Versions
- Sources
- Errata
- Parties responsables
Factuals
L'étape "Données factuelles" représente les attributs statistiques et factuels qui décrivent l'ensemble de données, les écarts par rapport au plan initial et toute analyse de pré-traitement.
Voici quelques exemples de thèmes qui ressortent des questions de type factuel :
- Nombre d'instances
- Nombre d'éléments géographiques
- Nombre d'étiquettes
- Source des libellés
- Source des données
- Répartition des sous-groupes
- Forme des fonctionnalités
- Description des fonctionnalités
- Données manquantes ou en double
- Critère d'inclusion
Transformations
L'étape "Transformations" inclut des récapitulatifs des tâches d'étiquetage, d'annotation ou de validation. En fonction de l'ensemble de données, des processus d'arbitrage entre évaluateurs peuvent être nécessaires ici. L'ingénierie des caractéristiques et les modifications apportées pour gérer la confidentialité, la sécurité ou les informations permettant d'identifier personnellement l'utilisateur sont également considérées comme des transformations.
Voici quelques exemples de thèmes qui englobent les questions de type transformation :
- Note ou annotation
- Filtrage
- Traitement
- Validation
- Propriétés statistiques
- Caractéristiques synthétiques
- Gérer les informations permettant d'identifier personnellement l'utilisateur
- Variables sensibles
- Impact sur l'équité
- Biais ou asymétries
Expérience
L'étape "Expérience" consiste à utiliser les données pour des tâches spécifiques, à suivre une formation sur l'accès, à apporter des modifications pour adapter les données à la tâche, à obtenir des résultats et à les comparer à d'autres ensembles de données similaires, et à noter tout comportement attendu ou inattendu.
Voici quelques exemples de thèmes illustrant les questions sur l'expérience :
- Performances prévues
- Application non prévue
- Performances inattendues
- Mises en garde
- Insights
- Expériences
- Stories
- Utiliser
- Évaluation des cas d'utilisation
n = 1 (échantillons)
L'étape n = 1 (Échantillons) porte sur les tenants et aboutissants des points de données de distribution, la démonstration des points de données notables avec des attributs spécifiques et, le cas échéant, la modélisation des résultats sur ces points.
Voici quelques exemples de thèmes abordés dans les questions de type échantillon :
- Exemples ou liens vers des exemples typiques et des valeurs aberrantes.
- Exemples générant des faux positifs ou des faux négatifs.
- Exemples illustrant le traitement des valeurs de caractéristiques nulles ou nulles.
Exemple
Par exemple, l'ensemble de questions suivant a été organisé avec OFTEn :
Qui | Quoi | Date | Lieu | Pourquoi | Comment | |
Provenance | Qui publie l'ensemble de données ? Sont-ils différents des propriétaires de l'ensemble de données ? | Quelles sont les incitations pour les personnes qui étiquettent les données, les fournisseurs et les experts employés pour cet ensemble de données ? | Quand cet ensemble de données a-t-il été créé ? Déjà lancé ? | D'où proviennent les fonds ? | Pourquoi cet ensemble de données a-t-il été créé ? Quel était le processus auparavant ? | Comment les méthodes ont-elles été décidées et combien de parties ont été impliquées ? |
Factuals | À qui se rapportent les données ? Les étiqueteurs sont-ils représentatifs des personnes figurant dans les données ? | Quels sont les sous-groupes de données qui peuvent affecter les résultats du machine learning ? | Quelle période les données représentent-elles ? Lorsque les données expirent ou que leur exécution est anormale | Où puis-je accéder à l'ensemble de données ? Où les données ont-elles été collectées ou créées ? | Pourquoi les métriques signalées ont-elles été choisies ? Pourquoi ces libellés spécifiques ont-ils été choisis ? | Combien d'étiquettes uniques existe-t-il dans l'ensemble de données ? Comment ont-elles été générées ? |
Transformations | Comment les informations permettant d'identifier personnellement l'utilisateur ont-elles été traitées dans cet ensemble de données ? Les résultats de cet ensemble de données peuvent-ils être utilisés pour identifier des personnes ? | Quelles méthodes ont été utilisées pour nettoyer ou valider cet ensemble de données ? | Quand et comment concevoir des caractéristiques ? Dois-je les mettre à jour ? | Les fonctionnalités de localisation sont-elles corrélées à d'autres fonctionnalités sensibles ? | Pourquoi les transformations choisies ont-elles été appliquées à l'ensemble de données ? | Comment les biais ou les informations permettant d'identifier personnellement l'utilisateur sont-ils traités dans les données ? |
Expérience | Qui peut utiliser cet ensemble de données et pour quelles tâches ? Dois-je suivre une formation ? | Quelles méthodes, quels résultats ou quelles erreurs ont été découverts lors de l'utilisation de l'ensemble de données ? | Dans quelles circonstances et quand cet ensemble de données ne doit-il pas être utilisé ? | Dans quels pays ce jeu de données est-il accessible ? Où a-t-il été utilisé ? | Pourquoi la représentation attendue de l'ensemble de données est-elle différente de la représentation observée ? | Quel est le prix des données dans différentes régions du monde ? |
n = 1 (échantillons) | Le point de données est-il typique ou atypique ? Comment les modèles se comportent-ils ici ? | Quelle est la taille du point de données ? Quels sont les processus de consentement, de masquage et de retrait pour intervenir sur un point de données ? | Quand le résultat d'un point de données change-t-il ? Afficher des exemples à l'aide de contrefactuels ? | Quels facteurs sont intégrés au point de données ? Quels sont les risques en cas de problème avec les prédictions ? | Pourquoi ce point de données d'image est-il recadré d'une certaine manière ? Pourquoi certaines catégories ne sont-elles pas renseignées dans ce point de données ? | Comment ce point de données est-il lié à une entrée réelle ? Comment le résultat est-il lié à une sortie réelle ? |
Nous avons constaté que les fiches de données dont la structure OFTEn sous-jacente est claire sont faciles à développer et à mettre à jour. Avec OFTEn, les fiches de données peuvent s'étoffer au fil du temps pour inclure des sujets généralement exclus de la documentation, comme les commentaires des agents en aval, les différences notables entre les versions et les audits ou enquêtes ponctuels des producteurs ou des agents.
Résumé
Le tableau suivant récapitule le framework OFTEn et décrit les étapes générales du cycle de vie d'un ensemble de données :
Scène | Description |
Provenance | Premières étapes du cycle de vie d'un ensemble de données, lorsque des décisions sont prises pour créer un ensemble de données. |
Factuals | Processus de collecte des données réelles et résultats bruts. |
Transformations | Les données brutes sont transformées en un format utilisable grâce à des opérations telles que le filtrage, la validation, l'analyse, la mise en forme et le nettoyage. |
Expérience | L'ensemble de données est testé, évalué ou déployé en pratique (expérimental, en production ou en recherche). |
n = 1 (échantillons) | Exemples réels de l'ensemble de données (ou vignettes) représentant des points de données normaux et des valeurs aberrantes. |
Vous pouvez utiliser OFTEn de deux manières lorsque vous créez une fiche de données :
- De manière inductive, OFTEn prend en charge les activités avec des agents pour formuler des questions sur les ensembles de données et les modèles associés qui sont essentiels à la prise de décision. Nous avons constaté que lorsque de nombreux agents se réunissent pour réfléchir à des questions avec une structure OFTEn, cela révèle des informations nécessaires à une prise de décision ciblée.
- De manière déductive, OFTEn peut être utilisé pour évaluer si une fiche de données représente fidèlement l'ensemble de données, ce qui a des effets formatifs sur la documentation et l'ensemble de données. Par exemple, les ensembles de données en phase initiale sont plus orientés vers les contenus originaux et factuels, tandis que les ensembles de données matures devraient être plus orientés vers les contenus axés sur l'expérience.
Avec OFTEn, vous pouvez réfléchir et vérifier dans quelle mesure vos questions couvrent le cycle de vie de votre ensemble de données. Vous vous assurez ainsi que votre contenu sera complet et rationalisé. Il vous aide non seulement à identifier les redondances dans les types de questions que vous créez, mais aussi à combler les éventuelles lacunes que vous pourriez rencontrer.
2. Formuler des questions avec OFTEn
- Pensez à certains de vos parcours d'information des parties prenantes et des agents (AIJ) que vous avez formulés dans le module précédent, puis utilisez les requêtes suivantes pour structurer vos réflexions.
- Si certaines de vos questions correspondent déjà à l'une des catégories OFTEn, attribuez-leur le libellé correspondant.
- Si vos questions n'appartiennent à aucune des catégories OFTEn, choisissez l'un de vos agents du module précédent, puis créez au moins une question par catégorie OFTEn pour l'agent.
- Créez des questions supplémentaires basées sur les cinq W (qui, quoi, où, quand et pourquoi) et un H (comment) pour approfondir votre catégorie OFTEn.
- Le cas échéant, répétez ces étapes pour l'agent suivant.
3. Dimensions
Maintenant que vous comprenez OFTEn et que vous avez créé des questions à inclure dans votre fiche de données, vous êtes prêt à découvrir des insights sur vos questions en effectuant une première lecture de votre fiche de données. Pour ce faire, nous introduisons les dimensions, qui sont des descriptions générales des différents types de jugements que les lecteurs émettent. Elles fournissent des informations directionnelles sur l'utilité et la lisibilité de la fiche de données. En d'autres termes, votre fiche de données peut-elle aider les lecteurs à tirer une conclusion éclairée sur votre ensemble de données ?
Accountable
Une fiche de données responsable est détenue et gérée par des personnes qui font preuve d'une appropriation, d'une réflexion, d'un raisonnement et d'une prise de décision systématiques adéquats concernant l'ensemble de données et son utilisation.
Exemples de zones | Exemples de questions |
Auteur, responsabilité, maintenance, intentions | En tant que [perspective], je souhaite en savoir plus sur… |
Utilité ou utilisation
Une fiche de données utile fournit des informations qui répondent aux besoins des lecteurs. Cela permet de prendre des décisions responsables et de déterminer si l'ensemble de données convient à leurs tâches et à leurs objectifs.
Exemples de zones | Exemples de questions |
Besoins des producteurs, des agents, des utilisateurs et de la société | En tant que [perspective], je souhaite en savoir plus sur… |
Qualité
Une fiche de données de haute qualité résume la rigueur, l'intégrité et l'exhaustivité de l'ensemble de données. Elle est souvent communiquée de manière accessible et compréhensible pour les lecteurs de différents horizons.
Exemples de zones | Exemples de questions |
Validité,fiabilité, intégrité, reproductibilité | En tant que [perspective], je souhaite savoir… |
Impact ou conséquences de l'utilisation
Une fiche de données qui détaille de manière adéquate l'impact de l'utilisation de l'ensemble de données définit les attentes concernant les résultats lors de l'utilisation et de la gestion de l'ensemble de données, et reconnaît toutes les conséquences de premier ou de second ordre qui pourraient avoir un impact négatif sur les objectifs des lecteurs.
Exemples de zones | Exemples de questions |
Efficacité, pertinence, avantages pour le groupe,conséquences des écarts | En tant que [perspective], je souhaite connaître… |
Risques et recommandations
Une fiche de données qui propose de bonnes recommandations permet aux lecteurs de prendre connaissance des risques et des limites connus et potentiels liés à la provenance, à la représentation, à l'utilisation ou au contexte d'utilisation des données. Elle fournit également suffisamment d'informations et d'alternatives pour aider les lecteurs à faire des choix responsables.
Exemples de zones | Exemples de questions |
Magnitude du risque, atténuations, recommandations, préjudice pour le groupe | En tant que [perspective], je souhaite en savoir plus sur… |
Résumé
Les dimensions vous permettent d'évaluer votre ensemble de questions pour vous assurer qu'elles correspondent à vos objectifs et aux résultats souhaités. Même si vous n'avez pas encore répondu à une question dans votre fiche de données, il est préférable de repérer les erreurs avant de vous plonger trop profondément dans le processus de documentation de l'ensemble de données.
Le tableau suivant récapitule les cinq dimensions :
Scène | Description |
Responsabilité | Déclarations exprimant les décisions réfléchies, raisonnables et systématiques des différentes parties prenantes concernant la confiance accordée à l'ensemble de données. |
Utilitaire | Fournit des détails qui répondent aux besoins des lecteurs en matière de processus de prise de décision responsable et établit l'adéquation des cas d'utilisation par rapport à leurs objectifs. |
Qualité | Résume la rigueur, l'intégrité et l'exhaustivité de l'ensemble de données de manière accessible à de nombreux lecteurs. |
Impact et conséquences | Informations qui aident les lecteurs à atteindre les résultats souhaités lorsqu'ils utilisent et gèrent l'ensemble de données, et qui reconnaissent les conséquences pouvant avoir un impact négatif sur leurs objectifs. |
Risques et recommandations | Informent les lecteurs des risques connus et potentiels associés à l'ensemble de données, qui découlent de la représentation, de l'utilisation ou du contexte d'utilisation. |
Grâce à ces différents types de dimensions, vous pouvez obtenir des insights sur la qualité, la lisibilité et l'utilité du contenu de votre fiche de données avant même de commencer à la remplir. Elles vous aident à identifier les tâches à effectuer pour créer un modèle de fiche de données plus robuste et plus précis.
4. Évaluer vos questions avec des dimensions
- Commencez par une seule dimension, puis déterminez le niveau de fluidité et d'expertise nécessaire pour tirer une conclusion éclairée en fonction de la complexité de votre ensemble de questions.
- Indiquez une justification et un raisonnement pour évaluer le niveau de prise en charge actuel de cette dimension par votre ensemble de questions.
- Fournissez des preuves à l'appui de votre raisonnement en donnant un ou deux exemples de questions de votre ensemble de questions.
- Si votre dimension semble indésirable, notez les étapes à suivre pour l'affiner ou corriger ses lacunes. Si vous travaillez avec une équipe de partenaires, attribuez des responsabilités en fonction des compétences de chacun pour répondre à certaines questions.
- Répétez ces étapes pour la dimension suivante.
Voici un exemple de modèle que vous pouvez utiliser pour évaluer vos dimensions :
Ce processus d'évaluation peut prendre entre 15 minutes et une heure, selon le nombre de questions que vous créez et la variété des parties prenantes que vous devez prendre en compte pour votre fiche de données.
5. Félicitations
Félicitations ! Vous pouvez inspecter les questions que vous avez créées pour votre fiche de données. Vous êtes maintenant prêt à y répondre.