1. Typologie des parties prenantes
Avant de vous lancer dans la documentation transparente de vos ensembles de données et de créer des fiches de données, il est important d'identifier et d'inviter les parties prenantes tout au long du cycle de vie des ensembles de données. Cela facilite la création de fiches de données, car vous disposez de tout ce dont vous avez besoin pour prendre des décisions plus éclairées lorsque vous créez du contenu.
Pour vous aider à explorer et à comprendre comment les parties prenantes multifonctionnelles s'engagent dans le processus du cycle de vie d'un ensemble de données, nous avons créé une typologie qui vous permet de découvrir les hypothèses souvent émises sur les parties prenantes individuelles. Notre typologie est divisée en trois groupes de parties prenantes impliqués dans le cycle de vie d'un ensemble de données : les producteurs, les agents et les utilisateurs.
Cette typologie représente un continuum de besoins et d'attentes en constante évolution concernant les ensembles de données et leur documentation. Il n'existe pas de solution universelle.
Producteurs
Les producteurs sont les créateurs d'ensembles de données et de documentation. Ils sont responsables de la collecte, de la propriété, du lancement et de la maintenance des ensembles de données.
En substance, vous pouvez considérer les producteurs comme les responsables de la production et de la publication des ensembles de données, ainsi que de leur lancement, de leur adoption et/ou de leur réussite.
Les producteurs peuvent également être les personnes ou les groupes recrutés pour collecter ou étiqueter les données, et fournir des conseils sur les méthodes ou l'interprétation à différents moments du cycle de vie des données.
Selon le contexte, les producteurs peuvent également représenter les membres de votre équipe, vos partenaires, vos clients ou les plates-formes d'hébergement de données actuels et futurs, tous responsables de la maintenance, du déploiement et de la surveillance des ensembles de données.
Agents
Les agents sont des parties prenantes qui lisent la documentation de votre ensemble de données ou votre fiche de données, ainsi que d'autres documents liés aux modèles de machine learning (ML). Ils ont la capacité d'utiliser les ensembles de données ou les systèmes d'IA décrits, ou de déterminer comment eux-mêmes ou d'autres personnes pourraient les utiliser.
Selon leur domaine, les agents peuvent avoir un rôle opérationnel ou d'examinateur. Par exemple, un chercheur dans un contexte universitaire qui souhaite évaluer l'utilisation appropriée d'un ensemble de données ou un data scientist dans une équipe produit qui souhaite déterminer l'adéquation globale de l'ensemble de données en ce qui concerne l'intégration du produit.
Cette distinction est importante, car les examinateurs incluent des parties prenantes qui n'utiliseront peut-être jamais directement l'ensemble de données, mais qui interagiront tout de même avec la fiche de données, comme des consultants du secteur, des journalistes d'investigation, des représentants de la communauté et des entités juridiques. Les agents peuvent ou non posséder l'expertise technique nécessaire pour parcourir les informations présentées dans la documentation typique des ensembles de données, mais ils ont souvent accès à l'expertise requise.
Utilisateurs
Les utilisateurs sont des personnes et des représentants qui interagissent avec des produits reposant sur des modèles entraînés sur des ensembles de données.
Les utilisateurs peuvent accepter de fournir leurs données dans le cadre de l'expérience produit, mais ils ont généralement besoin d'un ensemble d'explications et de contrôles très différents dans les expériences produit, même en ce qui concerne les ensembles de données.
Résumé
Le tableau suivant récapitule les groupes de parties prenantes en fonction de leur description, de leurs responsabilités, d'exemples et de tâches courantes :
Groupe de parties prenantes | Description | Responsabilités | Exemples | Tâches courantes |
Producteurs | Créer des ensembles de données et/ou de la documentation | Concevoir, créer, tester la qualité, documenter, lancer, adopter, gérer et mettre à jour des ensembles de données. | Chercheurs, data scientists et analystes, ingénieurs logiciels, et responsables produit et de programme | Adoption, divulgation, pérennité, équité, sécurité et améliorations des ensembles de données |
Agents | évaluer et utiliser l'ensemble de données pour leur travail, leurs produits, leurs organisations ou leurs communautés ; | Utilise la fiche de données, mais n'interagit pas forcément avec l'ensemble de données lui-même. | Ingénieurs ML ou produit, chercheurs, fournisseurs tiers, experts du domaine, consultants, experts en règlementations, fournisseurs de services de données, responsables ou dirigeants | Gérer la complexité, être responsable, faire des compromis, déployer en production, archiver |
Utilisateurs | interagir avec les produits, appareils et applications créés par des agents qui utilisent les ensembles de données du producteur. | contribuer à leurs données par le biais de produits et fournir des signaux utiles aux producteurs et aux agents. | Contributeurs de données, utilisateurs du produit et représentants des cohortes d'utilisateurs | Utiliser des produits, comprendre les données et la confidentialité, envoyer des commentaires et signaler des problèmes |
2. Cartographiez vos parties prenantes
Maintenant que vous êtes familiarisé avec notre typologie, vous pouvez examiner le cycle de vie de votre ensemble de données pour identifier vos parties prenantes grâce à cette activité de cartographie de base. Au fur et à mesure de l'activité, notez qui pourrait interagir avec l'ensemble de données ou sa documentation. Réfléchissez également à la manière dont les parties prenantes pourraient contribuer aux fiches de données.
Pour cartographier vos parties prenantes, procédez comme suit :
- Indiquez les producteurs qui vont créer les fiches de données.
- Indiquez les agents qui liront et utiliseront les fiches de données.
- Indiquez les utilisateurs qui utiliseront l'ensemble de données ou seront concernés par celui-ci décrit dans la fiche de données.
- Utilisez le modèle suivant pour créer une carte de vos parties prenantes, de leurs rôles dans la création de fiches de données et de l'objectif de leurs fiches de données. Cette carte vous permet de mieux comprendre les besoins en aval de la documentation sur les ensembles de données, et d'attribuer des priorités et des responsabilités tout au long du processus de documentation des ensembles de données.
3. Parcours d'informations sur les agents (AIJ)
Une fois vos parties prenantes identifiées, vous pouvez déterminer ce qu'il est essentiel de communiquer aux agents (vos principales parties prenantes) dans votre fiche de données pour leur permettre de réussir.
L'expérience d'une personne lorsqu'elle interagit avec la technologie est généralement appelée parcours utilisateur. Cependant, nous parlons d'un agent qui doit acquérir suffisamment d'informations sur un ensemble de données pour prendre une décision éclairée. Nous appelons donc ces expériences parcours d'information de l'agent (AIJ).
L'objectif d'une AIJ est de comprendre les éléments suivants :
- Tâches pour lesquelles les agents peuvent souhaiter un ensemble de données.
- Les informations dont les agents ont besoin pour accomplir leurs tâches.
- Processus par lequel les agents déduisent des informations.
Voici quelques exemples d'IAJ :
Exemple
Par exemple, supposons que l'un de vos agents soit un data scientist. Voici un exemple d'AIJ pour un data scientist :
En tant que data scientist, je souhaite connaître la structure de l'ensemble de données. Je pose donc la question suivante :
Quel est le format des données ?
... quelle est la modalité de l'ensemble de données ?
... combien de caractéristiques l'ensemble de données comporte-t-il ?
… combien de caractéristiques sont conçues ?
… quelles sont les caractéristiques fortement corrélées ?
… s'il existe des dépendances dans la structure ?
Voici un autre exemple pour un agent qui pourrait travailler sur les règles relatives aux produits et définir des consignes liées à la production et au développement d'un produit :
En tant qu'assistant chargé des règles, je souhaite savoir comment les données pourraient être utilisées de manière abusive. Je demande donc :
… quelle était l'utilisation prévue de l'ensemble de données ?
… quelle application a déclenché la création de l'ensemble de données ?
… quelles sont les applications dangereuses ou risquées connues du jeu de données ?
… quels sont les risques pour des groupes spécifiques ?
… comment les utilisations prévues de cet ensemble de données ont-elles un impact sur les circonscriptions ?
… comment demander réparation ?
4. Rédiger vos AIJ
- Rédige quelques AIJ en fonction des requêtes suivantes :
- Remarquez que vous pensez non seulement à vos parties prenantes, mais aussi à certaines questions initiales auxquelles vous pensez qu'elles aimeraient obtenir des réponses en lisant votre fiche de données. Cela signifie que vous êtes un peu plus près de l'ensemble final de questions à inclure dans votre fiche de données.
5. Optique
Vous avez peut-être remarqué l'utilisation des termes perspective, objectif et champ d'application pour encadrer les JIA. Bien que ces termes aient été définis précédemment, ils font en réalité partie d'une métaphore directrice que nous appelons optique. Nous les avons créés pour vous aider à réfléchir à la façon dont vos agents pourraient comprendre votre ensemble de données.
Niveaux d'accès
En optique, les lunettes utilisent des lentilles et des miroirs pour repérer, observer, agrandir, réfléchir et même tester des matériaux. Dans le contexte des ensembles de données, il s'agit d'une excellente métaphore, car vous vous concentrez sur les aspects évidents, non évidents, visibles et invisibles, et vous posez des questions pour les révéler.
Nous appelons cela des portées, qui permettent de poser une série de questions les unes après les autres pour comprendre les ensembles de données. En empilant des portées de différentes granularités, vous pouvez créer du contenu qui aide vos agents à établir une compréhension cohérente des ensembles de données grâce à des rapports sur la transparence.
Le tableau suivant présente les trois types de portée de notre framework, ainsi qu'une description, un exemple et l'objectif de chacun :
Portée | Description | Exemple | Purpose |
Télescopique | Questions sur les attributs couramment utilisés dans plusieurs ensembles de données. Ils taguent des caractéristiques. | Cet ensemble de données contient-il des informations permettant d'identifier personnellement les utilisateurs ? | Présentez et contextualisez les informations supplémentaires qui aident vos agents à parcourir votre fiche de données ou votre artefact de transparence. |
Périscopique | Questions sur les attributs spécifiques à l'ensemble de données du producteur. Elles décrivent les observations. | Combien de fonctionnalités contiennent des informations permettant d'identifier personnellement les utilisateurs ? | Généralement réservé à la fourniture d'informations opérationnelles, telles que la forme et la taille de l'ensemble de données, ou d'informations fonctionnelles, telles que les sources ou les intentions. |
Microscopique | Questions sur les aspects non observables des ensembles de données, tels que les décisions, les processus et les impacts. Ils demandent des explications. | Comment les informations permettant d'identifier personnellement les utilisateurs ont-elles été anonymisées dans cet ensemble de données ? | Obtenez des explications détaillées sur les décisions ou résumez les longs documents de procédure qui régissent les réponses aux questions correspondantes (périscopiques et télescopiques). |
Il est important de tenir compte de ces trois types de portées tout au long du processus de création de votre fiche de données. Une fiche de données ne contenant que des télescopes ne décrit que des informations évidentes sur votre ensemble de données et n'apporte aucune valeur distincte. Une fiche de données ne contenant que des périscopes peut devenir trop technique sans aucun détail sur le contexte, la pertinence ou l'importance. Une fiche de données ne contenant que des microscopes peut facilement faire perdre aux agents le fil de la discussion et les empêcher d'avoir une vue d'ensemble.
C'est pourquoi nous constatons que les interprétations d'une fiche de données sont fortement influencées par la présence ou l'absence de ces niveaux de portée. Ces questions permettent aux agents et aux producteurs d'évaluer les risques, de planifier les mesures d'atténuation et, le cas échéant, d'identifier les opportunités pour mieux créer des ensembles de données. Ensemble, les télescopes, les périscopes et les microscopes fournissent des détails utiles pour que de nombreux partenaires puissent parcourir votre fiche de données sans se perdre.
Exemple
Dans la section Parcours d'informations sur les agents (AIJ), vous avez vu quelques exemples d'AIJ, dont un pour un data scientist. Si vous examinez attentivement cet exemple, vous constaterez que vous pouvez regrouper certaines de ces questions par portée, y compris les questions suivantes :
En tant que data scientist, je souhaite connaître la structure de l'ensemble de données. Je pose donc la question suivante :
Télescopique
Quel est le format des données ?
... quelle est la modalité de l'ensemble de données ?
Periscopic
... combien de caractéristiques l'ensemble de données comporte-t-il ?
… combien de caractéristiques sont conçues ?
Microscopique
… quelles sont les caractéristiques fortement corrélées ?
… s'il existe des dépendances dans la structure ?
Il est fort probable que vous ayez déjà trouvé des questions télescopiques, périscopiques et microscopiques en pensant à vos agents.
6. Restructurer vos AIJ avec des champs d'application
- Pour restructurer vos JIA avec des portées, utilisez l'exemple de requête suivant :
7. Félicitations
Félicitations ! Vous avez commencé à créer une fiche de données. Vous êtes maintenant prêt à évaluer vos questions.