Module 3 : Réponse

1. Définir les points clés à retenir

Vous avez choisi un ensemble de questions à inclure dans votre fiche de données, des questions qui vous semblent importantes pour vos lecteurs. Toutefois, il ne suffit pas de répondre à ces questions pour créer une fiche de données. Il est important de bien réfléchir à la conception de votre fiche de données finale pour optimiser l'expérience de vos lecteurs.

Lorsqu'ils lisent des fiches de données, les utilisateurs souhaitent prendre des décisions très spécifiques, par exemple :

  • Ce jeu de données est-il adapté à mon cas d'utilisation ?
  • Puis-je autoriser d'autres personnes à utiliser cet ensemble de données ?
  • Comment puis-je utiliser cet ensemble de données de manière sécurisée sans ajouter de risque à mes modèles ?

Si les lecteurs peuvent accéder efficacement aux bonnes informations, ils sont incroyablement aptes à prendre des décisions liées aux ensembles de données dans leur contexte. L'importance ou l'utilité des informations dépendent du type de décision que le lecteur doit prendre et de son expérience. Par exemple, lorsqu'il décide d'utiliser ou non un ensemble de données, un responsable de la conformité peut examiner les licences qui y sont associées, tandis qu'un ingénieur examine la pile technologique. Les deux lecteurs posent les mêmes questions, mais s'attendent à des réponses différentes.

Les fiches de données doivent décrire de manière exhaustive votre ensemble de données afin que les lecteurs puissent prendre des décisions en toute confiance. Ces descriptions détaillées vous aident à déterminer ce que vous souhaitez que les lecteurs retiennent de votre fiche de données et à identifier le type d'informations précises, fiables et organisées à y documenter. Bien sûr, le défi est qu'il est impossible de déterminer toutes les décisions possibles que les lecteurs de votre fiche de données doivent prendre.

2. Planifier votre fiche de données

  • Pour déterminer les décisions que les lecteurs de votre fiche de données doivent prendre et le niveau de détail à inclure dans votre fiche de données, répondez à la question pour chaque catégorie du tableau suivant :

Lecteurs

Décisions

Objectifs

Pertinence

Nuance

Quelle est l'audience principale ?

Quelles décisions prendront-ils concernant l'ensemble de données ?

Qu'attendent-ils de la fiche de données ?

De quels contenus spécifiques ont-ils besoin dans la fiche de données pour atteindre leurs objectifs ?

Compte tenu de ce que vous savez sur le lecteur, votre contenu doit-il être détaillé ou nuancé ?

Exemple : Ingénieurs logiciels de production

Exemple : Dois-je utiliser l'ensemble de données pour tester un modèle de machine learning (ML) en production ?

Exemple : Donne-moi un aperçu de l'ensemble de données. Explique-moi comment il est implémenté.

Exemple : utilisations prévues et inappropriées, utilisations passées et résultats sur les modèles précédents.

Exemple : Très nuancé. Accent mis sur l'utilisation technique et la facilité d'utilisation à des fins d'intégration dans les systèmes de production.

Vous pouvez utiliser votre tableau pour évaluer votre fiche de données et vous assurer que vos lecteurs prioritaires la trouvent utile. Il existe de nombreuses approches pour évaluer votre fiche de données. Nous vous recommandons d'évaluer la gravité de l'usabilité.

Bien que les définitions précises puissent varier, l'échelle de gravité suivante fournit une évaluation de l'état d'un élément et de l'impact du problème, sans tenir compte de la priorité. Dans ce contexte, nous faisons référence à la facilité d'utilisation de votre fiche de données, qui, si elle n'est pas traitée, peut avoir un impact sur la confiance qu'un lecteur accorde à la fiche de données et sur son utilité.

  • Pour évaluer l'utilité de l'état de votre fiche de données pour chaque groupe d'audience de votre tableau précédent, répondez aux questions de l'échelle de gravité suivante :

Non-respect

Gravité

Solution

Quelles réponses ne sont pas utiles pour le lecteur ?

Sur une échelle de 1 à 5, à quel point ce problème doit-il être résolu en urgence ? (Cochez la case qui s'applique) :

  • ☐ 1 = Catastrophique. Corrigez ce problème avant la publication de la fiche de données.
  • ☐ 2 = Problème majeur. Important à corriger et à traiter en priorité.
  • ☐ 3 = Problème mineur. Priorité faible.
  • ☐ 4 = Problème esthétique uniquement. Corrigez-le si vous avez le temps.
  • ☐ 5 = Ce n'est pas un problème.

Quelle est la solution ?

3. Viser juste ce qu'il faut

Lorsque vous créez votre première fiche de données, l'une des deux situations suivantes se produit généralement :

  • Les lecteurs sont submergés par trop d'informations.
  • Un manque d'informations peut dérouter les lecteurs.

En tant que créateur d'une fiche de données, vous devez organiser et hiérarchiser les informations qu'elle contient. Un bon artefact de transparence fournit suffisamment de contexte pour que les lecteurs comprennent clairement le problème. Si ce n'est pas le cas, il leur indique où aller ensuite.

Vous souhaitez fournir des informations qui rendent l'ensemble de données facile à comprendre et à utiliser. Parfois, la complexité de votre ensemble de données augmente, ce qui affecte la densité des informations et des explications que vous devez résumer dans votre fiche de données.

Quel que soit le niveau d'expertise de vos lecteurs, tout le monde peut être submergé par les informations. Il est donc important de présenter les informations correctes, y compris les suivantes :

  • Type d'informations à fournir.
  • La quantité d'informations que vous avez à offrir.
  • les détails qu'il contient.

Vos réponses doivent s'efforcer de tout résumer sans tout détailler, et refléter le contexte nécessaire pour que les lecteurs puissent obtenir des insights sur votre ensemble de données.

Heuristiques

Nous avons créé un ensemble d'heuristiques que vous pouvez utiliser pour évaluer l'expérience globale de lecture de votre fiche de données. Nous considérons ces heuristiques comme des objectifs que les fiches de données doivent remplir pour être efficaces et adoptées de manière appropriée dans la pratique et à grande échelle. Le tableau suivant contient ces objectifs et leurs descriptions :

Objectif

Description

Cohérence

Les fiches de données doivent être comparables les unes aux autres, quelle que soit la modalité ou le domaine des données, afin que les affirmations soient faciles à interpréter et à valider dans le contexte d'utilisation. Bien que le déploiement de fiches de données ponctuelles soit relativement simple, nous constatons que les équipes et les organisations doivent préserver la comparabilité lorsqu'elles étendent l'adoption.

Complet

Au lieu d'être créée en dernière étape du cycle de vie d'un ensemble de données, il devrait être facile de créer une fiche de données en même temps que l'ensemble de données. De plus, la responsabilité de remplir les champs d'une fiche de données doit être répartie et attribuée à la personne la plus appropriée. Cela nécessite des méthodes standardisées qui vont au-delà de la fiche de données et s'appliquent aux différents rapports générés au cours du cycle de vie de l'ensemble de données.

Intelligible et concis

Les lecteurs ont des niveaux de compétence différents, ce qui affecte leur interprétation de la fiche de données. Dans les scénarios où les compétences des parties prenantes diffèrent, les personnes ayant le modèle mental le plus solide de l'ensemble de données deviennent de facto les décideurs. Enfin, les tâches plus urgentes ou difficiles peuvent réduire la participation des parties prenantes non traditionnelles aux décisions, qui sont laissées à "l'expert". Cela risque d'omettre des points de vue essentiels qui reflètent les besoins spécifiques des parties prenantes en aval et latérales. Une fiche de données doit communiquer efficacement avec le lecteur le moins compétent et permettre aux lecteurs plus compétents de trouver plus d'informations si nécessaire. Le contenu et la conception doivent faire progresser le processus de délibération du lecteur sans le submerger, et encourager la coopération des parties prenantes vers un modèle mental partagé de l'ensemble de données pour la prise de décision.

4. Évaluer vos heuristiques

  • Pour examiner les réponses de votre fiche de données, utilisez le tableau de données suivant que nous avons créé pour évaluer chaque heuristique. À la fin, vous pouvez calculer le score global de votre fiche de données, ce qui vous aide à rester sur la bonne voie. Vous pouvez également inclure des commentaires pour ajouter du contexte et des tâches nécessaires à l'amélioration de chaque heuristique.

Heuristique

Critères

Commentaires

Score

Évaluez vous-même la fiche de données que vous avez remplie en vous basant sur les heuristiques suivantes.

Critères pour l'heuristique

Notez en particulier les points à améliorer dans la fiche de données.

Nombres uniquement, auto-évaluation (0-10)

Compréhensibilité
 : la conception et le contenu de votre artefact de transparence sont efficaces, pertinents et faciles à comprendre pour la majorité des agents experts et non experts.

  • Efficace : la majorité des agents peuvent obtenir des réponses appropriées à des questions raisonnables sur l'ensemble de données ou le modèle.
  • Pertinence : les explications, les visualisations et les résultats des analyses inclus sont pertinents et exploitables pour la majorité des agents.
  • Compréhensibilité : les agents experts et non experts peuvent facilement comprendre les informations.

.

.

Exhaustivité
 : la fiche de données permet aux lecteurs de comprendre facilement ce que sont l'ensemble de données ou le modèle, comment ils ont été créés et ce qu'il est important de savoir avant de les utiliser.

  • Pertinence : les informations qui établissent le contexte de l'ensemble de données et qui sont utiles à toutes les parties prenantes sont lisibles.
  • Exhaustivité : les informations sont cohérentes et complètes, et décrivent de manière appropriée toutes les étapes du cycle de vie d'un ensemble de données.
  • Approfondissement : les résumés sont lisibles par tous les lecteurs et renvoient à des informations plus détaillées ou à des spécifications pour les lecteurs avancés.

.

.

Cohérente
 : la fiche de données respecte les conventions de la plate-forme et du secteur, et reste cohérente en elle-même et avec les autres fiches de transparence similaires.

  • Reconnaissable : les sections sont organisées dans un ordre logique afin que les lecteurs puissent trouver facilement les informations.
  • Standardisé  : utilise des termes standards du secteur et décrit les écarts ou les personnalisations, le cas échéant.
  • Clarté : le même terme désigne le même concept à chaque fois qu'il est utilisé.

.

.

Concise
 : la conception et le contenu de la fiche permettent de réduire des informations vastes et complexes en éléments significatifs et digestes, en fonction de leur importance relative, qui répondent aux besoins des lecteurs novices et expérimentés.

  • Compréhensibilité : la signification et l'importance relatives des mots clés, des paires clé-valeur et des résumés visuels sont faciles à comprendre.
  • Facile à comprendre : les lecteurs peuvent comprendre en un coup d'œil si et comment ils peuvent utiliser l'ensemble de données pour atteindre leurs objectifs.
  • Contextuel : les connaissances générales et le contexte sont distillés ou résumés pour faciliter la compréhension sans sacrifier la nature et les nuances de l'ensemble de données.

.

.

Score total = (Total des points/120)

.

.

/120

5. Analyse réfléchie

Nous savons que les données sont des informations sur des personnes, des cultures ou des entreprises, qui ont été collectées de manière structurée dans un but précis. Toutefois, comme nous l'avons répété à plusieurs reprises, elles sont toutes nuancées et liées à plusieurs dimensions à des degrés divers. Ainsi, l'analyse que vous effectuez sur votre ensemble de données offre un aperçu de la réflexion qui a été menée sur l'ensemble de données lui-même, ce qui permet de comprendre ses subtilités.

Par exemple, une analyse intersectionnelle des personnes peut explorer les combinaisons de facteurs humains dans un ensemble de données pour identifier les résultats potentiels disproportionnés, par exemple lorsqu'un modèle entraîné sur un ensemble de données est plus performant pour un sous-groupe que pour d'autres. Une analyse désagrégée décompose l'ensemble de données en fonction de différents facteurs pour révéler des tendances importantes pour les sous-groupes ou les populations marginalisées qui sont généralement masquées par des données agrégées plus importantes, afin que les lecteurs puissent anticiper les résultats.

Nous constatons que l'intersectionnalité et les analyses désagrégées (IDA) sont des moyens efficaces de communiquer un éventail de résultats plausibles dans différentes circonstances dans une fiche de données, en établissant des relations claires dans un ensemble de données. L'IDA peut fournir aux lecteurs des indices essentiels sur la représentation dans votre ensemble de données, par exemple sur la corrélation entre les libellés et les entités sensibles, les lacunes dans votre ensemble de données (par exemple, si l'ensemble de données ne contient que des photos prises pendant la journée) et la relation entre les variables qui peuvent ensuite amener les modèles d'IA à apprendre des corrélations fallacieuses ou à choisir des proxys. Ces analyses deviennent encore plus utiles lorsqu'elles sont situées dans des circonstances réelles reflétant l'expérience que les utilisateurs concernés peuvent avoir avec un produit ou un service qui utilise votre ensemble de données.

Par exemple, la présentation des résultats IDA dans une fiche de données aide les lecteurs à développer de manière proactive une intuition sur les performances de leur modèle de ML sur des sous-ensembles (également appelés "tranches") de leur ensemble de données. Cela oblige les créateurs de jeux de données à être plus rigoureux dans leur analyse du jeu de données et dans sa présentation dans la fiche de données. Toutefois, cela peut, à terme, améliorer les résultats des produits pour les parties prenantes.

L'IDA peut aider les lecteurs à mieux comprendre comment utiliser votre ensemble de données dans leurs modèles. Si vous rencontrez des difficultés, collaborez avec des experts, des équipes produit et des personnes ayant une expérience vécue pour vous aider à encadrer vos analyses. L'IDA est souvent ancrée dans des contextes qui doivent être expliqués aux lecteurs ou qui nécessitent une aide supplémentaire pour que les lecteurs puissent les interpréter correctement.

6. Analyser vos données

Pour analyser votre ensemble de données, procédez comme suit :

  1. Explorez les données avant de commencer votre analyse. Développez une intuition pour les biais et les déséquilibres dans votre ensemble de données à l'aide d'un outil tel que TensorFlow Data Validation (TFDV) ou Learning Interpretability Tool (LIT). Utilisez les résultats pour orienter la conception de votre analyse.
  2. Concevez votre analyse avec soin. Les résultats de l'analyse sont fortement influencés par les objectifs de votre évaluation, l'accès à l'expertise et aux ressources pour mener l'analyse, le moment et le lieu où vous effectuez l'analyse, ainsi que les contextes des modèles d'IA dans lesquels l'analyse est effectuée.
  3. Commencez par les facteurs pertinents pour l'utilisation prévue. Déterminez les facteurs démographiques, socioculturels, comportementaux et morphologiques qui peuvent avoir le plus d'impact sur vos cas d'utilisation prévus lorsque vous créez des groupes d'intérêt, puis élargissez-les.
  4. Signalez-le, mais ne le commentez pas. Notez que les facteurs et les hypothèses qui affectent les analyses d'équité existent dans des constructions sociales historiquement et culturellement spécifiques, qui sont difficiles à quantifier. Évitez d'ajouter des commentaires qui pourraient dérouter le lecteur. Fournissez plutôt des moyens de reproduire les analyses qui peuvent aider les lecteurs à calibrer les résultats dans leur propre contexte.
  5. Préparez l'avenir. Tenez compte des facteurs supplémentaires qui pourraient apparaître à l'avenir en examinant la représentation dans votre ensemble de données, en conservant des valeurs constantes dans différents scénarios ou en combinant votre analyse avec une plage de valeurs de facteurs supplémentaires pertinents pour votre ensemble de données.
  6. Fournissez plus de contexte pour les résultats non reproductibles. Si les métriques ne peuvent pas être reproduites par les parties prenantes en aval, fournissez suffisamment de contexte autour de l'analyse. Si un lecteur peut utiliser ces informations pour évaluer les avantages et les inconvénients de l'ensemble de données, cela peut renforcer la confiance dans l'ensemble de données.

7. Félicitations

Félicitations ! Vous pouvez fournir les bonnes réponses dans votre fiche de données de plusieurs façons. Vous êtes maintenant prêt à les auditer.