Module 4 : Audit

1. Évaluation

Maintenant que votre fiche de données est prête à être publiée, vous devez effectuer les actions de suivi suivantes pour atteindre vos objectifs de transparence :

  • Utilisez des méthodes d'évaluation pour mieux comprendre les performances de votre fiche de données auprès des lecteurs.
  • Suivez systématiquement l'utilisation et l'adoption de vos fiches de données pour vous assurer qu'elles correspondent aux centres d'intérêt de vos lecteurs.

Ce module propose des approches pour auditer votre fiche de données une fois qu'elle est publiée, afin de continuer à réussir.

Comme indiqué dans les modules précédents, l'objectif principal d'un lecteur de fiche de données est d'évaluer l'ensemble de données. Par conséquent, toute évaluation de la fiche de données d'un ensemble de données doit se concentrer sur la capacité du lecteur à tirer des conclusions acceptables sur l'ensemble de données.

Les informations d'une fiche de données doivent correspondre à l'expérience d'un lecteur utilisant l'ensemble de données. Cela a un impact direct sur les convictions du lecteur concernant la fiabilité et la crédibilité de l'ensemble de données, et par conséquent sur la réputation et la confiance accordées aux auteurs ou aux éditeurs de l'ensemble de données.

Inversement, les croyances existantes d'un lecteur concernant votre ensemble de données, votre organisation et les autres ensembles de données publiés par votre organisation peuvent également influencer la façon dont il interagit avec votre fiche de données, quelle que soit sa détectabilité, son utilité ou sa qualité.

Par exemple, les lecteurs qui ont eu une expérience positive avec des ensembles de données précédemment publiés par une organisation peuvent faire plus confiance à un nouvel ensemble de données publié par les mêmes auteurs. Dans ce cas, il est possible que le lecteur fasse des déductions intuitives et ne lise pas la nouvelle fiche d'informations sur les données assez attentivement pour comprendre au mieux l'ensemble de données et, plus précisément, en quoi il diffère d'un ensemble de données plus ancien et similaire.

Par conséquent, l'évaluation d'une fiche de données nécessite des approches permettant de déterminer si les lecteurs peuvent tirer des conclusions acceptables de l'ensemble de données dans leurs contextes. Elles sont différentes des évaluations de l'ensemble de données lui-même, qui peuvent ne pas révéler grand-chose sur l'efficacité de la fiche de données qui l'accompagne. Vous devez plutôt évaluer votre fiche de données à l'aide d'une étude utilisateur, par exemple. Cela vous aidera à comprendre si votre contenu est compris par différents lecteurs ou à découvrir si vos lecteurs obtiennent toujours des insights exploitables lorsque vous itérez sur votre fiche de données. Une autre approche consiste à mesurer l'adoption et l'efficacité de votre fiche de données en évaluant la satisfaction des utilisateurs, en menant des enquêtes et en analysant l'implémentation de la fiche de données. En ce sens, une fiche de données peut être une sonde utile pour évaluer le succès de votre ensemble de données et mieux comprendre les besoins de vos parties prenantes en aval.

Conditions requises

Le cycle de vie d'un ensemble de données implique différents types de partenaires, chacun ayant des niveaux de maîtrise des données, d'expertise du domaine et d'exigences différents.

Une exigence est une déclaration qui identifie une caractéristique ou une contrainte opérationnelle, fonctionnelle ou de conception d'un produit ou d'un processus. Elle doit être non ambiguë, testable et nécessaire à l'acceptabilité du produit ou du processus. Les objectifs de votre ensemble de données, les parties prenantes du cycle de vie de l'ensemble de données et la mise en œuvre de vos efforts de transparence jouent un rôle dans l'établissement des exigences et des critères d'évaluation de votre fiche de données. Par exemple, plusieurs responsables produit, ingénieurs, data scientists, concepteurs d'IA et examinateurs de l'IRB peuvent utiliser les réponses d'une fiche de données. Dans ce cas, un bon processus d'évaluation contient des critères directement liés aux exigences fonctionnelles, opérationnelles, d'usabilité et de sécurité pour chacun de ces rôles.

Résumé

Différentes méthodes d'évaluation permettent d'obtenir différents insights sur l'efficacité d'une fiche de données. Vous devez sélectionner des méthodes d'évaluation qui peuvent être utilisées tout au long du processus de documentation sur la transparence, de la création au lancement, et par la suite.

Les quatre exigences présentées dans ce module (fonctionnalité, fonctionnement, facilité d'utilisation et sécurité), ainsi que les dimensions présentées dans le deuxième module (responsabilité, utilité, qualité, conséquence de l'utilisation et risque/recommandations), constituent un bon point de départ pour évaluer les performances globales de votre fiche de données du point de vue direct des lecteurs.

2. Déterminez vos besoins

  • Pour déterminer vos exigences, utilisez le tableau suivant, qui inclut les exigences, les critères d'évaluation possibles et des exemples de méthodes permettant de déterminer si votre fiche de données répond à ces critères en tenant compte d'un lecteur et d'un rôle :

Exigence

Critères d'évaluation

Exemple

Tests fonctionnels

Votre fiche de données permet-elle aux lecteurs de réaliser leurs tâches en fonction de leurs rôles respectifs ?

Prenons l'exemple d'un ingénieur de données qui souhaite intégrer votre ensemble de données dans son pipeline. Votre fiche de données contient-elle les informations nécessaires pour implémenter correctement l'infrastructure requise pour utiliser l'ensemble de données ?

Opérationnel

Votre fiche de données permet-elle aux lecteurs d'identifier les capacités essentielles, les mesures de performances et les autres exigences et processus associés nécessaires pour utiliser efficacement l'ensemble de données ?

Prenons l'exemple d'un créateur de modèles de machine learning (ML) qui souhaite affiner un système de recommandation avec votre ensemble de données. Votre fiche de données contient-elle suffisamment d'informations pour déterminer les contraintes et les besoins en termes de performances à respecter ?

Facilité d'utilisation

Les lecteurs peuvent-ils facilement parcourir votre fiche de données et interagir avec elle ? L'implémentation de votre fiche de données respecte-t-elle les heuristiques de convivialité de base et les normes d'accessibilité ?

Prenons l'exemple d'un étudiant qui souhaite utiliser votre ensemble de données, mais qui a un accès limité à Internet. Quels types de défis peut créer l'intégration d'une visualisation interactive et exploratoire de votre ensemble de données dans votre fiche de données ? Quels types d'oublis dans l'UI peuvent empêcher un lecteur d'écran de traduire la fiche de données pour un lecteur malvoyant ?

Sécurité

Les informations fournies dans la fiche de données sont-elles utiles aux professionnels pour évaluer les résultats indésirables potentiels associés à votre ensemble de données dans leurs domaines ?

Prenons l'exemple des professionnels du ML qui travaillent dans un domaine à haut risque, comme la santé. Votre fiche de données décrit-elle les exigences de sécurité, de confidentialité, de robustesse et de conformité appropriées qui doivent nécessairement être divulguées pour éviter des résultats médiocres pour les patients ?

Pour en savoir plus, consultez Évaluer avec Readers.

3. Déterminer vos dimensions

  • Pour déterminer vos dimensions, invitez un lecteur potentiel à évaluer votre fiche de données selon les cinq dimensions et utilisez le formulaire suivant pour évaluer les performances de votre fiche de données pour chacune d'elles :

52b41a36b71ccc6d.png

4. Télémétrie à grande échelle

Pour que toute documentation axée sur la transparence soit efficace, vous devez la traiter comme un produit axé sur l'utilisateur. Il est nécessaire de suivre systématiquement l'utilisation de votre fiche de données pour éclairer les stratégies de transparence à long terme et les initiatives générales qui dépassent les limites multifonctionnelles. Il n'existe pas d'approche universelle pour mesurer le succès des efforts de transparence. Toutefois, vous pouvez tenir compte de différents facteurs lorsque vous configurez votre programme de suivi de l'impact, comme la maturité et les objectifs de vos efforts de transparence, la taille de l'organisation ou les ensembles de données documentés.

Par exemple, vous constaterez que certaines formes de télémétrie permettant de mesurer l'efficacité des fiches de données sont plus faciles à intégrer dans les implémentations de fiches de données interactives que dans les PDF. En revanche, pour mesurer l'efficacité de votre fiche de données, vous devrez peut-être configurer des mécanismes personnalisés qui mesurent les fiches de données incomplètes ou abandonnées dans votre organisation.

Mesurer l'impact

En règle générale, les métriques d'un modèle de fiche de données et leur adoption peuvent être classées en sept catégories : hygiène de la documentation, résilience et stabilité, compréhensibilité, facilité d'assistance, conversion, engagement et couverture. Toutefois, ces métriques ne sont pas équivalentes. Vous devez les examiner dans vos contextes. Le tableau suivant liste, définit et explique quand et comment mesurer ces sept catégories pour les fiches de données et les modèles de fiches de données :

Catégorie

Définition

Quand mesurer ?

Comment mesurer

Hygiène de la documentation

Le degré de satisfaction de l'utilisateur par rapport à l'expérience qu'il a eue avec l'ensemble de données, par rapport aux attentes créées par la fiche de données.La précision avec laquelle l'expérience d'un producteur décrivant l'ensemble de données correspond aux attentes définies par le modèle de fiche de données.

Modèle : pendant ou immédiatement après que les producteurs de l'ensemble de données ont rempli les fiches de données.

Fiche de données : avant la distribution d'une fiche de données remplie à un groupe d'audience échantillon et à une fréquence régulière après la distribution avec les lecteurs réels.

Modèle : mesure la qualité de la description des ensembles de données auxquels il est destiné par un modèle de fiche de données. Par exemple, le taux de questions sans réponse évalue le pourcentage de questions qui restent systématiquement sans réponse pour une classe d'ensembles de données.

Fiche de données : mesure la précision avec laquelle une fiche de données complétée décrit l'ensemble de données et son utilisation. Par exemple, les comparaisons de la satisfaction des lecteurs collectent les scores de satisfaction des lecteurs pour une fiche de données et les comparent à votre évaluation avant la publication de votre fiche de données.

Résilience et stabilité

La capacité d'un modèle de fiche de données à résister aux modifications ou aux ajouts, en particulier s'il est utilisé dans plusieurs domaines ou lorsqu'une fiche de données est lue par divers lecteurs.

Modèle : pendant ou immédiatement après que les producteurs ont rempli les fiches de données. Notez en particulier les révisions effectuées après le lancement

Fiche de données : lorsque des révisions et des ajouts sont effectués après le lancement.

Modèle : mesure la diversité des ensembles de données qu'un modèle capture sans modifications, les modifications les plus courantes et le volume de questions auxquelles il répond de manière incorrecte ou qui sont réutilisées. Par exemple, le taux de modification correspond au rapport entre le nombre de fiches de données créées à partir d'un modèle et le nombre de modifications apportées au modèle.

Fiche de données : mesure le nombre de révisions et d'ajouts de contenu apportés à une fiche de données publiée, ainsi que la fréquence de ces modifications. Par exemple, la durée moyenne entre les échecs mesure le temps moyen entre deux événements au cours desquels une fiche de données est modifiée.

Compréhensibilité

La capacité d'un producteur à intégrer et à utiliser un modèle de fiche de données, et l'efficacité avec laquelle un nouveau lecteur d'une fiche de données peut s'intégrer, s'habituer et utiliser les informations d'une fiche de données complétée.

Modèle : lorsque vous fournissez des modèles aux producteurs de l'ensemble de données pour qu'ils les remplissent avec des points de contrôle à des étapes clés du processus d'achèvement.

Fiche de données : lors de la distribution publique ou du lancement des fiches de données.

Modèle : mesure la compréhension du modèle de fiche de données par les producteurs et la difficulté de ses sections. Par exemple, les études formatives recrutent de manière proactive des lecteurs pour qu'ils participent à des enquêtes et à des visites cognitives afin d'obtenir des insights spécifiques.

Fiche de données : mesure la compréhension et la facilité d'utilisation de la fiche de données par les lecteurs, ainsi que son adéquation pour différents lecteurs. Par exemple, les données analytiques permettent de suivre les métriques de trafic et d'engagement pour identifier des tendances dans la compréhension globale. Toutefois, méfiez-vous des métriques de vanité.

Assistance

Capacité à fournir une assistance pour les fiches de données et quantité d'assistance fournie.

Modèle : dès que vous configurez un effort de fiches de données dans votre organisation, quelle que soit son ampleur, et s'il est ponctuel.

Fiche de données : lorsque la fiche de données est disponible pour la consommation et le suivi au fil du temps.

Modèle : mesure le temps et l'expertise supplémentaires nécessaires pour créer et publier un modèle de fiche de données. Par exemple, les heures de bureau mesurent la participation, les types d'ensembles de données et les questions reçues pendant les heures de bureau ou les programmes d'assistance pour les producteurs d'ensembles de données qui créent des fiches de données.

Fiche de données : mesure l'impact d'une fiche de données sur la qualité et l'unicité des questions concernant un ensemble de données, ainsi que son influence sur les utilisations appropriées de l'ensemble de données. Par exemple, les problèmes post-lancement permettent de suivre les bugs, les questions ou les demandes de fonctionnalités concernant l'ensemble de données qui sont signalés comme des problèmes auxquels la fiche de données ne répond pas.

Conversion

Suit le pourcentage de producteurs qui remplissent et publient une fiche de données à partir d'un modèle, ainsi que le pourcentage de lecteurs qui prennent des décisions concernant un ensemble de données en fonction de sa fiche de données.

Modèle : dès que vous configurez un effort de fiches de données dans votre organisation, quelle que soit son ampleur, et s'il est ponctuel.

Fiche de données : lorsque la fiche de données est disponible pour la consommation et le suivi au fil du temps.

Modèle : mesure le taux de réussite des producteurs pour remplir les modèles de fiches de données. Par exemple, les données analytiques permettent de suivre le taux d'achèvement et le temps de publication, ainsi que le pourcentage de sections pertinentes dans un modèle de fiche de données.

Fiche de données : mesure le taux de réussite des lecteurs lorsqu'ils prennent des décisions basées sur les fiches de données. Par exemple, les études qualitatives mènent des entretiens et des études de satisfaction auprès des lecteurs, ce qui permet d'obtenir des informations sur la précision des décisions et le taux d'achèvement des tâches.

Engagement

Mesure le degré d'implication de votre audience avec vos contenus, comme votre fiche de données.

Modèle : une fois que les modèles de fiches de données sont établis et diffusés dans votre organisation.

Fiche de données : lorsque la fiche de données est disponible publiquement avec les ensembles de données qu'elle représente. Cette métrique est moins utile si la fiche de données n'est pas détectable ou si elle comporte des sources de documentation concurrentes (et non complémentaires).

Modèle : mesure le niveau d'implication et d'engagement des producteurs de l'ensemble de données dans un programme de fiches de données. Exemple :

  • Le taux de partage des modèles correspond au pourcentage de producteurs qui partagent des modèles de fiche de données avec d'autres propriétaires d'ensembles de données.
  • Le taux de création spontanée correspond au pourcentage de fiches de données créées sans y être invité.
  • La qualité des réponses correspond à la précision et à l'utilité des informations fournies dans les fiches de données.

Fiche de données : mesure l'utilisation de la fiche de données et la génération de connaissances à partir de celle-ci.
Par exemple :

  • L'utilisation répétée mesure le nombre de fois où les agents ou les utilisateurs de l'ensemble de données se réfèrent à la fiche de données pour obtenir plus d'informations.
  • La section "Par section" mesure les métriques d'engagement par section d'une fiche de données et suit les partages de liens profonds par section de la fiche de données.

Couverture

Suit le nombre total de personnes uniques qui voient votre fiche de données. Il s'agit d'un précurseur important pour d'autres métriques telles que l'engagement et la conversion.

Modèle : une fois que les modèles de fiches de données ont été établis et diffusés dans votre organisation.

Fiche de données : lorsque la fiche de données est disponible publiquement avec les ensembles de données qu'elle représente. Cette métrique est moins utile si la fiche de données n'est pas détectable ou si elle comporte des sources de documentation concurrentes (et non complémentaires).

Modèle : mesure le nombre de fiches de données qu'une organisation peut produire par rapport au nombre d'ensembles de données dont elle dispose.

Fiche de données : mesure le trafic et la qualité qu'une fiche de données reçoit, ainsi que le trafic qu'elle génère vers l'ensemble de données. Par exemple, les journaux de friction suivent les difficultés ou les frustrations que les producteurs d'ensembles de données et les lecteurs de fiches de données peuvent rencontrer lors des groupes de discussion.

Pour en savoir plus, consultez Télémétrie à grande échelle.

L'opérationnalisation de ces métriques de télémétrie peut nécessiter différents niveaux de ressources et d'assistance. Par exemple, les groupes de discussion qui analysent la facilité d'utilisation d'une fiche de données pour les producteurs nécessitent un ensemble de ressources considérablement différent de celui des analyses qui enregistrent les taux d'achèvement des fiches de données. De même, la mesure du trafic vers une fiche de données nécessite relativement moins de ressources qu'une série d'interviews post-lancement qui analysent les niveaux d'engagement. Vous pouvez examiner ces différentes catégories avec les décideurs interfonctionnels de votre organisation pour déterminer lesquelles utiliser pour suivre l'impact et comment.

Résumé

En fin de compte, les métriques qui mesurent l'impact d'une fiche de données sont différentes de celles qui mesurent votre progression vers la finalisation de votre fiche de données. La maturité d'un ensemble de données peut modifier la façon dont vous interprétez les métriques des fiches de données. Tenez compte de la maturité et de la popularité de l'ensemble de données, et considérez l'impact quantitatif, qualitatif et anecdotique de manière unifiée.

5. Sélectionner vos métriques

Comme indiqué, votre contexte détermine les métriques dont vous avez besoin pour atteindre vos objectifs de transparence.

Pour sélectionner vos métriques, procédez comme suit :

  1. Diversifiez vos objectifs : définissez des objectifs d'équipe pour vos efforts de transparence.Ils doivent non seulement évaluer votre progression dans la création de votre fiche de données, mais aussi son impact sur vos lecteurs une fois que vous l'aurez créée et lancée.
  2. Définissez les métriques avancées et retardées. Pour chaque métrique différée qui vous indique quand vous atteignez un objectif, définissez des métriques avancées pour suivre les activités critiques qui contribuent à l'objectif.
  3. Définissez une fréquence pour les études qualitatives complémentaires. Lorsque vous configurez l'infrastructure nécessaire pour mesurer les fiches de données dans votre organisation, créez un plan pour effectuer régulièrement des études qualitatives afin de vérifier les résultats et de calibrer les métriques quantitatives.
  4. Formez les équipes de données individuelles. Permettez aux équipes qui produisent des ensembles de données et des fiches de données d'interpréter simultanément les métriques qualitatives et quantitatives dans le contexte de leurs ensembles de données et fiches de données.

6. Félicitations

Félicitations ! Vous avez tout ce qu'il faut pour créer une fiche de données. Vous êtes maintenant prêt à répondre à un quiz pour tester vos connaissances.