このページは Cloud Translation API によって翻訳されました。

モジュール 4: 監査

1. 評価

データカードの公開準備が整ったら、透明性を確保するために次のフォローアップ操作を行う必要があります。

評価方法を使用して、読者に対するデータカードのパフォーマンスに関する分析情報を取得します。
データカードの利用状況と導入状況を体系的に追跡し、読者の関心と一致していることを確認します。

このモジュールでは、リリース後もデータカードの成功を継続的に確認するための監査アプローチについて説明します。

前のモジュールで説明したように、データカードリーダーの主な目的は、データセットに関する評価を行うことです。したがって、データセットのデータカードの評価は、データセットについて読者が許容できる結論に到達できるかどうかに焦点を当てる必要があります。

データカードの情報は、データセットを使用する読者のエクスペリエンスと一致している必要があります。これは、データセットの信頼性と信頼性に関する読者の信念に直接影響し、その結果、データセットの作成者またはパブリッシャーの評判と信頼に影響します。

逆に、データセット、組織、組織が公開した他のデータセットに関する読者の既存の信念も、データカードの検索可能性、使いやすさ、構成の良さに関係なく、データカードの利用方法に影響する可能性があります。

たとえば、以前に組織が公開したデータセットに良い印象を持った読者は、同じ著者が公開した新しいデータセットをより信頼する可能性があります。この場合、読者が直感的に飛躍し、新しいデータカードを十分に読み取って、データセットを最大限に理解できない可能性があります。特に、古い類似のデータセットとの違いを理解できない可能性があります。

そのため、データカードの評価には、読者がデータセットの許容可能な結論にコンテキスト内で到達できるかどうかを評価できるアプローチが必要です。これらはデータセット自体の評価とは異なり、データセットに付随するデータカードの有効性についてはあまり明らかにされません。代わりに、ユーザー調査などの方法でデータカードを評価する必要があります。これにより、コンテンツがさまざまな読者に理解されているかどうかを把握したり、データカードを繰り返し作成する中で、読者が実用的な分析情報を得られているかどうかを確認したりできます。別の方法として、データカードの導入におけるユーザー満足度、アンケート、分析を通じて、データカードの導入と有効性を測定することもできます。この意味で、データカードは、データセットの成功を推進して評価し、ダウンストリームのステークホルダーのニーズをより明確に把握するための有用なプローブとなります。

要件

データセットのライフサイクルにはさまざまな関係者がおり、それぞれデータの習熟度、ドメインの専門知識、要件のレベルが異なります。

要件とは、製品またはプロセスの運用、機能、設計特性、制約を特定するステートメントであり、曖昧さがなく、テスト可能で、製品またはプロセスの許容性にとって不可欠なものです。データセットの目標、データセットのライフサイクルに関与する関係者、透明性確保の取り組みの実装は、データカードの要件と評価基準の確立に影響します。たとえば、複数のプロダクトマネージャー、エンジニア、データサイエンティスト、AI デザイナー、IRB 審査員がデータカードの回答を使用する可能性があります。この場合、適切な評価プロセスには、これらの各ロールの機能、運用、ユーザビリティ、安全性の要件に直接関連する基準が含まれます。

概要

評価方法が異なると、データカードの有効性に関する分析情報も異なります。透明性ドキュメントの作成からリリース、リリース後まで、プロセス全体で使用できる評価方法を選択する必要があります。

このモジュールで紹介した 4 つの要件（機能、運用、ユーザビリティ、安全性）と、2 番目のモジュールで紹介した 5 つの側面（説明責任、有用性、品質、使用結果、リスク/推奨事項）は、読者の視点からデータカードの全体的なパフォーマンスを評価するうえで、優れた出発点となります。

2. 要件を決定する

要件を判断するには、次の表を使用します。この表には、要件、評価基準、データカードがその基準を満たしているかどうかを判断する方法の例が、読者と役割を念頭に置いて記載されています。

要件	評価基準	例
機能	データカードを使用すると、読者はそれぞれの役割に応じてタスクを完了できますか？	データセットをパイプラインに統合することに関心のあるデータエンジニアについて考えてみましょう。データセットを使用するために必要なインフラストラクチャを正常に実装するために必要な情報がデータカードに含まれていますか？
運用	データセットを効果的に使用するために必要な、重要な機能、パフォーマンス指標、その他の関連する要件とプロセスを読者が特定できるように、データカードは作成されていますか？	データセットを使用してレコメンデーションシステムをファインチューニングする ML モデルビルダーを考えてみましょう。データカードには、満たす必要のある制約とパフォーマンスのニーズを判断するのに十分な情報が含まれていますか？
ユーザビリティ	読者はデータカードを簡単に操作できますか？データカードの実装は、基本的なユーザビリティヒューリスティクスとアクセシビリティ基準を満たしていますか？	あなたのデータセットを使用したいが、インターネットアクセスが制限されている学生研究者を考えてみましょう。データセットのインタラクティブな探索的ビジュアリゼーションをデータカードに埋め込むと、どのような課題が生じる可能性がありますか？視覚障がいのあるユーザー向けにスクリーンリーダーがデータカードを翻訳できない場合、どのような UI の見落としが考えられますか？
安全性	データカードで提供される情報は、実務者がドメイン内のデータセットに関連する望ましくない結果の可能性を評価するのに役立ちますか？	医療などのリスクの高い分野で働く ML 担当者を考えてみましょう。データカードには、患者の転帰不良を防ぐために開示する必要がある適切なセキュリティ、プライバシー、堅牢性、コンプライアンスの要件が記載されていますか？

詳細については、リーダーで評価するをご覧ください。

3. ディメンションを決定する

ディメンションを特定するには、見込み読者に 5 つのディメンションでデータカードを評価してもらい、次のフォームを使用して、各ディメンションでデータカードがどの程度機能しているかを評価します。

4. 大規模なテレメトリー

透明性を重視したドキュメントを成功させるには、ドキュメントをユーザー中心のプロダクトとして扱う必要があります。データカードの使用状況を体系的に追跡することは、長期的な透明性戦略と、部門間の境界を越えた広範な取り組みを策定するうえで不可欠です。透明性への取り組みの成果を測定する万能なアプローチはありませんが、透明性への取り組みの成熟度と目標、組織の規模、文書化されたデータセットなど、影響追跡プログラムを設定する際に考慮できるさまざまな要素があります。

たとえば、データカードの有効性を測定するテレメトリーの一部は、PDF よりもインタラクティブなデータカードの実装に組み込みやすいことがわかります。一方、データカードの有効性を測定するには、組織内で未完了または破棄されたデータカードを測定するカスタムメカニズムを設定する必要がある場合があります。

効果の測定

一般的に、データカードテンプレートの指標とその導入は、ドキュメントの健全性、復元力と安定性、理解しやすさ、サポートしやすさ、コンバージョン、エンゲージメント、リーチの 7 つのカテゴリに分類できます。ただし、これらの指標は同等ではなく、コンテキストで考慮する必要があります。次の表に、データカードとデータカードテンプレートの 7 つのカテゴリを測定するタイミングと方法を示します。

注: データカードのテンプレートは、データセットの詳細を記入してデータカードを作成するメタデータスキーマです。つまり、モジュール 1: 質問するとモジュール 2: 検査するの Codelab で作成する質問のセットがテンプレートとなり、モジュール 3: 回答するの Codelab でテンプレートを完成させる方法が説明されます。テンプレートを作成するプロセスは、単一のデータカードを作成するプロセスと同じですが、繰り返し可能なコンポーネントを使用してデータカードのバッチを作成することもできます。これは、複数の類似したデータセットを起動し、データカードを使用してデータセットを比較する場合に特に便利です。この場合は、データカードだけでなく、テンプレートの影響も測定する必要があります。次の表は、どちらの場合でも影響を測定するのに役立ちます。

カテゴリ	定義	測定のタイミング	測定方法
ドキュメントの衛生	データセットを使用する読者のエクスペリエンスが、データカードによって作成された期待値と一致する満足度。データセットを説明するプロデューサーのエクスペリエンスが、データカードテンプレートによって設定された期待値と一致する精度。	テンプレート: データセット作成者がデータカードを完成させたとき、またはその直後。データカード: サンプルオーディエンスグループを含む完成したデータカードの配信前、および実際の読者への配信後の定期的なタイミング。	テンプレート: データカードテンプレートが、対象となるデータセットをどの程度適切に記述しているかを測定します。たとえば、未回答の質問の割合は、データセットのクラスで一貫して未回答の質問の割合を評価します。データカード: 完成したデータカードがデータセットとその使用方法をどの程度正確に記述しているかを測定します。たとえば、読者の満足度比較では、データカードの読者の満足度スコアを収集し、データカードのリリース前に実施した評価と比較します。
復元力と安定性	データカードテンプレートが変更や追加に耐えられるかどうか。特に、複数のドメインで使用される場合や、さまざまな読者がデータカードを読み取る場合。	テンプレート: 完了時、またはプロデューサーがデータカードを完了した直後。特に、リリース後の変更点に注意してください。データカード: リリース後に変更や追加が行われた場合。	テンプレート: テンプレートがキャプチャするデータセットの多様性を、編集なし、最も一般的な編集、誤って回答された質問や転用された質問の量で測定します。たとえば、編集比率は、テンプレートで作成されたデータカードの数と、テンプレートで行われた編集の数の比率です。データカード: 公開されたデータカードに対して行われた修正とコンテンツの追加の数、およびそれらの変更の頻度を測定します。たとえば、平均故障間隔は、データカードが編集されたイベント間の平均時間を測定します。
わかりやすさ	プロデューサーがデータカードテンプレートをオンボーディングして使用できる程度と、データカードの新しい閲覧者が完了したデータカードの情報をオンボーディング、習慣化、使用できる効率性。	テンプレート: データセット作成者にテンプレートを提供し、完了プロセス中のマイルストーンでチェックインを完了してもらう場合。データカード: データカードの一般公開またはリリース時。	テンプレート: データカードテンプレートに対するプロデューサーの理解度と、そのセクションの難易度を測定します。たとえば、形成的な調査では、特定の分析情報について読者にアンケートや認知ウォークスルーへの参加を積極的に呼びかけます。データカード: データカードの読者の理解度と使いやすさ、さまざまな読者への適合性を測定します。たとえば、分析ではトラフィックとエンゲージメントの指標を追跡して、全体的な理解のパターンを確認します。ただし、バニティ指標には注意してください。
サポート性	データカードを維持するためのサポートを提供する能力と、提供されたサポートの量。	テンプレート: 組織でデータカードの取り組みを設定したら、規模やアドホックかどうかに関係なく、すぐに。データカード: データカードが使用可能になり、経時的に追跡されるとき。	テンプレート: データカードテンプレートの完成と公開に必要な追加の時間と専門知識を測定します。たとえば、オフィスアワーでは、データカードを作成するデータセットプロデューサー向けのオフィスアワーやサポートプログラムでの出席者数、データセットのタイプ、質問の数を測定します。データカード: データセットに関する質問の品質と一意性、およびデータセットの適切な使用への影響を測定します。たとえば、リリース後の問題では、データカードで回答されない問題として報告されたデータセットに関連するバグ、質問、機能リクエストを追跡します。
コンバージョン	テンプレートからデータカードを完成させて公開したプロデューサーの割合と、データカードに基づいてデータセットに関する意思決定を行った閲覧者の割合を追跡します。	テンプレート: 組織でデータカードの取り組みを設定したらすぐに、規模やアドホックかどうかに関係なく。データカード: データカードが使用可能になり、経時的に追跡されるとき。	テンプレート: データカードテンプレートの完了におけるプロデューサーの成功率を測定します。たとえば、分析では、データカードテンプレートの完了率、リリースまでの時間、関連セクションの割合を追跡します。データカード: データカードに基づいて意思決定を行った読者の成功率を測定します。たとえば、定性調査では、読者を対象にインタビューや満足度調査を実施し、意思決定の精度やタスク完了率に関する分析情報を得ます。
エンゲージメント	データカードなど、視聴者がコンテンツにどれだけ積極的に関わっているかを追跡します。	テンプレート: データカードテンプレートが確立され、組織内で共有された後。データカード: データカードが、そのデータカードが表すデータセットとともに一般公開されている場合。この指標は、データカードが見つからない場合や、補完的ではなく競合するドキュメントソースがある場合は、あまり役に立ちません。	テンプレート: データセット作成者がデータカードプログラムにどの程度関与し、コミットしているかを測定します。次に例を示します。テンプレート共有率は、データカードテンプレートを他のデータセットオーナーと共有するプロデューサーの割合です。オーガニック作成率は、作成が必須ではないデータカードの割合です。回答の品質とは、データカードに表示される情報の正確性と有用性です。データカード: データカードの使用状況と、そこから得られた知識の生成状況を測定します。例: 再利用は、エージェントまたはデータセットユーザーがデータカードを参照して詳細情報を確認した回数を測定します。セクションごとのエンゲージメント指標を測定し、データカードのセクションごとのディープリンクの共有をトラッキングします。
リーチ	データカードを見た一意のユーザーの合計数をトラッキングします。これは、エンゲージメントやコンバージョンなどの追加指標の重要な先行指標です。	テンプレート: データカードテンプレートが確立され、組織内で共有された後。データカード: データカードが、そのデータカードが表すデータセットとともに一般公開されている場合。この指標は、データカードが見つからない場合や、補完的ではなく競合するドキュメントソースがある場合は、あまり役に立ちません。	テンプレート: 組織が保有するデータセットの数に対して、組織が生成できるデータカードの数を測定します。データカード: データカードが受け取るトラフィックと品質、およびデータセットに送られるトラフィックを測定します。たとえば、フリクションログは、データセットプロデューサーやデータカードの閲覧者がフォーカスグループセッション中に抱える可能性のある課題、困難、不満を追跡します。

詳細については、Telemetry at Scale をご覧ください。

これらのテレメトリー指標を運用するには、さまざまなレベルのリソースとサポートが必要になる場合があります。たとえば、データカードのクリエイター向け度合いを分析するフォーカスグループでは、データカードの完了率を記録する分析とはかなり異なるリソースセットが必要になります。同様に、データカードへのトラフィックを測定する方が、エンゲージメントレベルを分析する一連のリリース後のインタビューよりも必要なリソースが少なくなります。組織内の部門横断的な意思決定者とこれらのさまざまなカテゴリを確認して、影響の追跡にどのカテゴリを使用すべきか、どのように使用すべきかを判断できます。

概要

最終的に、データカードの影響を測定する指標は、データカードの完了に向けた進捗状況を測定する指標とは異なります。データセットの成熟度によって、データカードの指標の解釈が変わる可能性があります。データセットの成熟度と人気を考慮し、定量的、定性的、経験的な影響を総合的に検討します。

5. 指標を選択する

前述のように、透明性の目標を達成するために必要な指標は、コンテキストによって決まります。

指標を選択する手順は次のとおりです。

目標を多様化する。データカードの作成と公開後の進捗状況だけでなく、読者への影響も評価する透明性への取り組みについて、チームの目標を設定します。
先行指標と遅行指標を定義します。目標達成時期を示す遅延指標ごとに、目標達成に貢献する重要なアクティビティをトラッキングする先行指標を設定します。
補完的な質的調査のケイデンスを設定します。組織全体でデータカードを測定するために必要なインフラストラクチャをセットアップする際は、結果を検証し、定量的な指標を調整するために、定期的に定性調査を実施する計画を作成します。
個々のデータチームをトレーニングします。データセットとデータカードを作成するチームが、データセットとデータカードのコンテキスト内で定性的指標と定量的指標を同時に解釈できるようにします。

6. 完了

これで、データカードを作成するために必要なものはすべて揃っています。それでは、理解度を確認するためのクイズに挑戦してみましょう。