モジュール 2: 検査

1. 知識の獲得

テーマは、ステークホルダーの分類を検討し、独自の情報ニーズを把握し、さまざまな粒度を適用して質問を組み立てるうちに自然に生まれます。質問のテーマを分類して構造化するために、透明性ドキュメントを作成するための堅牢で慎重かつ反復可能なアプローチを提供する知識獲得フレームワークを作成しました。

知識獲得とは、通常は人間の専門家である 1 つのソースから知識を抽出、構造化、整理して、たとえば、作業中の製品やテクノロジーで使用できるようにすることです。

このフレームワークは OFTEn と呼ばれ、データカードのすべての部分でトピックがどのように普及するかを体系的に検討するためのコンセプト ツールです。これは、データセットの透明性に関する詳細な帰納的および演繹的調査を通じて作成されました。

OFTEn

OFTEn は、データセット ライフサイクルの一般的なステージの略語です。Origins(起点)、Factuals(実績)、Transformations(変換)、Experience(エクスペリエンス)、n = 1(サンプル)の頭文字を取っています。

Origins

Origins ステージでは、要件の定義、収集または調達方法、設計とポリシーの決定など、最終結果を決定するさまざまな計画アクティビティが行われます。

起源に関する質問から浮かび上がってくるテーマには、次のようなものがあります。

  • 作成者とオーナー
  • 目的
  • 想定される用途
  • 収集方法
  • ライセンス
  • バージョン
  • ソース
  • 誤記
  • 説明責任者

Factuals

事実ステージは、データセットを記述する統計的属性やその他の事実属性、元の計画からの逸脱、事前処理分析を表します。

事実に関する質問から浮かび上がったテーマは次のとおりです。

  • インスタンス数
  • 対象物の数
  • ラベル数
  • ラベルのソース
  • データのソース
  • サブグループの内訳
  • 特徴の形状
  • 機能の説明
  • 欠落または重複
  • 利用条件

変換

[変換] ステージには、ラベル付け、アノテーション、検証タスクの概要が表示されます。データセットによっては、ここで採点者間の裁定プロセスが発生する可能性があります。また、プライバシー、セキュリティ、個人を特定できる情報(PII)を処理するために行われた特徴エンジニアリングと変更も変換としてカウントされます。

変換タイプの質問を捉えるテーマには、次のようなものがあります。

  • 評価またはアノテーション
  • フィルタリング
  • 処理中
  • 検証
  • 統計プロパティ
  • 合成機能
  • PII の取り扱い
  • 機密性の高い変数
  • 公平性への影響
  • 歪みまたはバイアス

経験

Experience ステージでは、特定のタスクにデータを使用し、アクセス トレーニングを受け、タスクに合わせて変更を行い、結果を取得して他の類似データセットと比較し、予期される動作と予期しない動作をメモします。

エクスペリエンスに関する質問のテーマには、次のようなものがあります。

  • 意図したパフォーマンス
  • 意図しないアプリケーション
  • 予期しないパフォーマンス
  • 注意点
  • 分析情報
  • ウェブサイト エクスペリエンス
  • ストーリー
  • 使用
  • ユースケースの評価

n = 1(サンプル)

n = 1(サンプル)ステージでは、分布データポイントのインとアウト、特定の属性を持つ注目すべきデータポイントのデモンストレーション、該当する場合はそれらの結果のモデリングを行います。

サンプルタイプの質問で示されるテーマは次のとおりです。

  • 一般的な例と外れ値の例またはリンク。
  • 誤検出または検知漏れが発生する例。
  • 特徴値が null またはゼロの場合の処理を示す例。

たとえば、OFTEn を使用して次の質問セットが作成されました。

対象

概要

日付

場所

理由

方法

送信元

データセットを公開しているのは誰ですか?データセットの所有者とは異なりますか?

このデータセットで使用されるデータ ラベラー、プロバイダ、専門家に対するインセンティブは何ですか?

このデータセットはいつ作成されましたか?リリース済み?

資金はどこから提供されましたか?

このデータセットが作成された理由以前のプロセスはどうでしたか?

方法はどのように決定され、何人が関与しましたか?

事実

データは誰に関するものですか?ラベル付け担当者は、データ内の人々を代表していますか?

ML の結果に影響を与える可能性のあるデータのサブグループは何ですか?

このデータはどの期間を表していますか?データが期限切れになった場合や、異常な動作が発生した場合

データセットにアクセスできる場所データはどこで収集または作成されましたか?

報告された指標が選択された理由は何ですか?特定のラベルが選択された理由

データセットには固有のラベルがいくつありますか?これらはどのように生成されましたか?

変換

このデータセットでは PII はどのように処理されましたか?このデータセットの結果を使用して個人を特定できますか?

このデータセットのクリーニングまたは検証にはどのような方法が使用されましたか?

特徴をエンジニアリングするタイミングと方法これらを更新する必要がありますか?

位置情報の特徴は他のセンシティブな特徴と相関関係がありますか?

選択した変換がデータセットに適用された理由。

データ内のバイアスや個人情報(PII)はどのように処理されますか?

エクスペリエンス

このデータセットは誰がどのようなタスクに使用できますか?必要なトレーニングはありますか?

データセットの使用時に検出された方法、結果、エラー

このデータセットを使用すべきでない状況とタイミングはいつですか?

このデータセットは世界のどこでアクセスできますか?どこで使用されているか?

データセットの想定される表現と観測された表現が異なるのはなぜですか?

世界各地のデータ料金はどのくらいですか?

n = 1(サンプル)

データポイントは一般的ですか、それとも一般的ではありませんか?この場合のモデルの動作はどうなりますか?

データポイントのサイズはどれくらいですか?データポイントに介入するための同意、編集、取り消しのプロセスを教えてください。

データポイントの結果はいつ変更されますか?反事実的推論で例を示すか?

データポイントにはどのような要素が組み込まれていますか?予測が間違っていた場合のリスクは何ですか?

この画像データポイントが特定の形で切り抜かれているのはなぜですか?このデータポイントに特定のカテゴリが入力されないのはなぜですか?

このデータポイントは現実世界の入力とどのように関連していますか?結果は現実世界の出力とどのように関連していますか?

明確な基盤となる OFTEn 構造を持つデータカードは、拡張や更新が容易であることがわかりました。OFTEn を使用すると、データカードは時間の経過とともに、通常はドキュメントから除外されるトピック(下流のエージェントからのフィードバック、バージョン間の顕著な違い、プロデューサーやエージェントによるアドホックな監査や調査など)を含むように拡張できます。

概要

次の表は、OFTEn フレームワークの概要と、データセットのライフサイクルの一般的なステージを示しています。

ステージ

説明

送信元

データセットの作成を決定するデータセットのライフサイクルの初期段階。

事実

実際のデータ収集プロセスと未加工の出力。

変換

元データは、フィルタリング、検証、解析、形式設定、クリーンアップなどのオペレーションによって、使用可能な形式に変換されます。

エクスペリエンス

データセットがテスト、ベンチマーク、または実際にデプロイされている(試験運用、本番環境、研究)。

n = 1(サンプル)

通常のデータポイントと外れ値を表すデータセットの実際のサンプル(またはビネット)。

データカードを作成する際に OFTEn を使用する方法は 2 つあります。

  • 帰納的に、OFTEn はエージェントとのアクティビティをサポートし、意思決定に不可欠なデータセットと関連モデルに関する質問を定式化します。多くのエージェントが集まって OFTEn 構造で質問をブレインストーミングすると、的を絞った意思決定に必要な情報が明らかになります。
  • 演繹的に、OFTEn を使用して、データカードがデータセットを正確に表しているかどうかを評価できます。これにより、ドキュメントとデータセットに形成的な影響が及びます。たとえば、初期段階のデータセットは Origins と Factuals に偏っている傾向がありますが、成熟したデータセットは Experience に偏っていることが想定されます。

OFTEn を使用すると、質問のブレインストーミングを行い、質問がデータセットのライフサイクルをどの程度カバーしているかを確認できます。これにより、コンテンツが最終的に包括的で効率的なものになります。作成する質問の種類に重複がないか確認できるだけでなく、途中で見つかったギャップにも対応できます。

2. OFTEn を使用して質問を組み立てる

  1. 前のモジュールで作成したステークホルダーとエージェントの情報ジャーニー(AIJ)について考え、次のプロンプトを使用して考えを整理します。

9bd35227601ae104.png

  1. 質問の一部がすでに OFTEn のカテゴリのいずれかに該当する場合は、そのようにラベル付けします。
  2. 質問が OFTEn のいずれかのカテゴリに該当しない場合は、前のモジュールからエージェントを 1 人選択し、OFTEn のカテゴリごとに少なくとも 1 つの質問を作成します。
  3. 5 つの W(誰が、何を、どこで、いつ、なぜ)と 1 つの H(どのように)に基づいて質問を追加し、OFTEn カテゴリの深さを広げます。
  4. 該当する場合は、次のエージェントについても上記の手順を繰り返します。

3. ディメンション

OFTEn を理解し、データカードに含める質問を作成したら、データカードの最初のパスを実行して、質問に関する分析情報を明らかにします。そこで、読者が行うさまざまな種類の判断を大まかに説明するディメンションを導入します。これにより、データカードの有用性と読みやすさに関する方向性のある分析情報が得られます。つまり、データカードは、読者がデータセットについて十分な情報に基づいて結論を導き出すのに役立つかということです。

Accountable

説明責任のあるデータカードは、データセットとその使用に関して適切な所有権、考察、推論、体系的な意思決定を示すユーザーが所有し、管理します。

質問の例

作成者、責任、メンテナンス、意図

[視点] として、データセットのパブリッシャーについて知りたい。

データセットのアクセス制限とポリシーについて知りたい。

データセットの作成理由と動機について知りたい。

ユーティリティまたは使用

有用なデータカードには、読者の情報ニーズを満たす詳細が記載されています。これにより、データセットがタスクや目標に適しているかどうかを判断する責任ある意思決定プロセスが確立されます。

質問の例

生産者のニーズ、エージェントのニーズ、ユーザーのニーズ、社会のニーズ

[視点] として、次のことを知りたい。

...ドキュメントで使用されている技術用語(指標、スコア、業界固有の用語、頭字語)の定義と説明。

...データセットを他のデータセットやテーブルで使用する際の期待値(特徴エンジニアリング、結合、サンプリング、比較分析)。

...データセットの想定される用途。

品質

高品質のデータカードは、データセットの厳密性、完全性、完全性を要約したもので、さまざまなバックグラウンドを持つ読者が理解しやすい方法で伝えられることがよくあります。

質問の例

妥当性、信頼性、完全性、再現性

[視点] として、次のことを知りたいです。

...データセット内の既知のパターン(相関関係、バイアス、歪度)があるかどうか。

...データセットの検証プロセス、説明、結果。

...データセットに適用されたプライバシーとセキュリティ対策。

使用による影響または結果

データセットの使用の影響を十分に説明するデータカードは、データセットの使用と管理における結果の期待値を設定し、読者の目標に悪影響を及ぼす可能性のある 1 次または 2 次の結果を認識します。

質問の例

有効性、関連性、グループのメリット、逸脱の影響

[視点] として、次のことを知りたい。

...データセットの過去の使用状況と関連するパフォーマンス(トレーニング済みのモデルなど)

...データセットに関連付けられたポリシー(ライセンスなど)

...データセットに既知のパターン(相関関係、バイアス、歪度)があるかどうか。

リスクと推奨事項

優れた推奨事項を提供するデータカードは、読者に既知のリスクと潜在的なリスク、およびデータの来歴、表現、使用、使用コンテキストに起因する制限事項を認識させ、読者が責任あるトレードオフを行うのに役立つ十分な情報と代替案を提供します。

質問の例

リスクの大きさ、軽減策、推奨事項、グループへの危害

[視点] として、次のことを知りたいです。

...データセットの使用の安全性(リスク、制限事項、トレードオフ)。

...データセット内の人々の社会文化的、地理的、経済的表現。

...データセットまたはそのドキュメントに欠落している属性があるかどうか。

概要

ディメンションを使用すると、質問のセットを評価して、目標と望ましい結果に沿っていることを確認できます。データカードで質問にまだ回答していなくても、データセットのドキュメント作成プロセスに深く関わる前に、間違いを修正しておくことをおすすめします。

次の表に、5 つのディメンションの概要を示します。

ステージ

説明

アカウンタビリティ

データセットの信頼性に関するさまざまな関係者の内省的、合理的、体系的な意思決定を表すステートメント。

ユーティリティ

読者の責任ある意思決定プロセスに必要な詳細情報を提供し、目標に関連するユースケースの適合性を確立します。

品質

多くの読者が理解できるように、データセットの厳密性、完全性、完全性を要約します。

影響と結果

読者がデータセットを使用および管理する際に望ましい結果を達成するのに役立つ情報。目標に悪影響を及ぼす可能性のある結果を認識している。

リスクと推奨事項

データセットに関連する既知のリスクと潜在的なリスク(表現、使用、使用コンテキストに起因するもの)を読者に認識させます。

これらのさまざまな種類のディメンションを使用すると、データカードのコンテンツの品質、読みやすさ、有用性に関する分析情報を、データカードの完成前に把握できます。これらは、より堅牢で洗練されたデータカード テンプレートに貢献するアクション アイテムを特定するのに役立ちます。

4. ディメンションを使用して質問を評価する

  1. まず 1 つのディメンションから始め、質問セットの複雑さに基づいて、十分な情報に基づいた結論に達するために必要な流暢さと専門知識のレベルを判断します。
  2. そのディメンションが質問セットでどの程度サポートされているかについての根拠と理由を説明します。
  3. 質問セットから 1 つか 2 つの質問例を挙げて、根拠を裏付ける証拠を提示します。
  4. ディメンションが望ましくないと思われる場合は、欠点を修正または解消するために必要な手順をメモします。複数の関係者で構成されるチームで作業している場合は、特定の質問への対応に長けている関係者に責任を割り当てます。
  5. 次のディメンションについても、上記の手順を繰り返します。

ディメンションの評価をキャプチャするために使用できるテンプレートの例を次に示します。

3f33557b62abe5ce.png

この評価プロセスには、作成する質問の数と、データカードで考慮する必要があるさまざまな関係者の数に応じて、15 分から 1 時間ほどかかることがあります。

5. 完了

これで、データカード用に作成した質問を確認する方法があります。これで、質問に答える準備が整いました。