單元 1:詢問

1. 相關人員類型

在開始進行資料集文件透明度工作並建立資料資訊卡之前,請務必先找出並邀請資料集生命週期各階段的利害關係人。這項功能可提供您建立內容時所需的一切資訊,協助您做出更周全的考量,因此建立資料卡片時會更加輕鬆。

為協助您探索及瞭解跨職能利害關係人在資料集生命週期程序中的參與情形,我們建立了類型學,讓您發掘經常對個別利害關係人做出的假設。我們的類型學分為三類利害關係人,他們參與資料集的生命週期:生產者、代理人和使用者。

這項分類代表資料集及其文件不斷變化的需求和期望。沒有一體適用的解決方案。

製作人

製作人負責建立資料集和文件,並負責資料集的收集、擁有權、發布和維護。

從本質上來說,您可以將生產者視為負責資料集生產和發布,以及啟動、採用和/或成功的對象。

生產者也可能是招募來收集或標記資料的個人或群組,並在資料生命週期的各個階段,提供方法或解讀方面的建議。

視情況而定,製作人也可能代表您目前和未來的團隊成員、合作夥伴、客戶或資料代管平台,負責維護、部署及監控資料集。

代理商

代理商是利害關係人,會閱讀資料集說明文件或資料卡,以及其他機器學習 (ML) 模型相關說明文件,並有權使用或決定自己或他人如何使用所述資料集或 AI 系統。

視領域而定,代理程式可能具有作業或審查員角色,例如學術環境中的研究人員 (想評估資料集的適當用途),或是產品團隊的資料科學家 (想判斷資料集與產品整合的整體合適度)。

這項區別非常重要,因為審查者包括可能從未直接使用資料集,但仍會與資料卡互動的利害關係人,例如產業顧問、調查記者、社群代表和法律實體。服務專員可能具備或不具備技術專業知識,可瀏覽一般資料集文件中的資訊,但通常可視需要取得專業知識。

使用者

使用者是指與產品互動的個人和代表,這些產品會使用根據資料集訓練的模型。

使用者可能會同意在產品體驗中提供資料,但即使是資料集,他們通常也需要產品體驗中提供的另一組說明和控制選項。

摘要

下表依據說明、責任、範例和常見工作,歸納出利害關係人團體:

利害關係人團體

說明

責任

範例

一般工作

製作人

建立資料集和/或文件。

設計、建立、測試品質、記錄、發布、採用、維護及更新資料集。

研究人員、數據資料學家和分析師、軟體工程師,以及產品和計畫經理

資料集採用、揭露事項、因應未來、公平性和安全性,以及改善項目

代理程式

評估及使用資料集,用於工作、產品、機構或社群。

使用資料卡,但不一定會與資料集互動。

機器學習或產品工程師、研究人員、第三方供應商、主題專家、業界、顧問、政策專家、資料服務供應商,以及領導或管理階層

管理複雜性、負責、權衡取捨、部署至正式環境、封存

使用者

與使用製作人資料集的服務專員所建立的產品、裝置和應用程式互動。

可能透過產品提供資料,並為製作人和藝人提供實用信號。

資料貢獻者、產品使用者和使用者同類群組代表

使用產品、瞭解資料和隱私權、提供意見回饋及提出疑慮

2. 繪製利害關係人地圖

現在您已對我們的類型學有初步瞭解,可以透過這項基本對應活動,檢視資料集的生命週期,找出利害關係人。在完成活動的過程中,請記下可能與資料集或其文件互動的使用者。此外,也請考量利害關係人如何為資料卡做出貢獻。

如要繪製利害關係人地圖,請按照下列步驟操作:

  1. 列出製作資料資訊卡的製作人。

9019cf76931e3ae5.png

  1. 列出會讀取及使用資料資訊卡的服務專員。

a6c5bfc2fadd8cb5.png

  1. 列出會使用或受到資料集影響的使用者,如資料資訊卡所述。

210d18c6ec533955.png

  1. 請使用下列範本,建立利害關係人、他們在建立資料資訊卡時的角色,以及資料資訊卡用途的地圖。這張地圖可讓您直覺瞭解資料集文件下游需求,並在整個資料集文件程序中指派優先順序和責任。

d24cf1a113189a25.png

3. 服務專員資訊歷程 (AIJ)

繪製利害關係人地圖後,您就能判斷要在資料卡中向主要利害關係人 (也就是服務專員) 傳達哪些重要資訊,協助他們獲得成功。

一般來說,使用者與技術互動時的體驗稱為使用者歷程。不過,我們討論的是代理程式需要取得資料集相關資訊,才能做出明智決策,因此我們將這些體驗稱為「代理程式資訊歷程 (AIJ)」

AIJ 的目標是瞭解下列事項:

  • 代理程式可能需要資料集執行的工作。
  • 代理程式完成工作所需的資訊。
  • 服務專員推斷資訊的過程。

AIJ 包括:

51ce23c7a9aaa9e4.png

範例

舉例來說,假設其中一位代理人是資料科學家,數據資料學家的 AIJ 可能如下所示:

身為資料科學家,我想瞭解資料集的結構,因此我會詢問...

... 資料格式為何?

... what is the modality of the dataset?

... 資料集中有多少個特徵?

... how many features are engineered?

... 哪些特徵具有高度相關性?

... if there are any dependencies in the structure?

以下是另一個例子,假設代理商負責產品政策,並制定產品生產和開發相關指南:

身為政策助理,我想瞭解資料可能遭到濫用的方式,因此我會詢問...

... what was the intended use of the dataset?

... what application prompted the dataset creation?

... what are known dangerous or risky applications of the dataset?

... 特定群組的風險為何?

... how do intended uses of this dataset impact constituencies?

... 如何申請救濟?

4. 撰寫 AIJ

  1. 根據下列提示撰寫幾則 AIJ:

ab594f2e5ce86029.png

  1. 請注意,您不僅要考量利害關係人,還要思考他們在閱讀資料卡後,可能會想知道哪些問題的答案。這表示您離最終的資料資訊卡問題集又更近一步。

5. 光學

您可能已注意到,我們使用「觀點」、「鏡頭」和「範圍」等詞彙來架構 AIJ。雖然這些術語先前已定義,但實際上是引導式隱喻的一部分,我們稱之為「光學」。我們建立這些範例,是為了協助您思考代理程式如何瞭解資料集。

範圍

在光學領域,瞄準鏡會使用鏡片和鏡子來尋找、觀察、放大、反射,甚至是測試材料。就資料集而言,這是一個很棒的比喻,因為您會專注於問題並加以架構,以揭露明顯、不明顯、可見和不可見的層面。

我們將此稱為「範圍」,也就是連續提出一系列問題,藉此解讀資料集。透過堆疊不同精細程度的範圍,您可以建立內容,協助服務專員透過資訊公開報告,全面瞭解資料集。

下表列出架構中的三種範圍,以及說明、範例和用途:

範圍

說明

範例

Purpose

伸縮式

多個資料集常見的屬性相關問題。標記特徵

這個資料集是否包含個人識別資訊 (PII)?

介紹並設定其他資訊的背景資訊,協助服務專員瀏覽資料卡或透明度構件。

潛望鏡

與生產者資料集專屬的屬性相關問題。這些是觀察結果

有多少項功能包含 PII?

通常用於提供作業資訊,例如資料集的形狀和大小,或功能資訊,例如來源或意圖。

Microscopic

有關資料集無法觀察 的層面,例如決策、程序和影響。他們要求說明

這個資料集中的個人識別資訊是如何去識別化?

詳細說明決策,或摘要說明較長的程序文件,這些文件會控管對應的遠觀和近觀問題回覆。

在建立資料卡片的過程中,請務必考量這三種範圍。如果資料卡只顯示望遠鏡,表示資料集只有顯而易見的資訊,沒有任何獨特價值。如果資料卡只顯示潛望鏡,可能會過於技術性,而沒有任何脈絡、關聯性或重要性等詳細資料。如果資料卡只顯示顯微鏡,服務專員可能會輕易陷入細節,而忽略大方向。

因此我們發現,資料卡解讀結果會受到這些範圍層級的影響。這些問題可協助代理商和製作人評估風險、規劃因應措施,並在適當情況下找出改善資料集建立作業的機會。望遠鏡、潛望鏡和顯微鏡可提供實用詳細資料,讓眾多利害關係人瀏覽資料卡時不會迷失方向。

範例

在「代理程式資訊歷程 (AIJ)」部分,您看到了一些 AIJ 範例,包括資料科學家的 AIJ。仔細觀察該範例,您可能會發現可以依範圍將部分問題分組,包括下列問題:

身為資料科學家,我想瞭解資料集的結構,因此我會詢問...

Telescopic

... 資料格式為何?

... what is the modality of the dataset?

Periscopic

... 資料集中有多少個特徵?

... how many features are engineered?

Microscopic

... 哪些特徵具有高度相關性?

... if there are any dependencies in the structure?

您很可能已經想到一些望遠鏡式、潛望鏡式和顯微鏡式問題,並將代理商納入考量。

6. 使用範圍重組 AIJ

  • 如要使用範圍重組 AIJ,請使用下列範例提示:

2b6e2a7a041060f4.png

7. 恭喜

恭喜!您開始建立資料卡。現在可以開始評估問題了。