單元 2:檢查

1. 知識獲取

在探索利害關係人類型、掌握他們獨特的資訊需求,以及套用不同精細程度來架構問題時,主題自然會浮現。為協助您分類及整理問題主題,我們建立了知識獲取架構,提供穩健、審慎且可重複的方法,製作公開透明文件。

知識獲取是指從單一來源 (通常是人類專家) 擷取、建構及整理知識,以便用於您開發的產品或技術等。

我們的架構稱為 OFTEn,這項概念工具可系統性地考量主題在資料卡各部分中的傳播方式。我們透過詳細的歸納和演繹資料集透明度調查,建立這項工具。

OFTEn

OFTEn 是資料集生命週期一般階段的縮寫:Origins (來源)、Factuals (實際值)、Transformations (轉換)、Experience (體驗) 和 n = 1 (樣本)。

Origins

「來源」階段包含各種規劃活動,這些活動會決定最終結果,例如定義需求、收集或採購方法,以及設計和政策決策。

從來源類型問題中浮現的主題包括:

  • 作者和擁有者
  • 動機
  • 適用應用程式
  • 收集方法
  • 授權
  • 版本
  • 來源
  • Errata
  • 負責人

事實

「事實」階段代表描述資料集的統計和其他事實屬性、與原始計畫的偏差,以及任何前置處理分析。

從事實型問題中浮現的主題包括:

  • 執行個體數量
  • 特徵數量
  • 標籤數
  • 標籤來源
  • 資料來源
  • 子群組細目
  • 地圖項目形狀
  • 功能說明
  • 缺漏或重複
  • 納入條件

轉換

「轉換」階段會顯示標籤、註解或驗證工作的摘要。視資料集而定,這裡可能會出現評估者間的仲裁程序。此外,為處理隱私權、安全性或個人識別資訊 (PII) 而進行的特徵工程和修改,也算是轉換。

可擷取轉型類型問題的主題包括:

  • 評分或註解
  • 篩選
  • 處理中
  • 驗證
  • 統計屬性
  • 合成特徵
  • 處理 PII
  • 敏感變數
  • 對公平性的影響
  • 偏誤或偏見

資歷

在「體驗」階段,您會將資料用於特定工作、接受存取權訓練、進行修改以符合工作需求、取得結果並與其他類似資料集比較,以及記錄任何預期或非預期的行為。

說明體驗類型問題的主題包括:

  • 預期效能
  • 非預期用途
  • 效能不如預期
  • 注意事項
  • 深入分析
  • 觀光行程
  • 故事
  • 使用
  • 用途評估

n = 1 (樣本)

在 n = 1 (樣本) 階段,我們會深入瞭解分布資料點,展示具有特定屬性的重要資料點,並視情況對這些資料點的結果進行建模。

範例題型呈現的主題包括:

  • 典型範例和離群值的範例或連結。
  • 產生偽陽性或偽陰性結果的範例。
  • 範例:示範如何處理空值或零特徵值。

範例

舉例來說,下列問題集是使用 OFTEn 安排的:

參與者

結果

時間

地點

原因

做法

來源

資料集發布者是誰?與資料集擁有者有何不同?

為這個資料集聘用的資料標註者、供應商和專家,可獲得哪些獎勵?

這個資料集是何時建立的?已推出?

資金來源為何?

為什麼要建立這個資料集?先前的流程為何?

決定這些方法時的依據為何?有多少政黨參與其中?

實際資料

資料是關於誰?標籤人員是否能代表資料中的使用者?

資料中的哪些子群組可能會影響機器學習的結果?

資料代表的時間範圍為何?資料過期或異常耗用時?

資料集存取位置為何?資料是在哪裡收集或建立的?

為什麼選擇這些指標?為什麼選擇這些特定標籤?

資料集中有多少個不重複的標籤?這些內容是如何生成的?

轉換

這個資料集中的個人識別資訊處理方式為何?這個資料集的結果是否可用於識別個人身分?

您使用哪些方法清理或驗證這個資料集?

何時應設計特徵?如何設計?是否需要更新這些資訊?

位置資訊功能是否與其他私密功能相關?

為什麼所選轉換會套用至資料集?

如何處理資料中的偏誤或個人識別資訊?

體驗

誰可以使用這個資料集,以及用於哪些工作?是否需要接受任何訓練?

使用資料集時發現了哪些方法、結果或錯誤?

在哪些情況下不應使用這個資料集?

這項資料集可在全球哪些地區存取?這項功能已在哪些國家/地區推出?

為什麼資料集的預期表示方式與實際表示方式不同?

世界各地的數據費用有多高?

n = 1 (樣本)

資料點是典型還是非典型?模型在這裡的行為方式為何?

資料點的大小為何?如何透過同意、遮蓋和撤銷程序介入資料點?

資料點的結果何時會變更?透過反事實陳述顯示範例?

資料點中包含哪些因素?如果預測結果有誤,會有哪些風險?

為什麼這張圖片資料點會以特定方式裁剪?為什麼這個資料點沒有填入某些類別?

這個資料點與現實世界的輸入內容有何關聯?結果與現實世界的輸出內容有何關聯?

我們發現,只要資料卡具有清楚的基礎 OFTEn 結構,就能輕鬆擴充及更新。有了 OFTEn,資料卡片就能隨著時間擴充,納入通常不會出現在說明文件中的主題,例如下游代理商的意見回饋、各版本間的顯著差異,以及製作人或代理商的臨時稽核或調查。

摘要

下表總結 OFTEn 架構,並說明資料集生命週期的各個一般階段:

階段

說明

來源

資料集生命週期的早期階段,此時會決定是否要建立資料集。

實際資料

實際的資料收集程序和原始輸出內容。

轉換

透過篩選、驗證、剖析、格式化和清理等作業,將原始資料轉換為可用形式。

體驗

資料集已在實務中經過測試、基準化或部署 (實驗、正式或研究)。

n = 1 (樣本)

資料集中的實際樣本 (或插圖),代表正常資料點和離群值。

建立資料卡時,您可以使用兩種 OFTEn:

  • OFTEn 支援的活動包括:由代理程式針對資料集和相關模型提出問題,以利決策。我們發現,當許多專員齊聚一堂,以 OFTEn 結構集思廣益提出問題時,會揭露有助於做出目標決策的必要資訊。
  • 從演繹角度來看,OFTEn 可用於評估資料卡是否準確呈現資料集,進而對文件和資料集產生形成性影響。舉例來說,早期階段的資料集會更偏向「來源」和「事實」,而成熟的資料集則預期會偏向「體驗」。

有了 OFTEn,您就能集思廣益,並檢查問題是否涵蓋資料集生命週期,確保最終內容全面且精簡。這項功能不僅能協助您找出所建立問題類型中的重複內容,還能解決您在過程中發現的任何缺口。

2. 使用 OFTEn 架構問題

  1. 回想您在上一個單元中擬定的部分利害關係人和服務專員資訊歷程 (AIJ),然後使用下列提示來整理想法。

9bd35227601ae104.png

  1. 如果部分問題已歸入 OFTEn 類別,請加上標籤。
  2. 如果你的問題不屬於 OFTEn 類別,請從上一個單元選擇一位服務專員,然後為該專員的每個 OFTEn 類別建立至少一個問題。
  3. 根據 5W1H (是誰、是什麼、在哪裡、何時、為什麼和如何) 建立其他問題,深入瞭解 OFTEn 類別。
  4. 如有需要,請對下一個代理程式重複這些步驟。

3. 尺寸

瞭解 OFTEn 並建立要納入資料卡的問題後,您就可以開始初步檢視資料卡,找出問題的洞察資訊。為此,我們推出了維度,這是讀者所做各種判斷的高階說明,可提供資料資訊卡實用性和可讀性的方向性洞察。換句話說,資料卡是否能幫助讀者對資料集做出明智的結論?

負責人

負責的資料卡由專人擁有及維護,這些人對資料集及其用途展現充分的責任感、反思、推理和系統性決策能力。

範例區域

範例問題

作者、責任、維護、意圖

以「[perspective]」身分,我想瞭解...

...資料集發布者。

...資料集的存取限制和政策。

...建立資料集的說明和動機。

實用性或用途

實用的資料資訊卡會提供詳細資料,滿足讀者的資訊需求,進而促成負責任的決策程序,判斷資料集是否適合用於工作和目標。

範例區域

範例問題

製作人需求、藝人需求、使用者需求、社會需求

身為 [perspective],我想瞭解...

...文件中使用的技術用語 (指標、分數、產業專用術語、縮寫) 的定義和說明。

...使用資料集與其他資料集或表格時的預期情況 (特徵工程、聯結、取樣和比較分析)。

...資料集的預期用途。

品質

高品質的資料卡會摘要說明資料集的嚴謹度、完整性和完整性,通常會以不同背景的讀者都能理解的方式呈現。

範例區域

範例問題

效度、信度、完整性、可重現性

以 [觀點]來說,我想瞭解...

...資料集中是否有任何已知模式 (關聯性、偏誤或偏差)。

...任何資料集驗證程序、說明和結果。

...資料集套用了哪些隱私權和安全性措施。

使用後果或影響

資料卡會詳細說明資料集使用情況的影響,讓使用者瞭解使用及管理資料集時的預期結果,並確認可能對讀者目標造成負面影響的一階或二階後果。

範例區域

範例問題

有效性、相關性、群組效益、偏差影響

以 [perspective]身分,我想瞭解...

...資料集的過去使用情況和相關聯的成效 (例如訓練的模型)

...與資料集相關聯的政策 (例如授權)

...資料集中是否有任何已知模式 (關聯性、偏誤或偏差)。

風險和建議

提供良好建議的資料卡會讓讀者瞭解已知和潛在風險,以及因出處、呈現方式、用途或使用情境而產生的限制,並提供足夠的資訊和替代方案,協助讀者做出負責任的取捨。

範例區域

範例問題

風險程度、緩解措施、建議、群體傷害

身為 [觀點],我想瞭解...

...使用資料集的安全性 (風險、限制和取捨)。

...資料集中任何社會文化、地理或經濟方面的人口代表性。

...資料集或其文件是否缺少屬性。

摘要

您可以透過維度評估問題集,確保問題符合目標和預期結果。即使您尚未在資料卡中回答問題,最好還是先找出錯誤,以免在資料集文件程序中越陷越深。

下表摘要說明這五個維度:

階段

說明

可靠性

這些聲明表達不同利害關係人對資料集信任度的反思、合理和系統性決策。

公用程式

提供詳細資料,滿足讀者負責決策程序的需求,並根據目標建立適用的用途。

品質

以許多讀者都能理解的方式,總結資料集的嚴謹度、完整性和完整性。

影響和後果

這類資訊可協助讀者在使用及管理資料集時達成理想結果,並瞭解可能對目標造成負面影響的後果。

風險和建議

讓讀者瞭解與資料集相關的已知和潛在風險,這些風險源自於資料的呈現方式、用途或使用情境。

透過這些不同類型的維度,您甚至可以在開始填寫資料卡之前,就發掘有關資料卡內容品質、可讀性和實用性的洞察資訊。這些建議可協助您找出有助於改善資料資訊卡範本的行動項目。

4. 使用維度評估問題

  1. 先從單一維度開始,然後根據問題集的複雜程度,判斷需要多少流暢度和專業知識,才能得出有根據的結論。
  2. 請說明目前的問題集支援該維度的程度。
  3. 從問題集中提供一到兩個問題做為範例,證明您的理由。
  4. 如果維度不盡理想,請記下必須採取的步驟,以改善或解決缺點。如果您與一組利害關係人合作,請指派責任,因為某些利害關係人可能更適合處理特定問題。
  5. 針對下一個維度重複上述步驟。

以下是範本範例,可用於擷取維度評估結果:

3f33557b62abe5ce.png

視您建立的問題數量,以及需要納入資料卡考量的利害關係人多樣性而定,這項評估程序可能需要 15 分鐘到 1 小時。

5. 恭喜

恭喜!您可以檢查為資料資訊卡建立的問題。現在可以回答這些問題了。