1. 知識獲取
在探索利害關係人類型、掌握他們獨特的資訊需求,以及套用不同精細程度來架構問題時,主題自然會浮現。為協助您分類及整理問題主題,我們建立了知識獲取架構,提供穩健、審慎且可重複的方法,製作公開透明文件。
知識獲取是指從單一來源 (通常是人類專家) 擷取、建構及整理知識,以便用於您開發的產品或技術等。
我們的架構稱為 OFTEn,這項概念工具可系統性地考量主題在資料卡各部分中的傳播方式。我們透過詳細的歸納和演繹資料集透明度調查,建立這項工具。
OFTEn
OFTEn 是資料集生命週期一般階段的縮寫:Origins (來源)、Factuals (實際值)、Transformations (轉換)、Experience (體驗) 和 n = 1 (樣本)。
Origins
「來源」階段包含各種規劃活動,這些活動會決定最終結果,例如定義需求、收集或採購方法,以及設計和政策決策。
從來源類型問題中浮現的主題包括:
- 作者和擁有者
- 動機
- 適用應用程式
- 收集方法
- 授權
- 版本
- 來源
- Errata
- 負責人
事實
「事實」階段代表描述資料集的統計和其他事實屬性、與原始計畫的偏差,以及任何前置處理分析。
從事實型問題中浮現的主題包括:
- 執行個體數量
- 特徵數量
- 標籤數
- 標籤來源
- 資料來源
- 子群組細目
- 地圖項目形狀
- 功能說明
- 缺漏或重複
- 納入條件
轉換
「轉換」階段會顯示標籤、註解或驗證工作的摘要。視資料集而定,這裡可能會出現評估者間的仲裁程序。此外,為處理隱私權、安全性或個人識別資訊 (PII) 而進行的特徵工程和修改,也算是轉換。
可擷取轉型類型問題的主題包括:
- 評分或註解
- 篩選
- 處理中
- 驗證
- 統計屬性
- 合成特徵
- 處理 PII
- 敏感變數
- 對公平性的影響
- 偏誤或偏見
資歷
在「體驗」階段,您會將資料用於特定工作、接受存取權訓練、進行修改以符合工作需求、取得結果並與其他類似資料集比較,以及記錄任何預期或非預期的行為。
說明體驗類型問題的主題包括:
- 預期效能
- 非預期用途
- 效能不如預期
- 注意事項
- 深入分析
- 觀光行程
- 故事
- 使用
- 用途評估
n = 1 (樣本)
在 n = 1 (樣本) 階段,我們會深入瞭解分布資料點,展示具有特定屬性的重要資料點,並視情況對這些資料點的結果進行建模。
範例題型呈現的主題包括:
- 典型範例和離群值的範例或連結。
- 產生偽陽性或偽陰性結果的範例。
- 範例:示範如何處理空值或零特徵值。
範例
舉例來說,下列問題集是使用 OFTEn 安排的:
參與者 | 結果 | 時間 | 地點 | 原因 | 做法 | |
來源 | 資料集發布者是誰?與資料集擁有者有何不同? | 為這個資料集聘用的資料標註者、供應商和專家,可獲得哪些獎勵? | 這個資料集是何時建立的?已推出? | 資金來源為何? | 為什麼要建立這個資料集?先前的流程為何? | 決定這些方法時的依據為何?有多少政黨參與其中? |
實際資料 | 資料是關於誰?標籤人員是否能代表資料中的使用者? | 資料中的哪些子群組可能會影響機器學習的結果? | 資料代表的時間範圍為何?資料過期或異常耗用時? | 資料集存取位置為何?資料是在哪裡收集或建立的? | 為什麼選擇這些指標?為什麼選擇這些特定標籤? | 資料集中有多少個不重複的標籤?這些內容是如何生成的? |
轉換 | 這個資料集中的個人識別資訊處理方式為何?這個資料集的結果是否可用於識別個人身分? | 您使用哪些方法清理或驗證這個資料集? | 何時應設計特徵?如何設計?是否需要更新這些資訊? | 位置資訊功能是否與其他私密功能相關? | 為什麼所選轉換會套用至資料集? | 如何處理資料中的偏誤或個人識別資訊? |
體驗 | 誰可以使用這個資料集,以及用於哪些工作?是否需要接受任何訓練? | 使用資料集時發現了哪些方法、結果或錯誤? | 在哪些情況下不應使用這個資料集? | 這項資料集可在全球哪些地區存取?這項功能已在哪些國家/地區推出? | 為什麼資料集的預期表示方式與實際表示方式不同? | 世界各地的數據費用有多高? |
n = 1 (樣本) | 資料點是典型還是非典型?模型在這裡的行為方式為何? | 資料點的大小為何?如何透過同意、遮蓋和撤銷程序介入資料點? | 資料點的結果何時會變更?透過反事實陳述顯示範例? | 資料點中包含哪些因素?如果預測結果有誤,會有哪些風險? | 為什麼這張圖片資料點會以特定方式裁剪?為什麼這個資料點沒有填入某些類別? | 這個資料點與現實世界的輸入內容有何關聯?結果與現實世界的輸出內容有何關聯? |
我們發現,只要資料卡具有清楚的基礎 OFTEn 結構,就能輕鬆擴充及更新。有了 OFTEn,資料卡片就能隨著時間擴充,納入通常不會出現在說明文件中的主題,例如下游代理商的意見回饋、各版本間的顯著差異,以及製作人或代理商的臨時稽核或調查。
摘要
下表總結 OFTEn 架構,並說明資料集生命週期的各個一般階段:
階段 | 說明 |
來源 | 資料集生命週期的早期階段,此時會決定是否要建立資料集。 |
實際資料 | 實際的資料收集程序和原始輸出內容。 |
轉換 | 透過篩選、驗證、剖析、格式化和清理等作業,將原始資料轉換為可用形式。 |
體驗 | 資料集已在實務中經過測試、基準化或部署 (實驗、正式或研究)。 |
n = 1 (樣本) | 資料集中的實際樣本 (或插圖),代表正常資料點和離群值。 |
建立資料卡時,您可以使用兩種 OFTEn:
- OFTEn 支援的活動包括:由代理程式針對資料集和相關模型提出問題,以利決策。我們發現,當許多專員齊聚一堂,以 OFTEn 結構集思廣益提出問題時,會揭露有助於做出目標決策的必要資訊。
- 從演繹角度來看,OFTEn 可用於評估資料卡是否準確呈現資料集,進而對文件和資料集產生形成性影響。舉例來說,早期階段的資料集會更偏向「來源」和「事實」,而成熟的資料集則預期會偏向「體驗」。
有了 OFTEn,您就能集思廣益,並檢查問題是否涵蓋資料集生命週期,確保最終內容全面且精簡。這項功能不僅能協助您找出所建立問題類型中的重複內容,還能解決您在過程中發現的任何缺口。
2. 使用 OFTEn 架構問題
- 回想您在上一個單元中擬定的部分利害關係人和服務專員資訊歷程 (AIJ),然後使用下列提示來整理想法。
- 如果部分問題已歸入 OFTEn 類別,請加上標籤。
- 如果你的問題不屬於 OFTEn 類別,請從上一個單元選擇一位服務專員,然後為該專員的每個 OFTEn 類別建立至少一個問題。
- 根據 5W1H (是誰、是什麼、在哪裡、何時、為什麼和如何) 建立其他問題,深入瞭解 OFTEn 類別。
- 如有需要,請對下一個代理程式重複這些步驟。
3. 尺寸
瞭解 OFTEn 並建立要納入資料卡的問題後,您就可以開始初步檢視資料卡,找出問題的洞察資訊。為此,我們推出了維度,這是讀者所做各種判斷的高階說明,可提供資料資訊卡實用性和可讀性的方向性洞察。換句話說,資料卡是否能幫助讀者對資料集做出明智的結論?
負責人
負責的資料卡由專人擁有及維護,這些人對資料集及其用途展現充分的責任感、反思、推理和系統性決策能力。
範例區域 | 範例問題 |
作者、責任、維護、意圖 | 以「[perspective]」身分,我想瞭解... |
實用性或用途
實用的資料資訊卡會提供詳細資料,滿足讀者的資訊需求,進而促成負責任的決策程序,判斷資料集是否適合用於工作和目標。
範例區域 | 範例問題 |
製作人需求、藝人需求、使用者需求、社會需求 | 身為 [perspective],我想瞭解... |
品質
高品質的資料卡會摘要說明資料集的嚴謹度、完整性和完整性,通常會以不同背景的讀者都能理解的方式呈現。
範例區域 | 範例問題 |
效度、信度、完整性、可重現性 | 以 [觀點]來說,我想瞭解... |
使用後果或影響
資料卡會詳細說明資料集使用情況的影響,讓使用者瞭解使用及管理資料集時的預期結果,並確認可能對讀者目標造成負面影響的一階或二階後果。
範例區域 | 範例問題 |
有效性、相關性、群組效益、偏差影響 | 以 [perspective]身分,我想瞭解... |
風險和建議
提供良好建議的資料卡會讓讀者瞭解已知和潛在風險,以及因出處、呈現方式、用途或使用情境而產生的限制,並提供足夠的資訊和替代方案,協助讀者做出負責任的取捨。
範例區域 | 範例問題 |
風險程度、緩解措施、建議、群體傷害 | 身為 [觀點],我想瞭解... |
摘要
您可以透過維度評估問題集,確保問題符合目標和預期結果。即使您尚未在資料卡中回答問題,最好還是先找出錯誤,以免在資料集文件程序中越陷越深。
下表摘要說明這五個維度:
階段 | 說明 |
可靠性 | 這些聲明表達不同利害關係人對資料集信任度的反思、合理和系統性決策。 |
公用程式 | 提供詳細資料,滿足讀者負責決策程序的需求,並根據目標建立適用的用途。 |
品質 | 以許多讀者都能理解的方式,總結資料集的嚴謹度、完整性和完整性。 |
影響和後果 | 這類資訊可協助讀者在使用及管理資料集時達成理想結果,並瞭解可能對目標造成負面影響的後果。 |
風險和建議 | 讓讀者瞭解與資料集相關的已知和潛在風險,這些風險源自於資料的呈現方式、用途或使用情境。 |
透過這些不同類型的維度,您甚至可以在開始填寫資料卡之前,就發掘有關資料卡內容品質、可讀性和實用性的洞察資訊。這些建議可協助您找出有助於改善資料資訊卡範本的行動項目。
4. 使用維度評估問題
- 先從單一維度開始,然後根據問題集的複雜程度,判斷需要多少流暢度和專業知識,才能得出有根據的結論。
- 請說明目前的問題集支援該維度的程度。
- 從問題集中提供一到兩個問題做為範例,證明您的理由。
- 如果維度不盡理想,請記下必須採取的步驟,以改善或解決缺點。如果您與一組利害關係人合作,請指派責任,因為某些利害關係人可能更適合處理特定問題。
- 針對下一個維度重複上述步驟。
以下是範本範例,可用於擷取維度評估結果:
視您建立的問題數量,以及需要納入資料卡考量的利害關係人多樣性而定,這項評估程序可能需要 15 分鐘到 1 小時。
5. 恭喜
恭喜!您可以檢查為資料資訊卡建立的問題。現在可以回答這些問題了。