1. 歸納重點
您決定要在資料資訊卡中加入一組問題,這些問題對讀者來說非常重要。不過,這並非只是回答這些問題,然後就稱為資料卡。請仔細考量,確保最終的資料資訊卡能提供最佳讀者體驗。
使用者閱讀資料資訊卡時,通常是為了做出非常具體的決策,例如:
- 這個資料集是否適合我的用途?
- 我可以讓其他人使用這個資料集嗎?
- 如何安全地使用這個資料集,同時避免模型風險?
如果讀者能有效率地存取正確資訊,就能在自己的情境中,非常熟練地做出與資料集相關的決策。資訊的重要性或實用性取決於讀者必須做出的決策類型和讀者的背景。舉例來說,在決定是否使用資料集時,法規遵循主管可能會查看相關聯的授權,但工程師會查看技術堆疊。兩位讀者都提出相同的問題,但期望得到不同的答案。
資料資訊卡應全面說明資料集,讓讀者能放心做出決策。這些詳盡的說明可協助您決定希望讀者從資料卡中獲得哪些資訊,並判斷要在資料卡中記錄哪些準確、可靠且有條理的資訊。當然,挑戰在於無法判斷資料卡讀者可能需要做出的所有決策。
2. 規劃資訊卡
- 如要判斷資料資訊卡讀者需要做出的決策,以及資料資訊卡應包含多少詳細資料,請回答下表各類別的問題:
讀者 | 決策 | 目標 | 關聯性 | Nuance |
主要目標對象是誰? | 他們會對資料集做出哪些決策? | 他們希望從資料資訊卡取得哪些資訊? | 他們需要資料卡中的哪些特定內容,才能達成目標? | 根據您對讀者的瞭解,內容必須多麼詳細或細緻? |
範例:製作軟體工程師 | 範例:我是否應該使用資料集,測試正式環境中的機器學習 (ML) 模型? | 範例:請簡要說明資料集。請說明實作方式。 | 示例:預期用途和不當用途、過去的使用情形,以及過去模型的使用結果。 | 示例:高度細微。著重於技術用途和可用性,以便整合至生產系統。 |
您可以利用表格評估資料資訊卡,確保高優先順序的讀者認為資料資訊卡實用。評估資料資訊卡的方法有很多種,我們建議您評估可用性嚴重程度。
雖然精確定義可能有所不同,但下列嚴重程度分級可評估某個項目損壞的程度,以及問題的影響,而不考慮優先順序。在此情況下,我們指的是資料卡片的可用性,如果未解決,可能會影響讀者對資料卡片的信任度,以及資料卡片的實用性。
- 如要評估資料卡狀態對先前表格中各個目標對象群組的實用程度,請根據下列嚴重程度量表回答問題:
違規事項 | 嚴重性 | 修正 |
哪些答案對讀者沒有幫助? | 以 1 到 5 分表示,這個問題的緊急程度?(勾選適用的核取方塊):
| 解決方法是什麼? |
3. 目標是剛好足夠
通常在您建立第一個資料卡時,會發生下列兩種情況之一:
- 資訊過多會讓讀者感到疲乏。
- 資訊過少會讓讀者感到困惑。
身為資料資訊卡的建立者,您需要管理並優先處理其中的資訊。良好的透明度構件可為讀者提供足夠的脈絡,讓他們清楚瞭解情況。如果沒有,則會告知他們接下來該怎麼做。
您希望提供資訊,讓資料集容易瞭解及使用。有時資料集會變得更加複雜,影響您需要在資料卡中摘要的資訊和說明密度。
無論讀者的專業程度如何,都可能遇到資訊過載的情況,因此請務必呈現正確資訊,包括:
- 您應提供的資訊類型。
- 你提供的資訊量。
- 其中的詳細資料。
請盡量簡要說明所有內容,並反映讀者瞭解資料集所需的背景資訊。
啟發式
我們建立了一組啟發式方法,可用於評估讀取資料資訊卡的整體體驗。我們將這些啟發式方法視為資料資訊卡必須達成的目標,才能在實務中大規模成功採用。下表列出這些目標及其說明:
目標 | 說明 |
一致 | 無論資料模式或網域為何,資料資訊卡都必須具有可比較性,方便使用者在特定情境中解讀及驗證聲明。雖然部署一次性資料卡相對容易,但我們發現,團隊和機構組織在擴大採用時,需要保留可比較性。 |
全方位防護 | 資料資訊卡不應在資料集生命週期的最後一個步驟建立,而應與資料集同步建立。此外,填寫資料卡中欄位的責任應分配給最合適的人員。這需要標準化方法,不僅適用於資料資訊卡,也適用於資料集生命週期中產生的各種報表。 |
易於理解且簡潔 | 讀者的熟練程度不一,這會影響他們對資料資訊卡的解讀。在利害關係人熟練程度不同的情況下,對資料集有最強烈心智模型的個人,會成為事實上的決策者。最後,如果任務較為緊急或困難,非傳統利害關係人參與決策的意願可能會降低,而將決策權交給「專家」。這可能會導致遺漏重要觀點,而這些觀點反映了下游和橫向利害關係人的特定需求。資料資訊卡應能有效向最不熟練的讀者傳達資訊,並讓較熟練的讀者視需要尋找更多資訊。內容和設計應有助於讀者思考,但不要提供過多資訊,並鼓勵利害關係人合作,建立資料集的共同心智模型,以利決策。 |
4. 為啟發式評估評分
- 如要查看資料卡問題的答案,請使用我們建立的下列評分表,為每個啟發式方法評分。最後,您可以計算資料卡的總分,有助於掌握進度。您也可以加入註解,記錄改善各項啟發式原則所需的額外背景資訊和待辦事項。
啟發式 | 條件 | 留言 | 分數 |
根據下列啟發式方法,為填寫完畢的資料卡自行評分。 | 經驗法則的條件 | 特別留意資料卡可改善的區域。 | 只能輸入數字,自評分數 (0 到 10 分) |
可理解 |
| 。 | 。 |
全面性 |
| 。 | 。 |
一致 |
| 。 | 。 |
簡潔 |
| 。 | 。 |
總分 = (總點數/120) | 。 | 。 | /120 |
5. 深入分析
我們知道,資料是為了特定目的,以結構化方式擷取的人、文化或商家相關資訊。不過,如我們一再強調,這些都是細微的差異,且受到多個不同程度的維度影響。因此,您對資料集執行的分析,可讓您瞭解資料集本身的設計理念,進而掌握其中的複雜性。
舉例來說,對使用者進行交叉分析時,可以探索資料集內的人為因素組合,找出潛在的不成比例結果,例如模型在某個資料集上訓練後,對某個子群組的效能優於其他子群組。不匯總分析會根據不同因素細分資料集,揭露通常會被較大的匯總資料遮蓋的子群組或邊緣化族群重要模式,讓讀者預測結果。
因此,我們認為交叉性和不聚合分析 (IDA) 是有效的方法,可透過在資料集中建立明確關係,在資料資訊卡中呈現不同情況下的一系列合理結果。IDA 可為讀者提供資料集中代表性的重要線索,例如標籤與私密實體的關聯、資料集中的缺口 (例如資料集只有白天拍攝的照片),以及變數之間的關係 (這可能會導致 AI 模型學到虛假關聯或選擇替代變數)。如果這些分析結果能反映出實際情況,也就是受影響使用者可能透過使用您資料集的產品或服務獲得的體驗,那麼這些分析結果就更有價值。
舉例來說,資料資訊卡中顯示的 IDA 結果可協助讀者主動建立直覺,瞭解 ML 模型在資料集子集 (也稱為切片) 中的表現。雖然這項做法會要求資料集建立者更認真分析資料集,並在資料卡中呈現資料集,但最終可為利害關係人帶來更出色的產品成果。
IDA 可協助讀者更直覺地瞭解如何在模型中使用資料集。如有困難,請與專家、產品團隊和有實際經驗的人合作,協助您規劃分析作業。IDA 通常源自需要向讀者說明或需要額外支援的脈絡,以便讀者適當解讀。
6. 分析資料
如要分析資料集,請按照下列步驟操作:
- 開始分析前,請先探索資料串流。使用 TensorFlow Data Validation (TFDV) 或學習解讀工具 (LIT) 等工具,培養對資料集中偏誤和不平衡的直覺。並根據結果設計分析。
- 請仔細設計分析。分析結果會受到評估目標、進行分析的專業知識和資源、分析時間和地點,以及進行分析的 AI 模型情境等因素影響。
- 先從與預期用途相關的因素著手。建立興趣群組時,請考量最可能影響預期用途的人口統計、社會文化、行為和形態因素,然後從這些因素著手擴大範圍。
- 檢舉,不要留言。請注意,影響公平性分析的因素和假設存在於難以量化的歷史和文化特定社會建構中。請勿新增可能會讓讀者感到困惑的註解。請提供分析重現方式,協助讀者根據自身情況調整結果。
- 規劃未來。查看資料集中的代表值,在不同情境中保持值不變,或將分析結果與資料集相關的其他因素值範圍結合,以考量未來可能出現的其他因素。
- 為無法重現的結果提供更多背景資訊。如果下游利害關係人無法重現指標,請提供足夠的分析背景資訊。如果讀者能根據這項資訊評估資料集的優缺點,就能建立對資料集的信任感。
7. 恭喜
恭喜!你可以透過幾種方式在資料卡中提供正確答案。現在可以開始稽核這些項目。