Học phần 2: Kiểm tra

1. Thu thập kiến thức

Các chủ đề sẽ xuất hiện một cách tự nhiên khi bạn khám phá kiểu hình của các bên liên quan, nắm bắt nhu cầu thông tin riêng của họ và áp dụng các mức độ chi tiết khác nhau để đặt câu hỏi. Để giúp bạn sắp xếp và cấu trúc chủ đề câu hỏi, chúng tôi đã tạo một khung thu thập kiến thức, cung cấp cho bạn một phương pháp mạnh mẽ, có chủ ý và có thể lặp lại để tạo ra tài liệu minh bạch.

Thu thập kiến thức là quá trình trích xuất, cấu trúc và sắp xếp kiến thức từ một nguồn (thường là các chuyên gia) để có thể sử dụng kiến thức đó trong sản phẩm hoặc công nghệ mà bạn đang làm việc.

Khung của chúng tôi có tên là OFTEn, một công cụ khái niệm để xem xét một cách có hệ thống về cách các chủ đề được truyền bá trên tất cả các phần của Thẻ dữ liệu. Chúng tôi đã tạo ra mô hình này thông qua các cuộc điều tra chi tiết về tính minh bạch của tập dữ liệu theo phương pháp quy nạp và diễn dịch.

OFTEn

OFTEn là từ viết tắt cho các giai đoạn chung trong vòng đời của tập dữ liệu: Origins (Nguồn gốc), Factuals (Dữ liệu thực tế), Transformations (Biến đổi), Experience (Trải nghiệm) và n = 1 (Mẫu).

Origins

Giai đoạn Nguồn gốc bao gồm nhiều hoạt động lập kế hoạch quyết định kết quả cuối cùng, chẳng hạn như việc xác định các yêu cầu, phương pháp thu thập hoặc tìm nguồn, cũng như các quyết định về thiết kế và chính sách.

Sau đây là các chủ đề xuất hiện trong câu hỏi về loại nguồn:

  • Tác giả và chủ sở hữu
  • Động lực
  • Các ứng dụng dự kiến
  • Phương thức thu thập
  • Giấy phép
  • Phiên bản
  • Nguồn
  • Errata
  • Các bên chịu trách nhiệm

Factuals

Giai đoạn Dữ liệu thực tế thể hiện các thuộc tính thống kê và thuộc tính thực tế khác mô tả tập dữ liệu, những điểm khác biệt so với kế hoạch ban đầu và mọi hoạt động phân tích trước khi xử lý.

Sau đây là các chủ đề xuất hiện trong các câu hỏi thuộc loại câu hỏi dựa trên dữ kiện:

  • Số lượng bản sao
  • Số lượng tính năng
  • Số lượng nhãn
  • Nguồn nhãn
  • Nguồn dữ liệu
  • Phân tích nhóm con
  • Hình dạng của các đối tượng
  • Nội dung mô tả về các tính năng
  • Thiếu hoặc trùng lặp
  • Tiêu chí bao gồm

Phép biến đổi

Giai đoạn Biến đổi bao gồm thông tin tóm tắt về các nhiệm vụ gắn nhãn, chú thích hoặc xác thực. Tuỳ thuộc vào tập dữ liệu, các quy trình phân xử giữa các người đánh giá có thể phát sinh tại đây. Ngoài ra, việc thiết kế tính năng và các điểm sửa đổi được thực hiện để xử lý quyền riêng tư, bảo mật hoặc thông tin nhận dạng cá nhân (PII) cũng được tính là các phép biến đổi.

Sau đây là những chủ đề liên quan đến các câu hỏi về loại hình chuyển đổi:

  • Điểm xếp hạng hoặc chú thích
  • Lọc
  • Đang xử lý
  • Xác thực
  • Thuộc tính thống kê
  • Tính năng tổng hợp
  • Xử lý thông tin nhận dạng cá nhân
  • Biến nhạy cảm
  • Tác động đến tính công bằng
  • Sai lệch hoặc thiên kiến

Kinh nghiệm

Giai đoạn Trải nghiệm bao gồm việc sử dụng dữ liệu cho các nhiệm vụ cụ thể, tham gia khoá đào tạo về quyền truy cập, sửa đổi cho phù hợp với nhiệm vụ, thu thập kết quả và so sánh với các tập dữ liệu tương tự khác, đồng thời ghi nhận mọi hành vi dự kiến hoặc không dự kiến.

Sau đây là những chủ đề minh hoạ các câu hỏi thuộc loại trải nghiệm:

  • Hiệu suất dự kiến
  • Ứng dụng ngoài ý muốn
  • Hiệu suất ngoài dự kiến
  • Chú ý
  • Thông tin chi tiết
  • Trải nghiệm
  • Câu chuyện
  • Sử dụng
  • Đánh giá trường hợp sử dụng

n = 1 (Mẫu)

Giai đoạn n = 1 (Mẫu) bao gồm những điểm dữ liệu phân phối, việc minh hoạ các điểm dữ liệu đáng chú ý có thuộc tính cụ thể và mô hình hoá kết quả (nếu có).

Các chủ đề mà câu hỏi thuộc loại mẫu minh hoạ bao gồm:

  • Ví dụ hoặc đường liên kết đến các ví dụ điển hình và giá trị ngoại lệ.
  • Ví dụ dẫn đến kết quả dương tính giả hoặc âm tính giả.
  • Ví dụ minh hoạ cách xử lý các giá trị đối tượng bằng giá trị rỗng hoặc bằng 0.

Ví dụ

Ví dụ: bộ câu hỏi sau đây được sắp xếp bằng OFTEn:

Người tham gia

Nội dung

Thời gian

Trong đó

Lý do

Cách thức

Nguồn gốc

Ai xuất bản tập dữ liệu? Họ có khác với chủ sở hữu tập dữ liệu không?

Những người gắn nhãn dữ liệu, nhà cung cấp và chuyên gia được tuyển dụng cho tập dữ liệu này sẽ được hưởng những ưu đãi gì?

Tập dữ liệu này được tạo khi nào? Đã ra mắt?

Nguồn tài trợ đến từ đâu?

Tại sao tập dữ liệu này được tạo? Quy trình trước đây là gì?

Phương pháp được quyết định như thế nào và có bao nhiêu bên liên quan?

Factuals

Dữ liệu này là về ai? Người gắn nhãn có đại diện cho những người trong dữ liệu không?

Những nhóm nhỏ nào trong dữ liệu có thể ảnh hưởng đến kết quả trong học máy?

Dữ liệu này thể hiện khoảng thời gian nào? Khi dữ liệu hết hạn hoặc chạy bất thường?

Tôi có thể truy cập vào tập dữ liệu ở đâu? Dữ liệu được thu thập hoặc tạo ở đâu?

Tại sao các chỉ số được báo cáo lại được chọn? Tại sao bạn chọn những nhãn cụ thể đó?

Tập dữ liệu có bao nhiêu nhãn riêng biệt? Các bản nhạc này được tạo như thế nào?

Phép biến đổi

Thông tin nhận dạng cá nhân được xử lý như thế nào trong tập dữ liệu này? Có thể dùng kết quả từ tập dữ liệu này để xác định danh tính cá nhân không?

Những phương pháp nào được dùng để làm sạch hoặc xác minh tập dữ liệu này?

Khi nào và làm thế nào để thiết kế các tính năng? Tôi có cần cập nhật những thông tin này không?

Các tính năng vị trí có tương quan với các tính năng nhạy cảm khác không?

Tại sao các phép biến đổi đã chọn lại được áp dụng cho tập dữ liệu?

Thiên kiến hoặc thông tin nhận dạng cá nhân được xử lý như thế nào trong dữ liệu?

Trải nghiệm

Ai có thể sử dụng tập dữ liệu này và cho những nhiệm vụ nào? Tôi có bắt buộc phải tham gia khoá đào tạo nào không?

Bạn đã phát hiện ra những phương pháp, kết quả hoặc lỗi nào khi sử dụng tập dữ liệu này?

Trong trường hợp nào và khi nào không nên sử dụng tập dữ liệu này?

Tập dữ liệu này có thể truy cập được ở những nơi nào trên thế giới? Chế độ này đã được sử dụng ở đâu?

Tại sao cách biểu diễn dự kiến của tập dữ liệu lại khác với cách biểu diễn đã quan sát được?

Dữ liệu có đắt đỏ ở các nơi trên thế giới không?

n = 1 (Mẫu)

Điểm dữ liệu này là điển hình hay không điển hình? Các mô hình hoạt động như thế nào ở đây?

Kích thước của điểm dữ liệu là bao nhiêu? Quy trình đồng ý, biên tập và rút lại sự đồng ý để can thiệp vào một điểm dữ liệu là gì?

Khi nào kết quả trên một điểm dữ liệu thay đổi? Đưa ra ví dụ thông qua các trường hợp phản thực tế?

Những yếu tố nào được đưa vào điểm dữ liệu? Những rủi ro nào có thể xảy ra nếu dự đoán không chính xác?

Tại sao điểm dữ liệu hình ảnh này lại bị cắt theo một cách nhất định? Tại sao một số danh mục không được điền sẵn trong điểm dữ liệu này?

Điểm dữ liệu này liên quan như thế nào đến một dữ liệu đầu vào trong thực tế? Kết quả liên quan như thế nào đến một dữ liệu đầu ra trong thực tế?

Chúng tôi nhận thấy Thẻ dữ liệu có cấu trúc OFTEn cơ bản rõ ràng rất dễ mở rộng và cập nhật. Với OFTEn, Thẻ dữ liệu có thể phát triển theo thời gian để bao gồm những chủ đề thường bị loại trừ khỏi tài liệu, chẳng hạn như ý kiến phản hồi của các tác nhân hạ nguồn, những điểm khác biệt đáng chú ý giữa các phiên bản và các cuộc kiểm tra hoặc điều tra đặc biệt của nhà sản xuất hoặc tác nhân.

Tóm tắt

Bảng sau đây tóm tắt khung OFTEn và mô tả các giai đoạn chung trong vòng đời của một tập dữ liệu:

Giai đoạn

Nội dung mô tả

Nguồn gốc

Giai đoạn đầu của vòng đời tập dữ liệu khi bạn đưa ra quyết định tạo tập dữ liệu.

Factuals

Quy trình thu thập dữ liệu thực tế và đầu ra thô.

Phép biến đổi

Dữ liệu thô được chuyển đổi thành một dạng có thể sử dụng thông qua các thao tác như lọc, xác thực, phân tích cú pháp, định dạng và làm sạch.

Trải nghiệm

Tập dữ liệu được kiểm thử, đo điểm chuẩn hoặc triển khai trên thực tế (thử nghiệm, sản xuất hoặc nghiên cứu).

n = 1 (Mẫu)

Các mẫu thực tế từ tập dữ liệu (hoặc hình minh hoạ) thể hiện các điểm dữ liệu bình thường và giá trị ngoại lệ.

Bạn có thể sử dụng OFTEn theo 2 cách khi tạo Thẻ dữ liệu:

  • Theo cách quy nạp, OFTEn hỗ trợ các hoạt động có nhân viên hỗ trợ để đặt câu hỏi về các tập dữ liệu và mô hình liên quan, những yếu tố quan trọng cho việc đưa ra quyết định. Chúng tôi nhận thấy rằng khi nhiều nhân viên cùng nhau động não để đặt câu hỏi theo cấu trúc OFTEn, thông tin cần thiết cho việc đưa ra quyết định có mục tiêu sẽ được tiết lộ.
  • Theo phương pháp suy diễn, OFTEn có thể được dùng để đánh giá xem Thẻ dữ liệu có trình bày chính xác tập dữ liệu hay không, từ đó tạo ra những tác động mang tính định hướng đối với tài liệu và tập dữ liệu. Ví dụ: các tập dữ liệu ở giai đoạn đầu có xu hướng nghiêng về Nguồn gốc và Thông tin thực tế, trong khi các tập dữ liệu hoàn chỉnh dự kiến sẽ nghiêng về Trải nghiệm.

Với OFTEn, bạn có thể động não và kiểm tra mức độ bao quát của các câu hỏi đối với vòng đời của tập dữ liệu, nhờ đó đảm bảo nội dung của bạn sẽ toàn diện và tinh gọn. Tính năng này không chỉ giúp bạn tìm ra những điểm trùng lặp trong các loại câu hỏi mà bạn tạo, mà còn giải quyết mọi điểm thiếu sót mà bạn có thể gặp phải trong quá trình này.

2. Đặt câu hỏi bằng OFTEn

  1. Hãy nghĩ về một số bên liên quan và hành trình thông tin của nhân viên (AIJ) mà bạn đã xây dựng trong mô-đun trước, sau đó sử dụng các câu lệnh sau để giúp bạn sắp xếp ý tưởng.

9bd35227601ae104.png

  1. Nếu một số câu hỏi của bạn đã thuộc một trong các danh mục OFTEn, hãy gắn nhãn cho các câu hỏi đó.
  2. Nếu câu hỏi của bạn không thuộc một trong các danh mục OFTEn, hãy chọn một trong các trợ lý của bạn trong mô-đun trước rồi tạo ít nhất một câu hỏi cho mỗi danh mục OFTEn cho trợ lý đó.
  3. Tạo thêm các câu hỏi dựa trên 5W (ai, cái gì, ở đâu, khi nào và tại sao) và 1H (như thế nào) để mở rộng chiều sâu cho danh mục OFTEn.
  4. Nếu cần, hãy lặp lại các bước này cho nhân viên hỗ trợ tiếp theo.

3. Kích thước

Giờ đây, khi đã hiểu về OFTEn và tạo các câu hỏi để đưa vào Thẻ dữ liệu, bạn đã sẵn sàng khám phá thông tin chi tiết về các câu hỏi của mình bằng cách xem xét Thẻ dữ liệu lần đầu. Để làm như vậy, chúng tôi sẽ giới thiệu phương diện. Đây là nội dung mô tả cấp cao về các loại đánh giá mà người đọc đưa ra, cung cấp thông tin chi tiết định hướng về mức độ hữu ích và khả năng đọc của Thẻ dữ liệu. Nói cách khác, Thẻ dữ liệu của bạn có thể giúp người đọc đưa ra kết luận sáng suốt về tập dữ liệu của bạn không?

Có trách nhiệm

Thẻ dữ liệu có trách nhiệm là thẻ dữ liệu thuộc quyền sở hữu và do những người thể hiện được quyền sở hữu, khả năng suy nghĩ thấu đáo, lý luận và đưa ra quyết định một cách có hệ thống về tập dữ liệu và việc sử dụng tập dữ liệu đó duy trì.

Ví dụ về các khu vực

Câu hỏi mẫu

Quyền tác giả, trách nhiệm, việc duy trì, ý định

Ở [góc độ], tôi muốn biết...

...về nhà xuất bản tập dữ liệu.

...các quy định hạn chế và chính sách truy cập của tập dữ liệu.

...giải thích và động lực tạo ra tập dữ liệu.

Tiện ích hoặc cách sử dụng

Thẻ dữ liệu hữu ích cung cấp thông tin chi tiết đáp ứng nhu cầu thông tin của người đọc, từ đó dẫn đến quy trình đưa ra quyết định có trách nhiệm, xác định mức độ phù hợp của tập dữ liệu cho các nhiệm vụ và mục tiêu của họ.

Ví dụ về các khu vực

Câu hỏi mẫu

Nhu cầu của nhà sản xuất,nhu cầu của đại lý, nhu cầu của người dùng, nhu cầu của xã hội

Theo [góc nhìn] của tôi, tôi muốn biết...

...định nghĩa và giải thích về các thuật ngữ kỹ thuật được dùng trong tài liệu (chỉ số, điểm số, thuật ngữ dành riêng cho ngành, từ viết tắt).

...kỳ vọng về việc sử dụng tập dữ liệu với các tập dữ liệu hoặc bảng khác (thiết kế tính năng, kết hợp, lấy mẫu và phân tích so sánh).

...các ứng dụng dự kiến của tập dữ liệu.

Chất lượng

Thẻ dữ liệu chất lượng cao tóm tắt tính nghiêm ngặt, tính toàn vẹn và tính đầy đủ của tập dữ liệu, thường được truyền đạt theo cách dễ hiểu và dễ tiếp cận đối với độc giả thuộc nhiều lĩnh vực.

Ví dụ về các khu vực

Câu hỏi mẫu

Tính hợp lệ,độ tin cậy, tính toàn vẹn, khả năng tái tạo

Theo [góc nhìn], tôi muốn biết...

...có mẫu hình nào đã biết (mối tương quan, thiên kiến hoặc độ lệch) trong tập dữ liệu hay không.

...mọi quy trình xác thực tập dữ liệu, giải thích và kết quả của quy trình đó.

...những biện pháp bảo mật và quyền riêng tư nào đã được áp dụng cho tập dữ liệu.

Tác động hoặc hậu quả của việc sử dụng

Thẻ dữ liệu mô tả đầy đủ tác động của việc sử dụng tập dữ liệu sẽ đặt ra kỳ vọng về kết quả khi sử dụng và quản lý tập dữ liệu, đồng thời thừa nhận mọi hậu quả cấp một hoặc cấp hai có thể ảnh hưởng tiêu cực đến mục tiêu của người đọc.

Ví dụ về các khu vực

Câu hỏi mẫu

Hiệu quả, mức độ liên quan, lợi ích của nhóm,ý nghĩa của các điểm khác biệt

Ở [góc độ] này, tôi muốn biết...

...mức sử dụng trước đây và hiệu suất liên quan của tập dữ liệu (ví dụ: các mô hình được huấn luyện)

...các chính sách liên quan đến tập dữ liệu (ví dụ: cấp phép)

...nếu có bất kỳ mẫu hình nào đã biết (mối tương quan, thiên kiến hoặc độ lệch) trong tập dữ liệu.

Rủi ro và đề xuất

Thẻ dữ liệu đưa ra các đề xuất hữu ích, giúp người đọc nhận biết được những rủi ro và hạn chế đã biết cũng như tiềm ẩn do nguồn gốc, cách trình bày, cách sử dụng hoặc bối cảnh sử dụng, đồng thời cung cấp đủ thông tin và các lựa chọn thay thế để giúp người đọc đưa ra những lựa chọn thoả hiệp có trách nhiệm.

Ví dụ về các khu vực

Câu hỏi mẫu

Mức độ rủi ro, biện pháp giảm thiểu, đề xuất, tác hại đối với nhóm

Là một [góc nhìn], tôi muốn biết...

...mức độ an toàn (rủi ro, hạn chế và đánh đổi) khi sử dụng tập dữ liệu.

...mọi đặc điểm về văn hoá xã hội, địa lý hoặc kinh tế của người dân trong tập dữ liệu.

...liệu có thuộc tính nào bị thiếu trong tập dữ liệu hoặc tài liệu của tập dữ liệu hay không.

Tóm tắt

Với các phương diện, bạn có thể đánh giá bộ câu hỏi để đảm bảo chúng phù hợp với mục tiêu và kết quả mong muốn. Mặc dù bạn chưa trả lời câu hỏi nào trong Thẻ dữ liệu, nhưng tốt nhất là bạn nên phát hiện mọi lỗi trước khi đi quá sâu vào quy trình lập tài liệu về tập dữ liệu.

Bảng sau đây tóm tắt 5 phương diện:

Giai đoạn

Nội dung mô tả

Trách nhiệm giải trình

Những tuyên bố thể hiện các quyết định phản ánh, hợp lý và có hệ thống của các bên liên quan về độ tin cậy của tập dữ liệu.

Tiện ích

Cung cấp thông tin chi tiết đáp ứng nhu cầu của độc giả trong quá trình đưa ra quyết định có trách nhiệm và xác định mức độ phù hợp của các trường hợp sử dụng liên quan đến mục tiêu của họ.

Chất lượng

Tóm tắt tính nghiêm ngặt, tính toàn vẹn và tính đầy đủ của tập dữ liệu theo cách mà nhiều độc giả có thể hiểu được.

Tác động và hậu quả

Thông tin giúp người đọc đạt được kết quả mong muốn khi họ sử dụng và quản lý tập dữ liệu, đồng thời thừa nhận những hậu quả có thể ảnh hưởng tiêu cực đến mục tiêu của họ.

Rủi ro và đề xuất

Giúp người đọc nhận biết được những rủi ro đã biết và tiềm ẩn liên quan đến tập dữ liệu, xuất phát từ cách trình bày, sử dụng hoặc bối cảnh sử dụng.

Với các loại phương diện này, bạn có thể khám phá thông tin chi tiết về chất lượng nội dung, khả năng đọc và tính hữu ích của Thẻ dữ liệu ngay cả trước khi bắt đầu hoàn tất thẻ. Các báo cáo này giúp bạn xác định những việc cần làm để tạo ra một mẫu Thẻ dữ liệu mạnh mẽ và tinh tế hơn.

4. Đánh giá câu hỏi bằng các phương diện

  1. Bắt đầu bằng một phương diện duy nhất, sau đó xác định mức độ lưu loát và chuyên môn cần thiết để đưa ra kết luận có căn cứ dựa trên mức độ phức tạp của bộ câu hỏi.
  2. Đưa ra lý do và lập luận về mức độ hỗ trợ hiện tại của phương diện đó đối với bộ câu hỏi của bạn.
  3. Cung cấp bằng chứng hỗ trợ lý do của bạn thông qua một hoặc hai câu hỏi ví dụ trong bộ câu hỏi của bạn.
  4. Nếu phương diện của bạn có vẻ không phù hợp, hãy lưu ý những bước cần thực hiện để tinh chỉnh hoặc khắc phục những thiếu sót. Nếu bạn làm việc với một nhóm các bên liên quan, hãy giao trách nhiệm cho những bên liên quan có khả năng giải quyết một số câu hỏi nhất định.
  5. Lặp lại các bước này cho phương diện tiếp theo.

Sau đây là một ví dụ về mẫu mà bạn có thể dùng để ghi lại kết quả đánh giá các phương diện:

3f33557b62abe5ce.png

Quá trình đánh giá này có thể mất từ 15 phút đến 1 giờ, tuỳ thuộc vào số lượng câu hỏi bạn tạo và nhiều bên liên quan mà bạn cần cân nhắc cho Thẻ dữ liệu của mình.

5. Xin chúc mừng

Xin chúc mừng! Bạn có thể kiểm tra các câu hỏi mà bạn đã tạo cho Thẻ dữ liệu. Giờ thì bạn đã sẵn sàng trả lời những câu hỏi đó.