Học phần 1: Hỏi

1. Phân loại các bên liên quan

Trước khi bắt đầu nỗ lực minh bạch hoá tài liệu về tập dữ liệu và tạo Thẻ dữ liệu, bạn cần xác định và mời các bên liên quan trong suốt vòng đời của tập dữ liệu. Điều này giúp bạn dễ dàng tạo Thẻ dữ liệu vì cung cấp cho bạn mọi thứ cần thiết để đưa ra những cân nhắc kỹ lưỡng hơn khi tạo nội dung.

Để giúp bạn khám phá và hiểu rõ cách các bên liên quan đa chức năng tham gia vào quy trình vòng đời của một tập dữ liệu, chúng tôi đã tạo ra một kiểu phân loại giúp bạn khám phá những giả định thường được đưa ra về từng bên liên quan. Phân loại của chúng tôi được chia thành 3 nhóm bên liên quan tham gia vào vòng đời của một tập dữ liệu: nhà sản xuất, tác nhân và người dùng.

Kiểu phân loại này thể hiện một chuỗi liên tục thay đổi về nhu cầu và kỳ vọng đối với các tập dữ liệu và tài liệu của chúng. Không có giải pháp chung cho tất cả.

Nhà sản xuất

Nhà sản xuất là người tạo tập dữ liệu và tài liệu, đồng thời chịu trách nhiệm về việc thu thập, sở hữu, ra mắt và duy trì tập dữ liệu.

Về cơ bản, bạn có thể coi nhà sản xuất là những người chịu trách nhiệm sản xuất và xuất bản tập dữ liệu, cũng như ra mắt, áp dụng và/hoặc thành công.

Nhà sản xuất cũng có thể là những cá nhân hoặc nhóm được tuyển dụng để thu thập hoặc gắn nhãn dữ liệu, đồng thời đưa ra lời khuyên về phương pháp hoặc cách diễn giải tại nhiều thời điểm trong vòng đời của dữ liệu.

Tuỳ thuộc vào bối cảnh, nhà sản xuất cũng có thể là các thành viên trong nhóm, đối tác, khách hàng hoặc nền tảng lưu trữ dữ liệu hiện tại và trong tương lai của bạn – tất cả đều chịu trách nhiệm duy trì hoặc bảo trì, triển khai và giám sát tập dữ liệu.

Nhân viên hỗ trợ

Tác nhân là những bên liên quan đọc tài liệu về tập dữ liệu hoặc Thẻ dữ liệu của bạn và các tài liệu khác liên quan đến mô hình học máy (ML), đồng thời có quyền sử dụng hoặc xác định cách họ hoặc những người khác có thể sử dụng các tập dữ liệu hoặc hệ thống AI được mô tả.

Tuỳ thuộc vào lĩnh vực của mình, các tác nhân có thể có vai trò vận hành hoặc vai trò người đánh giá, chẳng hạn như một nhà nghiên cứu trong môi trường học thuật muốn đánh giá mức độ phù hợp của việc sử dụng một tập dữ liệu hoặc một nhà khoa học dữ liệu trong nhóm sản phẩm muốn xác định mức độ phù hợp tổng thể của tập dữ liệu liên quan đến việc tích hợp sản phẩm.

Sự khác biệt này rất quan trọng vì người đánh giá bao gồm cả những bên liên quan có thể không bao giờ trực tiếp sử dụng tập dữ liệu, nhưng vẫn tương tác với Thẻ dữ liệu, chẳng hạn như chuyên gia tư vấn ngành, nhà báo điều tra, người đại diện cộng đồng và pháp nhân. Các nhân viên hỗ trợ có thể có hoặc không có kiến thức chuyên môn kỹ thuật để tìm hiểu thông tin được trình bày trong tài liệu về tập dữ liệu thông thường, nhưng thường có quyền truy cập vào kiến thức chuyên môn khi cần.

Số người dùng

Người dùng là những cá nhân và người đại diện tương tác với các sản phẩm dựa trên những mô hình được huấn luyện trên các tập dữ liệu.

Người dùng có thể đồng ý cung cấp dữ liệu của họ trong quá trình sử dụng sản phẩm, nhưng họ thường yêu cầu một bộ giải thích và chế độ kiểm soát khác biệt đáng kể trong quá trình sử dụng sản phẩm, ngay cả khi nói đến tập dữ liệu.

Tóm tắt

Bảng sau đây tóm tắt các nhóm bên liên quan theo nội dung mô tả, trách nhiệm, ví dụ và nhiệm vụ thường gặp:

Nhóm bên liên quan

Nội dung mô tả

Trách nhiệm

Ví dụ

Các thao tác phổ biến

Producers

Tạo tập dữ liệu và/hoặc tài liệu.

Thiết kế, tạo, kiểm thử chất lượng, lập tài liệu, ra mắt, áp dụng, duy trì và cập nhật tập dữ liệu.

Nhà nghiên cứu, nhà khoa học dữ liệu và nhà phân tích, kỹ sư phần mềm, cũng như nhà quản lý sản phẩm và chương trình

Việc áp dụng, công bố, đảm bảo tính phù hợp với tương lai, tính công bằng và bảo mật, cũng như các điểm cải tiến của tập dữ liệu

Nhân viên hỗ trợ

Đánh giá và sử dụng tập dữ liệu cho công việc, sản phẩm, tổ chức hoặc cộng đồng của họ.

Sử dụng Thẻ dữ liệu nhưng có thể không tương tác với chính tập dữ liệu.

Kỹ sư học máy hoặc kỹ sư sản phẩm, nhà nghiên cứu, nhà cung cấp bên thứ ba, chuyên gia về chủ đề, ngành, nhà tư vấn, chuyên gia chính sách, nhà cung cấp dịch vụ dữ liệu, cũng như lãnh đạo hoặc quản lý

Quản lý sự phức tạp, chịu trách nhiệm, đưa ra các lựa chọn thoả hiệp, triển khai cho bản phát hành công khai, lưu trữ

Người dùng

Tương tác với các sản phẩm, thiết bị và ứng dụng do những tác nhân sử dụng tập dữ liệu của nhà sản xuất tạo ra.

Có thể đóng góp dữ liệu của họ thông qua các sản phẩm và cung cấp tín hiệu hữu ích cho nhà sản xuất và người đại diện.

Người đóng góp dữ liệu, người dùng sản phẩm và người đại diện của nhóm người dùng

Sử dụng sản phẩm, hiểu rõ dữ liệu và quyền riêng tư, đưa ra ý kiến phản hồi và nêu lên mối lo ngại

2. Lập bản đồ các bên liên quan

Giờ đây, khi đã nắm được một số thông tin về kiểu phân loại của chúng tôi, bạn có thể xem xét vòng đời của tập dữ liệu để xác định các bên liên quan thông qua hoạt động lập bản đồ cơ bản này. Khi bạn thực hiện hoạt động này, hãy lưu ý những người có thể tương tác với tập dữ liệu hoặc tài liệu của tập dữ liệu. Ngoài ra, hãy cân nhắc cách các bên liên quan có thể đóng góp vào Thẻ dữ liệu.

Để lập bản đồ các bên liên quan, hãy làm theo các bước sau:

  1. Liệt kê những nhà sản xuất sẽ tạo Thẻ dữ liệu.

9019cf76931e3ae5.png

  1. Liệt kê những tác nhân sẽ đọc và sử dụng Thẻ dữ liệu.

a6c5bfc2fadd8cb5.png

  1. Liệt kê những người dùng sẽ sử dụng hoặc chịu ảnh hưởng của tập dữ liệu được mô tả trong Thẻ dữ liệu.

210d18c6ec533955.png

  1. Hãy sử dụng mẫu sau để tạo bản đồ về các bên liên quan, vai trò của họ trong việc tạo Thẻ dữ liệu và mục đích của Thẻ dữ liệu. Bản đồ này giúp bạn nắm bắt được nhu cầu hạ nguồn của tài liệu về tập dữ liệu, cũng như khả năng chỉ định mức độ ưu tiên và trách nhiệm trong suốt quá trình lập tài liệu về tập dữ liệu.

d24cf1a113189a25.png

3. Hành trình thông tin của nhân viên hỗ trợ (AIJ)

Sau khi lập bản đồ các bên liên quan, bạn có thể xác định những thông tin cần thiết để truyền đạt cho các nhân viên (các bên liên quan chính) trong Thẻ dữ liệu để giúp họ thành công.

Thông thường, trải nghiệm mà một người có được khi tương tác với công nghệ được gọi là hành trình của người dùng. Tuy nhiên, chúng ta đang nói về một tác nhân cần thu thập đủ thông tin về một tập dữ liệu để đưa ra quyết định sáng suốt. Vì vậy, chúng ta gọi những trải nghiệm này là Hành trình thông tin của tác nhân (AIJ).

Mục tiêu của AIJ là tìm hiểu những điều sau:

  • Các tác vụ mà các tác nhân có thể muốn có một tập dữ liệu.
  • Thông tin mà nhân viên cần để hoàn thành nhiệm vụ.
  • Quy trình mà các tác nhân suy luận thông tin.

AIJ bao gồm những nội dung sau:

51ce23c7a9aaa9e4.png

Ví dụ

Ví dụ: giả sử một trong các tác nhân của bạn là nhà khoa học dữ liệu. Một AIJ cho nhà khoa học dữ liệu có thể có dạng như sau:

Là một nhà khoa học dữ liệu, tôi muốn biết cấu trúc của tập dữ liệu, vì vậy tôi hỏi...

... định dạng dữ liệu là gì?

... phương thức của tập dữ liệu là gì?

... có bao nhiêu đặc điểm trong tập dữ liệu?

... có bao nhiêu tính năng được thiết kế?

... những đặc điểm nào có mối tương quan chặt chẽ?

... nếu có bất kỳ phần phụ thuộc nào trong cấu trúc?

Sau đây là một ví dụ khác về một nhân viên có thể làm việc trong bộ phận chính sách sản phẩm và đặt ra các nguyên tắc liên quan đến việc sản xuất và phát triển một sản phẩm:

Là một trợ lý chính sách, tôi muốn biết dữ liệu có thể bị sử dụng sai như thế nào, vì vậy tôi hỏi...

... mục đích sử dụng dự kiến của tập dữ liệu là gì?

... ứng dụng nào đã nhắc bạn tạo tập dữ liệu?

... những ứng dụng nguy hiểm hoặc rủi ro đã biết của tập dữ liệu này là gì?

... những nhóm cụ thể nào có nguy cơ?

... mục đích sử dụng dự kiến của tập dữ liệu này ảnh hưởng đến các thành phần như thế nào?

... làm cách nào để yêu cầu biện pháp khắc phục?

4. Viết AIJ

  1. Viết một vài AIJ dựa trên các câu lệnh sau:

ab594f2e5ce86029.png

  1. Lưu ý rằng bạn không chỉ nghĩ đến các bên liên quan mà còn có một số câu hỏi ban đầu mà bạn cho rằng họ muốn được giải đáp khi đọc Thẻ dữ liệu của bạn. Điều này có nghĩa là bạn đã tiến thêm một bước đến bộ câu hỏi cuối cùng mà bạn nên đưa vào Thẻ dữ liệu.

5. Quang học

Bạn có thể đã nhận thấy việc sử dụng các thuật ngữ góc nhìn, lăng kínhphạm vi để định hình AIJ. Mặc dù các thuật ngữ này đã được định nghĩa trước đó, nhưng chúng thực sự là một phần của phép ẩn dụ chỉ dẫn mà chúng tôi gọi là quang học. Chúng tôi tạo ra các ví dụ này để giúp bạn suy nghĩ về cách các tác nhân có thể hiểu được tập dữ liệu của bạn.

Phạm vi

Trong quang học, kính ngắm sử dụng thấu kính và gương để phát hiện, quan sát, phóng to, phản chiếu và thậm chí kiểm tra vật liệu. Trong bối cảnh tập dữ liệu, đây là một phép ẩn dụ hay vì bạn tập trung và đặt câu hỏi để khám phá những khía cạnh rõ ràng, không rõ ràng, hữu hình và vô hình.

Chúng tôi gọi đây là phạm vi, một phương thức để đặt một loạt câu hỏi liên tiếp nhằm hiểu rõ các tập dữ liệu. Bằng cách xếp chồng các phạm vi có độ chi tiết khác nhau, bạn có thể tạo nội dung giúp nhân viên hỗ trợ hiểu rõ về các tập dữ liệu thông qua báo cáo minh bạch.

Bảng sau đây chứa 3 loại phạm vi trong khung của chúng tôi, cùng với nội dung mô tả, ví dụ và mục đích của từng loại:

Phạm vi

Nội dung mô tả

Ví dụ

Mục đích

Kính viễn vọng

Câu hỏi về các thuộc tính thường thấy trên nhiều tập dữ liệu. Chúng gắn thẻ đặc điểm.

Tập dữ liệu này có chứa Thông tin nhận dạng cá nhân (PII) không?

Giới thiệu và đặt bối cảnh cho thông tin bổ sung giúp nhân viên hỗ trợ của bạn điều hướng Thẻ dữ liệu hoặc thành phần minh bạch.

Kính tiềm vọng

Câu hỏi về các thuộc tính cụ thể đối với tập dữ liệu của nhà sản xuất. Chúng mô tả quan sát.

Có bao nhiêu tính năng chứa thông tin nhận dạng cá nhân?

Thường được dành riêng cho việc cung cấp thông tin vận hành, chẳng hạn như hình dạng và kích thước của tập dữ liệu hoặc thông tin chức năng, chẳng hạn như nguồn hoặc ý định.

Vi mô

Câu hỏi về các khía cạnh không quan sát được của tập dữ liệu, chẳng hạn như quyết định, quy trình và tác động. Họ yêu cầu giải thích.

Thông tin nhận dạng cá nhân (PII) được ẩn danh như thế nào trong tập dữ liệu này?

Yêu cầu giải thích chi tiết về các quyết định hoặc tóm tắt các tài liệu quy trình dài hơn chi phối câu trả lời cho các câu hỏi tương ứng về phạm vi hẹp và phạm vi rộng.

Bạn cần cân nhắc 3 loại phạm vi này trong suốt quá trình tạo Thẻ dữ liệu. Thẻ dữ liệu chỉ có kính thiên văn chỉ mô tả thông tin rõ ràng về tập dữ liệu của bạn và không thêm bất kỳ giá trị riêng biệt nào. Thẻ dữ liệu chỉ có các kính tiềm vọng có thể trở nên quá kỹ thuật mà không có bất kỳ thông tin nào về bối cảnh, mức độ liên quan hoặc tầm quan trọng. Thẻ dữ liệu chỉ có kính hiển vi có thể khiến nhân viên dễ dàng bị lạc trong các chi tiết và không thấy được bức tranh tổng thể.

Đó là lý do chúng tôi nhận thấy việc diễn giải Thẻ dữ liệu chịu ảnh hưởng lớn bởi sự hiện diện hoặc vắng mặt của các cấp độ phạm vi này. Những câu hỏi này giúp nhân viên và nhà sản xuất đánh giá rủi ro, lên kế hoạch giảm thiểu và xác định cơ hội để tạo tập dữ liệu tốt hơn (nếu có). Kính thiên văn, kính tiềm vọng và kính hiển vi cùng nhau cung cấp thông tin chi tiết hữu ích để nhiều bên liên quan có thể xem Thẻ dữ liệu của bạn mà không bị mất phương hướng và lạc lối.

Ví dụ

Trong phần Hành trình thông tin của nhân viên hỗ trợ (AIJ), bạn đã thấy một số ví dụ về AIJ, bao gồm cả một ví dụ dành cho nhà khoa học dữ liệu. Nếu xem kỹ ví dụ đó, bạn có thể thấy rằng bạn có thể nhóm một số câu hỏi theo phạm vi, bao gồm cả những câu hỏi sau:

Là một nhà khoa học dữ liệu, tôi muốn biết cấu trúc của tập dữ liệu, vì vậy tôi hỏi...

Kính thiên văn

... định dạng dữ liệu là gì?

... phương thức của tập dữ liệu là gì?

Periscopic

... có bao nhiêu đặc điểm trong tập dữ liệu?

... có bao nhiêu tính năng được thiết kế?

Vi mô

... những đặc điểm nào có mối tương quan chặt chẽ?

... nếu có bất kỳ phần phụ thuộc nào trong cấu trúc?

Rất có thể bạn đã nghĩ ra một số câu hỏi mang tính bao quát, sâu sắc và chi tiết cho các nhân viên của mình.

6. Tái cấu trúc AIJ bằng các phạm vi

  • Để tái cấu trúc AIJ theo phạm vi, hãy sử dụng câu lệnh mẫu sau:

2b6e2a7a041060f4.png

7. Xin chúc mừng

Xin chúc mừng! Bạn bắt đầu tạo Thẻ dữ liệu. Giờ thì bạn đã sẵn sàng đánh giá các câu hỏi.