1. Xác định những điểm chính cần ghi nhớ
Bạn đã quyết định chọn một bộ câu hỏi mà bạn muốn đưa vào Thẻ dữ liệu – những câu hỏi mà bạn cảm thấy quan trọng đối với độc giả. Tuy nhiên, việc này không đơn giản chỉ là trả lời những câu hỏi này và gọi đó là Thẻ dữ liệu. Bạn cần cân nhắc kỹ lưỡng để đảm bảo Thẻ dữ liệu cuối cùng được tối ưu hoá cho trải nghiệm của người đọc.
Khi đọc Thẻ dữ liệu, mọi người muốn đưa ra quyết định rất cụ thể, chẳng hạn như:
- Tập dữ liệu này có phù hợp với trường hợp sử dụng của tôi không?
- Tôi có thể cho phép người khác sử dụng tập dữ liệu này không?
- Làm cách nào để sử dụng tập dữ liệu này một cách an toàn mà không làm tăng rủi ro cho các mô hình của tôi?
Nếu có thể truy cập thông tin phù hợp một cách hiệu quả, độc giả sẽ rất giỏi đưa ra quyết định liên quan đến tập dữ liệu trong bối cảnh của họ. Tầm quan trọng hoặc mức độ hữu ích của thông tin phụ thuộc vào loại quyết định mà người đọc phải đưa ra và kiến thức nền của người đọc. Ví dụ: khi quyết định có sử dụng một tập dữ liệu hay không, nhân viên tuân thủ có thể xem xét các giấy phép liên quan đến tập dữ liệu đó, nhưng kỹ sư sẽ xem xét ngăn xếp kỹ thuật. Cả hai độc giả đều đặt cùng một câu hỏi, nhưng mong đợi những câu trả lời khác nhau.
Thẻ dữ liệu phải mô tả toàn diện tập dữ liệu của bạn để người đọc có thể đưa ra quyết định một cách tự tin. Những nội dung mô tả toàn diện này giúp bạn quyết định những gì bạn muốn người đọc nhận được từ Thẻ dữ liệu của mình, đồng thời xác định loại thông tin chính xác, đầy đủ và có tổ chức để ghi lại trong đó. Tất nhiên, thách thức là bạn không thể xác định tất cả những quyết định có thể có mà người đọc Thẻ dữ liệu của bạn cần đưa ra.
2. Lên kế hoạch cho Thẻ dữ liệu
- Để xác định những quyết định mà các trình đọc Thẻ dữ liệu cần đưa ra và mức độ chi tiết mà Thẻ dữ liệu của bạn nên có, hãy trả lời câu hỏi cho từng danh mục trong bảng sau:
Độc giả | Quyết định | Mục tiêu | Mức độ liên quan | Nuance |
Đối tượng chính là ai? | Họ sẽ đưa ra những quyết định nào về tập dữ liệu? | Họ muốn xem thông tin gì trong Thẻ dữ liệu? | Họ cần nội dung cụ thể nào trong Thẻ dữ liệu để đạt được mục tiêu của mình? | Dựa trên những gì bạn biết về độc giả, nội dung của bạn cần chi tiết hoặc tinh tế đến mức nào? |
Ví dụ: Kỹ sư phần mềm sản xuất | Ví dụ: Tôi có nên sử dụng tập dữ liệu này để kiểm thử một mô hình học máy (ML) đang được sử dụng không? | Ví dụ: Cho tôi xem thông tin tổng quan về tập dữ liệu. Hãy cho tôi biết cách triển khai. | Ví dụ: Mục đích sử dụng và mục đích sử dụng không phù hợp, cách sử dụng và kết quả trên các mô hình trước đây. | Ví dụ: Rất tinh tế. Nhấn mạnh việc sử dụng và khả năng sử dụng về mặt kỹ thuật cho mục đích tích hợp vào các hệ thống sản xuất. |
Bạn có thể sử dụng bảng này để đánh giá Thẻ dữ liệu và đảm bảo rằng những độc giả ưu tiên của bạn thấy Thẻ dữ liệu hữu ích. Mặc dù có nhiều cách để đánh giá Thẻ dữ liệu, nhưng một cách mà chúng tôi đề xuất là đánh giá mức độ nghiêm trọng của khả năng sử dụng.
Mặc dù định nghĩa chính xác có thể khác nhau, nhưng thang đo mức độ nghiêm trọng sau đây cung cấp mức đánh giá về mức độ lỗi của một vấn đề và tác động của vấn đề đó mà không cần quan tâm đến mức độ ưu tiên. Trong bối cảnh này, chúng tôi đề cập đến khả năng sử dụng của Thẻ dữ liệu. Nếu không được giải quyết, khả năng này có thể ảnh hưởng đến mức độ tin cậy của độc giả đối với Thẻ dữ liệu và mức độ hữu ích của thẻ.
- Để đánh giá mức độ hữu ích của trạng thái Thẻ dữ liệu đối với từng nhóm đối tượng trong bảng trước đó, hãy trả lời các câu hỏi theo thang mức độ nghiêm trọng sau:
Vi phạm | Mức độ nghiêm trọng | Khắc phục |
Những câu trả lời nào không hữu ích cho người đọc? | Theo thang điểm từ 1 đến 5, bạn đánh giá mức độ khẩn cấp cần khắc phục vấn đề này là bao nhiêu? (Chọn hộp đánh dấu phù hợp):
| Giải pháp là gì? |
3. Chỉ cần đủ
Thông thường, một trong hai điều sau đây sẽ xảy ra khi bạn tạo Thẻ dữ liệu đầu tiên:
- Quá nhiều thông tin sẽ khiến độc giả choáng ngợp.
- Quá ít thông tin sẽ khiến độc giả nhầm lẫn.
Là nhà sáng tạo Thẻ dữ liệu, bạn cần tuyển chọn và ưu tiên thông tin trong thẻ. Một thông tin minh bạch tốt sẽ cung cấp đủ bối cảnh để người đọc hiểu rõ. Nếu không, hệ thống sẽ cho biết họ cần làm gì tiếp theo.
Bạn nên cung cấp thông tin giúp người dùng dễ hiểu và sử dụng tập dữ liệu. Đôi khi, độ phức tạp của tập dữ liệu sẽ tăng lên, ảnh hưởng đến mật độ thông tin và nội dung giải thích mà bạn cần tóm tắt trong Thẻ dữ liệu.
Bất kể trình độ chuyên môn của độc giả, ai cũng có thể gặp phải tình trạng quá tải thông tin. Vì vậy, bạn cần trình bày thông tin chính xác, bao gồm những thông tin sau:
- Loại thông tin mà bạn nên cung cấp.
- Bạn có bao nhiêu thông tin để cung cấp.
- Thông tin chi tiết trong đó.
Câu trả lời của bạn nên cố gắng tóm tắt mọi thứ mà không cần nêu chi tiết mọi thứ, đồng thời phản ánh bối cảnh cần thiết để người đọc có thể hiểu rõ hơn về tập dữ liệu của bạn.
Heuristics
Chúng tôi đã tạo một bộ quy tắc kinh nghiệm mà bạn có thể dùng để chấm điểm trải nghiệm tổng thể khi đọc Thẻ dữ liệu. Chúng tôi xem những phương pháp này là các mục tiêu mà Thẻ dữ liệu phải đáp ứng để thành công và được áp dụng một cách phù hợp trên thực tế và ở quy mô lớn. Bảng sau đây chứa các mục tiêu này và nội dung mô tả của từng mục tiêu:
Mục tiêu | Nội dung mô tả |
Giá trị nút | Các Thẻ dữ liệu phải có thể so sánh với nhau bất kể phương thức hoặc miền dữ liệu để người dùng dễ dàng diễn giải và xác thực trong bối cảnh sử dụng. Mặc dù việc triển khai Thẻ dữ liệu một lần tương đối dễ dàng, nhưng chúng tôi nhận thấy các nhóm và tổ chức cần duy trì khả năng so sánh khi mở rộng việc áp dụng. |
Toàn diện | Thay vì được tạo ở bước cuối cùng trong vòng đời của một tập dữ liệu, bạn nên dễ dàng tạo Thẻ dữ liệu đồng thời với tập dữ liệu. Ngoài ra, trách nhiệm điền thông tin vào các trường trong Thẻ dữ liệu cần được phân phối và giao cho cá nhân phù hợp nhất. Điều này đòi hỏi các phương pháp tiêu chuẩn hoá vượt ra ngoài Thẻ dữ liệu và áp dụng cho nhiều báo cáo được tạo trong vòng đời của tập dữ liệu. |
Dễ hiểu và súc tích | Người đọc có trình độ khác nhau, điều này ảnh hưởng đến cách họ diễn giải Thẻ dữ liệu. Trong những trường hợp mà các bên liên quan có trình độ khác nhau, những cá nhân có mô hình tinh thần mạnh nhất về tập dữ liệu sẽ trở thành người đưa ra quyết định trên thực tế. Cuối cùng, những nhiệm vụ cấp bách hoặc khó khăn hơn có thể làm giảm sự tham gia của các bên liên quan không truyền thống vào việc đưa ra quyết định, và những nhiệm vụ này sẽ được giao cho "chuyên gia". Điều này có nguy cơ bỏ sót những quan điểm quan trọng phản ánh nhu cầu cụ thể của các bên liên quan ở hạ nguồn và các bên liên quan ngang hàng. Thẻ dữ liệu phải truyền đạt thông tin một cách hiệu quả cho độc giả có trình độ thấp nhất và cho phép độc giả có trình độ cao hơn tìm thêm thông tin khi cần. Nội dung và thiết kế phải thúc đẩy quá trình cân nhắc của người đọc mà không khiến họ cảm thấy quá tải, đồng thời khuyến khích sự hợp tác của các bên liên quan để hướng đến một mô hình tư duy chung về tập dữ liệu nhằm đưa ra quyết định. |
4. Chấm điểm các phương pháp phỏng đoán của bạn
- Để xem xét câu trả lời cho Thẻ dữ liệu của bạn, hãy sử dụng bảng điểm sau đây mà chúng tôi đã tạo để chấm điểm từng phương pháp phỏng đoán. Cuối cùng, bạn có thể tính tổng điểm của Thẻ dữ liệu để theo dõi tiến trình. Bạn cũng có thể thêm nhận xét để nắm bắt thêm bối cảnh và các việc cần làm để cải thiện từng phương pháp phỏng đoán.
Heuristic | Tiêu chí | Nhận xét | Điểm |
Tự chấm điểm thẻ dữ liệu đã hoàn tất dựa trên các phương pháp sau. | Tiêu chí cho phương pháp suy nghiệm | Đặc biệt lưu ý đến những khía cạnh mà thẻ dữ liệu có thể cải thiện. | Chỉ nhập số, tự chấm điểm (0-10) |
Dễ hiểu |
| . | . |
Toàn diện |
| . | . |
Nhất quán |
| . | . |
Ngắn gọn |
| . | . |
Tổng điểm = (Tổng điểm/120) | . | . | /120 |
5. Phân tích thấu đáo
Chúng tôi biết rằng dữ liệu là thông tin về con người, văn hoá hoặc doanh nghiệp được thu thập theo một cách có cấu trúc cho một mục đích cụ thể. Tuy nhiên, như đã đề cập nhiều lần, tất cả đều có sắc thái riêng, bị ràng buộc bởi nhiều khía cạnh ở các mức độ khác nhau. Do đó, việc phân tích tập dữ liệu sẽ giúp bạn hiểu được những suy nghĩ đã được đưa vào chính tập dữ liệu đó, từ đó giúp bạn hiểu rõ những điểm phức tạp của tập dữ liệu.
Ví dụ: một bản phân tích giao thoa về con người có thể khám phá các tổ hợp yếu tố con người trong một tập dữ liệu để xác định những kết quả có thể không cân xứng, chẳng hạn như khi một mô hình được huấn luyện trên một tập dữ liệu hoạt động hiệu quả hơn cho một nhóm nhỏ so với các nhóm khác. Phân tích tách biệt sẽ chia nhỏ tập dữ liệu dựa trên nhiều yếu tố để cho thấy các mẫu quan trọng cho các nhóm nhỏ hoặc dân số bị thiệt thòi thường bị che khuất bởi dữ liệu tổng hợp lớn hơn, nhờ đó người đọc có thể dự đoán kết quả.
Theo đó, chúng tôi nhận thấy rằng tính giao thoa và phân tích tách biệt (IDA) là những cách hiệu quả để truyền đạt một loạt kết quả hợp lý trong các trường hợp khác nhau trong Thẻ dữ liệu thông qua việc thiết lập các mối quan hệ rõ ràng trong một tập dữ liệu. IDA có thể cung cấp cho người đọc những manh mối quan trọng về thông tin trình bày trong tập dữ liệu của bạn, chẳng hạn như cách nhãn tương quan với các thực thể nhạy cảm; khoảng trống trong tập dữ liệu của bạn, chẳng hạn như cách tập dữ liệu chỉ có ảnh chụp vào ban ngày; và mối quan hệ giữa các biến có thể khiến các mô hình AI học được mối tương quan giả tạo hoặc chọn các proxy. Những phân tích này sẽ trở nên hữu ích hơn nữa khi được đặt trong các trường hợp thực tế phản ánh trải nghiệm mà người dùng chịu ảnh hưởng có thể gặp phải với một sản phẩm hoặc dịch vụ sử dụng tập dữ liệu của bạn.
Ví dụ: việc trình bày kết quả IDA trong Thẻ dữ liệu giúp người đọc chủ động xây dựng trực giác về cách mô hình học máy của họ hoạt động trên các tập hợp con (còn gọi là các lát) trong tập dữ liệu của bạn. Mặc dù điều này đòi hỏi người tạo tập dữ liệu phải siêng năng hơn trong việc phân tích tập dữ liệu và cách trình bày tập dữ liệu trong Thẻ dữ liệu, nhưng cuối cùng, điều này có thể mang lại kết quả tốt hơn về sản phẩm cho các bên liên quan.
IDA có thể giúp người đọc hiểu rõ hơn cách sử dụng tập dữ liệu của bạn trong các mô hình của họ. Nếu bạn gặp khó khăn, hãy làm việc với các chuyên gia, nhóm sản phẩm và những cá nhân có kinh nghiệm thực tế để giúp bạn định hình các phân tích của mình. IDA thường bắt nguồn từ những bối cảnh cần được giải thích cho người đọc hoặc cần được hỗ trợ thêm để người đọc có thể diễn giải những bối cảnh này một cách phù hợp.
6. Phân tích dữ liệu
Để phân tích tập dữ liệu, hãy làm theo các bước sau:
- Khám phá trước khi bắt đầu phân tích. Phát triển khả năng cảm nhận về độ lệch và sự mất cân bằng trong tập dữ liệu của bạn bằng một công cụ, chẳng hạn như TensorFlow Data Validation (TFDV) hoặc Learning Interpretability Tool (LIT). Sử dụng kết quả để xây dựng thiết kế phân tích.
- Thiết kế kỹ lưỡng quy trình phân tích. Kết quả phân tích chịu ảnh hưởng lớn của mục tiêu đánh giá, khả năng tiếp cận chuyên môn và tài nguyên để tiến hành phân tích, thời điểm và địa điểm bạn tiến hành phân tích, cũng như bối cảnh của các mô hình AI mà bạn tiến hành phân tích.
- Bắt đầu với những yếu tố liên quan đến mục đích sử dụng dự kiến của bạn. Hãy điều chỉnh các yếu tố nhân khẩu học, văn hoá xã hội, hành vi và hình thái học có thể ảnh hưởng nhiều nhất đến các trường hợp sử dụng mà bạn dự định khi tạo nhóm đối tượng có mối quan tâm, sau đó mở rộng từ đó.
- Báo cáo, không bình luận. Xin lưu ý rằng các yếu tố và giả định ảnh hưởng đến việc phân tích tính công bằng tồn tại trong các cấu trúc xã hội cụ thể về lịch sử và văn hoá mà khó định lượng được. Hãy cẩn thận khi thêm những bình luận có thể khiến người đọc nhầm lẫn. Thay vào đó, hãy cung cấp các cách tái tạo những phân tích có thể giúp độc giả điều chỉnh kết quả trong bối cảnh của riêng họ.
- Lập kế hoạch cho tương lai. Tính đến những yếu tố bổ sung có thể xuất hiện trong tương lai bằng cách xem xét cách trình bày trong tập dữ liệu, giữ nguyên các giá trị trong nhiều trường hợp hoặc kết hợp phân tích với một dải giá trị của các yếu tố bổ sung có liên quan đến tập dữ liệu.
- Cung cấp thêm bối cảnh cho những kết quả không tái hiện được. Nếu các bên liên quan ở hạ nguồn không thể tái tạo các chỉ số, hãy cung cấp đủ bối cảnh về hoạt động phân tích. Nếu có thể sử dụng thông tin này để cân nhắc những ưu và nhược điểm của tập dữ liệu, thì người đọc có thể tin tưởng vào tập dữ liệu đó.
7. Xin chúc mừng
Xin chúc mừng! Bạn có thể cung cấp câu trả lời chính xác trong Thẻ dữ liệu theo một số cách. Giờ đây, bạn đã sẵn sàng kiểm tra các mục tiêu này.