DSPL Check (Kiểm tra DSPL) là một tiện ích xác thực tập dữ liệu DSPL dựa trên một số tiêu chí, bao gồm cả việc tuân thủ giản đồ DSPL chính thức, tính nhất quán của tài liệu tham khảo nội bộ và cấu trúc tệp CSV. Công cụ tiện ích này có thể phát hiện nhiều vấn đề gây ra lỗi nhập DSPL, giúp bạn phát hiện và nhanh chóng khắc phục những sự cố này trước khi bắt đầu quá trình nhập dữ liệu.
Lưu ý rằng tiện ích này chưa (chưa) kiểm tra tập dữ liệu DSPL của bạn để mọi vấn đề có thể xảy ra. Tuy nhiên, mã này sẽ nắm bắt những thông tin phổ biến nhất do đó, nếu tập dữ liệu của bạn được công cụ này xác thực thành công, thì rất nhiều khả năng có thể nhập và trực quan hoá dữ liệu này trong Dữ liệu công khai Người khám phá. Xem phần Kiểm tra thông tin chi tiết bên dưới để biết thêm thông tin.
Đang chạy kiểm tra DSPL
Thông tin cơ bản
Lưu ý: Những hướng dẫn này giả định rằng bạn có đã tuân theo cài đặt hướng dẫn được cung cấp trên trang Công cụ DSPL.
Để chạy Kiểm tra DSPL, hãy chuyển đến cửa sổ dòng lệnh / lời nhắc trên hệ thống của bạn và loại:
python dsplcheck.py [path to dataset XML or zip file]
trong đó cụm từ trong dấu ngoặc vuông được thay thế bằng đường dẫn tương đối đến tệp XML của tập dữ liệu hoặc gói DSPL được nén.
Nếu tập dữ liệu hợp lệ, công cụ sẽ xuất ra thông báo "xác thực thành công" . Nếu không, công cụ này sẽ tạo ra một hoặc nhiều thông báo lỗi mô tả lý do khiến việc xác thực không thành công. Nếu lỗi này xảy ra, hãy khắc phục tập dữ liệu theo chỉ dẫn, sau đó chạy lại công cụ này.
Cấp kiểm tra
Theo mặc định, tính năng Kiểm tra DSPL sẽ kiểm tra toàn bộ tập dữ liệu, bao gồm cả các tệp CSV được tham chiếu từ tệp XML DSPL chính. Quá trình này hoạt động tốt trên các đến các tập dữ liệu có quy mô trung bình, nhưng có thể bị nghẽn hoặc hết bộ nhớ trên các tập dữ liệu rất lớn (ví dụ: hàng trăm megabyte hoặc lớn hơn).
Để giải quyết những trường hợp này, công cụ có cấp độ kiểm tra
cho phép bạn đặt phạm vi kiểm tra và cải thiện
hiệu suất (nếu cần). Để sử dụng, hãy chèn --checking_level=[...]
trước đường dẫn tập dữ liệu, nơi thuật ngữ trong dấu ngoặc vuông được thay thế bằng một trong
các giá trị sau:
schema_only
: Xác thực tệp XML của tập dữ liệu dựa trên giản đồ DSPL chính thức thì dừng lại.schema_and_model
: Thực hiện xác thực giản đồ và mô hình cơ bản, nhưng bỏ qua nội dung CSV sau dòng tiêu đề.full
: Thực hiện xác thực giản đồ, mô hình và dữ liệu (mặc định).
Thông tin chi tiết về quá trình kiểm tra
Tính năng Kiểm tra DSPL thực hiện trình tự xác thực sau đây:
- Xác thực giản đồ XML: Xác minh rằng tập dữ liệu của bạn là tệp XML hợp lệ và tuân thủ giản đồ DSPL chính thức.
- Sự tồn tại của tệp CSV: Kiểm tra để đảm bảo rằng tất cả các tệp CSV được tham chiếu từ tập dữ liệu của bạn tồn tại và có thể tải được.
-
Kiểm tra khái niệm: Các bước kiểm tra khác nhau đối với từng khái niệm trong
tập dữ liệu, bao gồm:
- Tập dữ liệu có ít nhất một khái niệm*
- Tất cả nội dung tham khảo về chủ đề đều hợp lệ
- Tham chiếu bảng tồn tại nếu khái niệm được dùng không phải thời gian phương diện*
- Tham chiếu bảng là hợp lệ nếu có
- Bảng được tham chiếu có một cột tương ứng với mã khái niệm
-
Kiểm tra lát cắt: Các bước kiểm tra khác nhau cho từng lát cắt trong
tập dữ liệu, bao gồm:
- Tập dữ liệu có ít nhất một lát*
- Có ít nhất một lát cắt tham chiếu đến một phương diện không theo thời gian*
- Lát cắt có ít nhất một chỉ số và một phương diện
- Tham chiếu đúng một phương diện
time
khái niệm chính tắc* - Mỗi lát cắt có một tổ hợp phương diện duy nhất
- Tất cả thông tin tham chiếu đến các khái niệm cục bộ đều hợp lệ
- Bảng tham chiếu đã tồn tại
- Tham chiếu bảng là hợp lệ
- Bảng được tham chiếu có một cột cho từng phương diện và chỉ số trong lát cắt
- Loại cột trong bảng được tham chiếu khớp với các loại của các khái niệm được dùng trong lát cắt
-
Kiểm tra bảng: Các bước kiểm tra khác nhau của từng bảng trong
tập dữ liệu, bao gồm:
- Tập dữ liệu có ít nhất một bảng*
- Tệp CSV có cùng số lượng cột với bảng
- Chuỗi tiêu đề CSV khớp với mã cột
- Tất cả các cột ngày đều có thuộc tính
format
- Định dạng ngày phù hợp (khoảng) với các khái niệm thời gian có liên quan,
Ví dụ: định dạng của cột
time:year
bao gồm ít nhất mộty
ký tự*
-
Kiểm tra dữ liệu CSV: Các bước kiểm tra khác nhau đối với tệp dữ liệu CSV
được tham chiếu bởi tệp XML của tập dữ liệu, bao gồm:
- Mỗi hàng CSV đều có cùng số cột với tiêu đề
- Tệp CSV định nghĩa về khái niệm không có nhiều hơn một hàng cho mỗi hàng mã khái niệm
- Tệp CSV của Lát cắt không có quá 1 hàng cho từng tổ hợp phương diện
- Các giá trị phương diện được tham chiếu trong tệp CSV lát cắt là hợp lệ
- Tệp CSV của Lát cắt được sắp xếp đúng cách
- Giá trị CSV số nguyên và giá trị CSV độ chính xác đơn được định dạng đúng
Bạn cần đáp ứng các tiêu chí được đánh dấu * để trực quan hoá trong Public Data Explorer, nhưng về mặt kỹ thuật không bắt buộc bằng định dạng DSPL.
Mặt khác, công cụ này (chưa) xem xét những yếu tố sau:
- Nhập tập dữ liệu
- Thuộc tính và mục tham chiếu thuộc tính
- Phần mở rộng về khái niệm