Kiểm tra DSPL

DSP kiểm tra là một tiện ích xác thực tập dữ liệu DSPL dựa trên một số tiêu chí, bao gồm cả việc tuân thủ giản đồ DSPL chính thức, tính nhất quán của tệp đối chiếu nội bộ và cấu trúc tệp CSV. Tiện ích này có thể phát hiện nhiều vấn đề gây ra lỗi nhập DSPL, giúp bạn phát hiện và khắc phục nhanh các vấn đề này trước khi bắt đầu quá trình nhập.

Xin lưu ý rằng tiện ích này (chưa) kiểm tra tập dữ liệu DSPL của bạn để phát hiện mọi vấn đề có thể xảy ra. Tuy nhiên, công cụ này sẽ phát hiện các vấn đề thường gặp nhất. Vì vậy, nếu công cụ của bạn xác thực tập dữ liệu của bạn thành công, rất có thể công cụ này sẽ có thể nhập và hiển thị được trong Trình khám phá dữ liệu công khai. Hãy xem phần Kiểm tra thông tin chi tiết bên dưới để biết thêm thông tin.

Đang chạy quy trình kiểm tra DSPL

Thông tin cơ bản

Lưu ý: Những hướng dẫn này giả định rằng bạn đã làm theo hướng dẫn cài đặt trên trang Công cụ DSPL.

Để chạy tính năng Kiểm tra DSPL, hãy chuyển đến thiết bị đầu cuối / lời nhắc trên hệ thống của bạn và nhập:

python dsplcheck.py [path to dataset XML or zip file]

trong đó cụm từ trong dấu ngoặc vuông được thay thế bằng đường dẫn tương đối đến tệp XML của tập dữ liệu hoặc gói DSPL nén.

Nếu tập dữ liệu hợp lệ, công cụ sẽ in thông báo "xác thực thành công". Nếu không, thao tác này sẽ tạo ra một hoặc nhiều thông báo lỗi mô tả lý do không xác thực được. Nếu sau này xảy ra, hãy sửa tập dữ liệu của bạn theo hướng dẫn rồi chạy lại công cụ này.

Mức độ kiểm tra

Theo mặc định, DSPL Check sẽ kiểm tra toàn bộ tập dữ liệu, bao gồm cả các tệp CSV được tham chiếu từ tệp XML DSPL chính. Quá trình này hoạt động hiệu quả trên các tập dữ liệu có kích thước vừa và nhỏ, nhưng có thể bị chậm lại hoặc hết bộ nhớ trên các tập dữ liệu rất lớn (tức là hàng trăm megabyte trở lên).

Để giải quyết những trường hợp này, công cụ có một cấp kiểm tra cho phép bạn đặt phạm vi kiểm tra và cải thiện hiệu suất nếu cần. Để sử dụng, hãy chèn --checking_level=[...] trước đường dẫn tập dữ liệu, trong đó cụm từ trong dấu ngoặc vuông được thay thế bằng một trong các giá trị sau:

  • schema_only: Xác thực tệp XML của tập dữ liệu dựa vào giản đồ DSPL chính thức, sau đó dừng.
  • schema_and_model: Thực hiện giản đồ và xác thực mô hình cơ bản, nhưng bỏ qua nội dung CSV sau dòng tiêu đề.
  • full: Thực hiện giản đồ, mô hình và xác thực dữ liệu (mặc định).

Đang kiểm tra thông tin chi tiết

Kiểm tra DSPL thực hiện trình tự xác thực sau:

  • Xác thực giản đồ XML: Xác minh rằng tệp siêu dữ liệu của tập dữ liệu là XML hợp lệ và tuân theo lược đồ DSPL chính thức.
  • Sự tồn tại của tệp CSV: Kiểm tra để đảm bảo rằng tất cả các tệp CSV được tham chiếu từ tập dữ liệu của bạn đều tồn tại và có thể tải được.
  • Kiểm tra khái niệm: Nhiều bước kiểm tra đối với từng khái niệm trong tập dữ liệu, bao gồm:
    • Tập dữ liệu có ít nhất một khái niệm*
    • Tất cả tệp tham chiếu theo chủ đề đều hợp lệ
    • Tham chiếu bảng tồn tại nếu ý tưởng được dùng làm phương diện không theo thời gian*
    • Tham chiếu bảng hợp lệ nếu có
    • Bảng được tham chiếu có một cột tương ứng với mã khái niệm
  • Kiểm tra lát cắt: Nhiều bước kiểm tra cho từng phần trong tập dữ liệu của bạn, bao gồm:
    • Tập dữ liệu có ít nhất một phần*
    • Ít nhất một lát cắt tham chiếu đến một phương diện không phải thời gian*
    • Lát cắt có ít nhất một chỉ số và một phương diện
    • Duy nhất một phương diện để tham khảo time khái niệm chính tắc*
    • Mỗi phần có một tổ hợp phương diện duy nhất
    • Tất cả các tham chiếu đến khái niệm cục bộ đều hợp lệ
    • Tham chiếu bảng tồn tại
    • Tham chiếu bảng hợp lệ
    • Bảng được tham chiếu có một cột cho mỗi phương diện và chỉ số trong phần
    • Các loại cột trong bảng tham chiếu khớp với các loại khái niệm dùng trong lát cắt
  • Kiểm tra bảng: Nhiều quy trình kiểm tra cho mỗi bảng trong tập dữ liệu, bao gồm:
    • Tập dữ liệu có ít nhất một bảng*
    • Tệp CSV có cùng số cột với bảng
    • Chuỗi tiêu đề CSV khớp với mã cột
    • Tất cả các cột ngày đều có thuộc tính format
    • Định dạng ngày phù hợp (khoảng) với các khái niệm thời gian liên quan, ví dụ: định dạng cho cột time:year bao gồm ít nhất một ký tự y*
  • Kiểm tra dữ liệu CSV: Nhiều mục kiểm tra đối với các tệp dữ liệu CSV được tham chiếu trong tệp XML của tập dữ liệu, bao gồm:
    • Mỗi hàng CSV có cùng số cột với tiêu đề
    • Tệp CSV chứa định nghĩa về khái niệm không có nhiều hàng cho mỗi mã khái niệm
    • Tệp Slice CSV chỉ có tối đa một hàng cho mỗi tổ hợp phương diện
    • Các giá trị phương diện được tham chiếu trong tệp CSV cắt lát hợp lệ
    • Tệp Slice CSV được sắp xếp đúng cách
    • Giá trị số nguyên và giá trị CSV nổi được định dạng đúng

Các tiêu chí được đánh dấu * là cần thiết để hiển thị trong Public Data Explorer, nhưng về mặt kỹ thuật thì không bắt buộc theo định dạng DSPL.

Mặt khác, công cụ này (chưa) nhìn vào những điều sau:

  • Nhập tập dữ liệu
  • Tham chiếu thuộc tính và thuộc tính
  • Phần mở rộng về ý tưởng