Câu hỏi thường gặp về DSPL

Tài liệu này trình bày các vấn đề thường gặp nhất của các chủ sở hữu dữ liệu khi tạo tập dữ liệu DSPL và tải các dữ liệu này lên Trình khám phá dữ liệu công khai.

Nội dung

Câu hỏi Chung

DSPL là gì?

DSPL là viết tắt của Dataset Publishing Language (Ngôn ngữ xuất bản tập dữ liệu). Đây là định dạng đại diện cho cả siêu dữ liệu (thông tin về tập dữ liệu, chẳng hạn như tên và nhà cung cấp tập dữ liệu, cũng như khái niệm về tập dữ liệu này) và dữ liệu thực tế của tập dữ liệu. Siêu dữ liệu được chỉ định trong XML, trong khi dữ liệu được cung cấp ở định dạng CSV.

Lợi ích chính khi sử dụng DSPL là gì?

DSPL được thiết kế ngay từ đầu cho hình ảnh trực quan hoá dữ liệu đa dạng thức như trong Trình khám phá dữ liệu công khai. Việc tạo các nội dung này yêu cầu siêu dữ liệu chi tiết về lát cắt, phương diện và chỉ số, các thực thể không được hỗ trợ tốt trong các định dạng tập dữ liệu khác.

DSPL cũng hỗ trợ nhập tập dữ liệu, phân cấp khái niệm (ví dụ: "country" là phần tử con của "continental"), dữ liệu được mã hoá địa lý và một số tính năng độc đáo khác giúp cải thiện trải nghiệm khám phá dữ liệu.

DSPL có thay thế các định dạng khác được dùng để trao đổi dữ liệu và/hoặc phân tích không?

Nhìn chung là không. Như đã lưu ý trong câu trả lời trước, DSPL được thiết kế để trực quan hoá và khám phá tương tác. Khoá học này không phải là định dạng phân bổ hoặc trao đổi dữ liệu tổng quát.

Cuối cùng, chúng tôi xem DSPL là bổ sung cho các định dạng khác. Người dùng cần tạo được tập dữ liệu DSPL từ các nguồn khác nhằm mục đích tạo hình ảnh trực quan giàu tính tương tác về dữ liệu.

Tôi có thể làm gì với tập dữ liệu DSPL?

Bạn có thể nhập dữ liệu này vào Trình khám phá dữ liệu công khai, phát hành và cho phép người khác khám phá dữ liệu thông qua các hình ảnh trực quan giàu tính tương tác. Các tập dữ liệu đã xuất bản cũng có thể được đưa vào Thư mục dữ liệu công khai để người dùng quan tâm có thể tìm thấy các tập dữ liệu đó.

Hiện tại, đây là ứng dụng duy nhất sử dụng DSPL. Tuy nhiên, chúng tôi khuyến khích mọi người sử dụng thông tin này cho các ứng dụng khác và chúng tôi hy vọng rằng thông tin này sẽ tăng lên theo thời gian.

Những loại tập dữ liệu nào phù hợp nhất với DSPL?

Định dạng DSPL hỗ trợ các tập hợp tuỳ ý trong bảng và do đó phù hợp với nhiều loại tập dữ liệu. Tuy nhiên, chỉ một tập hợp con các tập dữ liệu DSPL sẽ tạo ra các hình ảnh trực quan thú vị trong Public Data Explorer. Cụ thể, sản phẩm thứ hai này phù hợp nhất với những dữ liệu:

  • Định lượng: Mỗi điểm dữ liệu có một hoặc nhiều chỉ số dạng số được liên kết với nó (ví dụ: "điền trước", "số ca cúm", "doanh thu").
  • Phân loại: Dữ liệu có thể được sắp xếp thành một số lượng danh mục nhất định có thể mô tả bằng văn bản (ví dụ: "country", "giới tính", "nhóm tuổi").
  • Chuỗi thời gian: Đối với mỗi danh mục, chỉ số dữ liệu khác nhau tùy theo hàm thời gian và các điểm liền kề cách nhau ít nhất một ngày (Trình khám phá dữ liệu công khai không thể hình dung mức tăng thời gian nhỏ hơn một ngày).
  • Tổng hợp: Đối với mỗi tổ hợp thời gian/danh mục/chỉ số, sẽ có một điểm dữ liệu duy nhất, chứ không phải là danh sách các sự kiện hoặc dữ kiện.

Tôi đã tạo một tập dữ liệu DSPL và muốn tập dữ liệu này xuất hiện trong Thư mục dữ liệu công khai của Google để những người khác có thể tìm thấy tập dữ liệu đó. Tôi cần liên hệ với ai?

Vui lòng điền vào biểu mẫu này và cung cấp đường liên kết đến tập dữ liệu của bạn.

Tôi đang gặp vấn đề với DSPL. Tôi có thể yêu cầu trợ giúp ở đâu?

Vui lòng đăng sự cố của bạn trên diễn đàn thảo luận của DSPL.

Tệp tập dữ liệu DSPL

Tôi nên mã hoá các tệp XML và CSV của mình như thế nào?

Tất cả tệp XML và CSV đều phải được mã hoá bằng phương thức UTF-8. Xin lưu ý rằng ASCII (đôi khi được gọi là "văn bản thuần tuý") là một tập hợp con của UTF-8, vì vậy, tập dữ liệu ở định dạng đó cũng sẽ hoạt động.

Tôi nên sử dụng phần mềm nào để tạo và chỉnh sửa các tệp tập dữ liệu?

Trình chỉnh sửa văn bản thuần tuý có cú pháp làm nổi bật để dễ đọc là lựa chọn phù hợp để chỉnh sửa tệp XML. Hãy xem bài viết này để nắm được một số đề xuất dành riêng cho nền tảng. Bạn không nên sử dụng các trình xử lý văn bản đa năng, có đầy đủ tính năng vì những trình xử lý này thường chèn các thẻ định dạng bổ sung vào XML của bạn và có thể gây ra lỗi nhập.

Bảng tính thường là cách dễ nhất để tạo và chỉnh sửa tệp dữ liệu. Bạn chỉ cần lưu chúng ở đúng định dạng (giá trị CSV/ được phân tách bằng dấu phẩy).

Tôi có dữ liệu trong Excel, SPSS, SAS hoặc một số hệ thống khác. Tôi có thể nhập trực tiếp các dữ liệu này vào Public Data Explorer không?

Không, để sau. Trước tiên, bạn cần xuất dữ liệu của mình sang định dạng CSV, thêm siêu dữ liệu XML thích hợp, sau đó tải tập dữ liệu tuân thủ DSPL lên Trình khám phá dữ liệu công khai.

Việc tôi đặt tên cho tệp có quan trọng không?

Tệp XML của tập dữ liệu của bạn phải có tên kết thúc bằng .xml. Các tệp dữ liệu CSV liên kết có thể có tên, miễn là các tên này khớp với tên trên các thẻ <file> trong siêu dữ liệu XML của bạn. Tệp zip dùng để đóng gói và nhập tập dữ liệu vào Public Data Explorer cũng có thể có tên bất kỳ.

Tôi có nên sắp xếp các tệp CSV của mình không?

Có. Bạn nên sắp xếp nội dung của các tệp CSV theo các phương diện không theo thời gian (theo thứ tự hoặc hướng bất kỳ), sau đó chọn bất kỳ cột nào khác (ví dụ: thời gian).

Ví dụ: nếu bạn có một tệp CSV với các cột date, dimension1, dimension2, metric1metric2, thì bạn nên sắp xếp theo dimension1dimension2 (theo thứ tự bất kỳ). Nếu bạn cũng muốn sắp xếp theo cột ngày/giờ thì đây phải là điều cuối cùng bạn sắp xếp.

Việc sắp xếp theo cách này giúp quan sát từng chuỗi thời gian được nhóm lại với nhau, giúp cải thiện đáng kể hiệu quả của quá trình nhập DSPL.

Mô hình và cú pháp XML

Làm cách nào để chọn giá trị cho một chỉ số và giá trị thứ nguyên?

Phương diện là một thực thể được dùng để phân đoạn hoặc lọc dữ liệu của bạn. Mặt khác, một chỉ số mô tả giá trị được quan sát hoặc các giá trị được liên kết với từng điểm dữ liệu.

Nói chung, các phương diện mang tính phân loại trong khi các chỉ số không phải là giá trị phân loại, thay đổi theo thời gian hoặc số. Sau đây là một số ví dụ về nguyên mẫu:

  • Phương diện: Quốc gia, tiểu bang, hạt, khu vực, năm, tháng, giới tính, danh mục độ tuổi, phân khúc trong ngành
  • Chỉ số: Dân số, GDP, tỷ lệ thất nghiệp, tỷ lệ biết chữ, doanh thu, chi phí, giá

Sự khác biệt giữa thuộc tính và thuộc tính là gì?

Các thuộc tính được đính kèm vào từng bản sao của một khái niệm. Ví dụ: một thuộc tính châu lục sẽ có các giá trị khác nhau cho các quốc gia khác nhau. Mặt khác, thuộc tính được liên kết với toàn bộ khái niệm. Ví dụ: thuộc tính isParent đúng với mọi châu lục.

Thứ tự của các thẻ có quan trọng không?

Có. Hãy sắp xếp các thẻ của bạn theo thứ tự xuất hiện trong Hướng dẫn cho nhà phát triển. Ví dụ: <topic> phải xuất hiện trước <type> trong định nghĩa của một khái niệm.

Cách viết hoa có quan trọng không?

Có, thẻ XML và tên thuộc tính của bạn phải được viết hoa giống như trong Hướng dẫn cho nhà phát triển. Ví dụ: việc sử dụng isparent thay vì isParent trong thẻ property sẽ gây ra lỗi nhập.

Một ý tưởng có thể có hai phần tử mẹ?

Không. Mỗi khái niệm chỉ có thể có một tham chiếu isParent.

Một khái niệm có thể tự chỉ ra?

Có. Hãy xem tập dữ liệu về Doanh số bán lẻ tại Hoa Kỳ để biết ví dụ về hệ thống phân cấp khái niệm tự tham chiếu.

Định dạng dữ liệu

Làm cách nào để định dạng ngày?

Bạn có thể viết ngày ở bất kỳ định dạng nào có thể mô tả bằng tiêu chuẩn Joda DateTime. Bạn phải lưu trữ mã định dạng Joda trong thuộc tính format trong phần tử cột của bảng tương ứng.

Dưới đây là mã định dạng của Joda cho một số định dạng ngày phổ biến:

Ví dụ về ngày Định dạng Joda
2010 yyyy
Tháng 5 năm 2010 MMM yyyy
21/05/2010 MM/dd/yyyy
21/5/2010 dd/MM/yyyy
2010-05-21 yyyy-MM-dd

Cụ thể, xin lưu ý rằng mã Joda cho ký tự tháng là M, không phải m (thể hiện phút).

Tôi có thể sử dụng đơn vị thời gian nhỏ hơn một ngày không?

Định dạng Joda DateTime và do đó, DSPL, cũng hỗ trợ các giá trị thời gian theo thứ tự mili giây. Tuy nhiên, Trình khám phá dữ liệu công khai không thể (chưa) trực quan hoá bất kỳ chi tiết nào về thời gian nhỏ hơn một ngày.

Sử dụng các khái niệm chính tắc

"Khái niệm chính tắc" là gì và hữu ích như thế nào?

Thuật ngữ " khái niệm chính tắc" dùng để chỉ một tập hợp các khái niệm do Google tạo ra và dùng để định nghĩa những "khối xây dựng" cơ bản trong các tập dữ liệu khác. Bản thân các khái niệm này được xác định trên 6 tập dữ liệu DSPL nhóm các tập dữ liệu trước đây thành các danh mục như "thời gian", "vị trí địa lý", v.v. Để truy cập vào các khái niệm này, bạn chỉ cần nhập(các) tập dữ liệu mẹ thích hợp ở đầu tệp XML DSPL.

Các khái niệm chính tắc rất hữu ích vì nó giúp tiết kiệm thời gian (ví dụ: bằng cách không phải nhập thủ công các giá trị vĩ độ và kinh độ cho mọi quốc gia trên thế giới) và cũng báo hiệu cách trực quan hoá dữ liệu của bạn. Ví dụ: Public Data Explorer sử dụng các khái niệm time:... để định dạng trục x của biểu đồ đường, sử dụng thuộc tính name của khái niệm entity:entity để tạo chuỗi cho giao diện người dùng bộ chọn kích thước, sử dụng các thuộc tính latitudelongitude của geo:location để hiển thị dữ liệu trong hình ảnh trực quan hóa bản đồ, v.v.

Tất cả các khái niệm chính tắc đều có thể được khám phá bởi Public Data Explorer?

Mặc dù hầu hết các khái niệm chính tắc đã cung cấp đều được khám phá bởi Public Data Explorer, nhưng có một số khái niệm không (chưa) có thể nhìn thấy. Dưới đây là danh sách các giải pháp cùng với một số giải pháp được đề xuất:

Khái niệm Giải pháp
quantity:index Thay vào đó, hãy sử dụng quantity:ratio hoặc quantity:magnitude.
time:quarter Dùng time:month theo mô tả trong Sổ tay nấu ăn DSPL.
time:week Dùng time:day theo mô tả trong Sổ tay nấu ăn DSPL.

Hãy tiếp tục theo dõi để được hỗ trợ tốt hơn về những khái niệm này trong tương lai.

Làm cách nào để sử dụng khái niệm chính tắc trong tập dữ liệu?

Hãy xem tài liệu về khái niệm cụ thể mà bạn muốn sử dụng, đồng thời xem Sách hướng dẫn về DSPL. Trang này có hướng dẫn chi tiết từng bước cho các khái niệm phổ biến nhất.

Nhập và trực quan hoá tập dữ liệu

Tại sao tôi không nhập được tập dữ liệu của mình thành công?

Giao diện tải lên của Public Data Explorer sẽ quét tập dữ liệu DSPL của bạn và chặn hoạt động nhập dữ liệu đó nếu phát hiện lỗi. Trình nhập rất nhạy cảm với cách viết chính tả, cách viết hoa và thứ tự / vị trí thẻ trong tệp XML, cũng như bố cục và cách sắp xếp dữ liệu trong các tệp CSV.

Bước đầu tiên để giải quyết những vấn đề này là xem xét(các) thông báo lỗi trong giao diện người dùng và thực hiện hành động khắc phục phù hợp. Vì các thông báo này không phải lúc nào cũng dễ hiểu nhất (điều mà chúng tôi đang tích cực tìm cách cải thiện), nên chúng tôi đã biên soạn một bảng giải thích các thông báo phổ biến nhất:

Lỗi Giải thích
khoá trùng lặp: ... Bảng định nghĩa cho khái niệm của bạn có một giá trị mã nhận dạng lặp lại (tức là giá trị trong cột có cùng tên với khái niệm). Các giá trị này được dùng để xác định riêng từng thực thể của khái niệm đó, vì vậy, bạn không được phép sao chép.
Trường hợp ngoại lệ trong việc phân tích cú pháp các hàng dữ liệu từ nguồn do tổ hợp thuộc tính, [...], xuất hiện trong nhiều nhóm hàng riêng biệt trong dữ liệu. Tệp CSV của bạn không được sắp xếp đúng cách. Hãy xem cuộc thảo luận ở trên để biết hướng dẫn về cách thực hiện việc này.
Ngoại lệ của việc phân tích cú pháp hàng dữ liệu từ nguồn do định dạng không hợp lệ: "..." không đúng định dạng tại "..." Định dạng của giá trị này (thường là ngày) trong CSV không nhất quán với định dạng cho trong tệp XML của bạn. Hãy thay đổi định dạng hoặc giá trị để các định dạng đó khớp với nhau.
Ngoại lệ trong việc phân tích cú pháp các hàng dữ liệu từ nguồn do Số phần tử trong dòng (...) không khớp với số lượng thuộc tính chỉ định (...) cho dòng: [...] Một hàng trong tệp CSV của bạn có quá nhiều hoặc quá ít giá trị. Sửa định dạng của hàng này.
Ngoại lệ của việc phân tích cú pháp các hàng dữ liệu từ nguồn do Đối với chuỗi nhập: "..." Một giá trị trong tệp CSV (thường là số nguyên hoặc số thực) có các ký tự không phải là số (ví dụ: ký hiệu đô la, ký hiệu phần trăm, v.v.) vì vậy sẽ không được phân tích cú pháp đúng cách. Hãy xoá những ký tự thừa này.
Ngoại lệ trong việc phân tích cú pháp các hàng dữ liệu từ nguồn do Giá trị dữ liệu '...' cho thuộc tính '...' của Slice '...' không phải là giá trị chính của Khái niệm được tham chiếu '...'. Một trong các lát cắt của bạn chứa giá trị phương diện không được công nhận (tức là không có trong danh sách tất cả các giá trị có thể có cho khái niệm tương ứng). Quay lại bảng định nghĩa về khái niệm phương diện rồi thêm giá trị đó (nếu cần).
Tiêu đề '...' trong dữ liệu là một thuộc tính không đổi trong bảng Tiêu đề cột trong tệp CSV không khớp với mã cột được xác định trong định nghĩa bảng XML. Hãy thay đổi tùy ý một trong những kết quả này.
Lỗi phân tích cú pháp XML ... Đã tìm thấy nội dung không hợp lệ bắt đầu bằng phần tử '...'. Chúng tôi dự kiến có một trong số '{...}', '{...}', ... . Phần tử XML được tham chiếu không ở đúng vị trí. Kiểm tra để đảm bảo rằng thứ tự chính xác cũng như phần tử có thành phần mẹ chính xác (ví dụ: info với giá name).
Lỗi phân tích cú pháp XML ... Thuộc tính '...' không được phép xuất hiện trong phần tử '...'. Chính tả, trường hợp hoặc vị trí của thuộc tính thẻ XML này không chính xác. Hãy xem tài liệu để sử dụng sao cho phù hợp.
Lỗi phân tích cú pháp XML. ... Phần tử '...' không được có ký tự [children], vì loại nội dung của loại là chỉ phần tử. Có một số văn bản bị lạc trong tệp XML (có thể do thẻ bị thiếu < hoặc >). Hãy khắc phục văn bản đó rồi thử lại.

Nếu bạn gặp khó khăn trong việc hiểu thông báo không có trong danh sách ở trên, vui lòng đăng thông báo trong diễn đàn DSPL và chúng tôi sẽ cố gắng trợ giúp.

Tập dữ liệu của tôi đã nhập thành công, nhưng tôi không thấy bất kỳ hình ảnh trực quan nào để hiển thị trong Public Data Explorer. Vấn đề gì đang xảy ra?

Vấn đề này xảy ra khi tập dữ liệu của bạn là DSPL hợp lệ, nhưng không nằm trong tập hợp con của DSPL có thể hiển thị trong Trình khám phá dữ liệu công khai. Có nhiều nguyên nhân có thể dẫn đến việc này. Nguyên nhân phổ biến nhất là:

  • Xác định một khái niệm phương diện không cần bảng: Nếu không có thông tin này, Public Data Explorer sẽ không biết cần hiển thị những lựa chọn nào trong giao diện người dùng.
  • Tạo tập dữ liệu chỉ bao gồm các chỉ số: Trình khám phá dữ liệu công khai yêu cầu ít nhất một phương diện danh mục (tức là không theo thời gian) được xác định ở một vị trí nào đó trong tập dữ liệu để có cấu trúc giao diện người dùng trực quan đúng cách.
  • Không bao gồm phương diện thời gian trong các phần: Trình khám phá dữ liệu công khai chỉ có thể hình ảnh hoá chuỗi thời gian. Lát cắt không theo thời gian sẽ bị sản phẩm bỏ qua.
  • Sử dụng phương diện thời gian khác với phương diện time:... chính tắc: Trình khám phá dữ liệu công khai sử dụng các khái niệm time chính tắc để bố trí và tạo ảnh động cho nhiều hình ảnh trực quan trong sản phẩm; không hiểu được các khái niệm thời gian khác, ví dụ như những khái niệm được tạo trong tập dữ liệu của riêng bạn.
  • Sử dụng các giá trị thời gian quá lớn hoặc quá nhỏ: Public Data Explorer chưa hiển thị các tập dữ liệu với chi tiết thời gian nhỏ hơn một ngày. Ở đầu kia, công cụ này gặp sự cố với các giá trị năm rất lớn (ví dụ: hàng chục nghìn). Chúng tôi hy vọng việc này sẽ linh hoạt hơn trong tương lai.

Làm cách nào để tích hợp tập dữ liệu đã trực quan hóa vào trang web của tôi?

Hãy xem bài viết này trong Trung tâm trợ giúp của Public Data Explorer. Như đã giải thích trong phần sau, bạn có thể nhận được một yêu cầu "nhúng toàn bộ" (tức là một yêu cầu bao gồm cả chế độ điều khiển khám phá) bằng cách điều chỉnh URL nhúng theo cách thủ công.