Tài liệu này trình bày các vấn đề thường gặp nhất mà chủ sở hữu dữ liệu gặp phải khi tạo tập dữ liệu DSPL và tải các tập dữ liệu này lên Public Data Explorer.
Nội dung
Câu hỏi Chung
DSPL là gì?
DSPL là viết tắt của Dataset Publishing Language (Ngôn ngữ xuất bản dữ liệu). Đây là định dạng biểu diễn cho cả siêu dữ liệu (thông tin về tập dữ liệu, chẳng hạn như tên và nhà cung cấp tập dữ liệu, cũng như các khái niệm trong tập dữ liệu đó và hiển thị) và dữ liệu thực tế của tập dữ liệu. Siêu dữ liệu được chỉ định trong XML, còn dữ liệu được cung cấp ở định dạng CSV.
Các ưu điểm chính khi sử dụng DSPL là gì?
DSPL được thiết kế từ đầu để trực quan hoá dữ liệu đa dạng thức như trong Trình khám phá dữ liệu công khai. Việc tạo các đối tượng này yêu cầu siêu dữ liệu chi tiết về các lát cắt, phương diện và chỉ số, những thực thể không được hỗ trợ tốt trong các định dạng tập dữ liệu khác.
DSPL cũng hỗ trợ tính năng nhập tập dữ liệu, hệ phân cấp khái niệm (ví dụ: "country" là con của "lục địa"), dữ liệu được mã hoá địa lý và một số tính năng độc đáo khác giúp nâng cao trải nghiệm khám phá dữ liệu.
DSPL có phải là giải pháp thay thế cho các định dạng khác dùng để trao đổi và/hoặc phân tích dữ liệu không?
Thường thì không. Như đã đề cập trong câu trả lời trước, DSPL được thiết kế cho hình ảnh và dữ liệu khám phá tương tác. Dữ liệu này không phải là một định dạng phân tích hoặc trao đổi dữ liệu chung, làm tất cả.
Cuối cùng, chúng tôi coi DSPL là bổ sung cho các định dạng khác. Người dùng phải có thể tạo tập dữ liệu DSPL từ các nguồn khác để tạo hình ảnh dữ liệu phong phú, giàu tính tương tác.
Tôi có thể làm gì với tập dữ liệu DSPL?
Bạn có thể nhập dữ liệu đó vào Trình khám phá dữ liệu công khai, xuất bản và cho phép người khác khám phá dữ liệu thông qua hình ảnh trực quan phong phú và tương tác. Các tập dữ liệu đã xuất bản cũng có thể được đưa vào Thư mục dữ liệu công khai để người dùng quan tâm có thể tìm thấy các tập dữ liệu đó.
Hiện tại, đây là ứng dụng duy nhất sử dụng DSPL. Tuy nhiên, chúng tôi khuyến khích mọi người sử dụng công nghệ này cho các ứng dụng khác và chúng tôi kỳ vọng rằng tỷ lệ sử dụng sẽ tăng lên theo thời gian.
Những loại tập dữ liệu nào phù hợp nhất với DSPL?
Định dạng DSPL hỗ trợ các tập hợp bảng tuỳ ý, do đó, phù hợp với nhiều loại tập dữ liệu. Tuy nhiên, chỉ một số tập dữ liệu DSPL sẽ tạo ra các hình ảnh trực quan thú vị trong Public Data Explorer. Cụ thể, sản phẩm thứ hai phù hợp nhất với những dữ liệu:
- Định lượng: Mỗi điểm dữ liệu được liên kết với một hoặc nhiều chỉ số dạng số (ví dụ: "population", "số ca cúm", "doanh thu").
- Phân loại: Dữ liệu có thể được sắp xếp thành một số danh mục có thể mô tả bằng văn bản (ví dụ: "countries", "giới tính", "nhóm tuổi").
- Chuỗi thời gian: Đối với mỗi danh mục, các chỉ số dữ liệu thay đổi theo hàm thời gian và các điểm liền kề cách nhau ít nhất một ngày (Trình khám phá dữ liệu công khai không thể hình dung mức tăng thời gian nhỏ hơn một ngày).
- Tổng hợp: Đối với mỗi tổ hợp thời gian / danh mục / chỉ số, sẽ có một điểm dữ liệu duy nhất, chứ không phải danh sách sự kiện hoặc dữ kiện.
Tôi đã tạo một tập dữ liệu DSPL và tôi muốn tập dữ liệu này xuất hiện trong Thư mục dữ liệu công khai của Google để những người khác có thể tìm thấy tập dữ liệu này. Tôi cần liên hệ với ai?
Vui lòng điền vào biểu mẫu này và cung cấp một đường liên kết đến tập dữ liệu của bạn.
Tôi đang gặp sự cố với DSPL. Tôi có thể tìm trợ giúp ở đâu?
Vui lòng đăng vấn đề của bạn lên diễn đàn thảo luận DSPL.
Tệp tập dữ liệu DSPL
Tôi nên mã hoá tệp XML và CSV của mình như thế nào?
Tất cả các tệp XML và CSV cần phải được mã hoá UTF-8. Xin lưu ý rằng ASCII (đôi khi được gọi là "văn bản thuần tuý") là một tập hợp con của UTF-8, vì vậy, các tập dữ liệu ở định dạng đó cũng sẽ hoạt động.
Tôi nên sử dụng phần mềm nào để tạo và chỉnh sửa các tệp tập dữ liệu?
Bạn nên chọn trình chỉnh sửa văn bản thuần tuý với tính năng làm nổi bật cú pháp để dễ đọc hơn. Hãy xem bài viết này để biết một số đề xuất dành riêng cho nền tảng. Bạn không nên dùng các trình xử lý văn bản đa năng và có đầy đủ tính năng vì các trình xử lý này thường chèn thêm thẻ định dạng vào XML của bạn. Việc này có thể gây ra lỗi nhập.
Bảng tính thường là cách dễ dàng nhất để tạo và chỉnh sửa các tệp dữ liệu của bạn. Bạn chỉ cần nhớ lưu tệp theo đúng định dạng (CSV/giá trị được phân tách bằng dấu phẩy).
Tôi có dữ liệu bằng Excel, SPSS, SAS hoặc một hệ thống khác. Tôi có thể nhập trực tiếp các dữ liệu này vào Public Data Explorer không?
Không, để sau. Trước tiên, bạn cần xuất dữ liệu của mình sang định dạng CSV, thêm siêu dữ liệu XML thích hợp, sau đó tải tập dữ liệu tuân thủ DSPL lên Public Data Explorer.
Việc tôi đặt tên tệp có quan trọng không?
Tệp XML tập dữ liệu phải có tên kết thúc bằng .xml
.
Các tệp dữ liệu CSV liên kết có thể có tên bất kỳ, miễn là các tên đó khớp với tên được cung cấp trong các thẻ <file>
trong siêu dữ liệu XML của bạn.
Tệp zip dùng để đóng gói và nhập tập dữ liệu vào Public Data Explorer cũng có thể có bất kỳ tên nào.
Có nên sắp xếp các tệp CSV của tôi không?
Có. Bạn nên sắp xếp nội dung của tệp CSV theo các phương diện không theo thời gian (theo bất kỳ thứ tự hoặc hướng nào), sau đó tuỳ ý sắp xếp theo bất kỳ cột nào khác (ví dụ: thời gian).
Ví dụ: nếu bạn có một tệp CSV chứa các cột date
, dimension1
, dimension2
, metric1
và metric2
, thì bạn nên sắp xếp theo dimension1
và dimension2
(theo thứ tự bất kỳ). Nếu bạn cũng muốn sắp xếp theo
cột ngày/giờ, thì đây sẽ là mục cuối cùng bạn sắp xếp.
Việc sắp xếp theo cách này sẽ nhóm các quan sát của từng chuỗi thời gian lại với nhau, giúp cải thiện đáng kể hiệu quả của quá trình nhập DSPL.
Mô hình và cú pháp XML
Làm thế nào để quyết định chỉ số là gì và phương diện là gì?
Phương diện là một thực thể được dùng để phân đoạn hoặc lọc dữ liệu. Mặt khác, chỉ số mô tả giá trị quan sát được hoặc các giá trị liên kết với từng điểm dữ liệu.
Nói chung, phương diện mang tính phân loại trong khi chỉ số là giá trị số và không phân loại. Sau đây là một số ví dụ nguyên mẫu cho từng chiến lược:
- Phương diện: Quốc gia, tiểu bang, hạt, khu vực, năm, tháng, giới tính, danh mục độ tuổi, phân khúc ngành
- Chỉ số: Dân số, GDP, tỷ lệ thất nghiệp, dân số, doanh thu, chi phí, giá
Sự khác biệt giữa thuộc tính và thuộc tính là gì?
Thuộc tính được gắn liền với mỗi thực thể của một khái niệm. Ví dụ: thuộc tính châu lục sẽ có các giá trị riêng cho từng quốc gia.
Mặt khác, thuộc tính được liên kết với toàn bộ khái niệm.
Ví dụ: thuộc tính isParent
có giá trị đúng cho mọi châu lục.
Thứ tự thẻ có quan trọng không?
Có. Thêm thẻ theo thứ tự xuất hiện trong Hướng dẫn cho nhà phát triển. Ví dụ: <topic>
phải xuất hiện trước <type>
trong định nghĩa về một khái niệm.
Cách viết hoa có quan trọng không?
Có, bạn cần viết hoa tên thẻ XML và tên thuộc tính theo cách tương tự như trong Hướng dẫn cho nhà phát triển. Ví dụ: việc sử dụng isparent
thay vì isParent
trong thẻ property
sẽ gây ra lỗi nhập.
Một khái niệm có thể có hai cha mẹ không?
Không. Mỗi khái niệm chỉ được có một tệp đối chiếu isParent
.
Một khái niệm có thể đề cập đến chính nó không?
Có. Hãy xem tập dữ liệu Doanh số bán lẻ ở Hoa Kỳ để biết ví dụ về hệ thống phân cấp khái niệm tự tham chiếu.
Định dạng dữ liệu
Làm cách nào để định dạng ngày?
Bạn có thể viết ngày ở định dạng bất kỳ có thể mô tả được theo
tiêu chuẩn Joda DateTime. Bạn phải lưu trữ mã định dạng Joda trong thuộc tính format
thuộc phần tử cột của bảng tương ứng.
Dưới đây là danh sách mã định dạng Joda cho một số định dạng ngày phổ biến:
Ví dụ về ngày | Định dạng Joda |
---|---|
2010 | yyyy |
Tháng 5 năm 2010 | MMM yyyy |
21/05/2010 | MM/dd/yyyy |
21/05/2010 | dd/MM/yyyy |
2010-05-21 | yyyy-MM-dd |
Cụ thể, hãy lưu ý rằng mã Joda cho ký tự tháng là M
, chứ không phải m
(tương ứng với phút).
Tôi có thể sử dụng đơn vị thời gian nhỏ hơn một ngày không?
Định dạng ngày giờ Joda và do đó cũng có DSPL, hỗ trợ các giá trị thời gian xuống tới thứ tự mili giây. Tuy nhiên, Trình khám phá dữ liệu công khai chưa thể trực quan hóa bất kỳ chi tiết thời gian nào nhỏ hơn một ngày.
Sử dụng khái niệm chuẩn
"Khái niệm chuẩn" là gì và hữu ích như thế nào?
Thuật ngữ "khái niệm chuẩn" dùng để chỉ một tập hợp các khái niệm do Google tạo ra với mục đích dùng làm "khối xây dựng" cơ bản trong các tập dữ liệu khác. Bản thân các khái niệm này được định nghĩa trên 6 tập dữ liệu DSPL, nhóm dữ liệu cũ thành các danh mục như "thời gian", "địa lý", v.v. Để truy cập vào các khái niệm này, bạn chỉ cần nhập(các) tập dữ liệu mẹ thích hợp ở đầu tệp XML DSPL của bạn.
Các khái niệm chuẩn rất hữu ích vì chúng giúp tiết kiệm thời gian (ví dụ: không phải nhập thủ công các giá trị vĩ độ và kinh độ cho mọi quốc gia trên thế giới), đồng thời cho biết dữ liệu của bạn sẽ được trình bày trực quan như thế nào. Ví dụ: Trình khám phá dữ liệu công khai sử dụng các khái niệm time:...
để định dạng trục x của biểu đồ dạng đường, sử dụng thuộc tính name
của khái niệm entity:entity
để tạo chuỗi cho giao diện người dùng bộ chọn phương diện, sử dụng thuộc tính latitude
và longitude
của geo:location
để hiển thị dữ liệu trong hình ảnh trực quan bản đồ, v.v.
Public Data Explorer có hiểu được tất cả các khái niệm chuẩn không?
Mặc dù Trình khám phá dữ liệu công khai hiểu hầu hết các khái niệm chuẩn được cung cấp, nhưng có một vài khái niệm không thể (chưa) hình ảnh được. Các phương pháp này được liệt kê bên dưới, cùng với một số giải pháp tạm thời được đề xuất:
Khái niệm | Giải pháp tạm thời |
---|---|
quantity:index |
Thay vào đó, hãy sử dụng quantity:ratio hoặc quantity:magnitude . |
time:quarter |
Sử dụng time:month như mô tả trong Sổ tay nấu ăn DSPL. |
time:week |
Sử dụng time:day như mô tả trong Sổ tay nấu ăn DSPL. |
Hãy chú ý theo dõi để chúng tôi có thể hỗ trợ tốt hơn cho các khái niệm này trong tương lai.
Làm cách nào để sử dụng khái niệm chuẩn hoá trong tập dữ liệu của tôi?
Hãy xem tài liệu để biết khái niệm cụ thể mà bạn muốn sử dụng, cũng như xem Sách hướng dẫn về DSPL, trong đó có hướng dẫn chi tiết từng bước cho những kiến thức phổ biến nhất.
Nhập và trực quan hoá tập dữ liệu
Tại sao tôi không nhập được tập dữ liệu của mình thành công?
Giao diện tải lên của Public Data Explorer sẽ quét tập dữ liệu DSPL của bạn và chặn quá trình nhập nếu phát hiện thấy bất kỳ lỗi nào. Trình nhập rất nhạy cảm với chính tả, cách viết hoa và thứ tự thẻ / vị trí đặt trong tệp XML, cũng như bố cục và cách sắp xếp dữ liệu trong tệp CSV. Vì vậy, bạn có thể phải thực hiện vài lần để chỉnh sửa đúng những phần này và nhập tập dữ liệu của mình thành công.
Bước đầu tiên để giải quyết các vấn đề này là xem xét(các) thông báo lỗi xuất hiện trên giao diện người dùng và có biện pháp khắc phục phù hợp. Vì các thông báo này không phải lúc nào cũng là nội dung dễ hiểu nhất (đây là một nội dung mà chúng tôi đang nỗ lực cải thiện), nên chúng tôi đã biên soạn một bảng giải thích những thông báo phổ biến nhất:
Lỗi | Giải thích |
---|---|
khoá trùng lặp: ... | Bảng định nghĩa cho khái niệm của bạn có giá trị mã nhận dạng lặp lại (tức là giá trị trong cột có cùng tên với khái niệm). Các giá trị này được dùng để xác định duy nhất các thực thể riêng lẻ của khái niệm này, vì vậy, bạn không được phép trùng lặp. |
Trường hợp ngoại lệ khi phân tích cú pháp các hàng dữ liệu từ nguồn do Tổ hợp các thuộc tính [...] xuất hiện trong nhiều nhóm hàng riêng biệt trong dữ liệu. | Tệp CSV của bạn không được sắp xếp đúng cách. Hãy xem nội dung thảo luận ở trên để biết hướng dẫn về cách thực hiện việc này. |
Ngoại lệ khi phân tích cú pháp các hàng dữ liệu từ nguồn do định dạng không hợp lệ: "..." không đúng định dạng ở "..." | Định dạng của giá trị này (thường là ngày) trong tệp CSV không nhất quán với định dạng có trong tệp XML. Hãy thay đổi định dạng hoặc giá trị cho khớp. |
Ngoại lệ khi phân tích cú pháp các hàng dữ liệu từ nguồn do Số phần tử trong dòng (...) không khớp với số thuộc tính được chỉ định (...) cho dòng: [...] | Một hàng trong tệp CSV của bạn có quá nhiều hoặc quá ít giá trị. Sửa định dạng của hàng này. |
Trường hợp ngoại lệ khi phân tích cú pháp các hàng dữ liệu từ nguồn do chuỗi Đối với dữ liệu đầu vào: "..." | Một giá trị trong CSV (thường là số nguyên hoặc số thực) chứa các ký tự không phải số (ví dụ: ký hiệu đô la, ký hiệu phần trăm, v.v.) khiến giá trị đó không được phân tích cú pháp chính xác. Hãy xoá những ký tự thừa này. |
Ngoại lệ khi phân tích cú pháp các hàng dữ liệu từ nguồn do Giá trị dữ liệu '...' cho thuộc tính '...' của Lát cắt '...' không phải là giá trị chính của Khái niệm '...' được tham chiếu. | Một trong các phần của bạn chứa giá trị thứ nguyên không được công nhận (tức là một giá trị không có trong danh sách tất cả giá trị có thể sử dụng cho khái niệm tương ứng). Hãy quay lại bảng định nghĩa khái niệm phương diện và thêm giá trị nếu cần. |
Tiêu đề '...' trong dữ liệu là thuộc tính không đổi trong bảng | Tiêu đề cột trong CSV không khớp với mã cột được xác định trong định nghĩa bảng XML. Hãy thay đổi một trong hai thuộc tính này cho khớp với nhau. |
Lỗi phân tích cú pháp XML ... Tìm thấy nội dung không hợp lệ bắt đầu bằng phần tử '...'. Một trong các giá trị '{...}', '{...}', ... được mong đợi. | Phần tử XML được tham chiếu không ở đúng vị trí. Kiểm tra để đảm bảo thứ tự chính xác và phần tử cũng có phần tử mẹ chính xác (ví dụ: info cho name ). |
Lỗi phân tích cú pháp XML ... Thuộc tính '...' không được phép xuất hiện trong phần tử '...'. | Chính tả, cách viết hoa hoặc vị trí của thuộc tính thẻ XML này không chính xác. Hãy xem tài liệu để biết cách sử dụng phù hợp. |
Lỗi phân tích cú pháp XML. ... Phần tử '...' không được chứa ký tự [child] vì loại nội dung của loại chỉ dành cho phần tử. | Có một số văn bản bị thất lạc trong tệp XML của bạn (có thể là do thẻ thiếu < hoặc > ). Hãy khắc phục văn bản đó và thử lại. |
Nếu bạn chưa hiểu một thông báo không có trong danh sách trên, vui lòng đăng thông báo trong diễn đàn DSPL để chúng tôi cố gắng trợ giúp.
Tập dữ liệu của tôi đã nhập thành công, nhưng tôi không thể hiển thị bất kỳ hình ảnh trực quan nào trong Public Data Explorer. Nội dung có vấn đề gì?
Vấn đề này xảy ra khi tập dữ liệu của bạn là DSPL hợp lệ, nhưng không nằm trong tập con của DSPL có thể trực quan hoá trong Public Data Explorer. Có nhiều nguyên nhân có thể gây ra vấn đề này; phổ biến nhất là:
- Xác định khái niệm thứ nguyên mà không có bảng: Nếu không có thông tin này, Public Data Explorer sẽ không biết lựa chọn nào sẽ hiển thị trong giao diện người dùng.
- Tạo tập dữ liệu chỉ có chỉ số: Trình khám phá dữ liệu công khai yêu cầu ít nhất một phương diện phân loại (tức là không theo thời gian) được xác định ở đâu đó trong tập dữ liệu để cấu trúc đúng cách giao diện người dùng của hình ảnh.
- Không đưa thứ nguyên thời gian vào các phần của bạn: Trình khám phá dữ liệu công khai chỉ có thể hình ảnh hóa chuỗi thời gian. Sản phẩm sẽ bỏ qua các lát cắt không theo thời gian.
- Sử dụng phương diện thời gian khác với phương diện
time:...
chuẩn: Public Data Explorer sử dụng các khái niệmtime
chuẩn để bố trí và tạo ảnh động cho nhiều hình ảnh trực quan trong sản phẩm; công cụ này không hiểu các khái niệm khác về thời gian, chẳng hạn như các khái niệm được tạo bên trong tập dữ liệu của riêng bạn. - Sử dụng giá trị thời gian quá lớn hoặc quá nhỏ: Public Data Explorer chưa trực quan hoá được các tập dữ liệu có mức độ chi tiết về thời gian nhỏ hơn một ngày. Mặt khác, công cụ này gặp vấn đề với các giá trị năm rất lớn (ví dụ: hàng chục nghìn). Chúng tôi hy vọng có thể linh hoạt hơn trong việc điều chỉnh những chi tiết này trong tương lai.
Làm cách nào để tích hợp tập dữ liệu được trực quan hoá vào trang web của tôi?
Xem bài viết này trong Trung tâm trợ giúp Public Data Explorer. Như giải thích ở phần sau, bạn có thể "Nhúng toàn bộ" (tức là một mục bao gồm cả các chế độ kiểm soát khám phá) bằng cách điều chỉnh URL nhúng theo cách thủ công.