Dokumen ini mencakup masalah paling sering yang dialami oleh pemilik data saat membuat set data DSPL dan menguploadnya ke Penjelajah Data Publik.
Daftar Isi
Pertanyaan Umum
Apa itu DSPL?
DSPL adalah singkatan dari {i>Dataset Publishing Language<i}. Ini adalah format representasi untuk metadata (informasi tentang set data, seperti nama dan penyedianya, serta konsep yang dimuat dan ditampilkan di dalamnya) dan data sebenarnya dari set data. Metadata ditetapkan dalam XML, sedangkan data disediakan dalam format CSV.
Apa keuntungan utama menggunakan DSPL?
DSPL dirancang dari awal untuk visualisasi data yang kaya seperti yang ada di Penjelajah Data Publik. Pembuatan elemen ini memerlukan metadata mendetail seputar irisan, dimensi, dan metrik, yakni entitas yang tidak didukung dengan baik dalam format set data lainnya.
DSPL juga mendukung impor set data, hierarki konsep (mis., "country" adalah turunan dari "benua"), data yang di-geocoding, dan sejumlah fitur unik lainnya yang meningkatkan pengalaman eksplorasi data.
Apakah DSPL merupakan pengganti format lain yang digunakan untuk pertukaran dan/atau analisis data?
Umumnya tidak. Seperti disebutkan dalam jawaban sebelumnya, DSPL dirancang untuk visualisasi dan eksplorasi interaktif. Format ini tidak dimaksudkan sebagai format pertukaran data atau analisis umum.
Pada akhirnya, kami melihat DSPL sebagai pelengkap format lain. Pengguna harus dapat membuat set data DSPL dari sumber lain untuk tujuan membuat visualisasi data yang kaya dan interaktif.
Apa yang dapat dilakukan dengan set data DSPL?
Anda dapat mengimpornya ke Penjelajah Data Publik, memublikasikannya, dan memungkinkan orang lain menjelajahi data melalui visualisasi yang kaya dan interaktif. Set data yang dipublikasikan juga dapat disertakan dalam Direktori Data Publik sehingga pengguna yang tertarik dapat menemukannya.
Saat ini, ini adalah satu-satunya aplikasi yang menggunakan DSPL. Namun, kami mendorong orang-orang untuk menggunakannya untuk aplikasi lain, dan kami berharap adopsi ini akan berkembang seiring waktu.
Jenis set data apa yang paling sesuai untuk DSPL?
Format DSPL mendukung koleksi tabel arbitrer, sehingga cocok untuk berbagai jenis set data. Namun, hanya sebagian set data DSPL yang akan menghasilkan visualisasi menarik di Public Data Explorer. Produk yang terakhir, khususnya, paling sesuai untuk data yang:
- Kuantitatif: Setiap titik data memiliki satu atau beberapa metrik numerik yang terkait dengannya (misalnya, "population", "jumlah kasus flu", "pendapatan").
- Kategoris: Data dapat diatur ke dalam sejumlah kategori yang dapat dideskripsikan dengan teks (misalnya, "countries", "genders", "age groups").
- Deret waktu: Untuk setiap kategori, metrik data bervariasi sesuai fungsi waktu, dan titik yang bersebelahan berjarak minimal satu hari (Penjelajah Data Publik tidak dapat memvisualisasikan penambahan waktu yang lebih kecil dari satu hari).
- Digabungkan: Untuk setiap kombinasi waktu / kategori / metrik, ada satu titik data tunggal, bukan daftar peristiwa atau fakta.
Saya telah membuat set data DSPL, dan saya ingin set data tersebut muncul di Google Public Data Directory sehingga orang lain dapat menemukannya. Siapa yang harus saya hubungi?
Harap isi formulir ini, dan berikan link ke set data Anda.
Saya mengalami masalah dengan DSPL. Di mana saya bisa mendapatkan bantuan?
Posting masalah Anda di forum diskusi DSPL.
File Set Data DSPL
Bagaimana cara mengenkode file XML dan CSV saya?
Semua file XML dan CSV harus dienkode dengan UTF-8. Perhatikan bahwa ASCII (terkadang disebut sebagai "teks biasa") adalah subset UTF-8, sehingga set data dalam format tersebut juga dapat berfungsi.
Software apa yang harus saya gunakan untuk membuat dan mengedit file set data?
Editor teks biasa, dengan penyorotan sintaksis agar mudah dibaca, adalah pilihan yang direkomendasikan untuk mengedit file XML Anda. Lihat artikel ini untuk beberapa rekomendasi khusus platform. Sebaiknya jangan gunakan pengolah kata dengan tujuan umum dan berfitur lengkap karena cenderung menyisipkan tag pemformatan tambahan ke dalam XML, yang dapat menyebabkan error impor.
Spreadsheet biasanya merupakan cara termudah untuk membuat dan mengedit file data Anda. Pastikan untuk menyimpannya dalam format yang benar (nilai yang dipisahkan koma/CSV).
Saya memiliki data di Excel, SPSS, SAS, atau sistem lainnya. Dapatkah saya mengimpor ini langsung ke Penjelajah Data Publik?
Tidak untuk saat ini. Anda harus mengekspor data ke format CSV terlebih dahulu, menambahkan metadata XML yang sesuai, lalu mengupload set data yang mematuhi DSPL ke Penjelajah Data Publik.
Apakah penting untuk memberi nama file saya?
File XML set data Anda harus memiliki nama yang diakhiri dengan .xml
.
File data CSV yang terkait dapat memiliki nama apa pun, asalkan cocok dengan
nama yang diberikan dalam tag <file>
di metadata XML Anda.
File zip yang digunakan untuk mengemas dan mengimpor set data ke Public Data Explorer juga dapat memiliki nama apa pun.
Haruskah file CSV saya diurutkan?
Ya. Anda harus mengurutkan konten file CSV menurut dimensi non-waktu (dalam urutan atau arah apa pun), lalu secara opsional menurut kolom lainnya (misalnya waktu).
Jadi, misalnya, jika Anda memiliki CSV dengan kolom date
,
dimension1
, dimension2
, metric1
, dan
metric2
, Anda harus mengurutkan menurut dimension1
dan
dimension2
(dalam urutan apa pun). Jika Anda juga ingin mengurutkan berdasarkan kolom tanggal/waktu, maka ini harus menjadi hal terakhir yang diurutkan.
Penyortiran dengan cara ini membuat pengamatan untuk setiap deret waktu tetap dikelompokkan bersama, sehingga sangat meningkatkan efisiensi proses impor DSPL.
Model XML dan Sintaksis
Bagaimana cara menentukan metrik dan dimensi?
Dimensi adalah entitas yang digunakan untuk membuat segmen atau memfilter data Anda. Di sisi lain, metrik menjelaskan nilai yang diamati atau nilai yang terkait dengan setiap titik data.
Umumnya, dimensi bersifat kategorikal, sedangkan metrik bersifat tidak kategorik, bervariasi waktu, dan berupa nilai numerik. Beberapa contoh prototipe dari setiap kolom tersebut adalah sebagai berikut:
- Dimensi: Negara, negara bagian, county, wilayah, tahun, bulan, jenis kelamin, kategori usia, segmen industri
- Metrik: Populasi, PDB, tingkat pengangguran, literasi, pendapatan, biaya, harga
Apa perbedaan antara properti dan atribut?
Properti melekat pada setiap instance konsep. Misalnya, properti
benua akan memiliki nilai yang berbeda untuk negara yang berbeda.
Di sisi lain, atribut dikaitkan dengan konsep secara keseluruhan.
Misalnya: atribut isParent
bernilai benar untuk semua benua.
Apakah urutan tag penting?
Ya. Tambahkan tag sesuai urutan kemunculannya di Panduan Developer. Misalnya, <topic>
harus muncul sebelum <type>
dalam definisi konsep.
Apakah penggunaan huruf besar/kecil itu penting?
Ya, nama atribut dan tag XML Anda harus ditulis dengan huruf besar dengan
cara yang sama seperti yang muncul di Panduan Developer. Misalnya,
menggunakan isparent
, bukan isParent
, dalam
tag property
akan menyebabkan error impor.
Bisakah sebuah konsep memiliki dua orang tua?
Tidak. Setiap konsep hanya dapat memiliki satu referensi isParent
.
Dapatkah suatu konsep merujuk ke dirinya sendiri?
Ya. Lihat set data Penjualan Retail AS untuk contoh hierarki konsep yang merujuk ke dirinya sendiri.
Pemformatan Data
Bagaimana cara memformat tanggal?
Tanggal dapat ditulis dalam format apa pun yang dapat dideskripsikan dengan
standar Joda DateTime. Kode pemformatan Joda harus disimpan di atribut
format
dalam elemen kolom tabel
yang sesuai.
Kode pemformatan Joda untuk beberapa format tanggal populer tercantum di bawah ini:
Contoh Tanggal | Format Joda |
---|---|
2010 | yyyy |
Mei 2010 | MMM yyyy |
21/05/2010 | MM/dd/yyyy |
21/05/2010 | dd/MM/yyyy |
2010-05-21 | yyyy-MM-dd |
Secara khusus, perhatikan bahwa kode Joda untuk karakter bulan adalah M
, bukan m
(yang mewakili menit).
Dapatkah saya menggunakan satuan waktu yang lebih kecil dari satu hari?
Format Joda DateTime, dan juga DSPL, mendukung nilai waktu hingga ke urutan milidetik. Namun, Penjelajah Data Publik tidak dapat memvisualisasikan perincian waktu yang lebih kecil dari sehari.
Menggunakan Konsep Kanonis
Apa itu "konsep kanonis" dan bagaimana kegunaannya?
Istilah "konsep kanonis" mengacu pada kumpulan konsep yang dibuat Google dan dimaksudkan sebagai "elemen penyusun" dasar dalam set data lain. Konsep ini sendiri didefinisikan di enam set data DSPL yang mengelompokkan yang pertama ke dalam kategori seperti "waktu", "geo", dll. Untuk mendapatkan akses ke konsep ini, cukup impor set data induk yang sesuai di awal file XML DSPL Anda.
Konsep kanonis berguna karena membantu menghemat waktu (misalnya tidak perlu memasukkan nilai lintang dan bujur secara manual untuk setiap negara di dunia) dan juga memberi sinyal bagaimana data Anda akan divisualisasikan. Misalnya, Penjelajah Data Publik menggunakan konsep time:...
untuk memformat sumbu x diagram garis, menggunakan properti name
dari
konsep entity:entity
untuk membuat string bagi UI pemilih
dimensi, menggunakan properti latitude
dan longitude
dari geo:location
untuk menampilkan data di visualisasi
peta, dan sebagainya.
Apakah semua konsep kanonis dipahami oleh Public Data Explorer?
Meskipun sebagian besar konsep kanonis yang diberikan dapat dipahami oleh Public Data Explorer, ada beberapa konsep yang belum dapat divisualisasikan. Berikut ini adalah beberapa solusi yang disarankan:
Konsep | Solusi |
---|---|
quantity:index |
Sebagai gantinya, gunakan quantity:ratio atau quantity:magnitude . |
time:quarter |
Gunakan time:month seperti yang dijelaskan dalam Buku Resep DSPL. |
time:week |
Gunakan time:day seperti yang dijelaskan dalam Buku Resep DSPL. |
Nantikan dukungan yang lebih baik untuk konsep ini di masa mendatang.
Bagaimana cara menggunakan konsep kanonis dalam set data saya?
Baca dokumentasi untuk konsep spesifik yang ingin Anda gunakan, dan lihat juga Buku Resep DSPL, yang berisi petunjuk langkah demi langkah mendetail untuk yang paling umum.
Mengimpor dan Memvisualisasikan Set Data
Mengapa saya tidak berhasil mengimpor set data?
Antarmuka upload Penjelajah Data Publik akan memindai set data DSPL Anda dan memblokir impornya jika ada error yang terdeteksi. Pengimpor sangat sensitif terhadap ejaan, kapitalisasi, dan urutan / penempatan tag dalam file XML, serta tata letak dan pengurutan data dalam file CSV Anda, sehingga mungkin perlu beberapa langkah untuk memastikan semuanya benar dan berhasil mengimpor set data Anda.
Langkah pertama dalam menyelesaikan masalah ini adalah melihat pesan error yang diberikan di UI dan mengambil tindakan korektif yang sesuai. Karena pesan ini tidak selalu mudah dipahami (hal ini terus kami tingkatkan kualitasnya), kami telah menyusun tabel yang menjelaskan yang paling umum:
Error | Penjelasan |
---|---|
kunci duplikat: ... | Tabel definisi untuk konsep Anda memiliki nilai ID berulang (yaitu, nilai dalam kolom dengan nama yang sama dengan konsep). Nilai ini digunakan untuk mengidentifikasi instance individual konsep secara unik sehingga duplikat tidak diizinkan. |
Pengecualian dalam mengurai baris data dari sumber yang disebabkan oleh Kombinasi properti, [...], muncul di lebih dari satu grup baris yang berbeda dalam data. | CSV Anda tidak diurutkan dengan benar. Lihat diskusi di atas untuk petunjuk tentang cara melakukannya. |
Pengecualian dalam penguraian baris data dari sumber yang disebabkan oleh Format tidak valid: "..." memiliki format yang salah pada "..." | Format nilai ini (biasanya tanggal) di CSV Anda tidak konsisten dengan format yang diberikan dalam file XML Anda. Ubah format atau nilainya agar cocok. |
Pengecualian dalam mengurai baris data dari sumber yang disebabkan oleh Jumlah elemen dalam baris (...) tidak cocok dengan jumlah properti yang ditentukan (...) untuk baris: [...] | Baris dalam CSV Anda memiliki terlalu banyak atau terlalu sedikit nilai. Perbaiki pemformatan baris ini. |
Pengecualian dalam mengurai baris data dari sumber yang disebabkan oleh Untuk string input: "..." | Nilai dalam CSV Anda (biasanya bilangan bulat atau float) memiliki karakter non-numerik di dalamnya (misalnya simbol dolar, tanda persentase, dll.) yang mencegahnya diurai dengan benar. Hapus karakter tambahan ini. |
Pengecualian dalam penguraian baris data dari sumber yang disebabkan oleh Nilai data '...' untuk properti '...' dari Slice '...' bukan nilai kunci Konsep yang direferensikan '...'. | Salah satu irisan Anda berisi nilai dimensi yang tidak dikenal (yaitu, satu yang tidak ada dalam daftar semua nilai yang mungkin untuk konsep yang sesuai). Kembali ke tabel definisi konsep dimensi dan tambahkan nilai, jika perlu. |
Header '...' dalam data adalah properti konstan dalam tabel | Header kolom dalam CSV tidak cocok dengan ID kolom yang ditentukan dalam definisi tabel XML. Ubah salah satunya agar cocok. |
Error penguraian XML ... Konten tidak valid ditemukan dimulai dengan elemen '...'. Salah satu dari '{...}', '{...}', ... diharapkan. | Elemen XML yang direferensikan tidak ada di tempat yang tepat. Periksa untuk memastikan urutannya sudah benar, dan juga apakah elemen memiliki induk yang benar (misalnya, info untuk name ). |
Error penguraian XML ... Atribut '...' tidak diizinkan untuk muncul dalam elemen '...'. | Ejaan, kapitalisasi, atau lokasi atribut tag XML ini salah. Periksa dokumentasi untuk penggunaan yang sesuai. |
Error penguraian XML. ... Elemen '...' tidak boleh memiliki karakter [turunan], karena jenis konten jenis ini hanya elemen. | Ada beberapa teks yang menyimpang dalam file XML Anda (kemungkinan disebabkan oleh tag yang tidak memiliki < atau > ). Perbaiki teks, lalu coba lagi. |
Jika kesulitan memahami pesan yang tidak tercantum dalam daftar di atas, harap posting pesan di forum DSPL, dan kami akan mencoba membantu.
Set data saya berhasil diimpor, tetapi saya tidak dapat menampilkan visualisasi apa pun di Penjelajah Data Publik. Apa yang terjadi?
Masalah ini terjadi jika set data Anda adalah DSPL yang valid, tetapi tidak dalam subset DSPL yang dapat divisualisasikan di Penjelajah Data Publik. Ada banyak kemungkinan penyebabnya; penyebab yang paling umum adalah:
- Menentukan konsep dimensi tanpa tabel: Tanpa informasi ini, Penjelajah Data Publik tidak tahu pilihan apa yang akan ditampilkan di UI.
- Membuat set data hanya dengan metrik: Data Explorer Publik memerlukan setidaknya satu dimensi kategorikal (yaitu, non-waktu) yang ditentukan di suatu tempat dalam set data untuk menyusun UI visualisasi dengan benar.
- Tidak menyertakan dimensi waktu dalam irisan Anda: Penjelajah Data Publik hanya dapat memvisualisasikan deret waktu. Slice non-waktu akan diabaikan oleh produk.
- Menggunakan dimensi waktu selain dimensi
time:...
kanonis: Penjelajah Data Publik menggunakan konseptime
kanonis untuk menata dan menganimasikan berbagai visualisasi dalam produk; tidak memahami konsep waktu lain, misalnya yang dibuat dalam set data Anda sendiri. - Menggunakan nilai waktu yang terlalu besar atau terlalu kecil: Penjelajah Data Publik belum memvisualisasikan set data dengan perincian waktu yang lebih kecil dari satu hari. Di sisi lain, alat ini bermasalah dengan nilai tahun yang sangat besar (misalnya dalam puluhan ribu). Kami berharap dapat membuat perincian ini lebih fleksibel di masa mendatang.
Bagaimana cara mengintegrasikan set data yang divisualisasikan ke dalam situs saya?
Lihat artikel ini di Pusat Bantuan Penjelajah Data Publik. Seperti yang dijelaskan di bagian kedua, Anda bisa mendapatkan "sematan penuh" (yaitu, sematan yang berisi kontrol eksplorasi) dengan menyesuaikan URL sematan secara manual.