FAQ DSPL

Dokumen ini membahas masalah paling umum yang dialami pemilik data saat membuat set data DSPL dan menguploadnya ke Penjelajah Data Publik.

Daftar Isi

Pertanyaan Umum

Apa yang dimaksud dengan DSPL?

DSPL adalah singkatan dari Dataset Publishing Language. Ini adalah format representasi untuk metadata (informasi tentang set data, seperti nama dan penyedianya, serta konsep yang ada dan ditampilkannya) dan data set data yang sebenarnya. Metadata ditentukan dalam XML, sedangkan data disediakan dalam format CSV.

Apa keuntungan utama penggunaan DSPL?

DSPL dirancang dari awal untuk visualisasi data yang kaya seperti di Penjelajah Data Publik. Untuk membuatnya, diperlukan metadata terperinci seputar slice, dimensi, dan metrik, entity yang tidak didukung dalam format set data lainnya.

DSPL juga mendukung impor set data, hierarki konsep (mis., "country" adalah turunan dari "benua"), data yang di-geocoding, dan sejumlah fitur unik lainnya yang meningkatkan kualitas pengalaman eksplorasi data.

Apakah DSPL adalah pengganti format lain yang digunakan untuk pertukaran dan/atau analisis data?

Secara umum tidak. Seperti disebutkan dalam jawaban sebelumnya, DSPL dirancang untuk visualisasi dan eksplorasi interaktif. Kolom ini tidak dimaksudkan sebagai format analisis atau pertukaran data generik secara umum.

Pada akhirnya, kami menganggap DSPL sebagai pelengkap untuk format lain. Pengguna harus dapat membuat set data DSPL dari sumber lain untuk membuat visualisasi data yang interaktif dan kaya.

Apa yang dapat saya lakukan dengan set data DSPL?

Anda dapat mengimpornya ke Penjelajah Data Publik, memublikasikannya, dan memungkinkan orang lain menjelajahi data melalui visualisasi yang kaya dan interaktif. Set data yang dipublikasikan juga dapat disertakan dalam Direktori Data Publik sehingga pengguna yang tertarik dapat menemukannya.

Saat ini, ini adalah satu-satunya aplikasi yang menggunakan DSPL. Namun, kami mendorong orang untuk menggunakannya untuk aplikasi lain, dan kami berharap adopsi akan bertumbuh dari waktu ke waktu.

Apa jenis set data yang paling sesuai untuk DSPL?

Format DSPL mendukung kumpulan tabel arbitrer, dan oleh karena itu sesuai untuk berbagai jenis set data. Namun, hanya subset set data DSPL yang akan menghasilkan visualisasi yang menarik di Penjelajah Data Publik. Produk terakhir, khususnya, paling cocok untuk data yang:

  • Kuantitatif: Setiap titik data memiliki satu atau beberapa metrik numerik yang terkait dengannya (misalnya, "populasi", "jumlah kasus flu", "pendapatan").
  • Kategoris: Data dapat diatur ke dalam sejumlah kategori yang dapat dijelaskan dengan teks (misalnya, "countries", "gender", "age group").
  • Deret waktu: Untuk setiap kategori, metrik data bervariasi sebagai fungsi waktu, dan titik yang berdekatan berjarak minimal satu hari (Penjelajah Data Publik tidak dapat memvisualisasikan penambahan waktu yang lebih kecil dari satu hari).
  • Agregat: Untuk setiap kombinasi waktu / kategori / metrik, terdapat satu titik data, bukan daftar peristiwa atau fakta.

Saya telah membuat set data DSPL, dan saya ingin set data tersebut muncul di Direktori Data Publik Google sehingga orang lain dapat menemukannya. Siapa yang harus saya hubungi?

Isi formulir ini, lalu berikan link ke set data Anda.

Saya mengalami masalah terkait DSPL. Di mana saya bisa mendapatkan bantuan?

Posting masalah Anda di forum diskusi DSPL.

File Set Data DSPL

Bagaimana cara mengenkode file XML dan CSV?

Semua file XML dan CSV harus berenkode UTF-8. Perhatikan bahwa ASCII (terkadang disebut sebagai "teks biasa") adalah subset UTF-8, sehingga set data dalam format tersebut juga harus berfungsi.

Software apa yang harus saya gunakan untuk membuat dan mengedit file set data?

Editor teks biasa, dengan penyorotan sintaksis untuk tujuan keterbacaan, adalah pilihan yang direkomendasikan untuk mengedit file XML Anda; lihat artikel ini untuk beberapa rekomendasi khusus platform. Sebaiknya jangan gunakan pemroses kata dengan tujuan umum yang berfitur lengkap karena metode ini cenderung menyisipkan tag pemformatan tambahan ke dalam XML, yang dapat menyebabkan error impor.

Spreadsheet biasanya merupakan cara termudah untuk membuat dan mengedit file data Anda. Pastikan untuk menyimpannya dalam format yang benar (nilai yang dipisahkan koma/CSV).

Saya memiliki data di Excel, SPSS, SAS, atau sistem lainnya. Dapatkah saya mengimpornya langsung ke Penjelajah Data Publik?

Tidak untuk saat ini. Anda harus mengekspor data ke format CSV terlebih dahulu, menambahkan metadata XML yang sesuai, lalu mengupload set data yang sesuai dengan DSPL ke Penjelajah Data Publik.

Apakah ini penting untuk menamai file saya?

File XML set data Anda harus memiliki nama yang diakhiri dengan .xml. File data CSV terkait dapat memiliki nama apa pun, asalkan cocok dengan nama yang diberikan dalam tag <file> di metadata XML Anda. File zip yang digunakan untuk mengemas dan mengimpor set data ke dalam Penjelajah Data Publik juga dapat memiliki nama apa pun.

Haruskah file CSV saya diurutkan?

Ya. Anda harus mengurutkan konten file CSV berdasarkan dimensi non-waktu (dalam urutan atau arah apa pun), lalu, secara opsional, berdasarkan kolom lainnya (misalnya, waktu).

Jadi, misalnya, jika Anda memiliki CSV dengan kolom date, dimension1, dimension2, metric1, dan metric2, Anda harus mengurutkan menurut dimension1 dan dimension2 (dalam urutan apa pun). Jika Anda juga ingin mengurutkan menurut kolom tanggal/waktu, maka kolom ini harus menjadi urutan terakhir yang Anda urutkan.

Dengan cara ini, pengamatan akan dipertahankan untuk setiap deret waktu yang dikelompokkan bersama, sehingga meningkatkan efisiensi proses impor DSPL.

Model dan Sintaksis XML

Bagaimana cara menentukan apa yang harus menjadi metrik dan apa yang harus menjadi dimensi?

Dimensi adalah entitas yang digunakan untuk menyegmentasikan atau memfilter data Anda. Di sisi lain, metrik menjelaskan nilai yang diamati atau nilai yang terkait dengan setiap titik data.

Secara umum, dimensi bersifat kategoris sedangkan metrik berupa nilai numerik non-kategoris, bervariasi menurut waktu. Beberapa contoh prototipe adalah sebagai berikut:

  • Dimensi: Negara, negara bagian, wilayah, wilayah, tahun, bulan, jenis kelamin, kategori usia, segmen industri
  • Metrik: Populasi, PDB, tingkat pengangguran, literasi, pendapatan, biaya, harga

Apa perbedaan antara properti dan atribut?

Properti dilampirkan pada setiap instance konsep. Misalnya, properti benua akan memiliki nilai yang berbeda untuk negara yang berbeda. Di sisi lain, atribut dikaitkan dengan konsep secara keseluruhan. Misalnya: atribut isParent bernilai benar untuk semua benua.

Apakah urutan tag berpengaruh?

Ya. Tambahkan tag sesuai urutan kemunculannya di Panduan Developer. Misalnya, <topic> harus muncul sebelum <type> dalam definisi konsep.

Apakah kapitalisasi penting?

Ya, nama tag XML dan atribut Anda harus menggunakan huruf besar dengan cara yang sama seperti yang muncul dalam Panduan Developer. Misalnya, menggunakan isparent sebagai ganti isParent di tag property akan menyebabkan error impor.

Dapatkah konsep memiliki dua orang tua?

Tidak. Setiap konsep hanya dapat memiliki satu referensi isParent.

Dapatkah suatu konsep merujuk ke dirinya sendiri?

Ya. Lihat set data Penjualan Retail AS untuk contoh hierarki konsep yang merujuk ke dirinya sendiri.

Pemformatan Data

Bagaimana cara memformat tanggal?

Tanggal dapat ditulis dalam format apa pun yang dapat dideskripsikan dengan standar Joda DateTime. Kode pemformatan Joda harus disimpan di atribut format dalam elemen kolom tabel yang sesuai.

Kode pemformatan Joda untuk beberapa format tanggal populer tercantum di bawah:

Contoh Tanggal Format Joda
2010 yyyy
Mei 2010 MMM yyyy
21/05/2010 MM/dd/yyyy
21/05/2010 dd/MM/yyyy
2010-05-21 yyyy-MM-dd

Khususnya, perhatikan bahwa kode Joda untuk karakter bulan adalah M, bukan m (yang mewakili menit).

Dapatkah saya menggunakan satuan waktu yang lebih kecil dari satu hari?

Format Joda DateTime, dan juga DSPL, mendukung nilai waktu hingga urutan milidetik. Namun, Penjelajah Data Publik, tidak dapat (belum) memvisualisasikan perincian waktu yang lebih kecil dari satu hari.

Menggunakan Konsep Kanonis

Apa yang dimaksud dengan "konsep kanonis" dan bagaimana penggunaannya berguna?

Istilah "konsep kanonis" mengacu pada sekumpulan konsep yang dibuat Google yang dimaksudkan sebagai "elemen penyusun" dasar dalam set data lainnya. Konsep itu sendiri ditentukan di seluruh enam set data DSPL yang mengelompokkan yang pertama ke dalam kategori seperti "waktu", "geo", dll. Untuk mendapatkan akses ke konsep ini, cukup impor set data induk yang sesuai di awal file XML DSPL Anda.

Konsep kanonis berguna karena dapat membantu menghemat waktu (mis., tanpa harus memasukkan nilai lintang dan bujur secara manual untuk setiap negara di dunia) serta memberi sinyal pada bagaimana data Anda divisualisasikan. Misalnya, Penjelajah Data Publik menggunakan konsep time:... untuk memformat sumbu x diagram garis, menggunakan properti name dari konsep entity:entity guna menghasilkan string untuk UI pemilih dimensi, menggunakan properti latitude dan longitude dari geo:location untuk menampilkan data dalam visualisasi peta, dan seterusnya.

Apakah semua konsep kanonis dipahami oleh Penjelajah Data Publik?

Meskipun sebagian besar konsep kanonis yang disediakan dipahami oleh Penjelajah Data Publik, ada beberapa konsep yang belum (belum) dapat divisualisasikan. Ini tercantum di bawah, bersama dengan beberapa solusi yang disarankan:

Konsep Solusi
quantity:index Sebagai gantinya, gunakan quantity:ratio atau quantity:magnitude.
time:quarter Gunakan time:month seperti yang dijelaskan dalam Buku Resep DSPL.
time:week Gunakan time:day seperti yang dijelaskan dalam Buku Resep DSPL.

Nantikan dukungan yang lebih baik untuk konsep ini di masa mendatang.

Bagaimana cara menggunakan konsep kanonis dalam set data saya?

Lihat dokumentasi untuk konsep tertentu yang ingin Anda gunakan, dan juga lihat Buku Petunjuk DSPL, yang memiliki petunjuk langkah demi langkah mendetail untuk yang paling umum.

Mengimpor dan Memvisualisasikan Set Data

Mengapa saya tidak berhasil mengimpor set data?

Antarmuka upload Public Data Explorer akan memindai set data DSPL Anda dan memblokir impornya jika terdeteksi error. Importir sangat sensitif terhadap ejaan, kapitalisasi, dan urutan / penempatan tag di file XML Anda, serta tata letak dan pengurutan data di file CSV Anda, sehingga mungkin diperlukan beberapa langkah untuk menyelesaikan masalah ini dan berhasil mengimpor set data Anda.

Langkah pertama dalam menyelesaikan masalah ini adalah dengan melihat pesan error yang diberikan di UI dan mengambil tindakan korektif yang sesuai. Karena pesan-pesan ini tidak selalu mudah dipahami (sesuatu yang secara aktif kami coba tingkatkan), kami telah mengompilasi tabel yang menjelaskan pesan yang paling umum:

Error Penjelasan
kunci duplikat: ... Tabel definisi untuk konsep Anda memiliki nilai ID berulang (yaitu nilai dalam kolom dengan nama yang sama seperti konsep). Nilai ini digunakan untuk mengidentifikasi instance konsep secara unik, sehingga duplikat tidak diizinkan.
Pengecualian dalam penguraian baris data dari sumber yang disebabkan oleh kombinasi properti, [...], muncul di lebih dari satu grup baris yang berbeda dalam data. CSV Anda tidak diurutkan dengan benar. Lihat diskusi di atas untuk mendapatkan petunjuk tentang cara melakukannya.
Pengecualian dalam penguraian baris data dari sumber yang disebabkan oleh format Tidak Valid: "..." salah format pada "..." Format nilai ini (biasanya tanggal) di CSV tidak konsisten dengan format yang diberikan dalam file XML. Ubah format atau nilai agar cocok.
Pengecualian dalam penguraian baris data dari sumber yang disebabkan oleh Jumlah elemen dalam baris (...) tidak cocok dengan jumlah properti yang ditentukan (...) untuk baris: [...] Baris di CSV Anda memiliki terlalu banyak atau terlalu sedikit nilai. Perbaiki format baris ini.
Pengecualian dalam penguraian baris data dari sumber yang disebabkan oleh String input: "..." Nilai di CSV Anda (biasanya bilangan bulat atau float) memiliki karakter non-numerik di dalamnya (misalnya, simbol dolar, tanda persentase, dll.) yang mencegahnya diuraikan dengan benar. Hapus karakter tambahan ini.
Pengecualian dalam penguraian baris data dari sumber yang disebabkan oleh Nilai data '...' untuk properti '...' dari Slice '...' bukan nilai kunci dari Konsep '...' yang direferensikan. Salah satu irisan Anda berisi nilai dimensi yang tidak dikenal (yaitu, yang tidak ada dalam daftar semua kemungkinan nilai untuk konsep terkait). Kembali ke tabel definisi konsep dimensi dan tambahkan nilai, jika perlu.
Header '...' dalam data adalah properti konstan di tabel Header kolom dalam CSV tidak sesuai dengan ID kolom yang ditentukan dalam definisi tabel XML. Ubah salah satunya agar cocok.
Terjadi error penguraian XML ... Konten yang tidak valid ditemukan dimulai dengan elemen '...'. Salah satu dari '{...}', '{...}', ... diharapkan. Elemen XML yang direferensikan tidak berada di tempat yang tepat. Periksa untuk memastikan urutannya sudah benar, dan juga bahwa elemen memiliki induk yang benar (mis., info seharga name).
Error penguraian XML ... Atribut '...' tidak diizinkan untuk muncul dalam elemen '...'. Ejaan, kasus, atau lokasi atribut tag XML ini salah. Periksa dokumentasi untuk penggunaan yang sesuai.
Error penguraian XML. ... Elemen '...' tidak boleh memiliki karakter [turunan], karena jenis konten jenis ini adalah elemen saja. Ada beberapa teks yang terpisah dalam file XML Anda (mungkin disebabkan oleh tag yang tidak memiliki < atau >). Perbaiki teks dan coba lagi.

Jika Anda kesulitan memahami pesan yang tidak ada dalam daftar di atas, posting pesan di forum DSPL, dan kami akan mencoba membantu.

Set data saya berhasil diimpor, tetapi saya tidak dapat menampilkan visualisasi apa pun di Penjelajah Data Publik. Apa yang terjadi?

Masalah ini terjadi jika set data Anda merupakan DSPL yang valid, tetapi tidak berada dalam subset DSPL yang dapat divisualisasikan di Penjelajah Data Publik. Ada banyak kemungkinan penyebab terjadinya hal ini; yang paling umum adalah:

  • Menentukan konsep dimensi tanpa tabel: Tanpa informasi ini, Penjelajah Data Publik tidak mengetahui pilihan apa yang akan ditampilkan di UI.
  • Membuat set data hanya dengan metrik: Penjelajah Data Publik memerlukan setidaknya satu dimensi kategoris (yaitu, non-waktu) yang ditentukan di suatu tempat dalam set data untuk menyusun UI visualisasi dengan benar.
  • Tidak menyertakan dimensi waktu dalam irisan Anda: Penjelajah Data Publik hanya dapat memvisualisasikan serial waktu. Potongan non-waktu akan diabaikan oleh produk.
  • Menggunakan dimensi waktu selain time:... kanonis: Penjelajah Data Publik menggunakan konsep time kanonis untuk menata letak dan menganimasikan berbagai visualisasi dalam produk; platform ini tidak memahami konsep waktu lain, misalnya yang dibuat di dalam set data Anda sendiri.
  • Menggunakan nilai waktu yang terlalu besar atau terlalu kecil: Penjelajah Data Publik belum memvisualisasikan set data dengan perincian waktu yang lebih kecil dari satu hari. Di ujung lain spektrum, alat memiliki masalah dengan nilai tahun yang sangat besar (dalam puluhan ribu). Kami berharap dapat membuat perincian ini lebih fleksibel di masa mendatang.

Bagaimana cara mengintegrasikan set data yang divisualisasikan ke dalam situs web?

Baca artikel ini di Pusat Bantuan Penjelajah Data Publik. Seperti yang dijelaskan pada yang terakhir, Anda bisa mendapatkan "sematan penuh" (yaitu yang menyertakan kontrol eksplorasi) dengan menyesuaikan URL sematan secara manual.