Pemeriksaan DSPL

DSPL Check adalah utilitas yang memvalidasi set data DSPL terhadap sejumlah kriteria termasuk kepatuhan terhadap skema DSPL resmi, konsistensi referensi internal, dan struktur file CSV. Utilitas tersebut dapat menangkap banyak masalah yang akan menyebabkan kesalahan impor DSPL, membantu Anda mendeteksi dan memperbaiki masalah ini dengan cepat sebelum memulai proses {i>input<i}.

Perhatikan bahwa utilitas belum (belum) memeriksa {i>dataset<i} DSPL Anda untuk setiap masalah yang mungkin terjadi. Namun, cara ini akan menangkap masalah baru. Jadi, jika {i>dataset<i} Anda berhasil divalidasi oleh alat tersebut, maka akan ada kemungkinan besar data tersebut dapat diimpor dan dapat divisualisasikan dalam Data Publik Penjelajah. Lihat bagian Memeriksa Detail di bawah untuk informasi lebih lanjut.

Menjalankan Pemeriksaan DSPL

Dasar-dasar

Catatan: Petunjuk ini mengasumsikan bahwa Anda telah sudah mengikuti penginstalan petunjuk yang diberikan di halaman Alat DSPL.

Untuk menjalankan {i>DSPL Check<i}, buka terminal/{i>prompt<i} di sistem Anda dan jenis:

python dsplcheck.py [path to dataset XML or zip file]

di mana istilah dalam tanda kurung diganti dengan jalur relatif ke file XML kumpulan data atau paket DSPL yang di-zip.

Jika {i>dataset<i} valid, alat akan mencetak kode "validasi berhasil" untuk membuat pesan email baru. Jika tidak, output akan menampilkan satu atau beberapa pesan error yang menjelaskan mengapa validasi gagal. Jika yang terakhir terjadi, perbaiki {i>dataset<i} Anda sesuai arahan, lalu jalankan kembali alat tersebut.

Memeriksa Level

Secara {i>default<i}, Pemeriksaan DSPL akan memeriksa seluruh {i>dataset<i}, termasuk {i>file<i} CSV yang direferensikan dari file XML DSPL utama. Proses ini berjalan dengan baik pada ke set data berukuran sedang, tetapi mungkin akan terhambat atau kehabisan memori pada {i>dataset<i} yang sangat besar (yaitu, dalam ratusan megabyte atau lebih besar).

Untuk mengatasi kasus ini, alat ini memiliki tingkat pemeriksaan yang memungkinkan Anda mengatur ruang lingkup pemeriksaan dan memperbaiki performa terbaiknya, sesuai kebutuhan. Untuk menggunakan, sisipkan --checking_level=[...] sebelum jalur {i>dataset<i}, di mana istilah dalam tanda kurung diganti dengan salah satu nilai berikut:

  • schema_only: Validasi file XML set data terhadap skema DSPL resmi, lalu berhenti.
  • schema_and_model: Melakukan validasi skema dan model dasar, tetapi mengabaikan konten CSV setelah baris {i>header<i}.
  • full: Lakukan validasi skema, model, dan data (default).

Memeriksa Detail

Pemeriksaan DSPL melakukan urutan validasi berikut:

  • Validasi skema XML: Memverifikasi bahwa set data Anda adalah XML yang valid dan sesuai dengan skema DSPL resmi.
  • Keberadaan CSV: Memeriksa apakah semua file CSV yang direferensikan dari set data Anda sudah ada dan dapat dimuat.
  • Pemeriksaan konsep: Berbagai pemeriksaan setiap konsep di {i>dataset<i}, termasuk:
    • Set data memiliki setidaknya satu konsep*
    • Semua referensi topik valid
    • Referensi tabel ada jika konsep digunakan sebagai non-waktu dimensi*
    • Referensi tabel valid jika ada
    • Tabel yang dirujuk memiliki kolom yang sesuai dengan ID konsep
  • Pemeriksaan slice: Berbagai pemeriksaan setiap slice di {i>dataset<i}, termasuk:
    • Set data memiliki setidaknya satu irisan*
    • Setidaknya satu irisan merujuk pada dimensi non-waktu*
    • Slice memiliki setidaknya satu metrik dan satu dimensi
    • Hanya satu referensi dimensi time konsep kanonis*
    • Setiap irisan memiliki kombinasi dimensi yang unik
    • Semua referensi ke konsep lokal valid
    • Referensi tabel ada
    • Referensi tabel valid
    • Tabel yang dirujuk memiliki kolom untuk setiap dimensi dan metrik dalam potongan
    • Jenis kolom dalam tabel yang direferensikan sesuai dengan jenis konsep yang digunakan dalam
  • Pemeriksaan tabel: Berbagai pemeriksaan setiap tabel di {i>dataset<i}, termasuk:
    • Set data memiliki setidaknya satu tabel*
    • File CSV memiliki jumlah kolom yang sama dengan tabel
    • String header CSV cocok dengan ID kolom
    • Semua kolom tanggal memiliki atribut format
    • Format tanggal selaras (kira-kira) dengan konsep waktu terkait, misalnya, format untuk kolom time:year menyertakan setidaknya satu y karakter*
  • Pemeriksaan data CSV: Berbagai pemeriksaan file data CSV yang direferensikan oleh file XML set data Anda, termasuk:
    • Setiap baris CSV memiliki jumlah kolom yang sama dengan header-nya
    • CSV definisi konsep tidak memiliki lebih dari satu baris untuk setiap baris ID konsep
    • Slice CSV tidak memiliki lebih dari satu baris untuk setiap kombinasi dimensi
    • Nilai dimensi yang dirujuk dalam CSV irisan valid
    • CSV irisan diurutkan dengan benar
    • Nilai CSV bilangan bulat dan float diformat dengan benar

Kriteria yang ditandai dengan * diperlukan untuk visualisasi data di Explorer Data Publik, tetapi secara teknis tidak diperlukan oleh dalam format DSPL.

Di sisi lain, alat ini tidak (belum) melihat hal-hal berikut:

  • Impor set data
  • Referensi atribut dan properti
  • Ekstensi konsep