DSPL Kontrolü

DSPL Denetimi, bir DSPL veri kümesini resmi DSPL şemasına uygunluk, dahili referansların tutarlılığı ve CSV dosyası yapısı gibi bir dizi ölçütle doğrulayan bir yardımcı programdır. Yardımcı program, DSPL içe aktarma hatalarına neden olacak birçok sorunu yakalayabilir. Böylece, giriş işlemine başlamadan önce bu sorunları hızlı bir şekilde tespit edip düzeltebilirsiniz.

Bu yardımcı programın DSPL veri kümenizi olası her sorun için kontrol etmediğini unutmayın. Bununla birlikte, en yaygın sorunları yakalar. Bu nedenle, veri kümeniz araç tarafından başarıyla doğrulanırsa Public Data Explorer'da içe aktarılabilir ve görselleştirilebilir. Daha fazla bilgi için aşağıdaki Ayrıntıları Kontrol Etme bölümüne bakın.

DSPL Denetimini Çalıştırma

Temel seviye

Not: Bu talimatlarda, DSPL Araçları sayfasında verilen yükleme talimatlarını uyguladığınız varsayılır.

DSPL Kontrolü'nü çalıştırmak için sisteminizdeki terminal / istek bölümüne gidip şunu yazın:

python dsplcheck.py [path to dataset XML or zip file]

Burada, parantez içine alınan terim, bir veri kümesi XML dosyası veya sıkıştırılmış DSPL paketine göreli bir yol ile değiştirilir.

Veri kümesi geçerliyse araç, "doğrulama başarılı" mesajını yazdırır. Aksi takdirde, doğrulamanın neden başarısız olduğunu açıklayan bir veya daha fazla hata mesajı verir. Bu durumda, veri kümenizi yönlendirilmiş olarak düzeltin ve ardından aracı tekrar çalıştırın.

Kontrol Seviyesi

Varsayılan olarak DSPL Kontrolü, ana DSPL XML dosyasından başvurulan CSV'ler dahil olmak üzere veri kümesinin tamamını inceler. Bu işlem, küçük ila orta ölçekli veri kümelerinde iyi çalışır, ancak çok büyük (ör. yüzlerce megabayt veya daha büyük) veri kümelerinde takılıp kalabilir veya belleğinde boş yer kalmayabilir.

Araç, bu gibi sorunları gidermek için kontrolün kapsamını belirlemenize ve gerekirse performansı iyileştirmenize olanak tanıyan bir kontrol düzeyi seçeneği sunar. Bu özelliği kullanmak için --checking_level=[...] veri kümesi yolundan önce, köşeli parantez içine alınmış değerlerden birinin yerine aşağıdaki değerlerden birini girin:

  • schema_only: Veri kümesi XML dosyasını resmi DSPL şemasıyla karşılaştırarak doğrulayın ve ardından durdurun.
  • schema_and_model: Şema ve temel model doğrulaması yapın ancak başlık satırından sonraki CSV içeriğini yok sayın.
  • full: Şema, model ve veri doğrulama işlemlerini yapın (varsayılan).

Ayrıntılar kontrol ediliyor

DSPL Kontrolü aşağıdaki doğrulama sırasını gerçekleştirir:

  • XML şeması doğrulaması: Veri kümesi meta veri dosyanızın geçerli XML olduğunu ve resmi DSPL şemasına uygun olduğunu doğrular.
  • CSV varlığı: Veri kümenizde başvurulan tüm CSV dosyalarının var olup olmadığını ve yüklenip yüklenmediğini kontrol eder.
  • Kavram kontrolleri: Aşağıdakiler dahil olmak üzere veri kümenizdeki her kavram için çeşitli kontroller içerir:
    • Veri kümesinde en az bir kavram var*
    • Tüm konu referansları geçerlidir
    • Kavram zaman olmayan bir boyut olarak kullanılıyorsa tablo referansı mevcuttur*
    • Tablo referansı varsa geçerlidir
    • Referans verilen tabloda, kavram kimliğine karşılık gelen bir sütun var
  • Dilim kontrolleri: Aşağıdakiler dahil olmak üzere, veri kümenizdeki her bir dilim için gerçekleştirilen çeşitli kontroller:
    • Veri kümesinde en az bir dilim var*
    • En az bir dilim zaman olmayan bir boyuta referans veriyor*
    • Dilimde en az bir metrik ve bir boyut var
    • Tam olarak bir boyut time standart kavram*
    • Her dilimin benzersiz bir boyut kombinasyonu vardır
    • Yerel kavramlara yapılan tüm atıflar geçerlidir
    • Tablo referansı var
    • Tablo referansı geçerli
    • Referans verilen tabloda, dilimdeki her boyut ve metrik için bir sütun bulunur
    • Başvurulan tablodaki sütun türleri, dilimde kullanılan kavramların türleriyle eşleşiyor
  • Tablo kontrolleri: Veri kümenizdeki her tablo için aşağıdakiler dahil çeşitli kontroller içerir:
    • Veri kümesinde en az bir tablo vardır*
    • CSV dosyası, tabloyla aynı sayıda sütuna sahip
    • CSV başlık dizeleri sütun kimlikleriyle eşleşiyor
    • Tüm tarih sütunlarının format özelliği vardır
    • Tarih biçimleri, ilişkili zaman kavramlarıyla uyumludur (ör. time:year sütununun biçimi en az bir y karakteri içerir*
  • CSV veri kontrolleri: Veri kümesi XML dosyanızın atıfta bulunduğu CSV veri dosyaları için çeşitli denetimler içerir. Örneğin:
    • Her CSV satırı, başlığıyla aynı sayıda sütuna sahiptir
    • Kavram tanımı CSV'sinde her kavram kimliği için en fazla bir satır var
    • Dilim CSV'sinde her bir boyut kombinasyonu için birden fazla satır yoktur
    • CSV kesitinde başvurulan boyut değerleri geçerlidir
    • Dilim CSV'si doğru şekilde sıralandı
    • Tam sayı ve kayan CSV değerleri doğru biçimlendirilmiş

* ile işaretlenen ölçütler, Public Data Explorer'da görselleştirme için gereklidir ancak DSPL biçimi tarafından teknik olarak gerekli değildir.

Diğer yandan, araç (henüz) aşağıdakilere bakmaz:

  • Veri kümesi içe aktarma işlemleri
  • Özellik ve özellik referansları
  • Kavram uzantıları