DSPL Kontrolü

DSPL Kontrolü, DSPL veri kümesini doğrulayan bir yardımcı programdır resmi DSPL şemasına uyma, iç referansların tutarlılığı ve CSV dosya yapısı. Yardımcı program DSPL içe aktarma hatalarına neden olacak birçok sorunu tespit ederek ve giriş işlemine başlamadan önce bu sorunları hemen düzeltin.

Yardımcı programın (henüz) DSPL veri kümenizi kontrol etmediğini her soruna ilişkin bir çözüm sunar. Ancak bu, en yaygın olarak veri kümeniz araç tarafından başarılı bir şekilde doğrulanırsa Public Data'da içe aktarılabilir ve görselleştirilebilir olma olasılığı yüksektir öğrenin. Kontrol Ayrıntıları bölümüne bakın konusuna bakın.

DSPL Kontrolü çalıştırılıyor

Temel seviye

Not: Bu talimatlarda, Google Haberler'deki kurulumu zaten uyguluyordu DSPL Araçları sayfasındaki talimatlara göz atın.

DSPL Kontrolü çalıştırmak için sisteminizde terminale / isteme gidin ve tür:

python dsplcheck.py [path to dataset XML or zip file]

Burada, köşeli parantez içine alınan terimin yerine veri kümesi XML dosyası veya sıkıştırılmış DSPL paketi.

Veri kümesi geçerliyse araç bir "doğrulama başarılı" mesajını alırsınız. Aksi takdirde bir veya daha fazla hata mesajı verir Doğrulama işleminin neden başarısız olduğunu açıklayan. İkinci durum oluşursa veri kümenizi belirtilen şekilde çalıştırın ve aracı tekrar çalıştırın.

Kontrol Düzeyi

Varsayılan olarak DSPL Kontrolü, CSV'ler de dahil olmak üzere veri kümesinin tamamını inceler ana DSPL XML dosyasından başvurulur. Bu işlem küçük boyutlu orta büyüklükte veri kümelerine gönderebilir, ancak takılıp kalabilir veya bellek tükenebilir veri kümelerinde büyük (ör. yüzlerce megabayt veya daha büyük olabilir).

Bu durumları ele almak için aracın bir kontrol seviyesi vardır. kontrol etme ve iyileştirmenin kapsamını ayarlamanıza olanak sağlayan takip edebilirsiniz. Kullanmak için --checking_level=[...] ekleyin Burada, parantezli terimin yerine şu değerlere sahiptir:

  • schema_only: Veri kümesi XML dosyasını ardından durun.
  • schema_and_model: Şema ve temel model doğrulaması yapar, ancak başlık satırından sonraki CSV içeriğini yoksayın.
  • full: Şema, model ve veri doğrulaması yapın (varsayılan).

Ayrıntılar Kontrol Ediliyor

DSPL Kontrolü, aşağıdaki doğrulama sırasını gerçekleştirir:

  • XML şeması doğrulaması: Veri kümenizin meta veri dosyası geçerli bir XML dosyasıdır ve resmi DSPL şeması.
  • CSV varlığı: Tüm CSV dosyalarının mevcut olup olmadığını kontrol eder. veri kümenizden başvurulan kaynaklar mevcut ve yüklenebilir.
  • Kavram kontrolleri: Hesabınızdaki her kavram için şunları içerir:
    • Veri kümesinde en az bir kavram var*
    • Tüm konu referansları geçerli
    • Kavram zaman olmayan bir değer olarak kullanılırsa tablo referansı vardır boyut*
    • Tablo referansı varsa geçerlidir
    • Referans verilen tabloda kavram kimliğine karşılık gelen bir sütun var
  • Dilim kontrolleri: şunları içerir:
    • Veri kümesinde en az bir dilim var*
    • En az bir dilim, zaman olmayan bir boyuta başvuruyor*
    • Dilimde en az bir metrik ve bir boyut var
    • Tam olarak bir boyut referansı time standart kavram*
    • Her dilim, benzersiz bir boyut kombinasyonuna sahiptir
    • Yerel kavramlarla ilgili tüm referanslar geçerlidir
    • Tablo referansı mevcut
    • Tablo referansı geçerli
    • Referans verilen tabloda her boyut ve metrik için bir sütun var dilimde
    • Başvurulan tablodaki sütun türleri dilimde kullanılan kavramlar
  • Tablo kontrolleri: Tablonuzdaki her tablonun çeşitli kontrolleri şunları içerir:
    • Veri kümesinde en az bir tablo var*
    • CSV dosyasında tabloyla aynı sayıda sütun var
    • CSV başlık dizeleri sütun kimlikleriyle eşleşiyor
    • Tüm tarih sütunlarında format özelliği var
    • Tarih biçimleri ilişkili zaman kavramlarıyla yaklaşık olarak uyumludur, Örneğin, bir time:year sütununun biçimi en az bir y karakter*
  • CSV veri kontrolleri: CSV veri dosyalarıyla ilgili çeşitli kontroller Aşağıdakiler dahil olmak üzere veri kümenizin XML dosyanızın referans verdiği:
    • Her CSV satırının başlığıyla aynı sayıda sütun bulunur
    • Kavram tanımı CSV'sinde her biri için en fazla bir satır var kavram kimliği
    • Dilim CSV'de şu kombinasyonun her kombinasyonu için en fazla bir satır olabilir: boyutlar
    • Dilim CSV'sinde başvurulan boyut değerleri geçerli
    • Dilim CSV doğru şekilde sıralandı
    • Tam sayı ve kayan CSV değerleri doğru şekilde biçimlendirildi

* ile işaretlenen ölçütler, görselleştirmek için kullanın, ancak Google Analytics 4'te DSPL biçimindedir.

Diğer yandan, araç (henüz) aşağıdakilere bakmaz:

  • Veri kümesi içe aktarma işlemleri
  • Özellik ve özellik referansları
  • Kavram uzantıları