Kontrola DSPL

Sprawdzanie DSPL to narzędzie, które pozwala zweryfikować zbiór danych DSPL pod kątem wielu kryteriów, w tym zgodności z oficjalnym schematem DSPL, spójnością odwołań wewnętrznych oraz strukturą pliku CSV. Narzędzie może wykryć wiele problemów, które powodują błędy importu DSPL, ułatwiając szybkie wykrycie i rozwiązanie problemów.

Pamiętaj, że narzędzie nie sprawdza (jeszcze) zbioru danych DSPL pod kątem każdego możliwego problemu. Wykryje jednak najczęstsze problemy, więc w przypadku pomyślnego zweryfikowania zbioru danych istnieje duże prawdopodobieństwo, że będzie można go zaimportować i wyświetlić w Eksploratorze danych publicznych. Więcej informacji znajdziesz w sekcji Sprawdzanie szczegółów poniżej.

Uruchamianie kontroli DSPL

Podstawowe

Uwaga: te instrukcje zakładają, że zostały już wykonane instrukcje instalacji podane na stronie narzędzi DSPL.

Aby uruchomić czek DSPL, przejdź do terminala / wiersza w Twoim systemie i wpisz:

python dsplcheck.py [path to dataset XML or zip file]

gdzie hasło w nawiasie jest zastąpione ścieżką względną do pliku XML zbioru danych lub skompresowanego pakietu DSPL.

Jeśli zbiór danych jest prawidłowy, narzędzie wyświetla komunikat „Powodzenie weryfikacji”. W przeciwnym razie wyświetla jeden lub więcej komunikatów o błędach z informacją, dlaczego weryfikacja się nie powiodła. W drugim przypadku popraw zbiór danych zgodnie z instrukcjami, a potem ponownie uruchom narzędzie.

Poziom kontroli

Domyślnie DSPL Check skanuje cały zbiór danych, w tym pliki CSV, do których odwołuje się główny plik XML DSPL. Ten proces sprawdza się w przypadku małych i średnich zbiorów danych, ale w dużych zbiorach danych (np. w setkach megabajtów lub większych) może się okazać, że są one bardzo zagęszczone.

Aby rozwiązać ten problem, udostępniamy narzędzie Poziom kontroli, które pozwala ustawić zakres kontroli i w razie potrzeby zwiększyć wydajność. Aby skorzystać z tej funkcji, wstaw --checking_level=[...] przed ścieżką zbioru danych, gdzie nawias okrągły jest zastąpiony jedną z tych wartości:

  • schema_only: sprawdź, czy plik XML zbioru danych jest zgodny z oficjalnym schematem DSPL, i zatrzymaj.
  • schema_and_model: wykonaj schemat i podstawową weryfikację modelu, ale ignoruj zawartość pliku CSV po wierszu nagłówka.
  • full: wykonaj schemat, model i weryfikację danych (domyślnie).

Sprawdzanie szczegółów

DSPL Check wykonuje tę sekwencję weryfikacji:

  • Weryfikacja schematu XML: sprawdza, czy plik metadanych zbioru danych jest prawidłowy i jest zgodny ze oficjalnym schematem DSPL.
  • Istnieje istnienie pliku CSV: sprawdza, czy wszystkie pliki CSV, do których odwołuje się zbiór danych, istnieją i można je wczytywać.
  • Sprawdzanie koncepcji: różne kontrole poszczególnych pojęć w zbiorze danych, w tym:
    • Zbiór danych ma co najmniej 1 koncepcję*
    • Wszystkie odwołania do tematów są prawidłowe
    • Jeśli koncepcja jest używana jako wymiar inny niż niestandardowy*, występuje odwołanie do tabeli
    • Jeśli występuje odwołanie do tabeli, jest ono prawidłowe
    • W tabeli referencyjnej znajduje się kolumna odpowiadająca identyfikatorowi koncepcji
  • Kontrole wycinka: różne kontrole każdego wycinka w zbiorze danych, w tym:
    • Zbiór danych ma co najmniej jeden wycinek*
    • Co najmniej 1 wycinek odwołuje się do wymiaru innego niż*
    • Wycinek ma co najmniej 1 rodzaj danych i 1 wymiar
    • Dokładnie jeden wymiar odwołuje się do pojęcia kanonicznego „time*
    • Każdy wycinek ma niepowtarzalną kombinację wymiarów
    • Wszystkie odniesienia do koncepcji lokalnych są prawidłowe
    • Odniesienie do tabeli
    • Odwołanie do tabeli jest prawidłowe
    • Tabela referencyjna zawiera kolumnę na każdy wymiar i dane w wycinku
    • Typy kolumn w tabeli referencyjnej odpowiadają typom pojęć używanych w wycinku
  • Kontrole tabeli: różne kontrole każdej tabeli w zbiorze danych, w tym:
    • Zbiór danych ma co najmniej 1 tabelę*
    • Plik CSV ma taką samą liczbę kolumn jak tabela
    • Ciągi nagłówków CSV pasują do identyfikatorów kolumn
    • Wszystkie kolumny daty mają atrybut format
    • Formaty daty są (w przybliżeniu) zgodne z powiązanymi pojęciami dotyczącymi czasu, np. format kolumny time:year zawiera co najmniej 1 znak y*
  • Kontrole danych w pliku CSV: różne kontrole plików CSV, do których odwołuje się plik XML zbioru danych, w tym:
    • Każdy wiersz pliku CSV ma taką samą liczbę kolumn jak nagłówek
    • Plik CSV definicji koncepcji zawiera nie więcej niż 1 wiersz dla każdego identyfikatora koncepcji
    • Plik CSV wycinka ma nie więcej niż 1 wiersz dla każdej kombinacji wymiarów.
    • Wartości wymiarów, do których odwołuje się plik CSV wycinka, są prawidłowe
    • Plik CSV wycinka jest odpowiednio posortowany
    • Wartości CSV w liczbach całkowitych i zmiennych są prawidłowo sformatowane

Kryteria wymagane przez wizualizację w narzędziu Public Data Explorer są oznaczone gwiazdką (*), ale technicznie nie są wymagane w formacie DSPL.

Z drugiej strony narzędzie to nie analizuje (jeszcze) następujących danych:

  • Importy zbiorów danych
  • Odwołania do atrybutów i właściwości
  • Rozszerzenia koncepcyjne