Sprawdzanie DSPL to narzędzie, które pozwala zweryfikować zbiór danych DSPL pod kątem wielu kryteriów, w tym zgodności z oficjalnym schematem DSPL, spójnością odwołań wewnętrznych oraz strukturą pliku CSV. Narzędzie może wykryć wiele problemów, które powodują błędy importu DSPL, ułatwiając szybkie wykrycie i rozwiązanie problemów.
Pamiętaj, że narzędzie nie sprawdza (jeszcze) zbioru danych DSPL pod kątem każdego możliwego problemu. Wykryje jednak najczęstsze problemy, więc w przypadku pomyślnego zweryfikowania zbioru danych istnieje duże prawdopodobieństwo, że będzie można go zaimportować i wyświetlić w Eksploratorze danych publicznych. Więcej informacji znajdziesz w sekcji Sprawdzanie szczegółów poniżej.
Uruchamianie kontroli DSPL
Podstawowe
Uwaga: te instrukcje zakładają, że zostały już wykonane instrukcje instalacji podane na stronie narzędzi DSPL.
Aby uruchomić czek DSPL, przejdź do terminala / wiersza w Twoim systemie i wpisz:
python dsplcheck.py [path to dataset XML or zip file]
gdzie hasło w nawiasie jest zastąpione ścieżką względną do pliku XML zbioru danych lub skompresowanego pakietu DSPL.
Jeśli zbiór danych jest prawidłowy, narzędzie wyświetla komunikat „Powodzenie weryfikacji”. W przeciwnym razie wyświetla jeden lub więcej komunikatów o błędach z informacją, dlaczego weryfikacja się nie powiodła. W drugim przypadku popraw zbiór danych zgodnie z instrukcjami, a potem ponownie uruchom narzędzie.
Poziom kontroli
Domyślnie DSPL Check skanuje cały zbiór danych, w tym pliki CSV, do których odwołuje się główny plik XML DSPL. Ten proces sprawdza się w przypadku małych i średnich zbiorów danych, ale w dużych zbiorach danych (np. w setkach megabajtów lub większych) może się okazać, że są one bardzo zagęszczone.
Aby rozwiązać ten problem, udostępniamy narzędzie Poziom kontroli, które pozwala ustawić zakres kontroli i w razie potrzeby zwiększyć wydajność. Aby skorzystać z tej funkcji, wstaw --checking_level=[...]
przed ścieżką zbioru danych, gdzie nawias okrągły jest zastąpiony jedną z tych wartości:
schema_only
: sprawdź, czy plik XML zbioru danych jest zgodny z oficjalnym schematem DSPL, i zatrzymaj.schema_and_model
: wykonaj schemat i podstawową weryfikację modelu, ale ignoruj zawartość pliku CSV po wierszu nagłówka.full
: wykonaj schemat, model i weryfikację danych (domyślnie).
Sprawdzanie szczegółów
DSPL Check wykonuje tę sekwencję weryfikacji:
- Weryfikacja schematu XML: sprawdza, czy plik metadanych zbioru danych jest prawidłowy i jest zgodny ze oficjalnym schematem DSPL.
- Istnieje istnienie pliku CSV: sprawdza, czy wszystkie pliki CSV, do których odwołuje się zbiór danych, istnieją i można je wczytywać.
-
Sprawdzanie koncepcji: różne kontrole poszczególnych pojęć w zbiorze danych, w tym:
- Zbiór danych ma co najmniej 1 koncepcję*
- Wszystkie odwołania do tematów są prawidłowe
- Jeśli koncepcja jest używana jako wymiar inny niż niestandardowy*, występuje odwołanie do tabeli
- Jeśli występuje odwołanie do tabeli, jest ono prawidłowe
- W tabeli referencyjnej znajduje się kolumna odpowiadająca identyfikatorowi koncepcji
-
Kontrole wycinka: różne kontrole każdego wycinka w zbiorze danych, w tym:
- Zbiór danych ma co najmniej jeden wycinek*
- Co najmniej 1 wycinek odwołuje się do wymiaru innego niż*
- Wycinek ma co najmniej 1 rodzaj danych i 1 wymiar
- Dokładnie jeden wymiar odwołuje się do pojęcia kanonicznego „
time
”* - Każdy wycinek ma niepowtarzalną kombinację wymiarów
- Wszystkie odniesienia do koncepcji lokalnych są prawidłowe
- Odniesienie do tabeli
- Odwołanie do tabeli jest prawidłowe
- Tabela referencyjna zawiera kolumnę na każdy wymiar i dane w wycinku
- Typy kolumn w tabeli referencyjnej odpowiadają typom pojęć używanych w wycinku
-
Kontrole tabeli: różne kontrole każdej tabeli w zbiorze danych, w tym:
- Zbiór danych ma co najmniej 1 tabelę*
- Plik CSV ma taką samą liczbę kolumn jak tabela
- Ciągi nagłówków CSV pasują do identyfikatorów kolumn
- Wszystkie kolumny daty mają atrybut
format
- Formaty daty są (w przybliżeniu) zgodne z powiązanymi pojęciami dotyczącymi czasu, np. format kolumny
time:year
zawiera co najmniej 1 znaky
*
-
Kontrole danych w pliku CSV: różne kontrole plików CSV, do których odwołuje się plik XML zbioru danych, w tym:
- Każdy wiersz pliku CSV ma taką samą liczbę kolumn jak nagłówek
- Plik CSV definicji koncepcji zawiera nie więcej niż 1 wiersz dla każdego identyfikatora koncepcji
- Plik CSV wycinka ma nie więcej niż 1 wiersz dla każdej kombinacji wymiarów.
- Wartości wymiarów, do których odwołuje się plik CSV wycinka, są prawidłowe
- Plik CSV wycinka jest odpowiednio posortowany
- Wartości CSV w liczbach całkowitych i zmiennych są prawidłowo sformatowane
Kryteria wymagane przez wizualizację w narzędziu Public Data Explorer są oznaczone gwiazdką (*), ale technicznie nie są wymagane w formacie DSPL.
Z drugiej strony narzędzie to nie analizuje (jeszcze) następujących danych:
- Importy zbiorów danych
- Odwołania do atrybutów i właściwości
- Rozszerzenia koncepcyjne