Sprawdzanie DSPL to narzędzie do weryfikowania zbioru danych DSPL zgodność z szeregiem kryteriów, w tym z zgodnością z oficjalnym schematem DSPL, spójność wewnętrznych odwołań i struktury pliku CSV. Narzędzie to może wykrywają wiele problemów, które powodują błędy importu DSPL, co pomaga wykrywać i szybko rozwiązać te problemy przed rozpoczęciem procesu wprowadzania.
Zwróć uwagę, że narzędzie nie sprawdza (jeszcze) Twojego zbioru danych DSPL pod kątem każdy możliwy problem. Wyłapuje jednak najpopularniejsze problemów. Jeśli więc zbiór danych zostanie zweryfikowany przez narzędzie, pojawia się błąd i istnieje duże prawdopodobieństwo, że uda się ją zaimportować i wyświetlić w usłudze Public Data Eksplorator. Zobacz sekcję Sprawdzanie szczegółów poniżej.
Przeprowadzam kontrolę DSPL
Podstawy
Uwaga: w poniższych instrukcjach zakładamy, że masz śledzić już instalację instrukcji dostępnych na stronie Narzędzia DSPL.
Aby uruchomić sprawdzanie DSPL, przejdź do terminala lub do komunikatu w systemie i typ:
python dsplcheck.py [path to dataset XML or zip file]
gdzie hasło w nawiasie jest zastępowane ścieżką względną do w pliku XML zbioru danych lub spakowanym pakiecie DSPL.
Jeśli zbiór danych jest prawidłowy, narzędzie generuje uda się” . W przeciwnym razie wyświetla co najmniej 1 komunikat o błędzie. z opisem przyczyny niepowodzenia weryfikacji. Jeśli występuje ten drugi problem, rozwiąż problem i ponownie uruchom narzędzie.
Sprawdzam poziom
Domyślnie kontrola DSPL sprawdza cały zbiór danych, w tym pliki CSV przywoływane z głównego pliku XML DSPL. Ten proces sprawdza się dobrze na małych do średniej wielkości zbiorów danych, ale mogą się one mocno obciążać lub wyczerpać pamięć na bardzo dużych zbiorach danych (czyli mających setki megabajtów lub większą).
Aby rozwiązać takie problemy, narzędzie ma poziom kontrolny.
która pozwala określić zakres sprawdzania i ulepszać
zgodnie z potrzebami. Aby użyć, wstaw --checking_level=[...]
przed ścieżką zbioru danych, gdzie hasło w nawiasach zostaje zastąpione jednym
następujące wartości:
schema_only
: zweryfikuj plik XML zbioru danych pod kątem i przestań używać oficjalnego schematu DSPL.schema_and_model
: przeprowadź weryfikację schematu i podstawowej weryfikacji modelu, ale ignoruj zawartość pliku CSV po wierszu nagłówka.full
: wykonaj schemat, model i weryfikację danych (domyślnie).
Sprawdzam dane
DSPL Check wykonuje tę sekwencję weryfikacji:
- Walidacja schematu XML: sprawdza, czy zbiór danych pliku metadanych ma prawidłowy format XML i jest zgodny z oficjalny schemat DSPL.
- Istnienie pliku CSV: sprawdza, czy wszystkie pliki CSV , do których odwołuje się zbiór danych, istnieją i można je wczytać.
-
Weryfikacja koncepcji: różne sprawdzenia koncepcji w
zbiór danych, w tym:
- Zbiór danych ma co najmniej 1 koncepcję*
- Wszystkie odniesienia do tematów są prawidłowe
- Odwołanie do tabeli istnieje, jeśli koncepcja jest używana jako czas nieokreślony wymiar*
- Odwołanie do tabeli jest prawidłowe, jeśli występuje
- Tabela, o której mowa, zawiera kolumnę odpowiadającą identyfikatorowi pojęcie
-
Wycinki: różne testy każdego wycinka w
zbiór danych, w tym:
- Zbiór danych ma co najmniej 1 wycinek*
- Co najmniej 1 wycinek odwołuje się do wymiaru niebędącego czasem*
- Wycinek ma co najmniej 1 rodzaj danych i 1 wymiar
- Odwołuje się dokładnie 1 wymiar
time
koncepcja kanoniczna* - Każdy wycinek ma unikalną kombinację wymiarów
- Wszystkie odniesienia do lokalnych koncepcji są prawidłowe
- Istnieje odwołanie do tabeli
- Odwołanie do tabeli jest prawidłowe
- Tabela, o której mowa, zawiera kolumnę dla każdego wymiaru i danych na wycinku
- Typy kolumn w tabeli przywoływanej są zgodne z typami koncepcje używane na wycinku
-
Testy tabel: różne testy każdej tabeli w
zbiór danych, w tym:
- Zbiór danych ma co najmniej 1 tabelę*
- Plik CSV zawiera taką samą liczbę kolumn jak tabela
- Ciągi nagłówka CSV pasują do identyfikatorów kolumn
- Wszystkie kolumny z datami mają atrybut
format
- Formaty dat są (w przybliżeniu) zgodne z powiązanymi koncepcjami dotyczącymi czasu,
np. format kolumny
time:year
zawiera co najmniej jeden znaky
*
-
Testy danych CSV: różne testy plików CSV.
do którego odwołuje się plik XML zbioru danych, w tym:
- Każdy wiersz pliku CSV ma taką samą liczbę kolumn jak jego nagłówek
- Plik CSV z definicją koncepcji zawiera nie więcej niż 1 wiersz dla każdego wiersza identyfikator koncepcji
- Plik CSV z wycinkiem zawiera nie więcej niż 1 wiersz na każdą kombinację wartości wymiary
- Wartości wymiarów, do których odwołuje się plik CSV wycinka, są prawidłowe
- Wycinek CSV jest prawidłowo posortowany
- Wartości CSV w postaci liczby całkowitej i zmiennoprzecinkowej są prawidłowo sformatowane
Kryteria oznaczone gwiazdką (*) są niezbędne dla: w narzędziu Public Data Explorer, ale technicznie nie są wymagane przez w formacie DSPL.
Z drugiej strony narzędzie nie sprawdza (na razie) następujących elementów:
- Importy zbiorów danych
- Odniesienia do atrybutów i właściwości
- Rozszerzenia pojęć