DSPL – najczęstsze pytania

W tym dokumencie omawiamy najczęstsze problemy właścicieli danych występujące podczas tworzenia zbiorów danych DSPL i przesyłania ich do eksploratora danych publicznych.

Treści

Pytania ogólne

Co to jest DSPL?

DSPL oznacza Dataset Publishing Language. Jest to format obrazu zarówno dla metadanych (informacji o zbiorach danych, takich jak nazwa i dostawca, jak i zawartych w nich koncepcji) oraz faktycznych danych zbiorów danych. Metadane są określane w formacie XML, a dane w formacie CSV.

Jakie są główne zalety korzystania z DSPL?

DSPL od podstaw projektuje wizualizacje danych multimedialnych, np. w eksploratorze danych publicznych. Utworzenie tych metadanych wymaga podania szczegółowych metadanych dotyczących wycinków, wymiarów i danych, elementów, które nie są wystarczająco obsługiwane w innych formatach zbiorów danych.

DSPL obsługuje też importowanie zbiorów danych, hierarchie koncepcji (np. „kraj” to element podrzędny obiektu „kontynent”), dane geograficzne i wiele innych unikalnych funkcji zwiększających możliwości eksploracji danych.

Czy DSPL zastępuje inne formaty używane do wymiany lub analizy danych?

Ogólnie nie. Jak wspomnieliśmy w poprzedniej odpowiedzi, DSPL służy do interaktywnej wizualizacji i eksploracji. Nie jest to ogólny format wymiany danych ani analizy.

Ostatecznie traktujemy DSPL jako uzupełnienie innych formatów. Użytkownicy powinni mieć możliwość tworzenia zbiorów danych DSPL z innych źródeł do tworzenia multimedialnych, interaktywnych wizualizacji.

Co mogę zrobić przy użyciu zbioru danych DSPL?

Możesz zaimportować je do eksploratora danych publicznych, opublikować je i umożliwić innym użytkownikom przeglądanie danych za pomocą interaktywnych, interaktywnych wizualizacji. Opublikowane zbiory danych można też uwzględnić w katalogu danych publicznych, aby zainteresowani użytkownicy mogli je znaleźć.

Obecnie jest to jedyna aplikacja korzystająca z DSPL. Zachęcamy jednak do korzystania z niej w innych aplikacjach. Spodziewamy się, że z czasem liczba ta wzrośnie.

Jakie typy zbiorów danych są najbardziej odpowiednie dla DSPL?

Format DSPL obsługuje dowolne kolekcje tabel, dlatego nadaje się do stosowania w różnych typach zbiorów danych. Jednak tylko część zbiorów danych DSPL w narzędziu Public Data Explorer wygeneruje ciekawe wizualizacje. Zwłaszcza ta druga usługa sprawdza się najlepiej w przypadku danych, które:

  • Dane ilościowe: z każdym punktem danych powiązany jest co najmniej 1 rodzaj danych liczbowych (np. „populacja”, „liczba przypadków grypy”, „przychody”).
  • Dane statystyczne: dane mogą być podzielone na ograniczoną liczbę kategorii z możliwym do opisania tekstem (np. „kraje”, „płcie”, „grupy wiekowe”).
  • Seria czasowa: dla każdej kategorii dane różnią się jako funkcja czasu, a przyległe punkty są od siebie oddalone o co najmniej 1 dzień (narzędzie Eksplorator danych publicznych nie może wizualizować przyrostów czasu krótszych niż jeden dzień).
  • Zbiorcze: dla każdej kombinacji czasu, kategorii lub danych występuje pojedynczy punkt danych, a nie lista zdarzeń czy faktów.

Utworzony przeze mnie zbiór danych DSPL ma być widoczny w katalogu publicznych danych Google, dzięki czemu inni użytkownicy będą mogli go znaleźć. Z kim mogę się skontaktować?

Wypełnij ten formularz i podaj link do zbioru danych.

Mam problem z DSPL. Gdzie znajdę pomoc?

Umieść swój problem na forum dyskusyjnym DSPL.

Pliki zbioru danych DSPL

Jak zakodować pliki XML i CSV?

Wszystkie pliki XML i CSV muszą być zakodowane w formacie UTF-8. Pamiętaj, że ASCII (czasami nazywany „zwykłym tekstem”) to podzbiór UTF-8, więc zbiory danych w tym formacie również powinny działać.

Jakiego oprogramowania użyć do tworzenia i edytowania plików zbiorów danych?

Zalecamy, aby do edytowania plików XML używać zwykłego tekstu w edytorze tekstu z wyróżnieniem składni. W tym artykule znajdziesz zalecenia dotyczące różnych platform. Odradzamy używanie w pełni funkcjonalnego edytora tekstu do celów ogólnych, ponieważ takie formaty zwykle wstawiają do pliku XML dodatkowe tagi formatowania, które mogą powodować błędy importu.

Arkusz kalkulacyjny to zwykle najłatwiejszy sposób na tworzenie i edytowanie plików danych. Pamiętaj, by zapisać je w prawidłowym formacie (CSV / wartości rozdzielone przecinkami).

Mam dane w programie Excel, SPSS, SAS lub w innym systemie. Czy mogę zaimportować je bezpośrednio do Eksploratora danych publicznych?

Nie teraz. Najpierw musisz wyeksportować dane do formatu CSV, dodać odpowiednie metadane XML, a następnie przesłać zbiór danych zgodny z DSPL do Eksploratora danych publicznych.

Czy nazwa ma znaczenie?

Plik XML zbioru danych powinien mieć nazwę kończącą się na .xml. Powiązane pliki danych CSV mogą mieć dowolne nazwy, pod warunkiem że są zgodne z nazwami podanymi w tagach <file> w metadanych XML. Plik ZIP używany do pakowania i importowania zbioru danych do Eksploratora danych publicznych może mieć też dowolną nazwę.

Czy pliki CSV powinny być sortowane?

Tak. Posortuj zawartość plików CSV według wymiarów innych niż standardowy (w dowolnej kolejności lub kierunku), a następnie opcjonalnie według innych kolumn (np. czasu).

Jeśli na przykład masz plik CSV z kolumnami date, dimension1, dimension2, metric1 i metric2, posortuj wyniki według dimension1 i dimension2 (w dowolnej kolejności). Jeśli chcesz też posortować dane według kolumny Data/godzina, powinna to być ostatnia rzecz, według której sortujesz dane.

Dzięki temu możliwe jest grupowanie obserwacji poszczególnych serii czasowych, co znacznie poprawia skuteczność procesu importu DSPL.

Model i składnia XML

Jak zdecydować, co ma być wskaźnikiem, a co jako wymiar?

Wymiar to jednostka używana do segmentowania lub filtrowania danych. Wskaźnik z drugiej strony opisuje zaobserwowaną wartość lub wartości powiązane z każdym punktem danych.

Ogólnie wymiary są z kategorią, a dane nie są kategoryzowane, zmieniają się w czasie i są liczbowe. Oto przykładowe etykiety:

  • Wymiary: kraj, stan, hrabstwo, region, rok, miesiąc, płeć, kategoria wiekowa, segment branży
  • Wskaźniki: populacja, PKB, stopa bezrobocia, kompetencje, przychody, koszt, cena

Czym różni się właściwość od atrybutu?

Właściwości są dołączane do każdego wystąpienia koncepcji. Na przykład usługa kontynentalna będzie mieć różne wartości dla różnych krajów. Atrybuty są związane z całą koncepcją. Przykład: atrybut isParent ma zastosowanie do wszystkich kontynentów.

Czy kolejność tagów ma znaczenie?

Tak. Dodaj tagi w kolejności, w której występują w Przewodniku dla programistów. Na przykład hasło <topic> powinno być obecne w definicji <type>.

Czy wielkość liter ma znaczenie?

Tak. Nazwy tagów i atrybutów XML muszą być pisane w taki sam sposób, w jaki są zapisane w przewodniku dla programistów. Na przykład użycie tagu isparent zamiast isParent w tagu property spowoduje błąd importu.

Czy koncepcja może mieć dwoje rodziców?

Nie. Każda koncepcja może mieć tylko jedno odwołanie do isParent.

Czy koncepcja może się odnosić do siebie?

Tak. Przykładowa hierarchia koncepcji odwołującej się do własnej sprzedaży jest dostępna w zbiorze danych sprzedaży detalicznej w Stanach Zjednoczonych.

Formatowanie danych

Jak sformatować daty?

Daty można zapisywać w dowolnym formacie możliwym do opisania w standardzie Joda DateTime. Kod formatowania Joda powinien być przechowywany w atrybucie format w odpowiednim elemencie kolumny tabeli.

Poniżej znajdziesz kody formatowania Joda dla niektórych popularnych formatów daty:

Przykład daty Format Joda
2010 yyyy
Maj 2010 MMM yyyy
21.05.2010 MM/dd/yyyy
21.05.2010 dd/MM/yyyy
2010-05-21 yyyy-MM-dd

W szczególności kod Jody dla znaków miesiąca to M, a nie m (reprezentujący minuty).

Czy mogę używać jednostek czasu krótszych niż jeden dzień?

Format Joda DateTime, a tym samym DSPL, obsługuje wartości czasu nieprzekraczające milisekund. Eksplorator danych publicznych nie może jednak (jeszcze) wizualizować szczegółów na poziomie mniejszym niż 1 dzień.

Używanie pojęć kanonicznych

Co to są „koncepcje kanoniczne” i jak są przydatne?

Termin „pojęcia kanoniczne” odnosi się do zestawu koncepcji utworzonych przez Google, które mają być podstawowymi „elementami składowymi” w innych zbiorach danych. Pojęcia są zdefiniowane w 6 zbiorach danych DSPL, które grupują te pierwsze w kategorie takie jak „time” (czas), „geo” (geo), itp. Aby uzyskać dostęp do tych pojęć, wystarczy zaimportować odpowiednie nadrzędne zbiory danych na początku pliku XML DSPL.

Koncepcje kanoniczne są przydatne, ponieważ pomagają oszczędzać czas (np. dzięki ręcznemu wpisywaniu wartości szerokości i długości geograficznej dla każdego kraju na świecie) i sygnalizują, jak należy wizualizować dane. entity:entity

Czy wszystkie pojęcia kanoniczne są zrozumiałe dla eksploratora danych publicznych?

Większość podanych pojęć kanonicznych jest odczytywana przez Public Data Explorer, ale jest kilka, których nie można jeszcze (jeszcze) zwizualizować. Są one wymienione poniżej wraz z sugerowanymi sposobami obejścia problemu:

Pomysł Obejście
quantity:index Zamiast niego użyj pola quantity:ratio lub quantity:magnitude.
time:quarter Skorzystaj z time:month w sposób opisany w instrukcji kucharskiej DSPL.
time:week Skorzystaj z time:day w sposób opisany w instrukcji kucharskiej DSPL.

W przyszłości udostępnimy ją w większym stopniu.

Jak mogę używać koncepcji kanonicznej w zbiorze danych?

Zapoznaj się z dokumentacją dotyczącą konkretnego koncepcji, której chcesz użyć, a także przejrzyj książkę kuchenną DSPL, która zawiera szczegółowe instrukcje dotyczące najczęściej używanych pojęć.

Importowanie i wizualizowanie zbiorów danych

Dlaczego nie mogę zaimportować zbioru danych?

Interfejs przesyłania eksploratora danych publicznych przeskanuje zbiór danych DSPL i zablokuje jego importowanie, jeśli wykryje błędy. Importer jest bardzo ważny pod względem pisowni, wielkości liter oraz kolejności i pozycji tagów w pliku XML, a także układu i sortowania danych w plikach CSV. Dlatego prawidłowe przetworzenie i zaimportowanie zbioru danych może zająć kilka kart.

Pierwszym krokiem do rozwiązania tych problemów jest zapoznanie się z komunikatami o błędach podanymi w interfejsie i podjęcie odpowiednich działań naprawczych. Nie zawsze jest to łatwe (chociaż pracujemy nad udoskonaleniem), dlatego przygotowaliśmy tabelę z najczęstszymi pytaniami:

Błąd Objaśnienie
zduplikowany klucz: ... Tabela definicji pojęcia ma powtarzającą się wartość identyfikatora (czyli wartość w kolumnie o takiej samej nazwie jak koncepcja). Wartości te służą do jednoznacznej identyfikacji poszczególnych wystąpień koncepcji, dlatego duplikaty są niedozwolone.
Wyjątek podczas analizowania wierszy danych ze źródła spowodowanych przez kombinację właściwości [...] pojawia się w więcej niż 1 osobnej grupie wierszy w danych. Plik CSV nie jest poprawnie posortowany. Jak to zrobić, dowiesz się z tej dyskusji.
Wyjątek podczas analizowania wierszy danych ze źródła spowodowanych przez nieprawidłowy format: „...” ma nieprawidłowy format „...” Format tej wartości (zwykle daty) w pliku CSV jest niezgodny z formatem podanym w pliku XML. Zmień format lub wartość tak, aby były zgodne.
Wyjątek podczas analizowania wierszy danych ze źródła spowodowanych przez liczbę elementów w wierszu (...) nie pasuje do liczby określonych właściwości (...) w wierszu: [...] Wiersz w pliku CSV zawiera za dużo lub za mało wartości. Popraw formatowanie tego wiersza.
Wyjątek podczas analizowania wierszy danych ze źródła spowodowanych przez ciąg wejściowy: „...” Wartość w pliku CSV (zazwyczaj jest to liczba całkowita lub zmiennoprzecinkowa) zawiera znaki nieliczbowe (np. symbol dolara, znak procentu itp.), które uniemożliwiają jego prawidłową analizę. Usuń te dodatkowe znaki.
Wyjątek podczas analizowania wierszy danych ze źródła spowodowanych przez wartość danych „...” dla właściwości „...” elementu „...” nie jest wartością klucza odnoszącą się do koncepcji „...”. Jeden z Twoich wycinków zawiera nierozpoznaną wartość wymiaru (np. , która nie znajduje się na liście wszystkich możliwych wartości danej koncepcji). Wróć do tabeli definicji koncepcji wymiaru i w razie potrzeby dodaj wartość.
Nagłówek „...” w danych jest stałą właściwością tabeli Nagłówek kolumny w pliku CSV nie odpowiada identyfikatorowi kolumny zdefiniowanemu w definicji tabeli XML. Zmień je tak, aby były zgodne.
Błąd analizy XML... Znaleziono nieprawidłową treść zaczynającą się od elementu „...”. Oczekiwano jednego z elementów „{...}, „{...}”. Podany element XML znajduje się we właściwym miejscu. Sprawdź, czy kolejność jest prawidłowa i czy element ma prawidłowy element nadrzędny (np. info w przypadku name).
Błąd analizy XML ... Atrybut „...” nie może być wyświetlany w elemencie „...”. Pisownia, wielkość liter lub lokalizacja tego atrybutu tagu XML jest nieprawidłowa. Odpowiednie instrukcje znajdziesz w dokumentacji.
Błąd analizy XML. ... Element „...” nie może zawierać znaku [children], ponieważ typ treści to tylko element. W pliku XML brakuje tekstu, który prawdopodobnie jest zaburzony (w wyniku tego tagu może brakować znaczników < lub >). Popraw tekst i spróbuj ponownie.

Jeśli masz problem ze zrozumieniem wiadomości, której nie ma na liście powyżej, opublikuj ją na forum DSPL, a my spróbujemy Ci pomóc.

Zbiór danych został zaimportowany, ale nie mogę zobaczyć żadnych wizualizacji w usłudze Public Data Explorer. Co się dzieje?

Ten problem występuje, gdy zbiór danych jest prawidłowym DSPL, ale nie należy do podzbioru DSPL, który jest widoczny w Eksploratorze danych publicznych. Przyczyn może być wiele. Najczęstsze to:

  • Definiowanie koncepcji wymiaru bez tabeli: bez tych informacji Public Data Explorer nie wie, jakie opcje wyświetlić w interfejsie.
  • Tworzenie zbioru danych zawierającego tylko dane: Eksplorator danych publicznych wymaga co najmniej jednego wymiaru kategorialnego (czyli innego niż czasowy) zdefiniowanego w dowolnym miejscu zbioru danych, aby zapewnić prawidłową strukturę interfejsu wizualizacji.
  • Brak wymiaru czasu w wycinkach: Eksplorator danych publicznych może tylko wizualizować ciągi czasowe. Wycinki inne niż będą ignorowane przez usługę.
  • Używanie wymiaru czasowego innego niż kanoniczny time:...: Public Data Explorer wykorzystuje kanoniczne wartości time do rozmieszczenia i animowania różnych wizualizacji w usłudze.Nie rozumie innych pojęć związanych z czasem, np. tych utworzonych we własnym zbiorze danych.
  • Używanie zbyt dużych lub zbyt małych wartości czasu: Eksplorator danych publicznych nie wizualizuje jeszcze zbiorów danych o czasie ważności krótszym niż 1 dzień. Z drugiej strony narzędzie ma problemy z bardzo dużymi wartościami rocznymi (np. dziesiątki tysięcy). Mamy nadzieję, że w przyszłości takie sposoby szczegółowości będą bardziej elastyczne.

Jak zintegrować wizualizację zbioru danych z witryną?

Przeczytaj ten artykuł w Centrum pomocy narzędzia Public Data Explorer. Jak wyjaśniliśmy w drugim przypadku, możesz uzyskać pełny „umieszczony element” (tzn. z elementami sterującymi eksploracją), ręcznie dostosowując go.