Ten dokument zawiera omówienie najczęstszych problemów, które napotykają właściciele danych podczas tworzenia zbiorów danych DSPL i przesyłania ich do Public Data Explorer.
Spis treści
Pytania ogólne
Co to jest DSPL?
DSPL to skrót od Dataset Publishing Language, Jest to format reprezentacji metadanych (informacji o zbiorze danych, takich jak nazwa i dostawca, a także informacji, które zawiera i które zawiera) oraz rzeczywistych danych zbiorów danych. Metadane są zapisywane w formacie XML, a dane w formacie CSV.
Jakie są główne zalety korzystania z DSPL?
Usługa DSPL została zaprojektowana od podstaw pod kątem wyświetlania szczegółowych wizualizacji danych, takich jak te dostępne w Public Data Explorer. Tworzenie ich wymaga szczegółowych metadanych dotyczących wycinków, wymiarów i wskaźników, czyli encji, które nie są obsługiwane w innych formatach zbiorów danych.
DSPL obsługuje też importowanie zbiorów danych, hierarchie koncepcji (np. „country” to element podrzędny „kontynentu”), dane geokodowane i wiele innych unikalnych funkcji, które usprawniają eksplorację danych.
Czy DSPL zastępuje inne formaty używane do wymiany lub analizy danych?
W zasadzie nie. Jak wspomnieliśmy w poprzedniej odpowiedzi, platforma DSPL służy do interaktywnej wizualizacji i eksploracji. Nie jest to ogólny format wymiany ani analizy danych.
Według nas format DSPL to uzupełnienie innych formatów. Aby móc tworzyć rozbudowane, interaktywne wizualizacje danych, użytkownicy powinni mieć możliwość tworzenia zbiorów danych DSPL z innych źródeł.
Do czego służy zbiór danych DSPL?
Możesz je zaimportować do Public Data Explorer, opublikować go i umożliwić innym analizowanie danych za pomocą bogatych, interaktywnych wizualizacji. Opublikowane zbiory danych można też dołączyć do publicznego katalogu danych, aby zainteresowani użytkownicy mogli je znaleźć.
Obecnie jest to jedyna aplikacja używająca DSPL. Zachęcamy jednak użytkowników do używania jej w innych aplikacjach. Spodziewamy się, że z czasem będzie ona coraz bardziej popularna.
Jakie typy zbiorów danych są najbardziej odpowiednie dla DSPL?
Format DSPL obsługuje dowolne zbiory tabel i dlatego jest odpowiedni dla wielu różnych typów zbiorów danych. Jednak tylko część zbiorów danych DSPL pozwoli uzyskać interesujące wizualizacje w Public Data Explorer. Ta druga usługa najlepiej sprawdza się zwłaszcza w przypadku danych, które:
- Ilościowe: z każdym punktem danych powiązany jest co najmniej 1 wskaźnik liczbowy (np. „populacja”, „liczba przypadków grypy”, „przychody”).
- Kategoryczne: dane można uporządkować w ramach skończonej liczby kategorii możliwych do opisania za pomocą tekstu (np. „kraje”, „płeć”, „grupy wiekowe”).
- Serie czasowe: w każdej kategorii wskaźniki danych różnią się w zależności od czasu, a sąsiednie punkty są oddalone o co najmniej jeden dzień od siebie (program Public Data Explorer nie może wizualizować przedziałów czasu mniejszych niż jeden dzień).
- Zagregowane: w przypadku każdej kombinacji, kategorii i wskaźnika występuje pojedynczy punkt danych, a nie lista zdarzeń czy faktów.
Utworzyłem zbiór danych DSPL i chcę, aby był widoczny w katalogu Google Public Data Directory, aby inni mogli go znaleźć. Z kim mogę się skontaktować?
Wypełnij ten formularz i podaj link do swojego zbioru danych.
Mam problem z DSPL. Gdzie znajdę pomoc?
Napisz o swoim problemie na forum dyskusyjnym DSPL.
Pliki zbioru danych DSPL
Jak zakodować pliki XML i CSV?
Wszystkie pliki XML i CSV muszą być zakodowane w formacie UTF-8. Pamiętaj, że kod ASCII (nazywany czasem „zwykłym tekstem”) jest podzbiorem kodowania UTF-8, więc zbiory danych w tym formacie również powinny działać.
Jakiego oprogramowania należy użyć do tworzenia i edytowania plików zbioru danych?
Do edycji plików XML zalecany jest edytor tekstu, w którym wyróżnia się składnię, aby zwiększyć czytelność. W tym artykule znajdziesz zalecenia dotyczące konkretnej platformy. Odradzamy używanie w pełni funkcjonalnych, uniwersalnych edytorów tekstu, ponieważ zwykle wstawiają one do pliku XML dodatkowe tagi formatowania, co może powodować błędy importu.
Najprostszym sposobem tworzenia i edytowania plików danych jest zwykle arkusz kalkulacyjny. Pamiętaj tylko, aby zapisać je w odpowiednim formacie (CSV / wartości rozdzielone przecinkami).
Mam dane w programie Excel, SPSS, SAS lub innym. Czy mogę zaimportować je bezpośrednio do Public Data Explorer?
Nie teraz. Musisz najpierw wyeksportować dane do formatu CSV, dodać odpowiednie metadane XML, a potem przesłać do Public Data Explorer zbiór danych zgodny z DSPL.
Czy ma znaczenie to, jak nazwam pliki?
Nazwa pliku XML zbioru danych powinna kończyć się na .xml
.
Powiązane pliki CSV mogą mieć dowolne nazwy, pod warunkiem że są zgodne z nazwami podanymi w tagach <file>
w metadanych XML.
Plik ZIP używany do spakowania i importowania zbioru danych do Eksploratora danych publicznych może też mieć dowolną nazwę.
Czy moje pliki CSV powinny być sortowane?
Tak. Zawartość plików CSV należy posortować według wymiarów innych niż czasowe (w dowolnej kolejności i w dowolnym kierunku), a potem, opcjonalnie, według dowolnej z innych kolumn (np. czasu).
Jeśli np. masz plik CSV z kolumnami date
, dimension1
, dimension2
, metric1
i metric2
, musisz posortować według dimension1
i dimension2
(w dowolnej kolejności). Jeśli chcesz też posortować dane według kolumny daty/godziny, powinien to być ostatni element, według którego sortujesz.
Taki sposób sortowania pozwala grupować obserwacje dla każdego ciągu czasowego, co znacznie zwiększa wydajność procesu importu za pomocą DSPL.
Model i składnia XML
Jak zdecydować, które dane mają być danymi, a co powinno być wymiarem?
Wymiar to jednostka służąca do podziału danych na segmenty lub do filtrowania. Dane opisują natomiast obserwowaną wartość lub wartości powiązane z każdym punktem danych.
Wymiary są kategoriami, a dane to wartości niekategoryczne, które zmieniają się w czasie. Oto kilka prototypowych przykładów każdego z nich:
- Wymiary: kraj, stan, hrabstwo, region, rok, miesiąc, płeć, kategoria wiekowa i segment branży.
- Dane:: populacja, PKB, bezrobocie, wykształcenie umiejętności czytania i pisanie, przychody, koszt i cena
Czym różni się właściwość od atrybutu?
Właściwości są dołączone do każdego wystąpienia koncepcji. Na przykład właściwość kontynentu będzie miała różne wartości w zależności od kraju.
Z kolei atrybuty są powiązane z całą koncepcją.
Na przykład atrybut isParent
ma wartość prawda dla wszystkich kontynentów.
Czy kolejność tagów ma znaczenie?
Tak. Dodaj tagi w kolejności, w jakiej są wyświetlane w przewodniku dla programistów. Na przykład <topic>
powinien występować przed <type>
w definicji pojęcia.
Czy wielkość liter ma znaczenie?
Tak, w tagach XML i nazwach atrybutów należy używać wielkich liter w taki sam sposób jak w przewodniku dla programistów. Na przykład użycie w tagu property
właściwości isparent
zamiast isParent
spowoduje błąd importu.
Czy do koncepcji może być przypisana dwoje rodziców?
Nie. Każdy element może mieć tylko jedno odwołanie w atrybucie isParent
.
Czy koncepcja może odnosić się do siebie samego?
Tak. Przykład samodzielnie odnoszącej się do siebie hierarchii koncepcji znajdziesz w zbiorze danych sprzedaży detalicznej w Stanach Zjednoczonych.
Formatowanie danych
Jak formatować daty?
Daty mogą być zapisywane w dowolnym formacie opisywanym ze
standardem Joda DateTime. Kod formatowania Joda należy zapisać w atrybucie format
w odpowiednim elemencie kolumny tabeli.
Poniżej znajdziesz kody formatowania Joda dla niektórych popularnych formatów dat:
Przykład daty | Format Joda |
---|---|
2010 | yyyy |
Maj 2010 | MMM yyyy |
21.05.2010 | MM/dd/yyyy |
21.05.2010 | dd/MM/yyyy |
2010-05-21 | yyyy-MM-dd |
W szczególności zwróć uwagę na to, że kod Joda dla znaków miesiąca to M
, a nie m
(który reprezentuje minuty).
Czy mogę używać jednostek czasu krótszych niż jeden dzień?
Format Joda DateTime, a tym samym DSPL, obsługuje wartości czasu z dokładnością do milisekund. Narzędzie Public Data Explorer nie może jednak (jeszcze) wizualizować żadnych szczegółów czasowych mniejszych niż jeden dzień.
Korzystanie z koncepcji kanonicznych
Czym są „koncepcje kanoniczne” i do czego są przydatne?
Termin „pojęcia kanoniczne” odnosi się do zbioru utworzonych przez Google koncepcji, które mają stanowić podstawowe „elementy składowe” w innych zbiorach danych. Same pojęcia są zdefiniowane w 6 zbiorach danych DSPL, które grupują je w kategorie takie jak „czas”, „geo” itp. Aby uzyskać dostęp do tych pojęć, zaimportuj odpowiednie nadrzędne zbiory danych na początku pliku XML DSPL.
Koncepcje kanoniczne są przydatne, ponieważ pomagają zaoszczędzić czas (np. dzięki temu, że nie trzeba ręcznie wpisywać wartości szerokości i długości geograficznej każdego kraju) oraz sygnalizują, jak mają być wizualizowane dane. Na przykład Eksplorator danych publicznych wykorzystuje pojęcia time:...
do formatowania osi X wykresu liniowego, właściwość name
właściwości entity:entity
do utworzenia ciągów znaków dla interfejsu selektora wymiarów, właściwości latitude
i longitude
właściwości geo:location
do wyświetlania danych na wizualizacji mapy itd.
Czy wszystkie koncepcje kanoniczne są zrozumiałe dla programu Public Data Explorer?
Większość podanych koncepcji kanonicznych jest zrozumiała dla programu Public Data Explorer, ale niektórych z nich nie da się (jeszcze) zobaczyć. Przedstawiamy je poniżej wraz z kilkoma sugerowanymi sposobami obejścia problemu:
Pomysł | Obejście |
---|---|
quantity:index |
Użyj quantity:ratio lub quantity:magnitude . |
time:quarter |
Użyj właściwości time:month zgodnie z opisem w podręczniku kucharskim DSPL. |
time:week |
Użyj właściwości time:day zgodnie z opisem w podręczniku kucharskim DSPL. |
W przyszłości będziemy informować o lepszej obsłudze tych koncepcji.
Jak używać koncepcji kanonicznej w zbiorze danych?
Zapoznaj się z dokumentacją konkretnego zagadnienia. Zapoznaj się też z książką kucharską DSPL, która zawiera szczegółowe, szczegółowe instrukcje dotyczące najczęściej występujących problemów.
Importowanie i wizualizowanie zbiorów danych
Dlaczego nie mogę zaimportować zbioru danych?
Interfejs przesyłania Public Data Explorer przeskanuje Twój zbiór danych DSPL i zablokuje jego import, jeśli zostaną wykryte błędy. Importer jest bardzo wrażliwy na pisownię, wielkość liter, kolejność tagów i miejsce docelowe tagów w pliku XML, a także układ i sortowanie danych w plikach CSV, dlatego poprawne skonfigurowanie tych ustawień i zaimportowanie zbioru danych może wymagać kilku kart.
Pierwszym krokiem w rozwiązaniu tych problemów jest sprawdzenie komunikatów o błędach wyświetlanych w interfejsie i podjęcie odpowiednich działań. Komunikaty te nie zawsze są najłatwiejsze do zrozumienia (chociaż cały czas pracujemy nad ulepszaniem naszych usług), dlatego przygotowaliśmy tabelę, w której znajdziesz najczęstsze z nich:
Błąd | Wyjaśnienie |
---|---|
zduplikowany klucz: ... | Tabela definicji pojęcia ma powtórzoną wartość identyfikatora (tzn. wartość w kolumnie o tej samej nazwie co koncepcja). Te wartości służą do jednoznacznego identyfikowania poszczególnych instancji koncepcji, więc duplikaty nie są dozwolone. |
Wyjątek związany z analizowaniem wierszy danych ze źródła spowodowany przez kombinację właściwości [...], występuje w więcej niż 1 odrębnej grupie wierszy danych. | Plik CSV jest nieprawidłowo posortowany. Instrukcje, jak to zrobić, znajdziesz w dyskusji powyżej. |
Wyjątek podczas analizowania wierszy danych ze źródła spowodowany nieprawidłowym formatem: „...” ma nieprawidłowy format „...” | Format tej wartości (zwykle daty) w pliku CSV jest niezgodny z formatem podanym w pliku XML. Zmień format lub wartość, tak aby były zgodne. |
Wyjątek podczas analizowania wierszy danych ze źródła spowodowany tym, że liczba elementów w wierszu (...) nie odpowiada liczbie określonych właściwości (...) wiersza: [...]. | Wiersz w pliku CSV zawiera za dużo lub za mało wartości. Napraw formatowanie tego wiersza. |
Wyjątek podczas analizowania wierszy danych ze źródła spowodowany przez zastosowanie ciągu znaków „...” | Wartość w pliku CSV (zwykle jest to liczba całkowita lub liczba zmiennoprzecinkowa) zawiera znaki nienumeryczne (np. symbol dolara, znak procentu itp.), które uniemożliwiają jej prawidłową analizę. Usuń te dodatkowe znaki. |
Wyjątek podczas analizowania wierszy danych ze źródła spowodowany przez wartość danych „...” dla właściwości „...” wycinka „...”, nie jest wartością klucza odniesienia „...”. | Jeden z wycinków zawiera nierozpoznaną wartość wymiaru (np. takiej, której nie ma na liście wszystkich możliwych wartości danego koncepcji). Wróć do tabeli definicji pojęcia wymiaru i w razie potrzeby dodaj wartość. |
Nagłówek „...” w danych jest stałą właściwością w tabeli | Nagłówek kolumny w pliku CSV nie pasuje do identyfikatora kolumny zdefiniowanego w definicji tabeli XML. Zmień jeden lub drugi tak, aby były zgodne. |
Błąd analizy składni XML ... Znaleziono nieprawidłową treść rozpoczynającą się od elementu „...”. Oczekiwany jest jeden z tych znaków: „{...}”, „{...}”, .... | Odwołany element XML znajduje się w niewłaściwym miejscu. Sprawdź, czy kolejność jest prawidłowa oraz czy element ma prawidłowy element nadrzędny (np. info – name ). |
Błąd analizy XML ... Atrybut „...” nie może występować w elemencie „...”. | Pisownia, wielkość liter lub lokalizacja tego atrybutu tagu XML są nieprawidłowe. Odpowiednie instrukcje znajdziesz w dokumentacji. |
Błąd analizy XML. ... Element „...” nie może zawierać znaku [children], ponieważ typ treści zawiera tylko element. | W pliku XML jest zbędny tekst (prawdopodobnie jest to spowodowane przez tag, w którym brakuje parametru < lub > ). Popraw tekst i spróbuj ponownie. |
Jeśli masz problem ze zrozumieniem komunikatu, którego nie ma na liście powyżej, opublikuj wiadomość na forum DSPL, a postaramy się Ci pomóc.
Zbiór danych został zaimportowany, ale nie mogę wyświetlić żadnych wizualizacji w Eksploratorze danych publicznych. Co się dzieje?
Ten problem występuje, gdy zbiór danych jest prawidłową DSPL, ale nie należy do podzbioru DSPL widocznego w narzędziu Public Data Explorer. Istnieje wiele możliwych przyczyn tej sytuacji. Najczęstsze to:
- Definiowanie koncepcji wymiaru bez tabeli: bez tych informacji Public Data Explorer nie wie, jakie opcje wyświetlić w interfejsie.
- Tworzenie zbioru danych tylko ze wskaźnikami: Public Data Explorer wymaga co najmniej 1 wymiaru kategoryzowanego (czyli niestandardowego) zdefiniowanego w dowolnym miejscu w zbiorze danych, aby mieć odpowiednią strukturę interfejsu wizualizacji.
- Brak wymiaru czasu w wycinkach: Public Data Explorer może wizualizować tylko ciągi czasowe. Wycinki inne niż czasowe będą ignorowane przez usługę.
- Użycie wymiaru czasu innego niż kanoniczne wartości
time:...
: Public Data Explorer używa kanonicznych koncepcjitime
do układania i animowania różnych wizualizacji w usłudze.Nie rozumie innych pojęć związanych z czasem, np. tych utworzonych w Twoim własnym zbiorze danych. - Używanie zbyt dużych lub zbyt małych wartości czasowych: Public Data Explorer nie wizualizuje jeszcze zbiorów danych z dokładnością mniejszą niż 1 dzień. Z drugiej strony narzędzie ma problem z bardzo dużymi wartościami rocznymi (np. liczonymi w dziesiątkach tysięcy). Mamy nadzieję, że w przyszłości te szczegóły będą bardziej elastyczne.
Jak zintegrować zwizualizowany zbiór danych z witryną?
Przeczytaj ten artykuł w Centrum pomocy Public Data Explorer. Jak wyjaśniliśmy w drugim, możesz uzyskać „pełne umieszczenie” (tj. z elementami sterującymi eksploracją), gdy ręcznie dostosujesz adres URL do umieszczenia.