Häufig gestellte Fragen zu DSPL

In diesem Dokument werden die häufigsten Probleme behandelt, die bei Dateninhabern beim Erstellen von DSPL-Datasets und beim Hochladen dieser in den Public Data Explorer auftreten.

Inhalt

Allgemeine Fragen

Was ist DSPL?

DSPL steht für Dataset Publishing Language (Dataset-Veröffentlichungssprache). Es ist ein Darstellungsformat für die Metadaten (Informationen zum Dataset, z. B. Name und Anbieter sowie die darin enthaltenen und angezeigten Konzepte) und für die tatsächlichen Daten von Datasets. Die Metadaten werden im XML-Format angegeben, die Daten dagegen im CSV-Format.

Was sind die wichtigsten Vorteile von DSPL?

DSPL wurde von Grund auf für umfassende Datenvisualisierungen wie die im Public Data Explorer entwickelt. Für die Erstellung sind detaillierte Metadaten zu Segmenten, Dimensionen und Messwerten erforderlich. Diese Entitäten werden in anderen Dataset-Formaten nicht so gut unterstützt.

DSPL unterstützt auch Dataset-Importe, Konzepthierarchien (z.B. „country“ ist „Kontinent“ untergeordnet, geocodierte Daten und eine Reihe anderer einzigartiger Funktionen, die die Datenexploration verbessern.

Kann DSPL andere Formate zum Datenaustausch und/oder zur Analyse ersetzen?

Im Allgemeinen nicht. Wie in der vorherigen Antwort erwähnt, ist DSPL für die interaktive Visualisierung und Erkundung vorgesehen. Er ist nicht als allgemeines Format für den Datenaustausch oder die Analyse gedacht.

Letztendlich betrachten wir DSPL als Ergänzung anderer Formate. Nutzer sollten in der Lage sein, DSPL-Datasets aus anderen Quellen zu erstellen, um umfassende, interaktive Datenvisualisierungen zu erstellen.

Was kann ich mit einem DSPL-Dataset tun?

Sie können sie in den Public Data Explorer importieren und veröffentlichen. Anschließend können andere die Daten über umfangreiche, interaktive Visualisierungen erkunden. Veröffentlichte Datasets können auch in das Public Data Directory aufgenommen werden, damit interessierte Nutzer sie finden können.

Derzeit ist dies die einzige Anwendung, die DSPL verwendet. Wir empfehlen Nutzern jedoch, sie auch für andere Anwendungen zu verwenden, und wir erwarten, dass diese im Laufe der Zeit zunehmen wird.

Welche Arten von Datasets eignen sich am besten für DSPL?

Das DSPL-Format unterstützt beliebige Sammlungen von Tabellen und eignet sich daher für eine Vielzahl von Dataset-Typen. Allerdings liefert nur ein Teil der DSPL-Datasets interessante Visualisierungen im Public Data Explorer. Insbesondere das letztere Produkt eignet sich am besten für Daten, für die Folgendes gilt:

  • Quantitativ: Jedem Datenpunkt sind ein oder mehrere numerische Messwerte zugeordnet (z.B. „Bevölkerung“, „Anzahl der Grippefälle“, „Umsatz“.
  • Kategorial: Daten können in eine endliche Anzahl von textbeschreibbaren Kategorien organisiert werden (z.B. „Länder“, „Geschlecht“ oder „Altersgruppen“.
  • Zeitreihen:Die Datenmesswerte variieren für jede Kategorie zeitabhängig und benachbarte Punkte liegen mindestens einen Tag auseinander. Im Public Data Explorer können keine Zeitabschnitte dargestellt werden, die kleiner als ein Tag sind.
  • Aggregiert:Für jede Kombination aus Zeit, Kategorie und Messwert gibt es einen einzelnen Datenpunkt und keine Liste mit Ereignissen oder Fakten.

Ich habe ein DSPL-Dataset erstellt und möchte, dass es im Google Public Data Directory angezeigt wird, damit es von anderen gefunden werden kann. An wen kann ich mich wenden?

Bitte füllen Sie dieses Formular aus und geben Sie einen Link zu Ihrem Dataset an.

Ich habe Probleme mit DSPL. Wo finde ich Hilfe?

Posten Sie Ihr Problem im DSPL-Diskussionsforum.

DSPL-Dataset-Dateien

Wie soll ich meine XML- und CSV-Dateien codieren?

Alle XML- und CSV-Dateien müssen UTF-8-codiert sein. ASCII (manchmal auch als "Nur Text" bezeichnet) ist eine Teilmenge von UTF-8. Datasets in diesem Format sollten also auch funktionieren.

Welche Software sollte ich zum Erstellen und Bearbeiten meiner Dataset-Dateien verwenden?

Zum Bearbeiten von XML-Dateien wird ein einfacher Texteditor mit Syntaxhervorhebung zur besseren Lesbarkeit empfohlen. Einige plattformspezifische Empfehlungen finden Sie in diesem Artikel. Wir raten davon ab, voll funktionsfähige, allgemeine Textverarbeitungsprogramme zu verwenden, da diese tendenziell zusätzliche Formatierungs-Tags in Ihre XML-Datei einfügen, was zu Importfehlern führen kann.

Eine Tabellenkalkulation ist in der Regel die einfachste Möglichkeit, Datendateien zu erstellen und zu bearbeiten. Achten Sie aber darauf, sie im richtigen Format (CSV/kommagetrennte Werte) zu speichern.

Ich habe Daten in Excel, SPSS, SAS oder einem anderen System. Kann ich diese direkt in den Public Data Explorer importieren?

Nein, jetzt nicht. Sie müssen Ihre Daten zuerst in das CSV-Format exportieren, die entsprechenden XML-Metadaten hinzufügen und dann ein DSPL-konformes Dataset in den Public Data Explorer hochladen.

Spielt es eine Rolle, wie ich meine Dateien nenne?

Der Name der Dataset-XML-Datei muss auf .xml enden. Die zugehörigen CSV-Datendateien können einen beliebigen Namen haben, vorausgesetzt, sie stimmen mit den Namen überein, die in den <file>-Tags in Ihren XML-Metadaten angegeben sind. Die ZIP-Datei, mit der das Dataset verpackt und in den Public Data Explorer importiert wird, kann ebenfalls einen beliebigen Namen haben.

Sollen meine CSV-Dateien sortiert werden?

Ja. Sie sollten den Inhalt Ihrer CSV-Dateien nach den nicht zeitbezogenen Dimensionen (in beliebiger Reihenfolge oder Richtung) und dann optional nach einer der anderen Spalten (z.B. Zeit) sortieren.

Wenn Sie beispielsweise eine CSV-Datei mit den Spalten date, dimension1, dimension2, metric1 und metric2 haben, sollten Sie nach dimension1 und dimension2 (in beliebiger Reihenfolge) sortieren. Wenn Sie auch nach der Datums-/Uhrzeitspalte sortieren möchten, sollten Sie diese als Letztes sortieren.

Wenn Sie auf diese Weise sortieren, werden die Beobachtungen für jede Zeitachse gruppiert, was die Effizienz des DSPL-Importvorgangs erheblich verbessert.

XML-Modell und Syntax

Wie entscheide ich, was ein Messwert und was eine Dimension sein sollte?

Eine Dimension ist ein Element, mit dem Ihre Daten segmentiert oder gefiltert werden. Ein Messwert hingegen beschreibt den oder die beobachteten Werte, die mit jedem Datenpunkt verknüpft sind.

Im Allgemeinen sind Dimensionen kategorial, während Messwerte nicht kategoriale, zeitvariablen numerische Werte sind. Hier einige prototypische Beispiele:

  • Dimensionen: Land, Bundesstaat, County, Region, Jahr, Monat, Geschlecht, Alterskategorie, Branchensegment
  • Messwerte: Bevölkerung, BIP, Arbeitslosenquote, Alphabetisierung, Umsatz, Kosten, Preis

Was ist der Unterschied zwischen einer Property und einem Attribut?

Attribute werden an jede Instanz eines Konzepts angehängt. Beispielsweise hat eine Kontinent-Property unterschiedliche Werte für verschiedene Länder. Attribute hingegen sind mit dem Konzept als Ganzes verbunden. Beispiel: Das Attribut isParent ist für alle Kontinente „true“.

Spielt die Reihenfolge der Tags eine Rolle?

Ja. Fügen Sie Ihre Tags in der Reihenfolge hinzu, in der sie im Entwicklerleitfaden aufgeführt sind. In der Definition eines Konzepts sollte beispielsweise <topic> vor <type> stehen.

Spielt die Großschreibung eine Rolle?

Ja, die Namen Ihrer XML-Tags und Attribute müssen genauso großgeschrieben werden, wie sie im Entwicklerleitfaden angegeben sind. Die Verwendung von isparent anstelle von isParent in einem property-Tag führt beispielsweise zu einem Importfehler.

Kann eine Konzeption zwei übergeordnete Elemente haben?

Nein. Jedes Konzept kann nur eine isParent-Referenz haben.

Kann sich ein Konzept auf sich selbst beziehen?

Ja. Ein Beispiel für eine auf sich selbst verweisende Konzepthierarchie finden Sie im Dataset zum US-Einzelhandelsumsatz.

Datenformatierung

Wie formatiere ich Datumsangaben?

Datumsangaben können in einem beliebigen Format geschrieben werden, das mit dem Joda DateTime-Standard beschreibbar ist. Der Joda-Formatierungscode sollte in einem format-Attribut innerhalb des entsprechenden Tabellenspaltenelements gespeichert werden.

Die Joda-Formatierungscodes für einige beliebte Datumsformate sind unten aufgeführt:

Datumsbeispiel Joda-Format
2010 yyyy
Mai 2010 MMM yyyy
21.05.2010 MM/dd/yyyy
21.05.2010 dd/MM/yyyy
2010-05-21 yyyy-MM-dd

Beachten Sie insbesondere, dass der Joda-Code für die Monatszeichen M ist, nicht m (für Minuten).

Kann ich Zeiteinheiten verwenden, die kürzer als einen Tag sind?

Das Joda DateTime-Format und damit auch DSPL unterstützen Zeitwerte bis in die Größenordnung von Millisekunden. Der Public Data Explorer kann (noch) keine Zeiteinheiten von weniger als einem Tag visualisieren.

Kanonische Konzepte verwenden

Was sind „kanonische Konzepte“ und wie nützlich sind sie dafür?

Der Begriff "kanonische Konzepte" bezieht sich auf eine Reihe von von Google erstellten Konzepten, die in anderen Datasets als grundlegende "Bausteine" dienen. Die Konzepte selbst sind in sechs DSPL-Datasets definiert, in denen erstere in Kategorien wie "Zeit", "Geo" usw. gruppiert sind. Um Zugriff auf diese Konzepte zu erhalten, importieren Sie einfach die entsprechenden übergeordneten Datasets am Anfang Ihrer DSPL-XML-Datei.

Kanonische Konzepte sind nützlich, da sie Zeit sparen (z.B. weil nicht für jedes Land manuell Breiten- und Längengradwerte eingegeben werden müssen) und auch signalisieren, wie Ihre Daten visualisiert werden sollen. Beispielsweise verwendet der Public Data Explorer die time:...-Konzepte, um die X-Achse des Liniendiagramms zu formatieren, verwendet die Eigenschaft name des Konzepts entity:entity, um Strings für die UI der Dimensionsauswahl zu erstellen, verwendet die Eigenschaften latitude und longitude von geo:location, um Daten in der Kartenvisualisierung anzuzeigen usw.

Sind alle kanonischen Konzepte vom Public Data Explorer verstanden?

Die meisten der bereitgestellten kanonischen Konzepte können vom Public Data Explorer verstanden werden. Einige sind jedoch (noch) nicht sichtbar. Diese sind unten aufgeführt sowie einige Vorschläge zur Problemumgehung:

Konzept Problemumgehung
quantity:index Verwenden Sie stattdessen quantity:ratio oder quantity:magnitude.
time:quarter Verwenden Sie time:month wie im DSPL Cookbook beschrieben.
time:week Verwenden Sie time:day wie im DSPL Cookbook beschrieben.

Wir halten Sie auf dem Laufenden.

Wie verwende ich ein kanonisches Konzept in meinem Dataset?

Informationen zu dem gewünschten Konzept finden Sie in der Dokumentation. Außerdem können Sie sich das DSPL Cookbook ansehen, das detaillierte Schritt-für-Schritt-Anleitungen für die gängigsten Methoden enthält.

Datasets importieren und visualisieren

Warum kann ich mein Dataset nicht erfolgreich importieren?

Die Upload-Oberfläche des Public Data Explorers scannt Ihren DSPL-Datensatz und blockiert seinen Import, wenn Fehler festgestellt werden. Der Importeur reagiert sehr empfindlich auf Rechtschreibung, Großschreibung und Tag-Reihenfolge/-Platzierung in der XML-Datei sowie auf das Layout und die Sortierung der Daten in den CSV-Dateien. Es kann daher einige Durchgänge erforderlich sein, um die Fehler zu beheben und das Dataset erfolgreich zu importieren.

Sehen Sie sich als Erstes die Fehlermeldung(en) in der UI an und ergreifen Sie die entsprechenden Korrekturmaßnahmen. Da diese Meldungen nicht immer leicht verständlich sind (an einer Verbesserung arbeiten wir aktiv), haben wir eine Tabelle mit den häufigsten Informationen zusammengestellt:

Fehler Erklärung
Schlüsselduplikat: ... Die Definitionstabelle für Ihr Konzept hat einen wiederholten ID-Wert, d.h. einen Wert in der Spalte mit dem gleichen Namen wie das Konzept. Diese Werte werden verwendet, um einzelne Instanzen des Konzepts eindeutig zu identifizieren. Duplikate sind daher nicht zulässig.
Ausnahme beim Parsen von Datenzeilen aus der Quelle, die durch die Kombination von Attributen [...] verursacht wird, tritt in den Daten in mehr als einer bestimmten Gruppe von Zeilen auf. Ihre CSV-Datei ist nicht richtig sortiert. Eine Anleitung dazu finden Sie in der obigen Diskussion.
Ausnahme beim Parsen von Datenzeilen aus der Quelle aufgrund eines ungültigen Formats: „...“ ist fehlerhaft bei „...“ Die Formatierung dieses Werts (in der Regel ein Datum) in Ihrer CSV-Datei stimmt nicht mit dem Format in Ihrer XML-Datei überein. Ändern Sie das Format oder den Wert entsprechend.
Ausnahme beim Parsen von Datenzeilen aus der Quelle, verursacht durch die Anzahl der Elemente in Zeile (...) stimmt nicht mit der Anzahl der angegebenen Eigenschaften (...) für Zeile [...] überein Eine Zeile in der CSV-Datei enthält entweder zu viele oder zu wenige Werte. Korrigieren Sie die Formatierung dieser Zeile.
Ausnahme beim Parsen von Datenzeilen aus der Quelle, verursacht durch Ein Wert in Ihrer CSV-Datei (in der Regel eine Ganzzahl oder Gleitkommazahl) enthält nicht numerische Zeichen (z. B. ein Dollar- oder Prozentzeichen), die ein ordnungsgemäßes Parsen verhindern. Entfernen Sie diese zusätzlichen Zeichen.
Eine Ausnahme beim Parsen von Datenzeilen aus der Quelle, die durch den Datenwert „...“ für die Property „...“ des Slice „...“ verursacht wird, ist kein Schlüsselwert des referenzierten Konzepts „...“. Eines der Segmente enthält einen nicht erkannten Dimensionswert (z.B. Werte, die nicht in der Liste aller möglichen Werte für das entsprechende Konzept enthalten sind. Kehren Sie zur Definition des Dimensionskonzepts zurück und fügen Sie den Wert bei Bedarf hinzu.
Die Überschrift „...“ in Daten ist eine konstante Eigenschaft in der Tabelle Die Spaltenüberschrift in der CSV-Datei stimmt nicht mit der Spalten-ID überein, die in der Definition der XML-Tabelle definiert ist. Ändern Sie eine der beiden Optionen, damit sie übereinstimmen.
XML-Parsing-Fehler: Es wurde ein ungültiger Inhalt gefunden, der mit dem Element „...“ beginnt. Es wird einer der Werte „{...}“, „{...}“, ... erwartet. Das XML-Element, auf das verwiesen wird, befindet sich nicht an der richtigen Stelle. Prüfen Sie, ob die Reihenfolge stimmt und ob das Element das richtige übergeordnete Element hat (z.B. info für name).
XML-Parsing-Fehler ... Das Attribut „...“ darf nicht im Element „...“ enthalten sein. Die Schreibweise, Groß-/Kleinschreibung oder Position dieses XML-Tag-Attributs ist falsch. Informationen zur entsprechenden Verwendung finden Sie in der Dokumentation.
XML-Parsing-Fehler. ... Das Element „...“ darf nicht die Zeichen [children] enthalten, da der Inhaltstyp dieses Typs nur „element“ ist. Ihre XML-Datei enthält Streutext. Dies wird möglicherweise durch ein Tag verursacht, in dem < oder > fehlt. Korrigieren Sie den Text und versuchen Sie es noch einmal.

Wenn Sie eine Nachricht, die nicht in der Liste oben aufgeführt ist, nicht verstehen, posten Sie bitte eine Nachricht im DSPL-Forum. Wir helfen Ihnen dann gerne weiter.

Mein Dataset wurde erfolgreich importiert, aber ich kann keine Visualisierungen im Public Data Explorer anzeigen. Was ist da los?

Dieses Problem tritt auf, wenn Ihr Dataset eine gültige DSPL hat, sich aber nicht in der Teilmenge von DSPL befindet, die im Public Data Explorer visualisiert werden kann. Dafür gibt es viele mögliche Ursachen. Zu den häufigsten zählen folgende:

  • Dimensionskonzept ohne Tabelle definieren:Ohne diese Informationen weiß der Explorer für öffentliche Daten nicht, welche Optionen auf der UI angezeigt werden sollen.
  • Dataset nur mit Messwerten erstellen:Für den Public Data Explorer ist mindestens eine kategorische (also nicht zeitbezogene) Dimension erforderlich, die irgendwo im Dataset definiert ist, damit die Visualisierungs-UI richtig strukturiert werden kann.
  • Keine Zeitdimension in die Segmente aufgenommen:Im Public Data Explorer können nur Zeitachsen visualisiert werden. Nicht zeitbezogene Segmente werden vom Produkt ignoriert.
  • Verwendung einer anderen Zeitdimension als der kanonischen time:...:Der Public Data Explorer verwendet die kanonischen time-Konzepte für das Layout und die Animation der verschiedenen Visualisierungen im Produkt. Andere Zeitkonzepte, z. B. solche, die in Ihrem eigenen Dataset erstellt wurden, werden nicht berücksichtigt.
  • Zu große oder zu kleine Zeitwerte verwenden: Der Public Data Explorer visualisiert noch keine Datasets mit Zeiteinheiten, die kleiner als einen Tag sind. Am anderen Ende des Spektrums gibt es Probleme mit sehr großen Jahreswerten (z.B. im Bereich von Zehntausenden). Wir hoffen, diese Detaillierungsgraden in Zukunft flexibler gestalten zu können.

Wie integriere ich mein visualisiertes Dataset in meine Website?

Weitere Informationen finden Sie in diesem Artikel in der Public Data Explorer-Hilfe. Wie im zweiten Beispiel beschrieben, können Sie eine „vollständige Einbettung“ (mit den Steuerelementen für die explorative Datenanalyse) erhalten, indem Sie die Einbettungs-URL manuell anpassen.