Häufig gestellte Fragen zu DSPL

In diesem Dokument werden die häufigsten Probleme behandelt, die bei Dateninhabern beim Erstellen von DSPL-Datasets und beim Hochladen in Public Data Explorer am häufigsten auftreten.

Inhalt

Allgemeine Fragen

Was ist DSPL?

DSPL steht für Dataset Publishing Language. Es handelt sich dabei um ein Darstellungsformat für die Metadaten (Informationen zum Dataset, z. B. Name und Anbieter sowie die darin enthaltenen Konzepte und Darstellungen) und die tatsächlichen Daten von Datasets. Die Metadaten werden im XML-Format angegeben, während die Daten im CSV-Format bereitgestellt werden.

Was sind die wichtigsten Vorteile der Verwendung von DSPL?

DSPL wurde von Grund auf für umfassende Datenvisualisierungen wie die im Public Data Explorer entwickelt. Zum Erstellen dieser Attribute sind detaillierte Metadaten zu Segmenten, Dimensionen und Messwerten erforderlich, also Entitäten, die von anderen Dataset-Formaten nicht so gut unterstützt werden.

DSPL unterstützt auch Dataset-Importe, Konzepthierarchien (z.B. „country“ ist das untergeordnete Element von „continent“, geocodierte Daten und eine Reihe anderer einzigartiger Funktionen, die die Datenexploration verbessern.

Kann DSPL andere Formate für den Datenaustausch und/oder die Analyse ersetzen?

Normalerweise nicht. Wie in der vorherigen Antwort erwähnt, ist DSPL für die interaktive Visualisierung und Erkundung konzipiert. Es ist nicht als generisches Format für Datenaustausch oder Analyse gedacht.

Letztendlich betrachten wir DSPL als Ergänzung anderer Formate. Nutzer sollten DSPL-Datasets aus anderen Quellen erstellen können, um umfangreiche interaktive Datenvisualisierungen zu erstellen.

Was kann ich mit einem DSPL-Dataset tun?

Sie können die Daten in den Public Data Explorer importieren, veröffentlichen und anderen Nutzern umfassende, interaktive Visualisierungen zur Verfügung stellen. Veröffentlichte Datasets können auch in das öffentliche Datenverzeichnis aufgenommen werden, damit interessierte Nutzer sie finden können.

Dies ist derzeit die einzige Anwendung, die DSPL verwendet. Wir empfehlen Nutzern jedoch, sie auch für andere Anwendungen zu verwenden, und erwarten, dass sie mit der Zeit zunehmen.

Welche Arten von Datasets sind für DSPL am besten geeignet?

Das DSPL-Format unterstützt beliebige Tabellensammlungen und ist daher für eine Vielzahl von Dataset-Typen geeignet. Nur eine Teilmenge von DSPL-Datasets führt jedoch zu interessanten Visualisierungen im Public Data Explorer. Das zweite Produkt eignet sich besonders für folgende Daten:

  • Quantitativ: Jedem Datenpunkt sind ein oder mehrere numerische Messwerte zugeordnet (z.B. „Population“, „Anzahl der Grippefälle“, „Umsatz“.
  • Kategorial: Daten können in eine begrenzte Anzahl textbeschreibbarer Kategorien (z.B. „country“, „genders“, „age groups“.
  • Zeitachsen: Für jede Kategorie variieren die Datenmesswerte in Abhängigkeit von der Zeit und die benachbarten Punkte liegen mindestens einen Tag aus. Der Public Data Explorer kann keine Zeitinkremente visualisieren, die kleiner als ein Tag sind.
  • Zusammengefasst: Für jede Kombination aus Zeit, Kategorie und Messwert gibt es einen einzelnen Datenpunkt, keine Liste von Ereignissen oder Fakten.

Ich habe ein DSPL-Dataset erstellt und möchte, dass es im Google Public Data Directory erscheint, damit andere es finden können. An wen kann ich mich wenden?

Füllen Sie dieses Formular aus und geben Sie einen Link zu Ihrem Dataset an.

Ich habe ein Problem mit DSPL. Wo erhalte ich Hilfe?

Posten Sie Ihr Problem im DSPL-Diskussionsforum.

DSPL-Dataset-Dateien

Wie codiert ich meine XML- und CSV-Dateien?

Alle XML- und CSV-Dateien müssen in UTF-8 codiert sein. Beachten Sie, dass ASCII (auch als „Nur-Text“ bezeichnet) eine Teilmenge von UTF-8 ist. Datasets in diesem Format sollten also auch funktionieren.

Welche Software sollte ich zum Erstellen und Bearbeiten meiner Dataset-Dateien verwenden?

Für die Lesbarkeit empfehlen wir, einen einfachen Texteditor mit Syntaxhervorhebung zu verwenden. In diesem Artikel finden Sie einige plattformspezifische Empfehlungen. Wir raten davon ab, voll funktionsfähige, allgemein verwendbare Textverarbeitungsprogramme zu verwenden, da diese tendenziell zusätzliche Formatierungs-Tags in den XML-Code einfügen, was zu Importfehlern führen kann.

In der Regel ist es am einfachsten, Datendateien zu erstellen und zu bearbeiten. Achte darauf, sie im richtigen Format (CSV/kommagetrennte Werte) zu speichern.

Ich verwende Daten in Excel, SPSS, SAS oder einem anderen System. Kann ich sie direkt in den Public Data Explorer importieren?

Nein, jetzt nicht. Exportieren Sie zuerst Ihre Daten in das CSV-Format, fügen Sie die entsprechenden XML-Metadaten hinzu und laden Sie dann ein DSPL-konformes Dataset in den Public Data Explorer hoch.

Ist es wichtig, wie ich meine Dateien nenne?

Der Name der Dataset-XML-Datei sollte auf .xml enden. Die zugehörigen CSV-Datendateien können einen beliebigen Namen haben, wenn sie mit den Namen in den <file>-Tags in Ihren XML-Metadaten übereinstimmen. Die ZIP-Datei, die zum Verpacken und Importieren des Datasets in den Public Data Explorer verwendet wird, kann ebenfalls einen beliebigen Namen haben.

Sollen meine CSV-Dateien sortiert werden?

Ja. Sortieren Sie den Inhalt der CSV-Dateien nach den nicht zeitabhängigen Dimensionen (in beliebiger Reihenfolge oder Richtung) und optional nach den anderen Spalten (z.B. Zeit).

Wenn Sie beispielsweise eine CSV-Datei mit den Spalten date, dimension1, dimension2, metric1 und metric2 haben, sollten Sie nach dimension1 und dimension2 (in beliebiger Reihenfolge) sortieren. Wenn Sie auch nach der Spalte für Datum/Uhrzeit sortieren möchten, sollte dies das letzte Element sein, nach dem Sie sortieren.

Bei dieser Art der Sortierung werden die Beobachtungen für jede Zeitachse gruppiert. Dadurch wird die Effizienz des DSPL-Importvorgangs erheblich verbessert.

XML-Modell und Syntax

Wie entscheide ich, was ein Messwert und welche Dimension sein soll?

Eine Dimension ist ein Element, das zum Segmentieren oder Filtern Ihrer Daten verwendet wird. Ein Messwert beschreibt dagegen den beobachteten Wert oder die Werte, die mit jedem Datenpunkt verknüpft sind.

Im Allgemeinen sind Dimensionen kategorisch, während Messwerte keine kategorialen, zeitabhängigen numerischen Werte sind. Beispiele hierfür sind folgende:

  • Dimensionen: Land, Bundesland, Landkreis, Region, Jahr, Monat, Geschlecht, Alterskategorie, Branchensegment
  • Messwerte: Bevölkerung, BIP, Arbeitslosenquote, Alphabetisierung, Umsatz, Kosten, Preis

Was ist der Unterschied zwischen einer Property und einem Attribut?

Properties sind an jede Instanz eines Konzepts angehängt. Eine Kontinent-Property hat beispielsweise unterschiedliche Werte für verschiedene Länder. Attribute hingegen sind dem Konzept als Ganzes zugeordnet. Beispiel: Das Attribut isParent gilt für alle Kontinente.

Spielt die Reihenfolge der Tags eine Rolle?

Ja. Fügen Sie Ihre Tags in der Reihenfolge hinzu, in der sie im Entwicklerleitfaden aufgeführt sind. Zum Beispiel sollte <topic> in der Definition eines Konzepts vor <type> stehen.

Spielt die Großschreibung eine Rolle?

Ja, XML-Tags und Attributnamen müssen auf dieselbe Weise geschrieben werden, wie sie im Entwicklerleitfaden aufgeführt sind. Die Verwendung von isparent anstelle von isParent in einem property-Tag verursacht beispielsweise einen Importfehler.

Kann ein Konzept zwei Eltern haben?

Nein. Jedes Konzept kann nur eine isParent-Referenz haben.

Kann sich ein Konzept auf sich selbst beziehen?

Ja. Ein Beispiel für eine Self-Reference-Konzepthierarchie finden Sie im US Sales Sales Dataset.

Datenformatierung

Wie kann ich Datumsangaben formatieren?

Datumsangaben können in einem beliebigen Format geschrieben werden, das mit dem Joda DateTime-Standard beschreibbar ist. Der Joda-Formatierungscode sollte im Attribut format im entsprechenden Tabellenspaltenelement gespeichert werden.

Die Joda-Formatierungscodes für einige gängige Datumsformate sind unten aufgeführt:

Beispiel für ein Datum Joda-Format
2010 yyyy
Mai 2010 MMM yyyy
21.05.2010 MM/dd/yyyy
21.05.2010 dd/MM/yyyy
2010-05-21 yyyy-MM-dd

Beachten Sie insbesondere, dass der Joda-Code für Monatszeichen M und nicht m (für Minuten) ist.

Kann ich Zeiteinheiten verwenden, die kürzer als ein Tag sind?

Das Joda DateTime-Format und somit auch DSPL unterstützen Zeitwerte bis hin zur Größenordnung von Millisekunden. Der Public Data Explorer kann jedoch (noch) keine Zeiteinheiten visualisieren, die kleiner als ein Tag sind.

Kanonische Konzepte verwenden

Was sind „kanonische Konzepte“ und wie sind sie nützlich?

Der Begriff „kanonische Konzepte“ bezieht sich auf eine Reihe von Konzepten, die von Google erstellt wurden und als grundlegende „Bausteine“ in anderen Datasets dienen sollen. Die Konzepte selbst sind in sechs DSPL-Datasets definiert, die das erste in Kategorien wie „time“, „geo“ usw. gruppieren. Importieren Sie einfach den entsprechenden übergeordneten Datensatz am Anfang der DSPL-XML-Datei, um Zugriff auf diese Konzepte zu erhalten.

Kanonische Konzepte sind nützlich, weil sie Zeit sparen (z.B. weil sie nicht für jedes Land manuell Werte für Breiten- und Längengrad eingeben müssen) und außerdem signalisieren, wie Ihre Daten visualisiert werden sollen. Beispielsweise verwendet der Public Data Explorer das Konzept time:..., um das Liniendiagramm x-Achse zu formatieren, verwendet die Eigenschaft name des Konzepts entity:entity, um Strings für die Benutzeroberfläche der Dimensionsauswahl zu erstellen, verwendet die Attribute latitude und longitude von geo:location, um Daten in der Kartenvisualisierung anzuzeigen usw.

Werden alle kanonischen Konzepte vom Public Data Explorer verstanden?

Die meisten der angegebenen kanonischen Konzepte werden zwar vom Public Data Explorer verstanden, es gibt jedoch einige, die (noch) nicht sichtbar sind. Im Folgenden finden Sie eine Liste mit Vorschlägen zur Umgehung dieses Problems:

Konzept Problemumgehung
quantity:index Verwenden Sie stattdessen quantity:ratio oder quantity:magnitude.
time:quarter Verwenden Sie time:month wie im DSPL-Cookbook beschrieben.
time:week Verwenden Sie time:day wie im DSPL-Cookbook beschrieben.

Wir arbeiten daran, diese Konzepte in Zukunft noch besser zu unterstützen.

Wie verwende ich ein kanonisches Konzept in meinem Dataset?

Weitere Informationen finden Sie in der Dokumentation für das Konzept, das Sie verwenden möchten, sowie in der DSPL-Praxisanleitung, in der die am häufigsten verwendeten Konzepte Schritt für Schritt erklärt werden.

Datasets importieren und visualisieren

Warum kann ich mein Dataset nicht importieren?

Die Uploadschnittstelle von Public Data Explorer scannt Ihr DSPL-Dataset und blockiert den Import, falls Fehler erkannt werden. Der Importeur ist sehr sensibel auf Rechtschreibung, Großschreibung und Tag-Reihenfolge/-Platzierung in Ihrer XML-Datei sowie auf das Layout und die Sortierung von Daten in Ihren CSV-Dateien. Es kann daher einige Karten/Tickets dauern, bis diese korrekt sind und Ihr Dataset erfolgreich importiert wird.

Der erste Schritt zur Behebung dieser Probleme besteht darin, die auf der Benutzeroberfläche angegebenen Fehlermeldungen zu prüfen und die entsprechenden Korrekturmaßnahmen zu ergreifen. Da diese Meldungen nicht immer leicht verständlich sind (eine Aufgabe, an der wir aktiv arbeiten), haben wir eine Tabelle zusammengestellt, in der die häufigsten Meldungen erläutert werden:

Fehler Erklärung
Doppelter Schlüssel: ... Die Definitionstabelle für Ihr Konzept hat einen wiederholten ID-Wert (d.h. Wert in der Spalte mit demselben Namen wie das Konzept). Diese Werte werden verwendet, um einzelne Instanzen des Konzepts eindeutig zu identifizieren. Daher sind Duplikate nicht zulässig.
Eine Ausnahme beim Parsen von Datenzeilen aus der Quelle, die durch die Kombination der Attribute [...] verursacht wird, ist in mehr als einer Gruppe von Zeilen in den Daten enthalten. Ihre CSV-Datei ist nicht richtig sortiert. Eine Anleitung dazu finden Sie in der obigen Diskussion.
Ausnahme beim Parsen von Datenzeilen aus Quelle durch ungültiges Format: „...“ ist bei „...“ falsch formatiert Die Formatierung dieses Werts (in der Regel ein Datum) in der CSV-Datei entspricht nicht dem in Ihrer XML-Datei angegebenen Format. Ändern Sie das Format oder den Wert so, dass sie übereinstimmen.
Ausnahme beim Parsen von Datenzeilen aus Quelle, verursacht durch die Anzahl der Elemente in Zeile (...) stimmt nicht mit der Anzahl der angegebenen Attribute (...) für Zeile [...] überein Eine Zeile in Ihrer CSV-Datei enthält entweder zu viele oder zu wenige Werte. Korrigieren Sie die Formatierung dieser Zeile.
Ausnahme beim Parsen von Datenzeilen aus Quelle, ausgelöst durch den Eingabestring „...“ Ein Wert in Ihrer CSV-Datei (normalerweise eine Ganzzahl oder eine Gleitkommazahl) enthält nicht numerische Zeichen (z.B. ein Dollarsymbol, ein Prozentzeichen usw.), die eine ordnungsgemäße Analyse verhindern. Entfernen Sie diese zusätzlichen Zeichen.
Die Ausnahme beim Parsen von Datenzeilen aus der Quelle, die durch den Datenwert „...“ für die Property „...“ des Bereichs „...“ verursacht wird, ist kein Schlüssel/Wert-Paar des referenzierten Konzepts „...“. Eines der Segmente enthält einen unbekannten Dimensionswert (z.B. der nicht in der Liste aller möglichen Werte für das entsprechende Konzept enthalten ist. Kehren Sie zur Dimensionsdefinitionstabelle zurück und fügen Sie bei Bedarf den Wert hinzu.
Der Header „...“ in Daten ist ein konstantes Attribut in der Tabelle Die Spaltenüberschrift in der CSV-Datei entspricht nicht der in der XML-Tabellendefinition definierten Spalten-ID. Ändern Sie eine der Optionen so, dass sie übereinstimmen.
XML-Parsing-Fehler ... Es wurde ein ungültiger Inhalt gefunden, der mit dem Element '...' beginnt. Einer der Werte '{...}', '{...}', ... wird erwartet. Das referenzierte XML-Element ist nicht an der richtigen Stelle. Prüfe, ob die Reihenfolge korrekt ist und ob das Element das richtige übergeordnete Element hat (z.B. info für name).
XML-Parsing-Fehler ... Das Attribut "..." darf nicht im Element "..." vorkommen. Die Schreibweise, die Groß-/Kleinschreibung oder der Speicherort dieses XML-Tag-Attributs sind falsch. Informationen zur richtigen Verwendung finden Sie in der Dokumentation.
XML-Parsing-Fehler Das Element „...“ darf kein Zeichen [children] enthalten, weil der Inhaltstyp des Elements nur Element ist. In der XML-Datei befindet sich Text, der möglicherweise durch ein Tag mit fehlendem < oder > verursacht wird. Korrigieren Sie den Text und versuchen Sie es noch einmal.

Wenn Sie eine Nachricht nicht verstehen können, die nicht in der obigen Liste enthalten ist, posten Sie bitte eine Nachricht im DSPL-Forum. Wir helfen Ihnen dann gerne weiter.

Mein Dataset wird erfolgreich importiert, aber ich kann keine Visualisierungen im Public Data Explorer abrufen. Was ist da los?

Dieses Problem tritt auf, wenn Ihr Dataset eine gültige DSPL ist, aber nicht in der DSPL-Teilgruppe enthalten ist, die im Public Data Explorer visuell dargestellt werden kann. Dafür gibt es viele mögliche Ursachen. Die häufigsten sind:

  • Dimensionskonzept ohne Tabelle definieren:Ohne diese Informationen weiß der Public Data Explorer nicht, welche Auswahlmöglichkeiten in der UI angezeigt werden.
  • Dataset nur mit Messwerten erstellen:Für die Verwendung des Public Data Explorers ist mindestens eine kategoriale (d.h. nicht zeitliche) Dimension erforderlich, die die Visualisierungs-UI korrekt strukturiert.
  • Zeitdimension nicht in deine Segmente aufgenommen: Der Public Data Explorer kann nur Zeitachsen visualisieren. Nicht zeitbasierte Segmente werden vom Produkt ignoriert.
  • Mit einer anderen Zeitdimension als den kanonischen time:...: Der Public Data Explorer verwendet die kanonischen time-Konzepte, um die verschiedenen Visualisierungen im Produkt darzustellen und zu animieren. Andere Zeitkonzepte, z. B. in Ihrem eigenen Dataset, werden nicht verstanden.
  • Verwenden von zu großen oder zu kleinen Zeitwerten: Der Public Data Explorer visualisiert Datasets noch nicht mit Zeitgenauigkeiten, die kleiner als ein Tag sind. Am anderen Ende des Spektrums hat das Tool Probleme mit sehr großen Jahreswerten (z.B. in den Zehntausenden). Wir hoffen, diese Granularität in Zukunft flexibler zu gestalten.

Wie kann ich mein visualisiertes Dataset in meine Website einbinden?

Weitere Informationen finden Sie in diesem Artikel in der Public Data Explorer-Hilfe. Wie in letzterem Abschnitt erklärt, kannst du eine vollständige Einbettung (z.B. mit den Steuerelementen für die explorative Datenanalyse) durch manuelles Anpassen der eingebetteten URL erhalten.