Datensatz

Ein Datensatz lässt sich einfacher finden, wenn Sie strukturierte Daten verwenden, um ergänzende Informationen wie den Namen, eine Beschreibung, den Ersteller und das Distributionsformat anzugeben. Für die Ermittlung von Datensätzen nutzt Google schema.org und andere Metadatenstandards, die den Seiten, die Datensätze beschreiben, hinzugefügt werden können. Der Zweck dieses Markups besteht darin, die Ermittlung von Datensätzen aus Bereichen wie Bio- und Sozialwissenschaften, maschinellem Lernen oder zivilen und staatlichen Daten zu optimieren.

Hier einige Beispiele für mögliche Datensätze:

  • Eine Tabelle oder CSV-Datei mit einigen Daten
  • Eine organisierte Sammlung von Tabellen
  • Eine Datei in einem proprietären Format, die Daten enthält
  • Eine Sammlung von Dateien, die gemeinsam einen aussagekräftigen Datensatz bilden
  • Ein strukturiertes Objekt mit Daten in einem anderen Format, die Sie zur Verarbeitung in ein spezielles Tool laden möchten
  • Bilder von Daten
  • Dateien für maschinelles Lernen, beispielsweise trainierte Parameter oder Definitionen von Strukturen neuronaler Netzwerke
  • Alles, was für Sie wie ein Datensatz aussieht

So ermitteln wir Datensätze

Damit wir strukturierte Daten über Datensätze auf Webseiten verstehen können, nutzen wir wahlweise Dataset-Markup von schema.org oder gleichwertige Strukturen im DCAT-Format (Data Catalog Vocabulary) des W3C. Außerdem erforschen wir die experimentelle Unterstützung für strukturierte Daten auf der Grundlage von W3C-konformem CSVW. Wir werden unsere Herangehensweise weiterentwickeln und in Form von Best Practices für die künftige Datensatzbeschreibung anpassen. Weitere Informationen finden Sie unter Die Ermittlung öffentlicher Datensätze erleichtern.

Beispiele

Hier sehen Sie ein Beispiel für Datensätze mit der – bevorzugten – JSON-LD-Syntax im Testtool für strukturierte Daten. Das gleiche Vokabular kann auch in RDFa 1.1-, Mikrodaten- oder W3C-DCAT-Vokabular verwendet werden. Das folgende Beispiel basiert auf der Beschreibung eines realen Datensatzes.

JSON-LD

Hier sehen Sie ein Beispiel für einen Datensatz in JSON-LD im Testtool für strukturierte Daten.

RDFa

Nachfolgend sehen Sie ein Beispiel für einen Datensatz in RDFa mit dem Testtool für strukturierte Daten:

Richtlinien

Websites müssen die Richtlinien für strukturierte Daten beachten. Zusätzlich zu den Richtlinien für strukturierte Daten empfehlen wir die folgenden Best Practices zu Sitemaps und zu Quelle und Herkunft.

Best Practices für Sitemaps

Verwenden Sie eine Sitemap-Datei, damit Google Ihre URLs finden kann. Mithilfe von Sitemap-Dateien und sameAs-Markup wird dokumentiert, wie Datensatzbeschreibungen auf Ihrer Website veröffentlicht werden.

Wenn Sie ein Datensatz-Repository haben, dann gibt es auf Ihrer Website wahrscheinlich mindestens zwei Seitentypen: kanonische Seiten – also "Landingpages" – für jeden Datensatz sowie Seiten, die mehrere Datensätze auflisten, also etwa Suchergebnisse oder Datensatzteilmengen. Wir empfehlen, strukturierte Daten zu einem Datensatz den kanonischen Seiten hinzuzufügen. Mit der sameAs-Eigenschaft stellen Sie eine Verknüpfung zur kanonischen Seite her, wenn Sie mehreren Kopien des Datensatzes wie etwa Auflistungen auf Suchergebnisseiten strukturierte Daten hinzufügen.

Best Practices für Quelle und Herkunft

Offene Datensätze werden häufig mehrfach veröffentlicht, aggregiert und als Grundlage für andere Datensätze verwendet. Hier finden Sie eine erste Skizzierung unserer Herangehensweise zur Darstellung von Situationen, in denen ein Datensatz eine Kopie eines anderen Datensatzes ist oder auf andere Weise auf diesem basiert.

  • In Fällen, in denen der Datensatz oder die Beschreibung eine einfache Neuveröffentlichung von an anderer Stelle bereits veröffentlichtem Material ist, verwenden Sie die sameAs-Eigenschaft zur Kennzeichnung der kanonischsten URLs für das Original.
  • In Fällen, in denen der erneut veröffentlichte Datensatz – gegebenenfalls einschließlich seiner Metadaten – beträchtlich verändert wurde, verwenden Sie die Eigenschaft isBasedOn.
  • Auch wenn ein Datensatz von mehreren Originalen abstammt oder diese aggregiert, verwenden Sie die Eigenschaft isBasedOn.
  • Die Eigenschaft identifier schließlich nutzen Sie, um ggf. relevante Digital Object Identifiers (DOIs) anzuhängen.

Wir hoffen, unsere Empfehlungen auf Grundlage des Nutzerfeedbacks insbesondere in den Bereichen Herkunft, Versionierung und der mit der Veröffentlichung von Zeitreihen verbundenen Datumsangaben optimieren zu können. Bitte beteiligen Sie sich an den Diskussionen in der Community.

Empfehlungen für textbasierte Eigenschaften

Wir empfehlen, alle textbasierten Felder auf maximal 5.000 Zeichen zu beschränken. Die Google Datensatzsuche verwendet nur die ersten 5.000 Zeichen jedes textbasierten Feldes. Namen und Titel bestehen normalerweise nur aus wenigen Wörtern oder einem kurzen Satz.

Bekannte Fehler und Warnungen

Möglicherweise treten im Testtool für strukturierte Daten von Google und in anderen Validierungssystemen Fehler oder Warnungen auf. Insbesondere Warnungen zu fileFormat, das erst vor Kurzem in encodingFormat umbenannt wurde, können guten Gewissens ignoriert werden. Validierungssysteme empfehlen Organisationen möglicherweise auch, Kontaktinformationen einschließlich eines contactType einzubinden; nützliche Werte hierfür sind customer service, emergency, journalist, newsroom und public engagement. Auch Fehler für csvw:Table als unerwarteter Wert der Eigenschaft mainEntity können Sie ignorieren.

Definitionen strukturierter Datentypen

Sie müssen alle erforderlichen Eigenschaften hinzufügen, damit die Inhalte als Rich-Suchergebnis angezeigt werden können. Sie können auch die empfohlenen Eigenschaften einbinden, um weitere Informationen zu Ihren Inhalten hinzuzufügen und Ihren Nutzern so einen Mehrwert zu bieten.

Überprüfen Sie Ihr Markup mit dem Testtool für strukturierte Daten.

Das Hauptaugenmerk liegt auf der Beschreibung von Informationen zu einem Datensatz bzw. dessen Metadaten und der Beschreibung seiner Inhalte. So geben Datensatz-Metadaten beispielsweise an, welchen Zweck der Datensatz erfüllt, welche Variablen er misst oder wer ihn erstellt hat. Nicht enthalten sind dagegen zum Beispiel konkrete Werte für die Variablen.

Dataset

Die vollständige Definition von Dataset finden Sie unter schema.org/Dataset.

Sie können zusätzliche Informationen zur Veröffentlichung des Datensatzes beschreiben, etwa die Lizenz, der Zeitpunkt der Veröffentlichung, sein DOI oder ein sameAs-Wert, der auf eine kanonische Version des Datensatzes in einem anderen Repository verweist. Fügen Sie identifier, license und sameAs für Datensätze hinzu, um Informationen zu Herkunft und Lizenz zur Verfügung zu stellen.

Erforderliche Eigenschaften
description Text

Eine kurze Zusammenfassung, die den Datensatz beschreibt.

name Text

Ein aussagekräftiger Name für den Datensatz. Beispiel: "Schneehöhen in der nördlichen Hemisphäre".

Empfohlene Eigenschaften
citation Text oder CreativeWork

Angabe einer Veröffentlichung, in der der Datensatz beschrieben wird. Beispiel: "J.Smith 'How I created an awesome dataset', Journal of Data Science, 1966".

identifier URL, Text oder PropertyValue

Eine Kennung für den Datensatz, z. B. ein DOI.

keywords Text

Stichwörter, die den Datensatz zusammenfassen.

license URL, Text

Eine Lizenz, unter der der Datensatz verbreitet wird.

sameAs URL

Link zu einer Seite, die weitere Informationen zum selben Datensatz enthält. Befindet sich normalerweise in einem anderen Repository.

spatialCoverage Text, Place

Sie können einen einzelnen Punkt angeben, der den räumlichen Aspekt des Datensatzes beschreibt. Binden Sie diese Eigenschaft nur ein, wenn der Datensatz eine räumliche Dimension hat. Beispielsweise könnte dies ein einzelner Punkt sein, an dem alle Messungen erfasst wurden, oder die Koordinaten eines Begrenzungsrahmens für einen Bereich.

Punkte

"spatialCoverage:" {
  "@type": "Place",
  "geo": {
    "@type": "GeoCoordinates",
    "latitude": 39.3280,
    "longitude": 120.1633
  }
}

Koordinaten

Verwenden Sie GeoShape zur Beschreibung von Flächen unterschiedlicher Formen. Einen Begrenzungsrahmen legen Sie beispielsweise so fest:

"spatialCoverage:" {
  "@type": "Place",
  "geo": {
    "@type": "GeoShape",
    "box": "39.3280 120.1633 40.445 123.7878"
  }
}

Benannte Orte

"spatialCoverage:" "Tahoe City, CA"
temporalCoverage Text

Die Daten im Datensatz erstrecken sich über einen bestimmten Zeitrahmen. Binden Sie diese Eigenschaft nur ein, wenn der Datensatz eine zeitliche Dimension hat. Schema.org verwendet zur Beschreibung von Zeiträumen und -punkten den ISO 8601-Standard. Sie können Datumsangaben je nach Datensatzintervall unterschiedlich beschreiben. Offene Intervalle geben Sie dabei mit zwei Dezimalpunkten (..) an.

Einzelnes Datum

"temporalCoverage" : "2008"

Zeitraum

"temporalCoverage" : "1950-01-01/2013-12-18"

Offener Zeitraum

"temporalCoverage" : "2013-12-19/.."
variableMeasured Text, PropertyValue

Die Variable, die von diesem Datensatz gemessen wird. Beispiel: Temperatur oder Druck.

version Text, Number

Die Versionsnummer für den Datensatz.

url URL

Die Position einer Seite, die den Datensatz beschreibt.

DataCatalog

Die vollständige Definition von DataCatalog finden Sie unter schema.org/DataCatalog.

Datensätze werden häufig in Repositorys veröffentlicht, die viele weitere Datensätze enthalten. Derselbe Datensatz kann außerdem in mehreren derartigen Repositorys enthalten sein. Sie können einen Datenkatalog, zu dem dieser Datensatz gehört, durch einen direkten Verweis angeben.

Empfohlene Eigenschaften
includedInDataCatalog DataCatalog

Der Katalog, zu dem der Datensatz gehört.

DataDownload

Die vollständige Definition von DataDownload finden Sie unter schema.org/DataDownload. Fügen Sie zusätzlich zu den Dataset-Eigenschaften die folgenden Eigenschaften hinzu, die Optionen für den Download von Datensätzen angeben.

Die Eigenschaft distribution beschreibt, wie der Datensatz selbst abgerufen wird, denn die URL verweist häufig auf die Landingpage, die den Datensatz beschreibt. distribution dagegen gibt an, wo und in welchem Format die eigentlichen Daten abgerufen werden können. Die Eigenschaft kann mehrere Werte haben, beispielsweise eine URL für eine CSV-Version und eine andere URL für eine Excel-Version.

Erforderliche Eigenschaften
distribution.contentUrl URL

Der Link zum Download.

Eigenschaften
distribution DataDownload

Die Beschreibung des Speicherorts, von dem der Datensatz heruntergeladen werden kann, und des Dateiformats für den Download.

distribution.fileFormat Text

Das Dateiformat der Distribution.

Tabellarische Datensätze

Ein tabellarischer Datensatz ist in erster Linie als Raster aus Zeilen und Spalten organisiert. Für Seiten, die tabellarische Datensätze einbetten, können Sie auch expliziteres Markup erstellen, das auf der oben beschriebenen grundlegenden Herangehensweise aufbaut. Gegenwärtig verstehen wir hierunter eine Variante von CSVW, die parallel zu für Nutzer gedachte tabellarische Inhalte auf der HTML-Seite bereitgestellt wird. Informationen zu CSVW ("CSV on the Web") finden Sie beim W3C.

Das nachfolgende Beispiel zeigt eine kleine Tabelle, die im CSVW-Format in JSON-LD codiert ist. Im Testtool für strukturierte Daten gibt es hierzu verschiedene bekannte Fehler.

Hilfe und Tools

Feedback geben zu...