Datensatz

Ein Datensatz lässt sich einfacher finden, wenn du strukturierte Daten verwendest, um ergänzende Informationen wie den Namen, eine Beschreibung, den Ersteller und das Distributionsformat anzugeben. Um das Auffinden von Datensätzen zu erleichtern, nutzt Google schema.org und andere Metadatenstandards, die den Seiten, die Datensätze beschreiben, hinzugefügt werden können. Der Zweck dieses Markups besteht darin, das Auffinden von Datensätzen aus Bereichen wie Bio- und Sozialwissenschaften, maschinellem Lernen sowie zivilen und staatlichen Daten zu optimieren. Das passende Tool dafür ist unsere Datensatzsuche.

Beispiel für die Datensatzsuche

Hier einige Beispiele für mögliche Datensätze:

  • Eine Tabelle oder CSV-Datei mit einigen Daten
  • Eine organisierte Sammlung von Tabellen
  • Eine Datei in einem proprietären Format, die Daten enthält
  • Eine Sammlung von Dateien, die gemeinsam einen aussagekräftigen Datensatz bilden
  • Ein strukturiertes Objekt mit Daten in einem anderen Format, die du zur Verarbeitung in ein spezielles Tool laden möchtest
  • Bilder von Daten
  • Dateien für maschinelles Lernen, beispielsweise trainierte Parameter oder Definitionen von Strukturen neuronaler Netzwerke
  • Alles, was für dich wie ein Datensatz aussieht

Auffinden von Datensätzen – unser Ansatz

Damit wir strukturierte Daten über Datensätze auf Webseiten verstehen können, nutzen wir wahlweise Dataset-Markup von Schema.org oder gleichwertige Strukturen im DCAT-Format (Data Catalog Vocabulary) des W3C. Außerdem untersuchen wir die experimentelle Unterstützung für strukturierte Daten auf der Grundlage von W3C-konformem CSVW. In Anlehnung an die Best Practices für die Datensatzbeschreibung werden wir unseren Ansatz kontinuierlich weiterentwickeln. Weitere Informationen zu unserem Ansatz findest du im englischsprachigen Blogpost Making it easier to discover datasets.

Beispiele

Hier siehst du ein Beispiel für Datensätze mit der (bevorzugten) JSON-LD- und Schema.org-Syntax im Test für Rich-Suchergebnisse. Das gleiche Schema.org-Vokabular kann auch in der RDFa 1.1- oder Mikrodaten-Syntax verwendet werden. Außerdem kannst du das W3C-DCAT-Vokabular zum Beschreiben der Metadaten verwenden. Das folgende Beispiel basiert auf der Beschreibung eines realen Datensatzes.

JSON-LD

Hier siehst du ein Beispiel für einen Datensatz in JSON-LD:


  <html>
  <head>
    <title>NCDC Storm Events Database</title>
    <script type="application/ld+json">
    {
      "@context":"https://schema.org/",
      "@type":"Dataset",
      "name":"NCDC Storm Events Database",
      "description":"Storm Data is provided by the National Weather Service (NWS) and contain statistics on...",
      "url":"https://catalog.data.gov/dataset/ncdc-storm-events-database",
      "sameAs":"https://gis.ncdc.noaa.gov/geoportal/catalog/search/resource/details.page?id=gov.noaa.ncdc:C00510",
      "identifier": ["https://doi.org/10.1000/182",
                     "https://identifiers.org/ark:/12345/fk1234"],
      "keywords":[
         "ATMOSPHERE > ATMOSPHERIC PHENOMENA > CYCLONES",
         "ATMOSPHERE > ATMOSPHERIC PHENOMENA > DROUGHT",
         "ATMOSPHERE > ATMOSPHERIC PHENOMENA > FOG",
         "ATMOSPHERE > ATMOSPHERIC PHENOMENA > FREEZE"
      ],
      "license" : "https://creativecommons.org/publicdomain/zero/1.0/",
      "hasPart" : [
        {
          "@type": "Dataset",
          "name": "Sub dataset 01",
          "description": "Informative description of the first subdataset...",
          "license" : "https://creativecommons.org/publicdomain/zero/1.0/"
        },
        {
          "@type": "Dataset",
          "name": "Sub dataset 02",
          "description": "Informative description of the second subdataset...",
          "license" : "https://creativecommons.org/publicdomain/zero/1.0/"
        }
      ],
      "creator":{
         "@type":"Organization",
         "url": "https://www.ncei.noaa.gov/",
         "name":"OC/NOAA/NESDIS/NCEI > National Centers for Environmental Information, NESDIS, NOAA, U.S. Department of Commerce",
         "contactPoint":{
            "@type":"ContactPoint",
            "contactType": "customer service",
            "telephone":"+1-828-271-4800",
            "email":"ncei.orders@noaa.gov"
         }
      },
      "includedInDataCatalog":{
         "@type":"DataCatalog",
         "name":"data.gov"
      },
      "distribution":[
         {
            "@type":"DataDownload",
            "encodingFormat":"CSV",
            "contentUrl":"http://www.ncdc.noaa.gov/stormevents/ftp.jsp"
         },
         {
            "@type":"DataDownload",
            "encodingFormat":"XML",
            "contentUrl":"http://gis.ncdc.noaa.gov/all-records/catalog/search/resource/details.page?id=gov.noaa.ncdc:C00510"
         }
      ],
      "temporalCoverage":"1950-01-01/2013-12-18",
      "spatialCoverage":{
         "@type":"Place",
         "geo":{
            "@type":"GeoShape",
            "box":"18.0 -65.0 72.0 172.0"
         }
      }
    }
    </script>
  </head>
  <body>
  </body>
</html>
RDFa

Hier siehst du ein Beispiel für einen Datensatz in RDFa unter Verwendung des DCAT-Vokabulars:


<article about="/node/1234" typeof="dcat:Dataset">
    <dl>
      <dt>Name:</dt>
      <dd property="dc:title">ACME Inc Cash flow data</dd>
      <dt>Identifiers:</dt>
      <dd property="dc:identifier">https://doi.org/10.1000/182</dd>
      <dd property="dc:identifier">https://identifiers.org/ark:/12345/fk1234</dd>
      <dt>Description:</dt>
      <dd property="dc:description">Financial Statements - Consolidated Statement of Cash Flows</dd>
      <dt>Category:</dt>
      <dd rel="dc:subject">Financial</dd>
      <dt class="field-label">Downloads:</dt>
      <dd>
        <ul>
          <li>
            <a rel="dcat:distribution" href="Consolidated_Statement_of_Cash_Flows_en.csv"><span property="dcat:mediaType" content="text/csv" >Consolidated_Statement_of_Cash_Flows_en.csv</span></a>
          </li>
         <li>
            <a rel="dcat:distribution"  href="files/Consolidated_Statement_of_Cash_Flows_en.xls"><span property="dcat:mediaType" content="application/vnd.ms-excel">Consolidated_Statement_of_Cash_Flows_en.xls</span></a>
          </li>
          <li>
            <a rel="dcat:distribution"  href="files/consolidated_statement_of_cash_flows_en.xml"><span property="dcat:mediaType" content="application/xml">consolidated_statement_of_cash_flows_en.xml</span></a>
          </li>
        </ul>
      </dd>
    </dl>
  </article>

Richtlinien

Websites müssen die Richtlinien für strukturierte Daten einhalten. Zusätzlich empfehlen wir die folgenden Best Practices für Sitemaps und Best Practices für Quelle und Herkunft.

Best Practices für Sitemaps

Wenn du eine XML-Sitemap-Datei verwendest, kann Google deine URLs einfacher finden. Mithilfe von XML-Sitemap-Dateien und sameAs-Markup wird dokumentiert, wie Datensatzbeschreibungen auf deiner Website veröffentlicht werden.

Wenn du ein Datensatz-Repository hast, gibt es auf deiner Website wahrscheinlich mindestens zwei Seitentypen: kanonische Seiten – also Landingpages – für jeden Datensatz und Seiten, die mehrere Datensätze auflisten, wie etwa Suchergebnisse oder Datensatzteilmengen. Wir empfehlen, strukturierte Daten für Datensätze auf den kanonischen Seiten einzufügen. Mit der Property sameAs stellst du eine Verknüpfung zur kanonischen Seite her, wenn du mehreren Kopien des Datensatzes, wie Auflistungen auf Suchergebnisseiten, strukturierte Daten hinzufügst.

Best Practices für Quelle und Herkunft

Offene Datensätze werden häufig mehrfach veröffentlicht, aggregiert und auf der Basis anderer Datensätze erstellt. Im Folgenden findest du einen ersten Entwurf unseres Ansatzes für Situationen, in denen ein Datensatz eine Kopie eines anderen Datensatzes ist oder in anderer Weise auf diesem basiert.

  • Wenn der Datensatz oder die Beschreibung eine einfache Neuveröffentlichung von bereits anderweitig veröffentlichtem Material ist, verwende die Property sameAs zur Kennzeichnung der kanonischsten URLs für das Original. Der Wert von sameAs muss den Datensatz eindeutig kennzeichnen. Mit anderen Worten: Zwei unterschiedliche Datensätze dürfen nicht dieselbe URL wie der Wert sameAs haben.
  • Falls der wieder veröffentlichte Datensatz – gegebenenfalls einschließlich seiner Metadaten – beträchtlich verändert wurde, verwende die Property isBasedOn.
  • Wenn ein Datensatz von mehreren Originalen abstammt oder diese aggregiert, verwende ebenfalls die Property isBasedOn.
  • Mit der Property identifier kannst du relevante Digital Object Identifiers (DOIs) oder Compact Identifiers anhängen. Wenn der Datensatz mehrere IDs enthält, verwende die Property identifier mehrfach. In JSON-LD wird dies mithilfe der JSON-Listensyntax dargestellt.

Wir hoffen, unsere Empfehlungen auf Grundlage des Nutzerfeedbacks optimieren zu können, und zwar insbesondere in den Bereichen Herkunft und Versionierung und bei den Datumsangaben im Zusammenhang mit der Veröffentlichung von Zeitreihen. Wir laden dich außerdem ein, an den Diskussionen in der Community teilzunehmen.

Empfehlungen für textbasierte Properties

Wir empfehlen, alle textbasierten Properties auf maximal 5.000 Zeichen zu beschränken. Die Google Datensatzsuche verwendet nur die ersten 5.000 Zeichen jeder textbasierten Property. Namen und Titel bestehen normalerweise nur aus wenigen Wörtern oder einem kurzen Satz.

Bekannte Fehler und Warnungen

Möglicherweise treten im Testtool für strukturierte Daten von Google und in anderen Validierungssystemen Fehler oder Warnungen auf. Konkret empfehlen Validierungssysteme Organisationen möglicherweise, Kontaktdaten einschließlich eines contactType einzubinden. Nützliche Werte hierfür sind customer service, emergency, journalist, newsroom und public engagement. Fehler für csvw:Table als unerwarteter Wert der Property mainEntity kannst du ignorieren.

Definitionen strukturierter Datentypen

Du musst alle erforderlichen Properties angeben, damit die Inhalte als Rich-Suchergebnis erscheinen können. Du kannst auch die empfohlenen Properties einbinden, um weitere Informationen zur Verfügung zu stellen und Nutzern so einen Mehrwert zu bieten.

Überprüfe dein Markup mit dem Testtool für strukturierte Daten.

Das Hauptaugenmerk liegt auf der Beschreibung von Informationen zu einem Datensatz bzw. dessen Metadaten und der Beschreibung seiner Inhalte. So geben Datensatz-Metadaten beispielsweise an, welchen Zweck der Datensatz erfüllt, welche Variablen er misst oder wer ihn erstellt hat. Nicht enthalten sind dagegen zum Beispiel konkrete Werte für die Variablen.

Dataset

Die vollständige Definition von Dataset findest du unter schema.org/Dataset.

Du kannst zusätzliche Informationen zur Veröffentlichung des Datensatzes angeben, etwa die Lizenz, den Zeitpunkt der Veröffentlichung, den DOI oder einen sameAs-Wert, der auf eine kanonische Version des Datensatzes in einem anderen Repository verweist. Füge identifier, license und sameAs für Datensätze hinzu, um Informationen zu Herkunft und Lizenz zur Verfügung zu stellen.

Erforderliche Properties
description Text

Eine kurze Zusammenfassung, die den Datensatz beschreibt

Richtlinien

  • Die Zusammenfassung muss zwischen 50 und 5.000 Zeichen lang sein.
  • Die Zusammenfassung kann Markdown-Syntax enthalten. Für eingebettete Bilder müssen URLs für den absoluten Pfad verwendet werden, keine relativen Pfade.
  • Markiere Zeilenumbrüche im JSON-LD-Format mit \n, also zwei Zeichen: einem umgekehrten Schrägstrich und dem Kleinbuchstaben "n".
name Text

Ein aussagekräftiger Name für den Datensatz. Beispiel: "Schneehöhen in der nördlichen Hemisphäre".

Empfohlene Properties
alternateName Text

Alternative Namen für diesen Datensatz, z. B. Aliasse oder Abkürzungen. Beispiel im JSON-LD-Format:


"name": "The Quick, Draw! Dataset"
    "alternateName": ["Quick Draw Dataset", "quickdraw-dataset"]
creator Person oder Organization

Der Ersteller oder Autor dieses Datensatzes. Verwende die ORCID ID als Wert für die Property sameAs des Typs Person und die ROR-ID, um Institutionen und Organisationen eindeutig zu identifizieren. Beispiel im JSON-LD-Format:


    "creator": [
        {
            "@type": "Person",
            "sameAs": "http://orcid.org/0000-0000-0000-0000",
            "givenName": "Jane",
            "familyName": "Foo",
            "name": "Jane Foo"
        },
        {
            "@type": "Person",
            "sameAs": "http://orcid.org/0000-0000-0000-0001",
            "givenName": "Jo",
            "familyName": "Bar",
            "name": "Jo Bar"
        },
        {
            "@type": "Organization",
            "sameAs": "http://ror.org/xxxxxxxxx",
            "name": "Fictitious Research Consortium"
        }
    ]
citation Text oder CreativeWork

Kennzeichnet wissenschaftliche Artikel, die vom Datenanbieter empfohlen und zusätzlich zum Datensatz selbst zitiert werden. Gib die Zitation für den Datensatz selbst mithilfe von anderen Properties an, beispielsweise name, identifier, creator und publisher. Mit der Property "citation" kann z. B. eine ähnliche wissenschaftliche Publikation eindeutig identifiziert werden, etwa ein Datendeskriptor, ein Artikel oder eine Datenpublikation, die dieser Datensatz ergänzt. Beispiele im JSON-LD-Format:


    "citation": "https://doi.org/10.1111/111"

    "citation": "https://identifiers.org/pubmed:11111111"

    "citation": "https://identifiers.org/arxiv:0111.1111v1"

    "citation":
     "Doe J (2014) Influence of X ... https://doi.org/10.1111/111"

Zusätzliche Richtlinien

  • Verwende diese Property nicht, um Zitationen für den Datensatz selbst anzugeben. Hiermit sollen nur ähnliche wissenschaftliche Artikel markiert werden, nicht der Datensatz selbst. Wenn du Informationen zum Datensatz angeben möchtest, verwende stattdessen die Properties name, identifier, creator und publisher.
  • Falls du das Zitationsfeld mit einem Zitations-Snippet füllst, gib nach Möglichkeit die Artikel-ID an, z. B. einen DOI.

    Empfohlen: "Doe J (2014) Influence of X. Biomics 1(1). https://doi.org/10.1111/111"

    Nicht empfohlen: "Doe J (2014) Influence of X. Biomics 1(1)."

hasPart oder isPartOf URL oder Dataset

Wenn der Datensatz eine Sammlung kleinerer Datensätze ist, kennzeichne eine solche Beziehung mit der Property hasPart. Ist der Datensatz dagegen Teil eines größeren Datensatzes, dann verwendest du isPartOf. Beide Properties können die Form einer URL oder einer Dataset-Instanz annehmen. Falls Dataset als Wert verwendet wird, müssen alle Properties enthalten sein, die für einen eigenständigen Dataset erforderlich sind. Beispiele:


    "hasPart" : [
      {
        "@type": "Dataset",
        "name": "Sub dataset 01",
        "description": "Informative description of the first subdataset...",
        "license" : "https://creativecommons.org/publicdomain/zero/1.0/"
      },
      {
        "@type": "Dataset",
        "name": "Sub dataset 02",
        "description": "Informative description of the second subdataset...",
        "license" : "https://creativecommons.org/publicdomain/zero/1.0/"
      }
    ]
    

    "isPartOf" : "https://example.com/aggregate_dataset"
    
identifier URL, Text oder PropertyValue

Eine ID, z. B. ein DOI oder ein Compact Identifier. Wenn der Datensatz mehrere IDs enthält, verwende die Property identifier mehrfach. In JSON-LD wird dies mithilfe der JSON-Listensyntax dargestellt.

keywords Text

Stichwörter, die den Datensatz zusammenfassen

license URL, CreativeWork

Eine Lizenz, unter der der Datensatz verbreitet wird. Beispiel:


    "license" : "https://creativecommons.org/publicdomain/zero/1.0/"

    "license" : {
      "@type": "CreativeWork",
      "name": "Custom license",
      "url": "https://example.com/custom_license"
      }

Zusätzliche Richtlinien

  • Füge eine URL ein, die eine bestimmte Version der verwendeten Lizenz eindeutig angibt.

    Empfohlen

    
    "license" : "https://creativecommons.org/licenses/by/4.0"

    Nicht empfohlen

    
    "license" : "https://creativecommons.org/licenses/by"
sameAs URL

Die URL einer Referenzwebseite, die die Identität des Datensatzes eindeutig angibt. Diese befindet sich normalerweise in einem anderen Repository.

spatialCoverage Text, Place

Du kannst einen einzelnen Punkt angeben, der den räumlichen Aspekt des Datensatzes beschreibt. Binde diese Property nur ein, wenn der Datensatz eine räumliche Dimension hat. Beispielsweise könnte dies ein einzelner Punkt sein, an dem alle Messungen erfasst wurden, oder es könnten die Koordinaten eines Begrenzungsrahmens für einen Bereich sein.

Punkte


    "spatialCoverage:" {
      "@type": "Place",
      "geo": {
        "@type": "GeoCoordinates",
        "latitude": 39.3280,
        "longitude": 120.1633
      }
    }

Formen

Verwende GeoShape zur Beschreibung von Flächen unterschiedlicher Formen. Einen Begrenzungsrahmen legst du beispielsweise so fest:


    "spatialCoverage:" {
      "@type": "Place",
      "geo": {
        "@type": "GeoShape",
        "box": "39.3280 120.1633 40.445 123.7878"
      }
    }

Punkte innerhalb der Properties box, circle, line oder polygon müssen als Werte angegeben werden, die dem Längen- und Breitengrad (in dieser Reihenfolge) entsprechen und durch ein Leerzeichen getrennt sind.

Benannte Orte


    "spatialCoverage:" "Tahoe City, CA"
temporalCoverage Text

Die Daten im Datensatz erstrecken sich über einen bestimmten Zeitrahmen. Binde diese Property nur ein, wenn der Datensatz eine zeitliche Dimension hat. Schema.org verwendet zur Beschreibung von Zeiträumen und -punkten den Standard ISO 8601. Du kannst Datumsangaben je nach Datensatzintervall unterschiedlich beschreiben. Offene Intervalle gibst du dabei mit zwei Dezimalpunkten (..) an.

Einzelnes Datum


    "temporalCoverage" : "2008"

Zeitraum


    "temporalCoverage" : "1950-01-01/2013-12-18"

Offener Zeitraum


    "temporalCoverage" : "2013-12-19/.."
variableMeasured Text, PropertyValue

Die Variable, die von diesem Datensatz gemessen wird. Beispiel: Temperatur oder Druck.

version Text, Number

Die Versionsnummer für den Datensatz

url URL

Die Position einer Seite, die den Datensatz beschreibt

DataCatalog

Die vollständige Definition von DataCatalog findest du unter schema.org/DataCatalog.

Datensätze werden häufig in Repositories veröffentlicht, die viele weitere Datensätze enthalten. Derselbe Datensatz kann außerdem in mehreren derartigen Repositories enthalten sein. Du kannst einen Datenkatalog, zu dem dieser Datensatz gehört, durch einen direkten Verweis angeben.

Empfohlene Properties
includedInDataCatalog DataCatalog

Der Katalog, zu dem der Datensatz gehört

DataDownload

Die vollständige Definition von DataDownload findest du unter schema.org/DataDownload. Füge zusätzlich zu den "Dataset"-Properties die folgenden Properties hinzu, die Optionen für den Download von Datensätzen angeben.

Die Property distribution beschreibt, wie der Datensatz selbst abgerufen wird, denn die URL verweist häufig auf die Landingpage, die den Datensatz beschreibt. distribution dagegen gibt an, wo und in welchem Format die eigentlichen Daten abgerufen werden können. Die Property kann mehrere Werte haben, beispielsweise eine URL für eine CSV-Version und eine andere URL für eine Excel-Version.

Erforderliche Properties
distribution.contentUrl URL

Der Link zum Download.

Empfohlene Properties
distribution DataDownload

Die Beschreibung des Speicherorts, von dem der Datensatz heruntergeladen werden kann, und des Dateiformats für den Download

distribution.encodingFormat Text, URL

Das Dateiformat der Distribution

Tabellarische Datensätze

Ein tabellarischer Datensatz ist in erster Linie als Raster aus Zeilen und Spalten organisiert. Für Seiten, in die tabellarische Datensätze eingebettet werden, kannst du auch expliziteres Markup erstellen, das auf dem oben beschriebenen grundlegenden Ansatz aufbaut. Gegenwärtig verstehen wir hierunter eine Variante von CSVW, die parallel zu für Nutzer gedachte tabellarische Inhalte auf der HTML-Seite zur Verfügung gestellt wird. Informationen zu CSVW ("CSV on the Web") findest du beim W3C.

Das nachfolgende Beispiel zeigt eine kleine Tabelle, die im CSVW-Format in JSON-LD codiert ist. Im Testtool für Rich-Suchergebnisse gibt es hierzu verschiedene bekannte Fehler.

Hilfe und Tools