Zbiór danych

Zbiory danych będą łatwiejsze do znalezienia, jeśli informacje pomocnicze o nich, np. nazwę, opis, twórcę i formaty dystrybucyjne, podasz w formie uporządkowanych danych. Stosowana przez Google metoda odkrywania zbiorów danych polega na korzystaniu ze znaczników schema.org i innych metadanych, które można dodawać do stron opisujących zbiory danych. Celem stosowania tych znaczników jest ulepszenie odkrywania zbiorów danych z takich dziedzin jak nauki przyrodnicze, nauki społeczne, systemy uczące się, dane o obywatelach, dane rządowe itp. Zbiory danych można znaleźć za pomocą narzędzia Wyszukiwanie zbiorów danych.

Przykład użycia narzędzia Wyszukiwanie zbiorów danych

Oto kilka przykładów zbiorów danych:

  • tablica lub plik CSV z jakimiś danymi;
  • uporządkowany zbiór tablic;
  • plik w zastrzeżonym formacie zawierający dane;
  • zbiór plików, które stanowią razem sensowny zbiór danych;
  • uporządkowany obiekt z danymi w jakimś innym formacie, które chcesz wczytać do specjalnego narzędzia służącego do ich przetwarzania;
  • obrazy zawierające dane;
  • pliki związane z systemami uczącymi się, np. wyuczone parametry lub definicje struktur sieci neuronowych;
  • cokolwiek, co wygląda dla Ciebie jak zbiór danych.

Nasza metoda odkrywania zbiorów danych

Na stronach internetowych możemy rozpoznawać uporządkowane dane o zbiorach danych, korzystając ze znaczników Dataset schema.org albo z odpowiadających im struktur występujących w formacie Data Catalog Vocabulary (DCAT) opracowanym przez organizację W3C. Badamy też eksperymentalną obsługę uporządkowanych danych opartych na formacie CSVW organizacji W3C. Planujemy rozwijanie i modyfikowanie naszej metody w miarę pojawiania się nowych, lepszych sposobów opisywania zbiorów danych. Więcej informacji o naszej metodzie odkrywania zbiorów danych znajdziesz w artykule Making it easier to discover datasets (Ułatwianie odkrywania zbiorów danych).

Przykłady

Oto przykład zbiorów danych zapisanych zgodnie ze składnią JSON-LD (preferowaną) w Narzędziu do testowania uporządkowanych danych. Tej samej składni można też używać w przypadku słowników mikrodanych, RDFa 1.1 i W3C DCAT. Poniższy przykład oparto na opisie rzeczywistego zbioru danych.

JSON-LD

Oto przykład zbioru danych zapisanego w postaci kodu JSON-LD:

RDFa

Oto przykład zbioru danych zapisanego w postaci kodu RDFa:

Wytyczne

Witryny powinny być zgodne z wytycznymi dotyczącymi uporządkowanych danych. Oprócz tego zalecamy stosowanie podanych poniżej sprawdzonych metod związanych z mapą witryny oraz ze źródłem i pochodzeniem zbiorów danych.

Sprawdzone metody związane z mapą witryny

Używaj pliku mapy witryny, by pomagać Google w znajdowaniu Twoich adresów URL. Dzięki tym plikom oraz znacznikom sameAs można łatwiej udokumentować sposób publikowania w Twojej witrynie opisów zbiorów danych.

Jeśli masz repozytorium zbiorów danych, zawiera ono pewnie co najmniej dwa rodzaje stron: strony kanoniczne („docelowe”) każdego zbioru danych i strony z listą wielu zbiorów danych (np. z wynikami wyszukiwania lub z podzbiorami zbiorów danych). Zalecamy dodawanie uporządkowanych danych o zbiorach danych do stron kanonicznych. Jeśli dodasz uporządkowane dane do wielu kopii zbioru danych, np. do informacji o nim na stronach z wynikami wyszukiwania, użyj właściwości sameAs, by wskazać stronę kanoniczną.

Sprawdzone metody związane ze źródłem i pochodzeniem zbiorów danych

Zbiory danych o otwartym dostępie często bywają ponownie publikowane i agregowane oraz oparte na innych zbiorach danych. Oto nasza wstępna propozycja sposobu uporządkowania sytuacji, w których zbiór danych jest kopią innego zbioru danych lub został utworzony na jego podstawie.

  • Używaj właściwości sameAs do wskazywania najbardziej kanonicznych adresów URL oryginałów w przypadkach, gdy zbiór danych lub opis jest prostym powieleniem materiałów opublikowanych gdzie indziej. Wartość właściwości sameAs musi jednoznacznie identyfikować zbiór danych, to znaczy, że dwa różne zbiory danych nie powinny korzystać z tego samego adresu URL co wartość właściwości sameAs.
  • Używaj właściwości isBasedOn w przypadkach, gdy ponownie opublikowany zbiór danych (łącznie z jego metadanymi) uległ istotnym zmianom.
  • Jeśli zbiór danych czerpie informacje z wielu oryginalnych zbiorów lub jest ich zestawieniem, używaj właściwości isBasedOn.
  • Do dołączania wszelkich niezbędnych identyfikatorów cyfrowych (DOI) lub kompaktowych używaj właściwości identifier. Jeśli zbiór danych ma kilka identyfikatorów, powtórz właściwość identifier. Jeśli używasz kodu JSON-LD, reprezentuje to składnia listy JSON.

Mamy nadzieję, że polepszymy nasze zalecenia dzięki otrzymanym opiniom, szczególnie w przypadku opisu pochodzenia, obsługi wersji i dat związanych z publikowaniem ciągów czasowych. Dołącz do dyskusji w ramach społeczności.

Zalecenia związane z właściwościami tekstowymi

Zalecamy ograniczenie wszystkich pól tekstowych do maksymalnie 5000 znaków. Usługa Wyszukiwanie zbiorów danych Google używa tylko pierwszych 5000 znaków z każdej właściwości tekstowej. Nazwy i tytuły mają zwykle postać kilku słów lub krótkich zdań.

Znane błędy i ostrzeżenia

W naszym Narzędziu do testowania uporządkowanych danych i w innych systemach weryfikacyjnych mogą Ci się wyświetlać błędy lub ostrzeżenia. Systemy weryfikacyjne mogą podpowiadać, że w danych kontaktowych organizacji powinna się znaleźć właściwość contactType. Do jej przydatnych wartości należą customer service, emergency, journalist, newsroompublic engagement. Możesz też ignorować błędy sygnalizujące, że ciąg csvw:Table jest nieoczekiwaną wartością właściwości mainEntity.

Definicje typów uporządkowanych danych

Aby treści mogły się wyświetlać w wynikach z elementami rozszerzonymi, musisz w nich stosować właściwości wymagane. Możesz też dodawać do nich właściwości zalecane, by wzbogacać informacje o treściach dla wygody użytkowników.

Znaczniki możesz sprawdzać za pomocą Narzędzia do testowania uporządkowanych danych.

Najważniejsze jest podanie informacji o zbiorze danych (czyli jego metadanych) i przedstawienie jego zawartości. Metadane zbioru danych wskazują np., czego on dotyczy, jakie zmienne podlegają w nim pomiarom, kto go utworzył itd. Metadane nie zawierają jednak np. konkretnych wartości zmiennych.

Dataset

Pełną definicję znaczników Dataset znajdziesz na schema.org/Dataset.

Możesz podać dodatkowe informacje o publikacji zbioru danych, np. licencję, termin jego opublikowania, jego identyfikator DOI lub właściwość sameAs wskazującą wersję kanoniczną zbioru danych w innym repozytorium. Właściwości identifier, licensesameAs dodawaj w przypadku zbiorów danych, które udostępniają informacje o pochodzeniu i licencji.

Właściwości wymagane
description Text

Krótkie podsumowanie zawartości zbioru danych.

Wytyczne

  • Podsumowanie musi mieścić się w zakresie od 50 do 5000 znaków.
  • Podsumowanie może zawierać składnię Markdown. Umieszczone obrazy muszą używać adresów URL ze ścieżkami bezwzględnymi (a nie względnymi).
  • Jeśli używasz formatu JSON-LD, oznacz nowe wiersze przy użyciu \n (dwa znaki: ukośnik lewy i mała litera „n”).
name Text

Nazwa opisowa zbioru danych, np. „Grubość pokrywy śnieżnej na półkuli północnej”.

Właściwości zalecane
alternateName Text

Nazwy alternatywne, które były używane jako odnośniki do tego zbioru danych, np. aliasy i skróty. Przykład w formacie JSON-LD:


"name": "The Quick, Draw! Dataset"
"alternateName": ["Quick Draw Dataset", "quickdraw-dataset"]
creator Person lub Organization

Twórca lub autor tego zbioru danych. Aby zidentyfikować w sposób unikalny osoby, użyj wartości ORCID ID właściwości sameAs typu Person. Aby zidentyfikować w sposób unikalny instytucje i organizacje, użyj wartości ROR ID. Przykład w formacie JSON-LD:


"creator": [
    {
        "@type": "Person",
        "sameAs": "http://orcid.org/0000-0000-0000-0000",
        "givenName": "Jane",
        "familyName": "Foo",
        "name": "Jane Foo"
    },
    {
        "@type": "Person",
        "sameAs": "http://orcid.org/0000-0000-0000-0001",
        "givenName": "Jo",
        "familyName": "Bar",
        "name": "Jo Bar"
    },
    {
        "@type": "Organization",
        "sameAs": "http://ror.org/xxxxxxxxx",
        "name": "Fictitious Research Consortium"
    }
]
citation Text lub CreativeWork

Wskazuje artykuły akademickie, które dostawca danych zaleca cytować wraz z samym zbiorem danych. Podaj cytat dla zbioru danych i dodaj informacje dotyczące innych właściwości, np. name, identifier, creatorpublisher. Na przykład ta właściwość może w sposób unikalny identyfikować powiązaną publikację akademicką, taką jak deskryptor danych, zestawienie danych lub artykuł, dla których ten zbiór danych jest materiałem uzupełniającym. Przykłady w formacie JSON-LD:


"citation": "https://doi.org/10.1111/111"

"citation": "https://identifiers.org/pubmed:11111111"

"citation": "https://identifiers.org/arxiv:0111.1111v1"

"citation":
 "Doe J (2014) Influence of X ... https://doi.org/10.1111/111"

Dodatkowe wytyczne

  • Nie używaj tej właściwości, by podać informacje o cytacie z samego zbioru danych. Służy ono do wskazywania powiązanych artykułów akademickich, a nie zbioru danych. Aby podać informacje potrzebne do cytowania zbioru danych, użyj właściwości name, identifier, creatorpublisher.
  • Gdy wypełniasz właściwość fragmentem cytatu, jeśli to możliwe, podaj identyfikator artykułu (np. DOI).

    Zalecana forma: „Nowak J. (2014) Wpływ X. Biologia 1(1). https://doi.org/10.1111/111”

    Niezalecana forma: „Nowak J. (2014) Wpływ X. Biologia 1(1).”

identifier URL, Text lub PropertyValue

Identyfikator, np. DOI lub kompaktowy. Jeśli zbiór danych ma kilka identyfikatorów, powtórz właściwość identifier. Jeśli używasz kodu JSON-LD, reprezentuje to składnia listy JSON.

keywords Text

Słowa kluczowe opisujące zawartość zbioru danych.

license URLCreativeWork

Licencja, w ramach której zbiór danych jest rozpowszechniany, np.:


"license" : "https://creativecommons.org/publicdomain/zero/1.0/"

"license" : {
  "@type": "CreativeWork",
  "name": "Custom license",
  "url": "https://example.com/custom_license"
  }

Dodatkowe wytyczne

  • Podaj adres URL, który jednoznacznie identyfikuje określoną wersję używanej licencji.

    Zalecane

    
    "license" : "https://creativecommons.org/licenses/by/4.0"

    Niezalecane

    
    "license" : "https://creativecommons.org/licenses/by"
sameAs URL

Adres URL referencyjnej strony internetowej, która jednoznacznie identyfikuje zbiór danych znajdujący się zwykle w innym repozytorium.

spatialCoverage Text, Place

Możesz wskazać pojedyncze miejsce, które oddaje aspekt przestrzenny zbioru danych. Używaj tej właściwości tylko wtedy, gdy zbiór danych ma jakiś wymiar przestrzenny. Może chodzić np. o pojedyncze miejsce, w którym przeprowadzono wszystkie pomiary, lub o współrzędne pola ograniczenia obszaru.

Miejsca


"spatialCoverage:" {
  "@type": "Place",
  "geo": {
    "@type": "GeoCoordinates",
    "latitude": 39.3280,
    "longitude": 120.1633
  }
}

Kształty

Używaj mikrodanych GeoShape do opisu obszarów o różnych kształtach, np. aby określić pole ograniczenia.


"spatialCoverage:" {
  "@type": "Place",
  "geo": {
    "@type": "GeoShape",
    "box": "39.3280 120.1633 40.445 123.7878"
  }
}

Punkty we właściwościach box, circle, line lub polygon muszą być wyrażone w postaci odrębnej pary dwóch wartości odpowiadających szerokości i długości geograficznej (w tym porządku).

Miejsca mające swoje nazwy


"spatialCoverage:" "Tahoe City, CA"
temporalCoverage Text

Informacje zawarte w zbiorze danych odnoszą się do określonego przedziału czasu. Używaj tej właściwości tylko wtedy, gdy zbiór danych ma jakiś wymiar czasowy. Opisy przedziałów czasu i punktów w czasie w mikrodanych schema.org muszą być zgodne ze standardem ISO 8601. Możesz różnie podawać daty zależnie od przedziału czasu zbioru danych. Przedziały czasu o nieokreślonym końcu należy oznaczać dwiema kropkami (..).

Pojedyncza data


"temporalCoverage" : "2008"

Przedział czasu


"temporalCoverage" : "1950-01-01/2013-12-18"

Przedział czasu o nieokreślonym końcu


"temporalCoverage" : "2013-12-19/.."
variableMeasured TextPropertyValue

Zmienna, której pomiary zawiera ten zbiór danych, np. temperatura lub ciśnienie.

version TextNumber

Numer wersji zbioru danych.

url URL

Lokalizacja strony z opisem zbioru danych.

DataCatalog

Pełną definicję znaczników DataCatalog znajdziesz na schema.org/DataCatalog.

Zbiory danych są często publikowane w repozytoriach, które zawierają też wiele innych zbiorów danych. Ten sam zbiór danych może występować w więcej niż jednym z takich repozytoriów. Do katalogu danych, do którego należy ten zbiór danych, możesz się odwoływać, sięgając bezpośrednio do niego.

Właściwości zalecane
includedInDataCatalog DataCatalog

Katalog, do którego należy zbiór danych.

DataDownload

Pełną definicję znaczników DataDownload znajdziesz na schema.org/DataDownload. Oprócz właściwości Dataset dodawaj poniższe właściwości do zbiorów danych, które udostępniają opcje pobierania.

Właściwość distribution podaje, jak można pozyskać zawartość zbioru danych, ponieważ adres URL wskazuje często stronę docelową zawierającą tylko jego opis. Właściwość distribution podaje, skąd i w jakim formacie można pobrać dane. Może ona mieć kilka wartości, np. wersja w formacie CSV może występować pod jednym adresem URL, a wersja w formacie programu Excel – pod innym.

Właściwości wymagane
distribution.contentUrl URL

Link do pobrania zbioru danych.

Właściwości
distribution DataDownload

Opis miejsca, z którego można pobrać zbiór danych, i formatu pliku, w jakim jest dostępny.

distribution.encodingFormat Text, URL

Format pliku z wersją dystrybucyjną.

Tabelaryczne zbiory danych

Tabelaryczny zbiór danych ma ogólnie strukturę siatki złożonej z wierszy i kolumn. W przypadku stron, które zawierają tabelaryczne zbiory danych, możesz też utworzyć bardziej jawne znaczniki, korzystając z podstawowej metody opisanej powyżej. Aktualnie nasze systemy rozpoznają odmianę formatu CSVW („CSV on the Web”, patrz witryna organizacji W3C) stosowaną równolegle z przeznaczonymi do wyświetlania użytkownikom treściami znajdującymi się na stronie HTML.

Oto przykład niewielkiej tabeli zakodowanej w formacie JSON-LD CSVW. Narzędzie do testowania uporządkowanych danych zgłasza w jego przypadku pewne znane błędy.

Pomoc i narzędzia