Zbiór danych

Zbiory danych będą łatwiejsze do znalezienia, jeśli informacje pomocnicze o nich, np. nazwę, opis, twórcę i formaty dystrybucyjne, podasz w formie uporządkowanych danych. Stosowana przez Google metoda odkrywania zbiorów danych polega na korzystaniu ze znaczników schema.org i innych metadanych, które można dodawać do stron opisujących zbiory danych. Celem stosowania tych znaczników jest ulepszenie odkrywania zbiorów danych z takich dziedzin jak nauki przyrodnicze, nauki społeczne, systemy uczące się, dane o obywatelach, dane rządowe itp.

Oto kilka przykładów zbiorów danych:

  • tablica lub plik CSV z jakimiś danymi;
  • uporządkowany zbiór tablic;
  • plik w zastrzeżonym formacie zawierający dane;
  • zbiór plików, które stanowią razem sensowny zbiór danych;
  • uporządkowany obiekt z danymi w jakimś innym formacie, które chcesz wczytać do specjalnego narzędzia służącego do ich przetwarzania;
  • obrazy zawierające dane;
  • pliki związane z systemami uczącymi się, np. wyuczone parametry lub definicje struktur sieci neuronowych;
  • cokolwiek, co wygląda dla Ciebie jak zbiór danych.

Nasza metoda odkrywania zbiorów danych

Możemy rozpoznawać na stronach internetowych uporządkowane dane o zbiorach danych, korzystając ze znaczników Dataset schema.org albo z odpowiadających im struktur występujących w formacie Data Catalog Vocabulary (DCAT) opracowanym przez organizację W3C. Badamy też eksperymentalną obsługę uporządkowanych danych opartych na formacie CSVW organizacji W3C. Planujemy rozwijanie i modyfikowanie naszej metody w miarę pojawiania się nowych, lepszych sposobów opisywania zbiorów danych. Więcej informacji o naszej metodzie odkrywania zbiorów danych znajdziesz w artykule Facilitating the discovery of public datasets (Ułatwianie odkrywania publicznych zbiorów danych).

Przykłady

Oto przykład zbiorów danych zapisanych zgodnie ze składnią JSON-LD (preferowaną) w narzędziu do testowania uporządkowanych danych. Tej samej składni można też używać w przypadku słowników mikrodanych, RDFa 1.1 i W3C DCAT. Poniższy przykład oparto na opisie rzeczywistego zbioru danych.

JSON-LD

Oto przykład zbioru danych zapisanego w postaci kodu JSON-LD:

RDFa

Oto przykład zbioru danych zapisanego w postaci kodu RDFa:

Wytyczne

Witryny powinny być zgodne z wytycznymi dotyczącymi uporządkowanych danych. Dodatkowo zalecamy stosowanie podanych poniżej sprawdzonych metod związanych z mapą witryny oraz ze źródłem i pochodzeniem zbiorów danych.

Sprawdzone metody związane z mapą witryny

Używaj pliku mapy witryny, by pomagać Google w znajdowaniu Twoich adresów URL. Dzięki tym plikom oraz znacznikom sameAs można łatwiej udokumentować sposób publikowania w Twojej witrynie opisów zbiorów danych.

Jeśli masz repozytorium zbiorów danych, zawiera ono pewnie co najmniej dwa rodzaje stron: strony kanoniczne („docelowe”) każdego zbioru danych i strony z listą wielu zbiorów danych (np. z wynikami wyszukiwania lub z podzbiorami zbiorów danych). Zalecamy dodawanie uporządkowanych danych o zbiorach danych do stron kanonicznych. Jeśli dodasz uporządkowane dane do wielu kopii zbioru danych, np. do informacji o nim na stronach z wynikami wyszukiwania, użyj właściwości sameAs, by wskazać stronę kanoniczną.

Sprawdzone metody związane ze źródłem i pochodzeniem zbiorów danych

Zbiory danych o otwartym dostępie często bywają ponownie publikowane i agregowane oraz oparte na innych zbiorach danych. Oto nasza wstępna propozycja sposobu uporządkowania sytuacji, w których zbiór danych jest kopią innego zbioru danych lub został utworzony na jego podstawie.

  • Używaj właściwości sameAs do wskazywania najbardziej kanonicznych adresów URL oryginałów w przypadkach, gdy zbiór danych lub opis jest prostym powieleniem materiałów opublikowanych gdzie indziej.
  • Używaj właściwości isBasedOn w przypadkach, gdy ponownie opublikowany zbiór danych (łącznie z jego metadanymi) uległ istotnym zmianom.
  • Jeśli zbiór danych czerpie informacje z wielu oryginalnych zbiorów lub jest ich zestawieniem, używaj właściwości isBasedOn.
  • Do dołączania wszelkich niezbędnych identyfikatorów cyfrowych (DOI) lub kompaktowych używaj właściwości identifier. Jeśli zbiór danych ma kilka identyfikatorów, powtórz właściwość identifier. Jeśli używasz kodu JSON-LD, reprezentuje to składnia listy JSON.

Mamy nadzieję, że polepszymy nasze zalecenia dzięki otrzymanym opiniom, szczególnie w przypadku opisu pochodzenia, obsługi wersji i dat związanych z publikowaniem ciągów czasowych. Dołącz do dyskusji w ramach społeczności.

Zalecenia związane z właściwościami tekstowymi

Zalecamy ograniczenie wszystkich pól tekstowych do maksymalnie 5000 znaków. Usługa Wyszukiwanie zbiorów danych Google używa tylko pierwszych 5000 znaków z każdego pola tekstowego. Nazwy i tytuły mają zwykle postać kilku słów lub krótkich zdań.

Znane błędy i ostrzeżenia

W naszym Narzędziu do testowania uporządkowanych danych i w innych systemach weryfikacyjnych mogą Ci się wyświetlać błędy lub ostrzeżenia. Systemy weryfikacyjne mogą podpowiadać, że w danych kontaktowych organizacji powinna się znaleźć właściwość contactType. Do jej przydatnych wartości należą customer service, emergency, journalist, newsroompublic engagement. Możesz też ignorować błędy sygnalizujące, że ciąg csvw:Table jest nieoczekiwaną wartością właściwości mainEntity.

Definicje typów uporządkowanych danych

Aby treści mogły się wyświetlać w wynikach z elementami rozszerzonymi, musisz w nich stosować właściwości wymagane. Możesz też dodawać do nich właściwości zalecane, by wzbogacać informacje o treściach i zwiększać w ten sposób komfort użytkowników.

Znaczniki możesz sprawdzać za pomocą narzędzia do testowania uporządkowanych danych.

Najważniejsze jest podanie informacji o zbiorze danych (czyli jego metadanych) i przedstawienie jego zawartości. Metadane zbioru danych wskazują np., czego on dotyczy, jakie zmienne podlegają w nim pomiarom, kto go utworzył itd. Metadane nie zawierają jednak np. konkretnych wartości zmiennych.

Zbiór danych

Pełną definicję znaczników Dataset znajdziesz na schema.org/Dataset.

Możesz podać dodatkowe informacje o publikacji zbioru danych, np. licencję, termin jego opublikowania, jego identyfikator DOI lub właściwość sameAs wskazującą wersję kanoniczną zbioru danych w innym repozytorium. Właściwości identifier, licensesameAs dodawaj w przypadku zbiorów danych, które udostępniają informacje o pochodzeniu i licencji.

Właściwości wymagane
description Text

Krótkie podsumowanie zawartości zbioru danych.

Wytyczne

  • Podsumowanie musi mieścić się w zakresie od 50 do 5000 znaków.
  • Podsumowanie może zawierać składnię Markdown. Umieszczone obrazy muszą używać adresów URL ze ścieżkami bezwzględnymi (a nie względnymi).
  • Jeśli używasz formatu JSON-LD, oznacz nowe wiersze przy użyciu \n (dwa znaki: ukośnik lewy i mała litera „n”).
name Text

Nazwa opisowa zbioru danych, np. „Grubość pokrywy śnieżnej na półkuli północnej”.

Właściwości zalecane
alternateName Text

Nazwy alternatywne, które były używane jako odnośniki do tego zbioru danych, np. aliasy i skróty. Przykład w formacie JSON-LD:

"name": "The Quick, Draw! Dataset"
"alternateName": ["Quick Draw Dataset", "quickdraw-dataset"]
citation Text lub CreativeWork

Wskazuje artykuły akademickie, które dostawca danych zaleca cytować wraz z samym zbiorem danych. Podaj cytat dla zbioru danych i dodaj informacje w innych polach, np. name, identifier, creatorpublisher. Na przykład to pole może w sposób unikalny identyfikować powiązaną publikację akademicką, taką jak deskryptor danych, zestawienie danych lub artykuł, dla których ten zbiór danych jest materiałem uzupełniającym. Przykłady w formacie JSON-LD:

"citation": "https://doi.org/10.1111/111"
"citation": "https://identifiers.org/pubmed:11111111"
"citation": "https://identifiers.org/arxiv:0111.1111v1"
"citation":
 "Doe J (2014) Influence of X ... https://doi.org/10.1111/111"

Dodatkowe wytyczne

  • Nie używaj tego pola, by podać informacje o cytacie z samego zbioru danych. Służy ono do wskazywania powiązanych artykułów akademickich, a nie zbioru danych. Aby podać informacje potrzebne do cytowania zbioru danych, użyj pól name, identifier, creatorpublisher.
  • Gdy wypełniasz pole fragmentem cytatu, jeśli to możliwe, podaj identyfikator artykułu (np. DOI).

    Zalecana forma: „Nowak J. (2014) Wpływ X. Biologia 1(1). https://doi.org/10.1111/111”

    Niezalecana forma: „Nowak J. (2014) Wpływ X. Biologia 1(1).”

identifier URL, Text lub PropertyValue

Identyfikator, np. DOI lub kompaktowy. Jeśli zbiór danych ma kilka identyfikatorów, powtórz właściwość identifier. Jeśli używasz kodu JSON-LD, reprezentuje to składnia listy JSON.

keywords Text

Słowa kluczowe opisujące zawartość zbioru danych.

license URL, Text

Licencja, w ramach której zbiór danych jest rozpowszechniany.

sameAs URL

Link do strony, która podaje więcej informacji o takim samym zbiorze danych znajdującym się zwykle w innym repozytorium.

spatialCoverage Text, Place

Możesz wskazać pojedyncze miejsce, które oddaje aspekt przestrzenny zbioru danych. Używaj tej właściwości tylko wtedy, gdy zbiór danych ma jakiś wymiar przestrzenny. Może chodzić np. o pojedyncze miejsce, w którym przeprowadzono wszystkie pomiary, lub o współrzędne pola ograniczenia obszaru.

Miejsca

"spatialCoverage:" {
  "@type": "Place",
  "geo": {
    "@type": "GeoCoordinates",
    "latitude": 39.3280,
    "longitude": 120.1633
  }
}

Kształty

Używaj mikrodanych GeoShape do opisu obszarów o różnych kształtach, np. by określić ograniczenie.

"spatialCoverage:" {
  "@type": "Place",
  "geo": {
    "@type": "GeoShape",
    "box": "39.3280 120.1633 40.445 123.7878"
  }
}

Punkty we właściwościach box, circle, line lub polygon muszą być wyrażone w postaci odrębnej pary dwóch wartości odpowiadających szerokości i wysokości (w tym porządku).

Miejsca mające swoje nazwy

"spatialCoverage:" "Tahoe City, CA"
temporalCoverage Text

Informacje zawarte w zbiorze danych odnoszą się do określonego przedziału czasu. Używaj tej właściwości tylko wtedy, gdy zbiór danych ma jakiś wymiar czasowy. Opisy przedziałów czasu i punktów w czasie w mikrodanych schema.org muszą być zgodne ze standardem ISO 8601. Możesz różnie podawać daty zależnie od przedziału czasu zbioru danych. Przedziały czasu o nieokreślonym końcu należy oznaczać dwiema kropkami (..).

Pojedyncza data

"temporalCoverage" : "2008"

Przedział czasu

"temporalCoverage" : "1950-01-01/2013-12-18"

Przedział czasu o nieokreślonym końcu

"temporalCoverage" : "2013-12-19/.."
variableMeasured Text, PropertyValue

Zmienna, której pomiary zawiera ten zbiór danych, np. temperatura lub ciśnienie.

version Text, Number

Numer wersji zbioru danych.

url URL

Lokalizacja strony z opisem zbioru danych.

DataCatalog

Pełna definicja znaczników DataCatalog znajduje się na schema.org/DataCatalog.

Zbiory danych są często publikowane w repozytoriach, które zawierają też wiele innych zbiorów danych. Ten sam zbiór danych może występować w więcej niż jednym z takich repozytoriów. Do katalogu danych, do którego należy ten zbiór danych, możesz się odwoływać, sięgając bezpośrednio do niego.

Właściwości zalecane
includedInDataCatalog DataCatalog

Katalog, do którego należy zbiór danych.

DataDownload

Pełna definicja znaczników DataDownload znajduje się na schema.org/DataDownload. Oprócz właściwości Dataset dodawaj poniższe właściwości do zbiorów danych, które udostępniają opcje pobierania.

Właściwość distribution podaje, jak można pozyskać zawartość zbioru danych, ponieważ adres URL wskazuje często stronę docelową zawierającą tylko jego opis. Właściwość distribution podaje, skąd i w jakim formacie można pobrać dane. Może ona mieć kilka wartości, np. wersja w formacie CSV może występować pod jednym adresem URL, a wersja w formacie programu Excel – pod innym.

Właściwości wymagane
distribution.contentUrl URL

Link do pobrania zbioru danych.

Właściwości
distribution DataDownload

Opis miejsca, z którego można pobrać zbiór danych, i formatu pliku, w jakim jest dostępny.

distribution.fileFormat Text

Format pliku z wersją dystrybucyjną.

Tabelaryczne zbiory danych

Tabelaryczny zbiór danych ma ogólnie strukturę siatki złożonej z wierszy i kolumn. W przypadku stron, które zawierają tabelaryczne zbiory danych, także możesz utworzyć bardziej jawne znaczniki, korzystając z podstawowej metody opisanej powyżej. Aktualnie nasze systemy rozpoznają odmianę formatu CSVW („CSV on the Web”, patrz witryna organizacji W3C) stosowaną równolegle z przeznaczonymi do wyświetlania użytkownikom treściami znajdującymi się na stronie HTML.

Oto przykład niewielkiej tabeli zakodowanej w formacie JSON-LD CSVW. Narzędzie do testowania uporządkowanych danych zgłasza w jego przypadku pewne znane błędy.

Pomoc i narzędzia

Wyślij opinię na temat...