Dataset

I set di dati sono più facili da trovare quando fornisci informazioni di supporto come il nome, la descrizione, l'autore e i formati di distribuzione sotto forma di dati strutturati. L'approccio di Google al rilevamento di set di dati fa uso di schema.org e altri standard di metadati che possono essere aggiunti alle pagine che descrivono i set di dati. Lo scopo di questo markup è migliorare il rilevamento dei set di dati da settori come le scienze biologiche, le scienze sociali, il machine learning, i dati civici e amministrativi e altro ancora.

Di seguito sono riportati alcuni esempi di ciò che può essere considerato un set di dati:

  • Una tabella o un file CSV contenente alcuni dati
  • Una raccolta organizzata di tabelle
  • Un file in un formato proprietario che contiene dati
  • Una raccolta di file che insieme costituiscono un set di dati significativo
  • Un oggetto strutturato con dati in un altro formato che potresti voler caricare in uno speciale strumento per l'elaborazione
  • Dati di acquisizione delle immagini
  • File relativi al machine learning, quali parametri addestrati o definizioni di strutture di rete neurale
  • Tutto ciò che ritieni sia un set di dati

Il nostro approccio al rilevamento di set di dati

Siamo in grado di comprendere i dati strutturati nelle pagine web relative ai set di dati, utilizzando il markup Dataset schema.org o le strutture equivalenti rappresentate nel formato Data Catalog Vocabulary (DCAT) di W3C. Esaminiamo anche il supporto sperimentale per i dati strutturati basati su W3C CSVW e ci aspettiamo di evolvere e adattare il nostro approccio quando emergeranno le best practice per la descrizione dei set di dati. Per ulteriori informazioni sul nostro approccio al rilevamento di set di dati, consulta la sezione Semplificazione del rilevamento di set di dati pubblici.

Esempi

Ecco un esempio di set di dati che utilizza la sintassi JSON-LD (preferito) nello Strumento di test per i dati strutturati. Lo stesso vocabolario può essere utilizzato anche nei vocabolari RDFa 1.1, Microdati o W3C DCAT. L'esempio seguente si basa su una descrizione del set di dati del mondo reale.

JSON-LD

Ecco un esempio di set di dati in formato JSON-LD che utilizza lo Strumento di test per i dati strutturati.

RDFa

Ecco un esempio di set di dati in formato RDFa che utilizza lo Strumento di test per i dati strutturati.

Linee guida

I siti dovrebbero seguire le linee guida sui dati strutturati. Oltre alle linee guida sui dati strutturati, raccomandiamo la seguente Sitemap e le best practice relative a fonte e provenienza di seguito elencate.

Best practice relative a Sitemap

Utilizza un file Sitemap per consentire a Google di trovare i tuoi URL. L'utilizzo dei file Sitemap e del markup sameAs aiuta a documentare come le descrizioni dei set di dati sono pubblicate sul tuo sito.

Se disponi di un repository di set di dati, è probabile che tu abbia almeno due tipi di pagine: le pagine canoniche ("di destinazione") per ciascun set di dati e le pagine che elencano più set di dati (ad esempio, risultati di ricerca o alcuni sottoinsiemi di dati). Ti consigliamo di aggiungere dati strutturati relativi a un set di dati per le pagine canoniche. Utilizza la proprietà sameAs per collegarti alla pagina canonica se aggiungi dati strutturati a più copie del set di dati, ad esempio elenchi nelle pagine dei risultati di ricerca.

Best practice relative a fonte e provenienza

È abbastanza comune che i set di dati aperti vengano ripubblicati, aggregati e basati su altri set di dati. Si tratta di uno schema iniziale del nostro approccio alla rappresentazione di situazioni in cui un set di dati è la copia di un altro set di dati o è basato su di esso.

  • Utilizza la proprietà sameAs per indicare gli URL più canonici per l'originale nei casi in cui il set di dati (o la descrizione) sia una semplice ripubblicazione di materiali pubblicati altrove.
  • Utilizza la proprietà isBasedOn nei casi in cui il set di dati ripubblicato (inclusi i relativi metadati) sia stato modificato in modo significativo.
  • Quando un set di dati deriva da o aggrega diversi originali, utilizza la proprietà isBasedOn.
  • Utilizza la proprietà identifier per allegare qualsiasi identificatore digitale di un oggetto (DOI) rilevante.

Ci auguriamo di migliorare i nostri consigli in base ai feedback ricevuti, in particolare quelli relativi alla descrizione di provenienza, alla versione e alle date associate alla pubblicazione in una serie temporale. Unisciti anche tu alle discussioni della community.

Consigli relativi alle proprietà del testo

Ti consigliamo di limitare tutti i campi di testo a 5000 caratteri o meno. Ricerca Google per set di dati utilizza solo i primi 5000 caratteri di qualsiasi campo di testo. Nomi e titoli sono in genere poche parole o una breve frase.

Errori e avvertenze noti

Potresti riscontrare errori o avvisi nello Strumento di test per i dati strutturati di Google e in altri sistemi di convalida. In particolare, gli avvisi relativi a fileFormat (rinominato di recente in encodingFormat) possono essere tranquillamente ignorati. I sistemi di convalida possono anche suggerire alle organizzazioni di avere informazioni di contatto che includano un contactType; i valori utili includono customer service, emergency, journalist, newsroom e public engagement. È inoltre possibile ignorare gli errori per csvw:Table essendo questo un valore imprevisto per la proprietà mainEntity.

Definizioni dei tipi di dati strutturati

Affinché i tuoi contenuti siano idonei per essere visualizzati come risultato multimediale, devi includere le proprietà obbligatorie. Puoi anche includere le proprietà consigliate per aggiungere ulteriori informazioni sui tuoi contenuti, fornendo così un'esperienza utente migliore.

È possibile utilizzare lo Strumento di test per i dati strutturati per convalidare il markup.

L'attenzione si concentra sulla descrizione di informazioni relative a un set di dati (i suoi metadati) e sulla rappresentazione dei suoi contenuti. Ad esempio, i metadati del set di dati indicano di cosa tratta il set di dati, quali variabili misura, chi lo ha creato e così via e non, ad esempio, i valori specifici per le variabili.

Dataset

La definizione completa di Dataset è disponibile su schema.org/Dataset.

È possibile descrivere ulteriori informazioni sulla pubblicazione del set di dati, ad esempio la licenza, quando è stato pubblicato, il suo DOI o un sameAs che fa riferimento a una versione canonica del set di dati in un repository diverso. Aggiungi identifier, license e sameAs per i set di dati che forniscono informazioni sulla provenienza e sulla licenza.

Proprietà obbligatorie
description Text

Un breve riassunto che descrive un set di dati.

name Text

Un nome descrittivo di un set di dati. Ad esempio, "La profondità della neve nell'emisfero settentrionale".

Proprietà consigliate
citation Text o CreativeWork

Una citazione per una pubblicazione che descrive il set di dati. Ad esempio, "J.Smith 'Come ho creato un set di dati straordinario', Journal of Data Science, 1966".

identifier URL, Text o PropertyValue

Un identificatore per il set di dati, ad esempio un DOI.

keywords Text

Le parole chiave che riassumono il set di dati.

license URL, Text

Una licenza con cui il set di dati viene distribuito.

sameAs URL

Un link a una pagina che fornisce ulteriori informazioni sullo stesso set di dati, in genere in un altro repository.

spatialCoverage Text, Place

Puoi fornire un singolo punto che descrive l'aspetto spaziale del set di dati. Includi questa proprietà solo se il set di dati ha una dimensione spaziale. Ad esempio, un singolo punto in cui sono state raccolte tutte le misurazioni o le coordinate di un riquadro di delimitazione per un'area.

Punti

"spatialCoverage:" {
  "@type": "Place",
  "geo": {
    "@type": "GeoCoordinates",
    "latitude": 39.3280,
    "longitude": 120.1633
  }
}

Coordinate

Utilizza GeoShape per descrivere aree di diverse forme. Ad esempio, per specificare un riquadro di delimitazione.

"spatialCoverage:" {
  "@type": "Place",
  "geo": {
    "@type": "GeoShape",
    "box": "39.3280 120.1633 40.445 123.7878"
  }
}

Località con nome

"spatialCoverage:" "Tahoe City, CA"
temporalCoverage Text

I dati nel set di dati riguardano un intervallo di tempo specifico. Includi questa proprietà solo se il set di dati ha una dimensione temporale. Schema.org utilizza lo standard ISO 8601 per descrivere intervalli di tempo e punti temporali. Puoi descrivere le date in modo diverso a seconda dell'intervallo del set di dati. Indica intervalli aperti con due decimali (..).

Data unica

"temporalCoverage" : "2008"

Periodo di tempo

"temporalCoverage" : "1950-01-01/2013-12-18"

Periodo di tempo aperto

"temporalCoverage" : "2013-12-19/.."
variableMeasured Text, PropertyValue

La variabile misurata da questo set di dati. Ad esempio, temperatura o pressione.

version Text, Number

Il numero di versione per il set di dati.

url URL

Posizione di una pagina che descrive il set di dati.

DataCatalog

La definizione completa di DataCatalog è disponibile su schema.org/DataCatalog.

I set di dati sono spesso pubblicati in repository che contengono molti altri set di dati. Uno stesso set di dati può essere incluso in più di un repository. Puoi fare riferimento a un catalogo dati a cui appartiene questo set di dati facendo riferimento direttamente a esso.

Proprietà consigliate
includedInDataCatalog DataCatalog

Il catalogo a cui appartiene il set di dati.

DataDownload

La definizione completa di DataDownload è disponibile su schema.org/DataDownload. Oltre alle proprietà per set di dati, aggiungi le seguenti proprietà per set di dati che offrono opzioni di download.

La proprietà distribution descrive come ottenere il set di dati stesso perché l'URL punta spesso alla pagina di destinazione che descrive il set di dati. La proprietà distribution descrive da dove scaricare i dati e in quale formato. Questa proprietà può avere diversi valori: ad esempio, la versione CSV è disponibile a un URL e la versione Excel è disponibile a un altro URL.

Proprietà obbligatorie
distribution.contentUrl URL

Il link per il download.

Proprietà
distribution DataDownload

La descrizione della posizione per il download del set di dati e il formato del file per il download.

distribution.fileFormat Text

Il formato del file della distribuzione.

Set di dati tabulari

Un set di dati tabulare è organizzato principalmente in termini di una griglia di righe e colonne. Per le pagine che incorporano set di dati tabulari, puoi anche creare un markup più esplicito, basandoti sull'approccio di base descritto sopra. Al momento siamo a conoscenza di una variazione di CSVW ("CSV sul Web", vedi W3C), offerta in parallelo ai contenuti tabulari per l'utente nella pagina HTML.

Ecco un esempio che mostra una piccola tabella codificata in formato JSON-LD CSVW. Sono presenti alcuni errori noti nello Strumento di test per i dati strutturati.

Assistenza e strumenti

Invia feedback per...