É mais fácil encontrar conjuntos de dados quando são fornecidas informações de suporte, como nome, descrição, criador e formatos de distribuição, como dados estruturados. A abordagem do Google para a descoberta de conjuntos de dados usa o schema.org e outros padrões de metadados que podem ser adicionados a páginas que descrevem conjuntos de dados. O objetivo dessa marcação é melhorar a descoberta de conjuntos de dados de campos como ciências biológicas, ciências sociais, aprendizado de máquina, dados cívicos e governamentais, entre outros.
Veja alguns exemplos do que pode se qualificar como um conjunto de dados:
- Uma tabela ou um arquivo CSV com alguns dados
- Um conjunto organizado de tabelas
- Um arquivo em formato proprietário que contenha dados
- Uma coleção de arquivos que unidos formam um conjunto de dados significativo
- Um objeto estruturado com dados em algum outro formato que você queira carregar em uma ferramenta especial para processamento
- Imagens que capturam dados
- Arquivos relacionados ao aprendizado de máquina, como parâmetros treinados ou definições de estrutura de rede neural
- Tudo o que pareça um conjunto de dados para você
Nossa abordagem para a descoberta de conjunto de dados
Podemos processar dados estruturados em páginas da Web sobre conjuntos de dados usando a marcação de conjunto de dados do schema.org ou estruturas equivalentes representadas no formato de vocabulário do catálogo de dados (DCAT, na sigla em inglês) do W3C (páginas em inglês). Também estamos testando um suporte experimental para dados estruturados com base no CSVW do W3C. Esperamos aprimorar e adaptar nossa abordagem à medida que surjam práticas recomendadas para a descrição de conjuntos de dados. Para ver mais informações sobre nossa abordagem para a descoberta de conjunto de dados, consulte Facilitating the discovery of public datasets (Como facilitar a descoberta de conjuntos de dados públicos, texto em inglês).
Exemplos
Veja um exemplo de conjunto de dados que usa a sintaxe JSON-LD (preferencial) na Ferramenta de teste de dados estruturados. O mesmo vocabulário também pode ser usado no formato RDFa 1.1, microdados ou DCAT do W3C. O exemplo a seguir se baseia em uma descrição de conjunto de dados do mundo real.
Veja um exemplo de conjunto de dados em JSON-LD:
Veja um exemplo de conjunto de dados em RDFa:
Diretrizes
Os sites precisam seguir as diretrizes de dados estruturados. Além dessas diretrizes, indicamos as práticas recomendadas de sitemap e origem e procedência listadas abaixo.
Práticas recomendadas de sitemap
Use um arquivo de Sitemap para ajudar o Google a encontrar seus URLs. O uso de arquivos de Sitemap e da marcação sameAs
ajuda a documentar o modo como as descrições dos conjuntos de dados são publicadas em todo o site.
Se você tem um repositório de conjunto de dados, provavelmente tem pelo menos dois tipos de páginas: páginas canônicas ("de destino") para cada conjunto de dados e páginas que listam vários conjuntos de dados (por exemplo, resultados da pesquisa ou algum subconjunto de conjuntos de dados). Recomendamos que você adicione dados estruturados sobre um conjunto de dados às páginas canônicas. Use a propriedade sameAs
(todas as páginas referentes às propriedades em inglês) para vincular à página canônica se você adicionar dados estruturados a várias cópias do conjunto, como fichas em páginas de resultados da pesquisa.
Práticas recomendadas de origem e procedência
É comum que conjuntos de dados abertos sejam republicados, agregados e baseados em outros conjuntos de dados. Este texto é um esboço inicial da nossa abordagem para representar situações em que um conjunto de dados é uma cópia ou se baseia em outro conjunto de dados.
- Use a propriedade sameAs para indicar os URLs mais canônicos do original nos casos em que o conjunto de dados ou a descrição for uma simples republicação de materiais publicados em outro lugar.
- Use a propriedade
isBasedOn
nos casos em que o conjunto de dados republicado (incluindo os metadados) tiver sido significativamente alterado. - Quando um conjunto de dados derivar de vários originais ou os agregar, use a propriedade
isBasedOn
. - Use a propriedade
identifier
para anexar qualquer Digital Object identifier (DOI) ou identificador compacto relevante. Se o conjunto de dados tiver mais de um identificador, repita a propriedadeidentifier
. Ao usar JSON-LD, isso será representado usando a sintaxe de lista JSON.
Esperamos melhorar nossas recomendações com base no feedback recebido, especialmente a respeito da descrição de procedência, controle de versão e datas associadas à publicação de séries temporais. Participe das discussões da comunidade.
Recomendações de propriedade textual
Recomendamos limitar todas as propriedades textuais a, no máximo, 5.000 caracteres. A Google Pesquisa de Datasets só usa os primeiros 5.000 caracteres da propriedade de texto. Normalmente, são usadas poucas palavras ou uma frase curta para nomes e títulos.
Erros conhecidos e avisos
Você pode encontrar erros ou avisos na Ferramenta de teste de dados estruturados do Google e em outros sistemas de validação. Esses sistemas também podem sugerir que as organizações precisam ter dados de contato, incluindo um contactType
. Os valores úteis incluem customer service
, emergency
, journalist
, newsroom
e public engagement
.
Você também pode ignorar erros de que csvw:Table
é um valor inesperado para a propriedade mainEntity
.
Definições de tipos de dados estruturados
É necessário incluir as propriedades obrigatórias para que seu conteúdo esteja qualificado para exibição em uma pesquisa aprimorada. Você também pode incluir as propriedades recomendadas para adicionar mais informações sobre o conteúdo, o que pode proporcionar uma melhor experiência do usuário.
Você pode usar a Ferramenta de teste de dados estruturados para validar sua marcação.
O foco está em descrever informações sobre um conjunto de dados (os metadados dele) e representar o conteúdo desse conjunto. Por exemplo, os metadados do conjunto de dados informam do que se trata o conjunto de dados, quais variáveis ele mede, quem o criou e assim por diante. Eles não contêm, por exemplo, valores específicos para as variáveis.
Dataset
A definição completa de Dataset
está disponível em schema.org/Dataset (em inglês).
É possível descrever mais informações sobre a publicação do conjunto de dados, como a licença, a data em que foi publicado, o DOI ou um sameAs
apontando para uma versão canônica do conjunto de dados em um repositório diferente. Adicione identifier
, license
e sameAs
para conjuntos de dados que forneçam informações de procedência e licença.
Propriedades obrigatórias | |
---|---|
description
|
Text
É um breve resumo que descreve um conjunto de dados. Diretrizes
|
name
|
Text
É um nome descritivo de um conjunto de dados. Por exemplo, "Profundidade da neve no Hemisfério Norte". |
Propriedades recomendadas | |
---|---|
alternateName
|
Text
São nomes alternativos que foram usados para se referir ao conjunto de dados, como aliases ou abreviações. Exemplo (no formato JSON-LD): "name": "The Quick, Draw! Dataset" "alternateName": ["Quick Draw Dataset", "quickdraw-dataset"] |
creator
|
Person ou
Organization
É o criador ou autor deste conjunto de dados. Para identificar exclusivamente os indivíduos, use o código ORCID (em inglês) como o valor da propriedade "creator": [ { "@type": "Person", "sameAs": "http://orcid.org/0000-0000-0000-0000", "givenName": "Jane", "familyName": "Foo", "name": "Jane Foo" }, { "@type": "Person", "sameAs": "http://orcid.org/0000-0000-0000-0001", "givenName": "Jo", "familyName": "Bar", "name": "Jo Bar" }, { "@type": "Organization", "sameAs": "http://ror.org/xxxxxxxxx", "name": "Fictitious Research Consortium" } ] |
citation
|
Text ou CreativeWork
Identifica os artigos acadêmicos que são recomendados pelo provedor de dados citado, além do conjunto de dados em si. Forneça a citação do próprio conjunto de dados com outras propriedades, como "citation": "https://doi.org/10.1111/111" "citation": "https://identifiers.org/pubmed:11111111" "citation": "https://identifiers.org/arxiv:0111.1111v1" "citation": "Doe J (2014) Influence of X ... https://doi.org/10.1111/111" Diretrizes adicionais
|
identifier
|
URL , Text ou PropertyValue
É um identificador, como um DOI ou um identificador compacto. Se o conjunto de dados tiver mais de um identificador, repita a propriedade |
keywords
|
Text
Palavras-chave que resumem o conjunto de dados. |
license
|
URL , CreativeWork
Licença usada para distribuição do conjunto de dados. Exemplo: "license" : "https://creativecommons.org/publicdomain/zero/1.0/" "license" : { "@type": "CreativeWork", "name": "Custom license", "url": "https://example.com/custom_license" } |
sameAs
|
URL
Um link para uma página que fornece mais informações sobre o mesmo conjunto de dados, geralmente em um repositório diferente. |
spatialCoverage |
Text e Place
Você pode fornecer um único ponto que descreva o aspecto espacial do conjunto de dados. Só inclua essa propriedade se o conjunto de dados tiver uma dimensão espacial. Por exemplo, um único ponto em que todas as medidas foram coletadas, ou as coordenadas de uma caixa delimitadora para uma área. Pontos "spatialCoverage:" { "@type": "Place", "geo": { "@type": "GeoCoordinates", "latitude": 39.3280, "longitude": 120.1633 } } Formas Use GeoShape para descrever áreas de diferentes formatos. Por exemplo, ele pode especificar uma caixa delimitadora. "spatialCoverage:" { "@type": "Place", "geo": { "@type": "GeoShape", "box": "39.3280 120.1633 40.445 123.7878" } } Os pontos nas propriedades Locais nomeados "spatialCoverage:" "Tahoe City, CA" |
temporalCoverage |
Text
São os dados do conjunto de dados abrangem um intervalo de tempo específico. Só inclua essa propriedade se o conjunto de dados tiver uma dimensão temporal. O schema.org usa o padrão ISO 8601 para descrever intervalos e pontos de tempo. Você pode descrever datas de forma diferente, dependendo do intervalo do conjunto de dados. Indique intervalos abertos com dois pontos decimais ( Data única "temporalCoverage" : "2008" Período "temporalCoverage" : "1950-01-01/2013-12-18" Período aberto "temporalCoverage" : "2013-12-19/.." |
variableMeasured
|
Text e PropertyValue
A variável que o conjunto de dados mede. Por exemplo, temperatura ou pressão. |
version
|
Text e Number
É o número da versão do conjunto de dados. |
url
|
URL
É localização de uma página que descreve o conjunto de dados. |
DataCatalog
A definição completa de DataCatalog
está disponível em schema.org/DataCatalog (em inglês).
Os conjuntos de dados são frequentemente publicados em repositórios que contêm muitos outros conjuntos de dados. O mesmo conjunto de dados pode ser incluído em mais de um desses repositórios. Você pode indicar o catálogo de dados a que esse conjunto pertence referenciando-o diretamente.
Propriedades recomendadas | |
---|---|
includedInDataCatalog
|
DataCatalog
O catálogo a que o conjunto de dados pertence.
|
DataDownload
A definição completa de DataDownload
está disponível em schema.org/DataDownload (em inglês). Além das propriedades do conjunto de dados, adicione as propriedades a seguir para conjuntos de dados que forneçam opções de download.
A propriedade distribution
descreve como conseguir o conjunto de dados em si, considerando que o URL geralmente aponta para a página de destino que descreve o conjunto de dados. A propriedade distribution
descreve onde conseguir os dados e em que formato. Essa propriedade pode ter vários valores: por exemplo, uma versão em CSV tem um URL, e uma versão em Excel está disponível em outro.
Propriedades obrigatórias | |
---|---|
distribution.contentUrl
|
URL
É o link para o download. |
Propriedades | |
---|---|
distribution
|
DataDownload
É a descrição do local para o download do conjunto de dados e o formato de arquivo para o download.
|
distribution.encodingFormat
|
Text ,
URL
É o formato de arquivo da distribuição.
|
Conjuntos de dados tabulares
Um conjunto de dados tabular é organizado principalmente em termos de uma grade de linhas e colunas. Para páginas que incorporam conjuntos de dados tabulares, você também pode criar uma marcação mais explícita, com base na abordagem básica descrita acima. No momento, entendemos uma variação do CSVW ("CSV na Web", consulte W3C), fornecida em paralelo ao conteúdo tabular orientado ao usuário na página HTML.
Veja um exemplo que mostra uma pequena tabela codificada no formato CSVW JSON-LD. Há alguns erros conhecidos na Ferramenta de teste de dados estruturados.
Ajuda e ferramentas
- O Assistente de marcação para dados estruturados do Google é compatível com a marcação de conjunto de dados.
- O Fórum de Ajuda da Central do webmaster do Google sobre dados estruturados é um espaço para fazer e responder a perguntas sobre o assunto (incluindo conjuntos de dados). Veja também nossas Perguntas frequentes sobre conjuntos de dados.