Conjunto de dados

É mais fácil encontrar conjuntos de dados quando são fornecidas informações de suporte, como nome, descrição, criador e formatos de distribuição, como dados estruturados. A abordagem do Google para a descoberta de conjuntos de dados usa o schema.org e outros padrões de metadados que podem ser adicionados a páginas que descrevem conjuntos de dados. O objetivo dessa marcação é melhorar a descoberta de conjuntos de dados de campos como ciências biológicas, ciências sociais, aprendizado de máquina, dados cívicos e governamentais, entre outros.

Veja alguns exemplos do que pode se qualificar como um conjunto de dados:

  • uma tabela ou um arquivo CSV com alguns dados
  • um conjunto organizado de tabelas
  • um arquivo em formato proprietário que contenha dados
  • uma coleção de arquivos que unidos formam um conjunto de dados significativo
  • um objeto estruturado com dados em algum outro formato que você queira carregar em uma ferramenta especial para processamento
  • imagens que capturam dados
  • arquivos relacionados ao aprendizado de máquina, como parâmetros treinados ou definições de estrutura de rede neural
  • tudo o que pareça um conjunto de dados para você

Nossa abordagem para a descoberta de conjunto de dados

Podemos entender dados estruturados em páginas da Web sobre conjuntos de dados usando a marcação de conjunto de dados do schema.org ou estruturas equivalentes representadas no formato Vocabulário do Catálogo de Dados (DCAT, na sigla em inglês) do W3C. Também estamos testando um suporte experimental para dados estruturados com base no CSVW do W3C. Esperamos aprimorar e adaptar nossa abordagem à medida que surjam práticas recomendadas para a descrição de conjuntos de dados. Para ver mais informações sobre nossa abordagem para a descoberta de conjunto de dados, consulte Facilitating the discovery of public datasets (Como facilitar a descoberta de conjuntos de dados públicos, texto em inglês).

Exemplos

Veja um exemplo de conjunto de dados que usa a sintaxe JSON-LD (preferencial) na Ferramenta de teste de dados estruturados. O mesmo vocabulário também pode ser usado no formato RDFa 1.1, microdados ou DCAT do W3C. O exemplo a seguir se baseia em uma descrição de conjunto de dados do mundo real.

JSON-LD

Veja um exemplo de conjunto de dados em JSON-LD usando a Ferramenta de teste de dados estruturados:

RDFa

Veja um exemplo de conjunto de dados em RDFa usando a Ferramenta de teste de dados estruturados:

Diretrizes

Os sites precisam seguir as diretrizes de dados estruturados. Além dessas diretrizes, indicamos as práticas recomendadas de sitemap e origem e procedência listadas abaixo.

Práticas recomendadas de sitemap

Use um arquivo de Sitemap para ajudar o Google a encontrar seus URLs. O uso de arquivos de Sitemap e de marcação sameAs ajuda a documentar a forma como as descrições de conjuntos de dados são publicadas no site inteiro.

Se você tem um repositório de conjunto de dados, provavelmente tem pelo menos dois tipos de páginas: páginas canônicas ("de destino") para cada conjunto de dados e páginas que listam vários conjuntos de dados (por exemplo, resultados da pesquisa ou algum subconjunto de conjuntos de dados). Recomendamos que você adicione dados estruturados sobre um conjunto de dados às páginas canônicas. Use a propriedade sameAs para vincular à página canônica se adicionar dados estruturados a várias cópias do conjunto de dados, como fichas em páginas de resultados de pesquisa.

Práticas recomendadas de origem e procedência

É comum que conjuntos de dados abertos sejam republicados, agregados e baseados em outros conjuntos de dados. Este texto é um esboço inicial da nossa abordagem para representar situações em que um conjunto de dados é uma cópia ou se baseia em outro conjunto de dados.

  • Use a propriedade sameAs para indicar os URLs mais canônicos do original nos casos em que o conjunto de dados ou a descrição for uma simples republicação de materiais publicados em outro lugar.
  • Use a propriedade isBasedOn nos casos em que o conjunto de dados republicado (incluindo os metadados) tiver sido alterado significativamente.
  • Quando um conjunto de dados derivar de vários originais ou os agregar, use a propriedade isBasedOn.
  • Use a propriedade identifier para anexar qualquer Digital object identifier (DOI) relevante.

Esperamos melhorar nossas recomendações com base no feedback recebido, especialmente a respeito da descrição de procedência, controle de versão e datas associadas à publicação de séries temporais. Participe das discussões da comunidade.

Erros conhecidos e avisos

Você pode encontrar erros ou avisos na Ferramenta de teste de dados estruturados do Google e em outros sistemas de validação. Especificamente, os avisos sobre fileFormat (renomeado recentemente para encodingFormat) podem ser ignorados com segurança. Os sistemas de validação também podem sugerir que as organizações precisam ter dados de contato, incluindo um contactType. Os valores úteis incluem customer service, emergency, journalist, newsroom e public engagement. Você também pode ignorar erros de que csvw:Table é um valor inesperado para a propriedade mainEntity.

Definições de tipos de dados estruturados

É necessário incluir as propriedades obrigatórias para que seu conteúdo esteja qualificado para exibição em uma pesquisa aprimorada. Você também pode incluir as propriedades recomendadas para adicionar mais informações sobre o conteúdo, o que pode proporcionar uma melhor experiência do usuário.

Você pode usar a Ferramenta de teste de dados estruturados para validar sua marcação.

O foco está em descrever informações sobre um conjunto de dados (os metadados dele) e representar o conteúdo desse conjunto. Por exemplo, os metadados do conjunto de dados informam do que se trata o conjunto de dados, quais variáveis ele mede, quem o criou e assim por diante. Eles não contêm, por exemplo, valores específicos para as variáveis.

Conjunto de dados

A definição completa de Dataset está disponível em schema.org/Dataset.

É possível descrever mais informações sobre a publicação do conjunto de dados, como a licença, a data de publicação, o DOI dele ou um sameAs apontando para uma versão canônica do conjunto de dados em um repositório diferente. Adicione identifier, license e sameAs para conjuntos de dados que forneçam informações de procedência e licença.

Propriedades obrigatórias
description Text

Um breve resumo que descreve um conjunto de dados.

name Text

Um nome descritivo de um conjunto de dados. Por exemplo, "Profundidade da neve no Hemisfério Norte".

Propriedades recomendadas
citation Text ou CreativeWork

Uma citação de publicação que descreve o conjunto de dados. Por exemplo, "J. Smith, 'Como criei um conjunto de dados incrível', Journal of Data Science, 1966".

identifier URL, Text ou PropertyValue

Um identificador para o conjunto de dados, como um DOI.

keywords Text

Palavras-chave que resumem o conjunto de dados.

license URL, Text

Licença usada para distribuição do conjunto de dados.

sameAs URL

Um link para uma página que fornece mais informações sobre o mesmo conjunto de dados, geralmente em um repositório diferente.

spatialCoverage Text, Place

Você pode fornecer um único ponto que descreva o aspecto espacial do conjunto de dados. Só inclua essa propriedade se o conjunto de dados tiver uma dimensão espacial. Por exemplo, um único ponto em que todas as medidas foram coletadas, ou as coordenadas de uma caixa delimitadora para uma área.

Pontos

"spatialCoverage:" {
  "@type": "Place",
  "geo": {
    "@type": "GeoCoordinates",
    "latitude": 39.3280,
    "longitude": 120.1633
  }
}

Coordenadas

Use GeoShape para descrever áreas de diferentes formatos. Por exemplo, para especificar uma caixa delimitadora.

"spatialCoverage:" {
  "@type": "Place",
  "geo": {
    "@type": "GeoShape",
    "box": "39.3280 120.1633 40.445 123.7878"
  }
}

Locais nomeados

"spatialCoverage:" "Tahoe City, CA"
temporalCoverage Text

Os dados do conjunto de dados abrangem um intervalo de tempo específico. Só inclua essa propriedade se o conjunto de dados tiver uma dimensão temporal. O schema.org usa o padrão ISO 8601 para descrever intervalos e pontos de tempo. Você pode descrever datas de forma diferente, dependendo do intervalo do conjunto de dados. Indique intervalos abertos com dois pontos decimais (..).

Data única

"temporalCoverage" : "2008"

Período

"temporalCoverage" : "1950-01-01/2013-12-18"

Período aberto

"temporalCoverage" : "2013-12-19/.."
variableMeasured Text, PropertyValue

A variável que o conjunto de dados mede. Por exemplo, temperatura ou pressão.

version Text, Number

O número da versão do conjunto de dados.

url URL

Localização de uma página que descreve o conjunto de dados.

DataCatalog

A definição completa de DataCatalog está disponível em schema.org/DataCatalog.

Os conjuntos de dados são frequentemente publicados em repositórios que contêm muitos outros conjuntos de dados. O mesmo conjunto de dados pode ser incluído em mais de um desses repositórios. Você pode indicar o catálogo de dados ao qual esse conjunto pertence referenciando-o diretamente.

Propriedades recomendadas
includedInDataCatalog DataCatalog

O catálogo ao qual o conjunto de dados pertence.

DataDownload

A definição completa de DataDownload está disponível em schema.org/DataDownload. Além das propriedades do conjunto de dados, adicione as propriedades a seguir para conjuntos de dados que forneçam opções de download.

A propriedade de distribution descreve como conseguir o conjunto de dados em si, considerando que o URL geralmente aponta para a página de destino que descreve o conjunto de dados. A propriedade distribution descreve onde conseguir os dados e em qual formato. Essa propriedade pode ter vários valores: por exemplo, uma versão em CSV tem um URL, e uma versão em Excel está disponível em outro.

Propriedades obrigatórias
distribution.contentUrl URL

O link para o download.

Propriedades
distribution DataDownload

A descrição do local para download do conjunto de dados e o formato de arquivo para download.

distribution.fileFormat Text

O formato de arquivo da distribuição.

Conjuntos de dados tabulares

Um conjunto de dados tabular é organizado principalmente em termos de uma grade de linhas e colunas. Para páginas que incorporam conjuntos de dados tabulares, você também pode criar uma marcação mais explícita, com base na abordagem básica descrita acima. No momento, entendemos uma variação do CSVW ("CSV na Web", consulte W3C), fornecida em paralelo ao conteúdo tabular orientado ao usuário na página HTML.

Veja um exemplo que mostra uma pequena tabela codificada no formato CSVW JSON-LD. Há alguns erros conhecidos na Ferramenta de teste de dados estruturados.

Ajuda e ferramentas

Enviar comentários sobre…