Conjunto de dados

É mais fácil encontrar conjuntos de dados quando são fornecidas informações de suporte, como nome, descrição, criador e formatos de distribuição, como dados estruturados. A abordagem do Google para a descoberta de conjuntos de dados usa o schema.org e outros padrões de metadados que podem ser adicionados a páginas que descrevem conjuntos de dados. O objetivo dessa marcação é melhorar a descoberta de conjuntos de dados de campos como ciências biológicas, ciências sociais, aprendizado de máquina, dados cívicos e governamentais, entre outros.

Veja alguns exemplos do que pode se qualificar como um conjunto de dados:

  • Uma tabela ou um arquivo CSV com alguns dados
  • Um conjunto organizado de tabelas
  • Um arquivo em formato proprietário que contenha dados
  • Uma coleção de arquivos que unidos formam um conjunto de dados significativo
  • Um objeto estruturado com dados em algum outro formato que você queira carregar em uma ferramenta especial para processamento
  • Imagens que capturam dados
  • Arquivos relacionados ao aprendizado de máquina, como parâmetros treinados ou definições de estrutura de rede neural
  • Tudo o que pareça um conjunto de dados para você

Nossa abordagem para a descoberta de conjunto de dados

Podemos processar dados estruturados em páginas da Web sobre conjuntos de dados usando a marcação de conjunto de dados do schema.org ou estruturas equivalentes representadas no formato de vocabulário do catálogo de dados (DCAT, na sigla em inglês) do W3C (páginas em inglês). Também estamos testando um suporte experimental para dados estruturados com base no CSVW do W3C. Esperamos aprimorar e adaptar nossa abordagem à medida que surjam práticas recomendadas para a descrição de conjuntos de dados. Para ver mais informações sobre nossa abordagem para a descoberta de conjunto de dados, consulte Facilitating the discovery of public datasets (Como facilitar a descoberta de conjuntos de dados públicos, texto em inglês).

Exemplos

Veja um exemplo de conjunto de dados que usa a sintaxe JSON-LD (preferencial) na Ferramenta de teste de dados estruturados. O mesmo vocabulário também pode ser usado no formato RDFa 1.1, microdados ou DCAT do W3C. O exemplo a seguir se baseia em uma descrição de conjunto de dados do mundo real.

JSON-LD

Veja um exemplo de conjunto de dados em JSON-LD:

RDFa

Veja um exemplo de conjunto de dados em RDFa:

Diretrizes

Os sites precisam seguir as diretrizes de dados estruturados. Além dessas diretrizes, indicamos as práticas recomendadas de sitemap e origem e procedência listadas abaixo.

Práticas recomendadas de sitemap

Use um arquivo de Sitemap para ajudar o Google a encontrar seus URLs. O uso de arquivos de Sitemap e da marcação sameAs ajuda a documentar o modo como as descrições dos conjuntos de dados são publicadas em todo o site.

Se você tem um repositório de conjunto de dados, provavelmente tem pelo menos dois tipos de páginas: páginas canônicas ("de destino") para cada conjunto de dados e páginas que listam vários conjuntos de dados (por exemplo, resultados da pesquisa ou algum subconjunto de conjuntos de dados). Recomendamos que você adicione dados estruturados sobre um conjunto de dados às páginas canônicas. Use a propriedade sameAs (todas as páginas referentes às propriedades em inglês) para vincular à página canônica se você adicionar dados estruturados a várias cópias do conjunto, como fichas em páginas de resultados da pesquisa.

Práticas recomendadas de origem e procedência

É comum que conjuntos de dados abertos sejam republicados, agregados e baseados em outros conjuntos de dados. Este texto é um esboço inicial da nossa abordagem para representar situações em que um conjunto de dados é uma cópia ou se baseia em outro conjunto de dados.

  • Use a propriedade sameAs para indicar os URLs mais canônicos do original nos casos em que o conjunto de dados ou a descrição for uma simples republicação de materiais publicados em outro lugar.
  • Use a propriedade isBasedOn nos casos em que o conjunto de dados republicado (incluindo os metadados) tiver sido significativamente alterado.
  • Quando um conjunto de dados derivar de vários originais ou os agregar, use a propriedade isBasedOn.
  • Use a propriedade identifier para anexar qualquer Digital Object identifier (DOI) ou identificador compacto relevante. Se o conjunto de dados tiver mais de um identificador, repita a propriedade identifier. Ao usar JSON-LD, isso será representado usando a sintaxe de lista JSON.

Esperamos melhorar nossas recomendações com base no feedback recebido, especialmente a respeito da descrição de procedência, controle de versão e datas associadas à publicação de séries temporais. Participe das discussões da comunidade.

Recomendações de propriedade textual

Recomendamos limitar todas as propriedades textuais a, no máximo, 5.000 caracteres. A Google Pesquisa de Datasets só usa os primeiros 5.000 caracteres da propriedade de texto. Normalmente, são usadas poucas palavras ou uma frase curta para nomes e títulos.

Erros conhecidos e avisos

Você pode encontrar erros ou avisos na Ferramenta de teste de dados estruturados do Google e em outros sistemas de validação. Esses sistemas também podem sugerir que as organizações precisam ter dados de contato, incluindo um contactType. Os valores úteis incluem customer service, emergency, journalist, newsroom e public engagement. Você também pode ignorar erros de que csvw:Table é um valor inesperado para a propriedade mainEntity.

Definições de tipos de dados estruturados

É necessário incluir as propriedades obrigatórias para que seu conteúdo esteja qualificado para exibição em uma pesquisa aprimorada. Você também pode incluir as propriedades recomendadas para adicionar mais informações sobre o conteúdo, o que pode proporcionar uma melhor experiência do usuário.

Você pode usar a Ferramenta de teste de dados estruturados para validar sua marcação.

O foco está em descrever informações sobre um conjunto de dados (os metadados dele) e representar o conteúdo desse conjunto. Por exemplo, os metadados do conjunto de dados informam do que se trata o conjunto de dados, quais variáveis ele mede, quem o criou e assim por diante. Eles não contêm, por exemplo, valores específicos para as variáveis.

Dataset

A definição completa de Dataset está disponível em schema.org/Dataset (em inglês).

É possível descrever mais informações sobre a publicação do conjunto de dados, como a licença, a data em que foi publicado, o DOI ou um sameAs apontando para uma versão canônica do conjunto de dados em um repositório diferente. Adicione identifier, license e sameAs para conjuntos de dados que forneçam informações de procedência e licença.

Propriedades obrigatórias
description Text

É um breve resumo que descreve um conjunto de dados.

Diretrizes

  • O resumo precisa ter entre 50 e 5.000 caracteres.
  • O resumo pode incluir a sintaxe Markdown. As imagens precisam usar URLs de caminho absoluto, e não relativo.
  • Ao usar o formato JSON-LD, indique novas linhas com \n (dois caracteres: barra invertida e "n" minúsculo).
name Text

É um nome descritivo de um conjunto de dados. Por exemplo, "Profundidade da neve no Hemisfério Norte".

Propriedades recomendadas
alternateName Text

São nomes alternativos que foram usados para se referir ao conjunto de dados, como aliases ou abreviações. Exemplo (no formato JSON-LD):


"name": "The Quick, Draw! Dataset"
"alternateName": ["Quick Draw Dataset", "quickdraw-dataset"]
creator Person ou Organization

É o criador ou autor deste conjunto de dados. Para identificar exclusivamente os indivíduos, use o código ORCID (em inglês) como o valor da propriedade sameAs do tipo Person. Para identificar exclusivamente instituições e organizações, use o código da ROR (em inglês). Exemplo (no formato JSON-LD):


"creator": [
    {
        "@type": "Person",
        "sameAs": "http://orcid.org/0000-0000-0000-0000",
        "givenName": "Jane",
        "familyName": "Foo",
        "name": "Jane Foo"
    },
    {
        "@type": "Person",
        "sameAs": "http://orcid.org/0000-0000-0000-0001",
        "givenName": "Jo",
        "familyName": "Bar",
        "name": "Jo Bar"
    },
    {
        "@type": "Organization",
        "sameAs": "http://ror.org/xxxxxxxxx",
        "name": "Fictitious Research Consortium"
    }
]
citation Text ou CreativeWork

Identifica os artigos acadêmicos que são recomendados pelo provedor de dados citado, além do conjunto de dados em si. Forneça a citação do próprio conjunto de dados com outras propriedades, como name, identifier, creator e publisher. Por exemplo, essa propriedade pode identificar exclusivamente uma publicação acadêmica relacionada, como um descritor de dados, um documento de dados ou um artigo que seja material suplementar para esse conjunto de dados. Exemplos (no formato JSON-LD):


"citation": "https://doi.org/10.1111/111"

"citation": "https://identifiers.org/pubmed:11111111"

"citation": "https://identifiers.org/arxiv:0111.1111v1"

"citation":
 "Doe J (2014) Influence of X ... https://doi.org/10.1111/111"

Diretrizes adicionais

  • Não use a propriedade para fornecer informações de citação do próprio conjunto de dados. Ele se destina a identificar artigos acadêmicos relacionados, não o próprio conjunto. Em vez disso, para fornecer as informações necessárias a fim de citar o conjunto de dados em si, use as propriedades name, identifier, creator e publisher.
  • Ao preencher a propriedade de citação com um snippet correspondente, forneça o identificador do artigo (como um DOI) sempre que possível.

    Recomendado: "Doe J (2014) Influence of X. Biomics 1(1). https://doi.org/10.1111/111"

    Não recomendado: "Doe J (2014) Influence of X. Biomics 1(1)."

identifier URL, Text ou PropertyValue

É um identificador, como um DOI ou um identificador compacto. Se o conjunto de dados tiver mais de um identificador, repita a propriedade identifier. Ao usar JSON-LD, isso será representado com a sintaxe de lista JSON.

keywords Text

Palavras-chave que resumem o conjunto de dados.

license URL, CreativeWork

Licença usada para distribuição do conjunto de dados. Exemplo:


"license" : "https://creativecommons.org/publicdomain/zero/1.0/"

"license" : {
  "@type": "CreativeWork",
  "name": "Custom license",
  "url": "https://example.com/custom_license"
  }
sameAs URL

Um link para uma página que fornece mais informações sobre o mesmo conjunto de dados, geralmente em um repositório diferente.

spatialCoverage Text e Place

Você pode fornecer um único ponto que descreva o aspecto espacial do conjunto de dados. Só inclua essa propriedade se o conjunto de dados tiver uma dimensão espacial. Por exemplo, um único ponto em que todas as medidas foram coletadas, ou as coordenadas de uma caixa delimitadora para uma área.

Pontos


"spatialCoverage:" {
  "@type": "Place",
  "geo": {
    "@type": "GeoCoordinates",
    "latitude": 39.3280,
    "longitude": 120.1633
  }
}

Formas

Use GeoShape para descrever áreas de diferentes formatos. Por exemplo, ele pode especificar uma caixa delimitadora.


"spatialCoverage:" {
  "@type": "Place",
  "geo": {
    "@type": "GeoShape",
    "box": "39.3280 120.1633 40.445 123.7878"
  }
}

Os pontos nas propriedades box, circle, line ou polygon precisam ser expressos como um par de valores separados por espaço e correspondentes à latitude e à longitude (nessa ordem).

Locais nomeados


"spatialCoverage:" "Tahoe City, CA"
temporalCoverage Text

São os dados do conjunto de dados abrangem um intervalo de tempo específico. Só inclua essa propriedade se o conjunto de dados tiver uma dimensão temporal. O schema.org usa o padrão ISO 8601 para descrever intervalos e pontos de tempo. Você pode descrever datas de forma diferente, dependendo do intervalo do conjunto de dados. Indique intervalos abertos com dois pontos decimais (..).

Data única


"temporalCoverage" : "2008"

Período


"temporalCoverage" : "1950-01-01/2013-12-18"

Período aberto


"temporalCoverage" : "2013-12-19/.."
variableMeasured Text e PropertyValue

A variável que o conjunto de dados mede. Por exemplo, temperatura ou pressão.

version Text e Number

É o número da versão do conjunto de dados.

url URL

É localização de uma página que descreve o conjunto de dados.

DataCatalog

A definição completa de DataCatalog está disponível em schema.org/DataCatalog (em inglês).

Os conjuntos de dados são frequentemente publicados em repositórios que contêm muitos outros conjuntos de dados. O mesmo conjunto de dados pode ser incluído em mais de um desses repositórios. Você pode indicar o catálogo de dados a que esse conjunto pertence referenciando-o diretamente.

Propriedades recomendadas
includedInDataCatalog DataCatalog

O catálogo a que o conjunto de dados pertence.

DataDownload

A definição completa de DataDownload está disponível em schema.org/DataDownload (em inglês). Além das propriedades do conjunto de dados, adicione as propriedades a seguir para conjuntos de dados que forneçam opções de download.

A propriedade distribution descreve como conseguir o conjunto de dados em si, considerando que o URL geralmente aponta para a página de destino que descreve o conjunto de dados. A propriedade distribution descreve onde conseguir os dados e em que formato. Essa propriedade pode ter vários valores: por exemplo, uma versão em CSV tem um URL, e uma versão em Excel está disponível em outro.

Propriedades obrigatórias
distribution.contentUrl URL

É o link para o download.

Propriedades
distribution DataDownload

É a descrição do local para o download do conjunto de dados e o formato de arquivo para o download.

distribution.encodingFormat Text, URL

É o formato de arquivo da distribuição.

Conjuntos de dados tabulares

Um conjunto de dados tabular é organizado principalmente em termos de uma grade de linhas e colunas. Para páginas que incorporam conjuntos de dados tabulares, você também pode criar uma marcação mais explícita, com base na abordagem básica descrita acima. No momento, entendemos uma variação do CSVW ("CSV na Web", consulte W3C), fornecida em paralelo ao conteúdo tabular orientado ao usuário na página HTML.

Veja um exemplo que mostra uma pequena tabela codificada no formato CSVW JSON-LD. Há alguns erros conhecidos na Ferramenta de teste de dados estruturados.

Ajuda e ferramentas