数据集

如果您以结构化数据的形式提供数据集的支持信息(如名称、说明、创建者和分发格式),会使数据集更容易找到。Google 的数据集发现方法利用了 schema.org 和其他元数据标准,这些标准可以添加到用来描述数据集的网页。此标记的目的是改进对来自生命科学、社会科学、机器学习、公民和政府数据等领域的数据集的发现方法。

下面列举了一些示例来说明哪些内容能算作数据集:

  • 包含某些数据的表格或 CSV 文件
  • 组织有序的表格集合
  • 采用专有格式的文件,其中包含数据
  • 文件的集合,这些文件共同构成某个有意义的数据集
  • 结构化对象,它包含的数据采用其他某种格式,您可能希望将其加载到特殊工具中进行处理
  • 用于捕获数据的图像
  • 与机器学习相关的文件,如训练的参数或神经网络结构定义
  • 任何在您看来像数据集的内容

我们的数据集发现方法

我们可以使用 schema.org 数据集标记或以 W3C数据目录词汇表 (DCAT) 格式表示的等效结构来理解网页中关于数据集的结构化数据。我们还在 W3C CSVW 的基础上探索了对结构化数据的实验性支持,并希望随着数据集说明最佳做法的出现不断改进和调整我们的方法。要详细了解我们的数据集发现方法,请参阅促进公共数据集的发现

示例

下面是一个使用 JSON-LD 语法(首选)描述的数据集的示例(在结构化数据测试工具中)。同样,也可以使用 RDFa 1.1、微数据或 W3C DCAT 词汇表。以下示例基于实际数据集说明

JSON-LD

下面是一个 JSON-LD 格式的数据集的示例(在结构化数据测试工具中):

RDFa

下面是一个 RDFa 格式的数据集的示例(在结构化数据测试工具中):

指南

网站应遵循结构化数据指南。除了结构化数据指南之外,我们还建议您遵循下列站点地图以及来源和出处最佳做法。

站点地图最佳做法

您可以使用站点地图文件来帮助 Google 找到您的网址。使用站点地图文件和 sameAs 标记有助于记录在您的整个网站中如何发布数据集说明。

如果您有数据集存储区,那么很可能至少有两种类型的网页:每个数据集的规范网页(“着陆页”)以及列出多个数据集的网页(例如,搜索结果或数据集的某个子集)。我们建议您将有关数据集的结构化数据添加到规范网页。如果您将结构化数据添加到数据集的多个副本(如搜索结果页中的列表),请使用 sameAs 属性链接到规范网页。

来源和出处最佳做法

开放数据集往往会重新发布、进行汇总并以其他数据集为基础。在某些情况下,一个数据集是另一个数据集的副本或基于另一个数据集,下面给出了一个初步的大纲,大体概括了我们表示这些情况的方法。

  • 如果数据集或说明是在其他地方发布的材料的简单翻版,请使用 sameAs 属性指示原始数据集或说明的最规范的网址。
  • 如果重新发布的数据集(包括其元数据)发生了显著的变化,请使用 isBasedOn 属性。
  • 如果某个数据集源自多个原始数据集或是对多个原始数据集的汇总,请使用 isBasedOn 属性。
  • 使用 identifier 属性来附加任何相关的数字对象标识符 (DOI)。

我们希望根据反馈改进我们的建议,特别是关于出处、版本控制以及与时间序列出版物关联的日期的说明。请加入社区讨论

文字属性建议

我们建议限定所有文字字段均不得超过 5000 个字符。Google 数据集搜索仅使用所有文字字段的前 5000 个字符。名称和标题通常是几个单词或一个短句。

已知错误和警告

您可能会在 Google 的结构化数据测试工具和其他验证系统中遇到错误或警告。具体来说,您完全可以忽略关于 fileFormat(最近重命名为 encodingFormat)的警告。验证系统还可能会建议组织应该设置联系信息,包括 contactType;有用的值包括 customer serviceemergencyjournalistnewsroompublic engagement。您也可以忽略关于 csvw:Table(它是 mainEntity 属性的意外值)的错误。

结构化数据类型定义

要让您的内容能够显示为富媒体搜索结果,您必须为其添加必需的属性。您还可以添加建议的属性,以便添加与您的内容相关的更多信息,进而提供更好的用户体验。

您可以使用结构化数据测试工具验证您的标记。

重点是描述有关数据集(其元数据)的信息并表示其内容。例如,数据集元数据可以指明数据集的具体内容、测量的变量、创建者,等等。但它不包含诸如变量的特定值之类的内容。

数据集

如需 Dataset 的完整定义,请访问 schema.org/Dataset

您可以描述有关数据集出版物的其他信息,如许可、发布时间及其 DOI,也可以使用 sameAs 属性来指向其他存储区中数据集的规范版本。请为提供出处和许可信息的数据集添加 identifierlicensesameAs

必需属性
description Text

描述数据集的简短摘要。

name Text

数据集的描述性名称。例如,“北半球积雪深度”。

建议属性
citation TextCreativeWork

对描述数据集的出版物的引用。例如,“J.Smith 于 1966 年在《数据科学杂志》上发表的‘我是如何创建了一个出色的数据集’一文”。

identifier URLTextPropertyValue

数据集的标识符,如 DOI。

keywords Text

总结数据集的关键字。

license URLText

分发数据集所依据的许可证。

sameAs URL

一个网页的链接,该网页提供了有关同一数据集(通常在其他存储区中)的更多信息。

spatialCoverage TextPlace

您可以提供单个地点,从空间方面对数据集进行描述。仅当数据集具有空间维度时,才应添加此属性。例如,收集所有测量值时所在的单个地点,或某个区域的边界框的坐标。

地点

"spatialCoverage:" {
  "@type": "Place",
  "geo": {
    "@type": "GeoCoordinates",
    "latitude": 39.3280,
    "longitude": 120.1633
  }
}

坐标

使用 GeoShape 来描述不同形状的区域。例如,指定边界框。

"spatialCoverage:" {
  "@type": "Place",
  "geo": {
    "@type": "GeoShape",
    "box": "39.3280 120.1633 40.445 123.7878"
  }
}

带名称的地点

"spatialCoverage:" "Tahoe City, CA"
temporalCoverage Text

数据集中的数据涵盖特定的时间间隔。仅当数据集具有时间维度时,才应添加此属性。Schema.org 使用 ISO 8601 标准来描述时间间隔和时间点。您可以采用不同的方式来描述日期,具体取决于数据集的时间间隔。用两个小数点 (..) 表示开放式时间间隔。

单个日期

"temporalCoverage" : "2008"

时间段

"temporalCoverage" : "1950-01-01/2013-12-18"

开放式时间段

"temporalCoverage" : "2013-12-19/.."
variableMeasured TextPropertyValue

相应数据集测量的变量。例如,温度或压力。

version TextNumber

数据集的版本号。

url URL

描述数据集的网页的位置。

DataCatalog

如需 DataCatalog 的完整定义,请访问 schema.org/DataCatalog

发布某些数据集的存储区往往包含许多其他数据集。同一数据集可以包含在多个这样的存储区中。您可以通过直接引用该数据集来引用它所属的数据目录。

建议属性
includedInDataCatalog DataCatalog

数据集所属的目录。

DataDownload

如需 DataDownload 的完整定义,请访问 schema.org/DataDownload。除了数据集属性之外,您还可以为提供下载选项的数据集添加以下属性。

distribution 属性描述如何获取数据集本身,因为网址通常指向描述数据集的着陆页。此外,distribution 属性还描述获取数据的位置和格式。此属性可以有多个值:例如,使用一个网址分发 CSV 版本,而使用另一个网址分发 Excel 版本。

必需属性
distribution.contentUrl URL

用于下载的链接。

属性
distribution DataDownload

数据集的下载位置和下载的文件格式的说明。

distribution.fileFormat Text

分发的文件格式。

表格数据集

表格数据集是一种主要以由行和列组成的网格的形式组织而成的数据集。对于嵌入表格数据集的网页,您还可以基于上述基本方法创建更明确的标记。目前,我们了解 CSVW(“网络上的 CSV”,请参阅 W3C)的一种变体,它与 HTML 网页上面向用户的表格内容并行提供。

下面的示例显示了一个以 CSVW JSON-LD 格式编码的小表格。结构化数据测试工具中存在一些已知错误

帮助和工具

发送以下问题的反馈:

此网页