Набор данных

Если набор разметить с помощью структурированных данных с информацией о нем, например с названием, описанием, именем автора и форматом, пользователям будет легче найти такой набор. Google стремится к тому, чтобы упростить поиск наборов данных из самых разных областей, включая машинное обучение, медицину и биологию, социальные науки и многое другое. Для этого мы рекомендуем использовать различные стандарты метаданных, например описанные на сайте schema.org.

Вот что считается набором данных:

  • таблица или CSV-файл с определенной информацией;
  • систематизированная группа таблиц;
  • файл в проприетарном формате, содержащий определенные данные;
  • группа файлов, которые в совокупности представляют полезный набор данных;
  • структурированный объект с данными в другом формате, который можно загрузить в специальный инструмент для обработки;
  • данные, полученные с помощью съемки изображений;
  • файлы, связанные с машинным обучением, такие как параметры для обучения или определения структур нейронной сети;
  • любые данные, которые можно считать набором.

Наш подход к разметке наборов данных

Google распознает разметку для наборов данных schema.org или аналогичные варианты разметки в формате DCAT от W3C. Также мы тестируем поддержку структурированных данных в формате CSVW. Принципы описания наборов данных совершенствуются, и мы планируем совершенствовать наши алгоритмы в соответствии с ними. Чтобы узнать больше, прочитайте эту запись в блоге Google AI.

Примеры

В этом разделе приведены примеры кодов с использованием синтаксиса JSON-LD (предпочтительно) для наборов данных в инструменте проверки структурированных данных. Ту же терминологию можно применять для форматов RDFa 1.1, Microdata и DCAT от W3C. Примеры кода ниже основаны на реальном описании набора данных.

JSON-LD

Ниже приведен пример кода JSON-LD для набора данных в инструменте проверки структурированных данных.

RDFa.

Ниже приведен пример кода RDFa для набора данных в инструменте проверки структурированных данных.

Правила

На сайте должны соблюдаться требования к структурированным данным. Кроме того, мы рекомендуем следовать рекомендациям, касающимся файлов Sitemap, а также источников и происхождения данных.

Рекомендации в отношении файлов Sitemap

Чтобы помочь Google найти ваши URL, используйте файлы Sitemap. Благодаря этим файлам и разметке sameAs можно указать, как найти описания наборов данных на сайте.

Если вы размещаете наборы данных в хранилище, скорее всего, у вас есть два типа страниц: канонические (целевые) для каждого набора и страницы со списками наборов (например, группы наборов или результаты поиска). Рекомендуем добавлять структурированные данные о наборах на канонические страницы. Если вы добавили разметку на страницу с несколькими копиями набора (например, с результатами поиска), используйте свойство sameAs, чтобы указать канонический URL.

Рекомендации в отношении источников и происхождения

Открытые наборы данных часто создаются на основе других наборов, агрегируются и публикуются повторно. Мы подготовили базовые инструкции, из которых вы узнаете, как действовать в подобных случаях. Если набор данных создан на основе другого набора (например, скопирован), следуйте рекомендациям ниже.

  • Если набор данных или описание публикуются повторно, используйте свойство sameAs, чтобы указать исходные канонические URL оригинала.
  • Если уже публиковавшийся набор данных (включая его метаданные) был существенно изменен, используйте свойство isBasedOn.
  • Если набор данных создан на основе нескольких других наборов, используйте свойство isBasedOn.
  • Чтобы указать подходящие цифровые идентификаторы объекта (ЦИО), используйте свойство identifier.

Мы планируем улучшить эти рекомендации, особенно описание происхождения, версий и дат, связанных с публикацией временных рядов. В этом нам могут помочь ваши отзывы. Присоединяйтесь к обсуждениям!

Известные ошибки и предупреждения

Инструмент проверки структурированных данных и похожие сервисы могут находить ошибки и показывать предупреждения, на которые не стоит обращать внимания. К таким случаям относится предупреждение о свойстве fileFormat (недавно переименованном в encodingFormat) и ошибки, связанные с недопустимым значением csvw:Table свойства mainEntity. Также иногда системы проверки предлагают добавить для организаций контактную информацию, в том числе contactType с возможными значениями customer service, emergency, journalist, newsroom и public engagement.

Описания типов структурированных данных

Чтобы контент мог появиться в расширенных результатах, необходимо задать все обязательные свойства. Вы также можете добавить рекомендуемые свойства, чтобы пользователям было удобнее просматривать информацию.

Для проверки разметки рекомендуем использовать специальный инструмент Google.

Ваша основная цель – указать информацию о наборе данных (его метаданные) и описать его содержимое. Например, в метаданных указана тема набора, измеряемые переменные, создатель набора и т. д. При этом конкретные значения переменных не указываются.

Набор данных

Полное определение для типа Dataset доступно на странице schema.org/Dataset.

Вы можете добавить дополнительную информацию о публикации набора данных, например лицензию, время публикации, ЦИО или значение sameAs, указывающее на каноническую версию набора в другом хранилище. Чтобы указать информацию о происхождении и лицензии, используйте identifier, license и sameAs.

Обязательные свойства
description Text

Краткое описание набора данных.

name Text

Информативное название набора данных. Например, "Высота снежного покрова в Северном полушарии".

Рекомендуемые свойства
citation Text или CreativeWork

Библиографическая ссылка на публикацию, описывающую набор данных. Например, "Иванов И. И. Как создать полезный набор данных. – Журнал про науку о данных, 2018 г.".

identifier URL, Text или PropertyValue

Идентификатор набора данных, например ЦОИ.

keywords Text

Ключевые слова, характеризующие набор данных.

license URL, Text

Лицензия, по которой распространяется набор данных.

sameAs URL

Ссылка на страницу с более подробной информацией о том же наборе данных, обычно находящемся в другом хранилище.

spatialCoverage Text, Place

Вы можете указать одну точку, описывающую пространственный аспект набора данных. Используйте это свойство, только если у набора есть пространственное измерение. Например, это может быть точка, где были собраны все измерения, или координаты ограничивающего параллелепипеда площади.

Точки

"spatialCoverage:" {
  "@type": "Place",
  "geo": {
    "@type": "GeoCoordinates",
    "latitude": 39.3280,
    "longitude": 120.1633
  }
}

Координаты

Используйте элемент GeoShape, чтобы описывать площади различной формы, например ограничивающий параллелепипед.

"spatialCoverage:" {
  "@type": "Place",
  "geo": {
    "@type": "GeoShape",
    "box": "39.3280 120.1633 40.445 123.7878"
  }
}

Названия мест

"spatialCoverage:" "Tahoe City, CA"
temporalCoverage Text

Период, который охватывают данные в наборе. Используйте это свойство, только если у набора есть временное измерение. Для описания периодов и моментов времени на schema.org используется стандарт ISO 8601. Вы можете указывать даты другим способом, если он подходит лучше. Обозначайте неограниченные периоды двумя десятичными знаками (..).

Дата

"temporalCoverage" : "2008"

Период

"temporalCoverage" : "1950-01-01/2013-12-18"

Неограниченный период

"temporalCoverage" : "2013-12-19/.."
variableMeasured Text, PropertyValue

Переменная, которая измеряется в наборе данных, например температура или давление.

version Text, Number

Номер версии набора.

url URL

Адрес страницы с описанием набора данных.

DataCatalog

Полное определение для типа DataCatalog доступно на странице schema.org/DataCatalog.

Наборы данных часто публикуются в хранилищах, содержащих множество других наборов. Один и тот же набор может находиться в нескольких хранилищах. Указывайте нужный каталог данных с помощью прямой ссылки на него.

Рекомендуемые свойства
includedInDataCatalog DataCatalog

Каталог, в котором размещен набор данных.

DataDownload

Полное определение для типа DataDownload доступно на странице schema.org/DataDownload. Если набор данных можно скачать, укажите не только свойства Dataset, но и свойства DataDownload, перечисленные ниже.

Свойство distribution описывает, где скачать набор данных и в каком формате, поскольку URL набора часто указывает на целевую страницу с описанием набора, а не на страницу для скачивания. У свойства distribution может быть несколько значений. Например, версия в CSV доступна по одному URL, а версия в форматах Excel – по другому.

Обязательные свойства
distribution.contentUrl URL

Ссылка для скачивания.

Свойства
distribution DataDownload

Описание места, откуда скачивается набор данных, и формата этого набора.

distribution.fileFormat Text

Формат дистрибутива.

Табличные наборы данных

Табличным называют набор данных, организованный преимущественно в виде сетки из строк и столбцов. Для страниц, содержащих табличные наборы данных, можно создавать более явную разметку на основе базовых инструкций, приведенных выше. В настоящее время Google может обрабатывать данные в формате CSVW (CSV on the Web), представленные на HTML-странице параллельно с табличным контентом, ориентированном на пользователя.

Ниже приведен пример кода в формате CSVW JSON-LD для небольшой таблицы. Инструмент проверки структурированных данных будет предупреждать вас о некоторых ошибках, которые можно игнорировать.

Справка и инструменты

Оставить отзыв о...

Текущей странице