Набор данных

Если набор разметить с помощью структурированных данных с информацией о нем, например с названием, описанием, именем автора и форматом, пользователям будет легче его найти. Google стремится упростить поиск наборов данных из самых разных областей, включая машинное обучение, медицину и биологию, социальные науки и многое другое. Для этого мы рекомендуем использовать различные стандарты метаданных, например описанные на сайте schema.org. Для поиска наборов данных используйте этот инструмент.

Пример поиска наборов данных

Примеры наборов данных:

  • таблица или CSV-файл с определенной информацией;
  • систематизированная группа таблиц;
  • файл в проприетарном формате, содержащий определенные данные;
  • группа файлов, которые в совокупности представляют полезный набор данных;
  • структурированный объект с данными в другом формате, который можно загрузить в специальный инструмент для обработки;
  • данные, полученные с помощью съемки изображений;
  • файлы, связанные с машинным обучением, такие как параметры для обучения или определения структур нейронной сети;
  • любые данные, которые можно считать набором.

Наша методика разметки наборов данных

Google распознает разметку schema.org для наборов данных или аналогичные варианты разметки в формате DCAT, разработанные консорциумом W3C. Также мы тестируем поддержку структурированных данных в формате CSVW. Принципы описания наборов данных совершенствуются, и мы планируем изменять наши алгоритмы в соответствии с ними. Более подробную информацию можно найти здесь.

Примеры

В этом разделе приведены примеры кодов с использованием синтаксиса JSON-LD (предпочтительно) для наборов данных в инструменте проверки структурированных данных. Аналогичную терминологию можно применять для форматов RDFa 1.1, Microdata и DCAT от W3C. Примеры кода ниже основаны на реальном описании набора данных.

JSON-LD

Нажмите кнопку ниже, чтобы увидеть пример кода JSON-LD для набора данных:

RDFa

Нажмите кнопку ниже, чтобы увидеть пример кода RDFa для набора данных:

Правила

На сайте должны соблюдаться требования к структурированным данным. Кроме того, мы рекомендуем следовать рекомендациям в отношении файлов Sitemap, а также источников и происхождения данных.

Рекомендации в отношении файлов Sitemap

Чтобы помочь Google найти ваши URL, используйте файлы Sitemap. Благодаря этим файлам и разметке sameAs можно указать, как найти описания наборов данных на сайте.

Если вы размещаете наборы данных в хранилище, скорее всего, у вас есть два типа страниц: канонические (целевые) для каждого набора и страницы со списками наборов (например, группы наборов или результаты поиска). Рекомендуем добавлять структурированные данные о наборах на канонические страницы. Если вы добавили разметку на страницу с несколькими копиями набора (например, с результатами поиска), используйте свойство sameAs, чтобы указать канонический URL.

Рекомендации в отношении источников и происхождения

Открытые наборы данных часто создаются на основе других наборов, агрегируются и публикуются повторно. Мы подготовили базовые инструкции, из которых вы узнаете, как действовать в подобных случаях. Если набор данных создан на основе другого набора (например, скопирован), следуйте рекомендациям ниже.

  • Если набор данных или описание публикуются повторно, используйте свойство sameAs, чтобы указать исходные канонические URL оригинала. Элемент sameAs должен однозначно идентифицировать набор данных, т. е. два разных набора не должны иметь одинаковые URL в значениях sameAs.
  • Если ранее опубликованный набор данных (включая его метаданные) был существенно изменен, используйте свойство isBasedOn.
  • Если набор данных создан на основе нескольких других наборов, используйте свойство isBasedOn.
  • Чтобы указать подходящие цифровые идентификаторы объекта (ЦИО) или компактные идентификаторы, используйте свойство identifier. Если в наборе данных представлено больше одного идентификатора, добавьте несколько свойств identifier. Если вы используете JSON-LD, применяйте синтаксис списка JSON.

Мы планируем улучшить эти рекомендации, особенно описание происхождения, версий и дат, связанных с публикацией временных рядов. В этом нам могут помочь ваши отзывы. Присоединяйтесь к обсуждениям!

Рекомендации в отношении текстовых свойств

Google Поиск наборов данных в любом случае обрабатывает только первые 5000 символов текста в свойстве. Старайтесь не превышать это ограничение. Названия и заголовки обычно состоят всего из нескольких слов или одного короткого предложения.

Известные ошибки и предупреждения

Инструмент проверки структурированных данных и похожие сервисы могут находить ошибки и показывать предупреждения, на которые не стоит обращать внимания. Системам проверки может потребоваться также контактная информация, в том числе свойство contactType. Примеры значений: customer service, emergency, journalist, newsroom, public engagement. Сообщения, что значение csvw:Table не ожидалось для свойства mainEntity, можно игнорировать.

Типы структурированных данных

Чтобы ваш контент мог демонстрироваться в расширенных результатах, необходимо задать все обязательные свойства. Вы также можете добавить рекомендуемые свойства, чтобы пользователям было удобнее просматривать информацию.

Для проверки разметки рекомендуем использовать специальный инструмент Google.

Ваша основная цель – указать информацию о наборе данных (его метаданные) и описать его содержимое. Например, в метаданных указана тема набора, измеряемые переменные, создатель набора и т. д. При этом конкретные значения переменных не указываются.

Набор данных

Полное описание типа Dataset приведено на странице schema.org/Dataset.

Вы можете добавить дополнительную информацию о публикации набора данных, например лицензию, время публикации, ЦИО или значение sameAs, указывающее на каноническую версию набора в другом хранилище. Чтобы указать информацию о происхождении и лицензии, используйте элементы identifier, license и sameAs.

Обязательные свойства
description Text

Краткое описание набора данных.

Правила

  • Общий объем: от 50 до 5000 символов.
  • Можно использовать синтаксис Markdown для разметки. Для встроенных изображений указывайте в URL абсолютный, а не относительный путь.
  • В случае с форматом JSON-LD начинайте новые строки с последовательности \n (два символа: косая черта с наклоном влево и строчная буква n).
name Text

Информативное название набора данных. Пример: "Высота снежного покрова в Северном полушарии".

Рекомендуемые свойства
alternateName Text

Альтернативные имена, которые использовались для ссылки на этот набор данных: псевдонимы или сокращения. Пример в формате JSON-LD:


"name": "The Quick, Draw! Dataset"
"alternateName": ["Quick Draw Dataset", "quickdraw-dataset"]
creator Person или Organization

Создатель или автор этого набора данных. Для идентификации отдельных лиц используйте в свойстве sameAs типа Person значение ORCID ID, а для идентификации учреждений и организаций – значение ROR ID. Пример в формате JSON-LD:


"creator": [
    {
        "@type": "Person",
        "sameAs": "http://orcid.org/0000-0000-0000-0000",
        "givenName": "Jane",
        "familyName": "Foo",
        "name": "Jane Foo"
    },
    {
        "@type": "Person",
        "sameAs": "http://orcid.org/0000-0000-0000-0001",
        "givenName": "Jo",
        "familyName": "Bar",
        "name": "Jo Bar"
    },
    {
        "@type": "Organization",
        "sameAs": "http://ror.org/xxxxxxxxx",
        "name": "Fictitious Research Consortium"
    }
]
citation Text или CreativeWork

Ссылки на научные статьи, которые поставщик данных рекомендует процитировать в дополнение к основному набору. Добавьте цитирование в набор данных вместе с такими свойствами, как name, identifier, creator и publisher. Так можно идентифицировать дескриптор данных, документ с данными или научную публикацию, для которой использовался этот набор. Примеры в формате JSON-LD:


"citation": "https://doi.org/10.1111/111"

"citation": "https://identifiers.org/pubmed:11111111"

"citation": "https://identifiers.org/arxiv:0111.1111v1"

"citation":
 "Doe J (2014) Influence of X ... https://doi.org/10.1111/111"

Дополнительные правила

  • Не используйте это свойство для добавления цитирования к самому набору данных. Оно предназначено именно для связанных научных статей. Добавить сведения для цитирования самого набора можно с помощью свойств name, identifier, creator и publisher.
  • При добавлении цитаты в свойство всегда указывайте идентификатор статьи (например, ЦИО).

    Правильно: Иванов И. И. Как создать полезный набор данных. – Журнал о данных, 2018 г. https://doi.org/10.1111/111

    Неправильно: Иванов И. И. Как создать полезный набор данных. – Журнал о данных, 2018 г.

identifier URL, Text или PropertyValue

Идентификатор набора данных, например ЦИО или компактный. Если в наборе данных не один идентификатор, добавьте несколько свойств identifier. Если вы используете JSON-LD, применяйте синтаксис списка JSON.

keywords Text

Ключевые слова, характеризующие набор данных.

license URL, CreativeWork

Лицензия, по которой распространяется набор данных. Пример:


"license" : "https://creativecommons.org/publicdomain/zero/1.0/"

"license" : {
  "@type": "CreativeWork",
  "name": "Custom license",
  "url": "https://example.com/custom_license"
  }

Дополнительные правила

  • Укажите URL, который позволяет однозначно идентифицировать версию используемой лицензии.

    Рекомендуется

    
    "license" : "https://creativecommons.org/licenses/by/4.0"

    Не рекомендуется

    
    "license" : "https://creativecommons.org/licenses/by"
sameAs URL

URL веб-страницы с подробной информацией, который позволяет однозначно идентифицировать набор данных, обычно размещенный в другом хранилище.

spatialCoverage Text, Place

Вы можете указать одну точку, описывающую пространственный аспект набора данных. Используйте это свойство, только если у набора есть пространственное измерение. Например, это может быть точка, где были собраны все измерения, или координаты ограничивающего параллелепипеда площади.

Точки


"spatialCoverage:" {
  "@type": "Place",
  "geo": {
    "@type": "GeoCoordinates",
    "latitude": 39.3280,
    "longitude": 120.1633
  }
}

Фигуры

Используйте элемент GeoShape, чтобы описывать площади различной формы, например ограничивающий параллелепипед.


"spatialCoverage:" {
  "@type": "Place",
  "geo": {
    "@type": "GeoShape",
    "box": "39.3280 120.1633 40.445 123.7878"
  }
}

Координаты в свойствах box, circle, line и polygon необходимо указывать в виде пары значений, разделенных пробелом (сначала – широта, потом – долгота).

Названия мест


"spatialCoverage:" "Tahoe City, CA"
temporalCoverage Text

Период времени, к которому относятся данные в наборе. Используйте это свойство, только если у набора есть временное измерение. Для описания периодов и моментов времени на schema.org используется стандарт ISO 8601. Вы можете указывать даты другим способом, если он подходит лучше. Обозначайте неограниченные периоды двумя десятичными знаками (..).

Дата


"temporalCoverage" : "2008"

Период времени


"temporalCoverage" : "1950-01-01/2013-12-18"

Неограниченный период


"temporalCoverage" : "2013-12-19/.."
variableMeasured Text, PropertyValue

Переменная в наборе данных, измерение которой выполняется. Например, это может быть температура или давление.

version Text, Number

Номер версии набора.

url URL

Адрес страницы с описанием набора данных.

DataCatalog

Полное описание типа DataCatalog приведено на странице schema.org/DataCatalog.

Наборы данных часто публикуются в хранилищах, содержащих множество других наборов. Один и тот же набор может находиться в нескольких хранилищах. Указывайте нужный каталог данных с помощью прямой ссылки на него.

Рекомендуемые свойства
includedInDataCatalog DataCatalog

Каталог, в котором размещен набор данных.

DataDownload

Полное описание типа DataDownload приведено на странице schema.org/DataDownload. Если набор данных можно скачать, укажите не только свойства Dataset, но и свойства DataDownload, перечисленные ниже.

Свойство distribution описывает, где скачать набор данных и в каком формате, поскольку URL набора часто указывает на целевую страницу с описанием набора, а не на страницу для скачивания. Свойство distribution указывает, где скачать данные и в каком формате. У этого свойства может быть несколько значений. Например, версия в CSV доступна по одному URL, а версия в Excel – по другому.

Обязательные свойства
distribution.contentUrl URL

Ссылка для скачивания.

Ресурсы
distribution DataDownload

Описание места, откуда скачивается набор данных, и формата этого набора.

distribution.encodingFormat Text, URL

Формат дистрибутива.

Табличные наборы данных

Табличным называют набор данных, организованный преимущественно в виде сетки из строк и столбцов. Для страниц, содержащих табличные наборы данных, можно создавать более явную разметку на основе базовых инструкций, приведенных выше. В настоящее время Google может обрабатывать данные в формате CSVW (CSV on the Web), представленные на HTML-странице параллельно с табличным контентом, ориентированном на пользователя.

Ниже приведен пример кода в формате CSVW JSON-LD для небольшой таблицы. Инструмент проверки структурированных данных будет предупреждать вас о некоторых ошибках, которые можно игнорировать.

Справка и инструменты