データセット

データセットの名前、説明、作成者、配布形式などのサポート情報を構造化データとして提供すると、データセットを見つけやすくなります。Google のデータセット検出アプローチでは、schema.org とその他のメタデータ規格を利用します。これらは、データセットを記述するページに追加できます。Dataset マークアップの目的は、生命科学、社会科学、機械学習、市民および政府のデータなど、各種分野のデータセットを検出しやすくすることにあります。

データセットと見なすことができるものには、以下のようなものがあります。

  • データが格納されているテーブルまたは CSV ファイル
  • テーブルの組織的なコレクション
  • データが格納されている固有の形式のファイル
  • 意味を持つデータセットを全体として構成するファイルのコレクション
  • 構造化オブジェクトと他の形式のデータの組み合わせ(処理を行うには特別なツールに読み込むことをおすすめします)
  • データをキャプチャする画像
  • 機械学習に関連するファイル(学習済みパラメータやニューラル ネットワークの構造定義など)
  • データセットのように見えるすべてのもの

Google のデータセット検出アプローチ

Google では、ウェブページ内のデータセットに関する構造化データを理解するために、schema.org の Dataset マークアップ、または W3CData Catalog Vocabulary(DCAT)形式で表現された同等の構造を使用します。また、Google は W3C CSVW に基づく構造化データを試験的にサポートしており、データセットの記述に関するおすすめの方法が現れたときに Google のアプローチを進化および適応させることを期待しています。Google のデータセット検出アプローチについて詳しくは、一般公開データセットを検出しやすくする方法についてのブログをご覧ください。

JSON-LD 構文(推奨)を使用してデータセットを記述した場合、構造化データ テストツールでは次のように表示されます。RDFa 1.1、microdata、W3C DCAT ボキャブラリでも同じボキャブラリを使用できます。次の例は、実際のデータセットの記述に基づいています。

JSON-LD

JSON-LD でデータセットを記述する例を示します。

RDFa

RDFa でデータセットを記述する例を示します。

ガイドライン

サイトは構造化データのガイドラインに準拠する必要があります。さらに、下記のサイトマップおよびソースと来歴に関するおすすめの方法にも準拠することをおすすめします。

サイトマップに関するおすすめの方法

サイトマップ ファイルを使用すると、Google が URL を見つけやすくなります。また、サイトマップ ファイルと sameAs マークアップを使用すると、データセットの記述がサイト全体でどのように公開されているかを文書化できます。

データセット リポジトリを使用している場合は、少なくとも 2 種類のページが存在する可能性があります(各データセットの正規(「ランディング」)ページと、複数のデータセット(例: 検索結果、データセットのなんらかのサブセット)がリストされているページ)。データセットに関する構造化データは正規ページに追加することをおすすめします。構造化データをデータセットの複数のコピー(検索結果ページ内のリストなど)に追加する場合は、sameAs プロパティを使用して正規ページにリンクします。

ソースと来歴に関するおすすめの方法

オープン データセットを再公開、集約したり、他のデータセットに基づくよう変更したりすることはよくあります。これは、データセットが別のデータセットのコピーであること(または別のデータセットに基づくものであること)を示すためのアプローチの初期段階です。

  • データセットや記述が他のどこかで公開された素材を単に再公開したものである場合は、sameAs プロパティを使用して、オリジナルのほとんどの正規 URL を指定します。
  • 再公開されたデータセット(そのメタデータを含む)が大幅に変更された場合は、isBasedOn プロパティを使用します。
  • データセットが複数のオリジナルから派生したものである場合、または複数のオリジナルを集約したものである場合は、isBasedOn プロパティを使用します。
  • identifier プロパティを使用して、関連性のあるデジタル オブジェクト識別子(DOI)またはコンパクト識別子をすべて付加します。データセットに識別子が複数ある場合は、identifier プロパティを繰り返し指定します。JSON-LD を使用している場合、これは JSON リスト構文によって表されます。

Google は、フィードバックに基づいて推奨事項(特に来歴の記述、バージョニング、および時系列公開に関連付けられている日付に関するもの)を改善したいと考えています。コミュニティのディスカッションにぜひご参加ください。

テキスト プロパティの推奨事項

すべてのテキスト プロパティは半角 5,000 文字(全角 2,500 文字)以下に制限することをおすすめします。Google データセット検索では、テキスト プロパティの最初の半角 5,000 文字(全角 2,500 文字)のみが使用されます。名前とタイトルは通常、数語または短い文にします。

既知のエラーと警告

Google の構造化データ テストツールやその他の検証システムにおいて、エラーや警告が発生することがあります。特に、組織で連絡先情報(contactType など)を使用するように検証システムが提案することがあります。有用な値には、customer serviceemergencyjournalistnewsroompublic engagement などがあります。csvw:TablemainEntity プロパティの予期しない値に設定されるエラーも無視して構いません。

構造化データタイプの定義

コンテンツがリッチリザルトとして表示されるようにするには、必須プロパティが必要です。また、推奨プロパティを使用すると、コンテンツに関する詳細情報を追加できるので、ユーザー エクスペリエンスの向上につながります。

構造化データ テストツールを使用して、マークアップを検証することができます。

データセット(そのメタデータ)に関する情報を記述し、そのコンテンツを表現することに焦点を当てます。たとえば、データセットのメタデータでは、データセットの内容、データセットで測定する変数、データセットの作成者などを記述します。変数の特定の値などは含めません。

Dataset

Dataset の定義の全文は schema.org/Dataset でご確認いただけます。

データセットの公開に関する詳細情報(ライセンス、公開日、DOI、別のリポジトリに格納されているデータセットの正規バージョンを指している sameAs など)を記述できます。来歴やライセンスの情報を提供するデータセット用に identifierlicensesameAs を追加します。

必須プロパティ
description Text

データセットの要約文。

ガイドライン

  • 要約の長さは 50~5,000 文字の範囲にします。
  • 要約にはマークダウン構文を含めることができます。埋め込み画像には絶対パスの URL を指定します(相対パスは使用しない)。
  • JSON-LD 形式を使用する場合は、改行を \n(\ と小文字の「n」の 2 文字)で示します。
name Text

データセットのわかりやすい名前。例: "北半球の積雪量"

推奨プロパティ
alternateName Text

エイリアスや略語など、データセットを示すために使用されている代替名。JSON-LD 形式の例を以下に示します。

"name": "The Quick, Draw! Dataset"
"alternateName": ["Quick Draw Dataset", "quickdraw-dataset"]
creator Person または Organization

このデータセットの作成者。個人を一意に識別するには、Person タイプの sameAs プロパティの値として ORCID ID を使用します。機関や組織を一意に識別するには ROR ID を使用します。JSON-LD 形式の例を以下に示します。

"creator": [
    {
        "@type": "Person",
        "sameAs": "http://orcid.org/0000-0000-0000-0000",
        "givenName": "Jane",
        "familyName": "Foo",
        "name": "Jane Foo"
    },
    {
        "@type": "Person",
        "sameAs": "http://orcid.org/0000-0000-0000-0001",
        "givenName": "Jo",
        "familyName": "Bar",
        "name": "Jo Bar"
    },
    {
        "@type": "Organization",
        "sameAs": "http://ror.org/xxxxxxxxx",
        "name": "Fictitious Research Consortium"
    }
]
citation Text または CreativeWork

データセットに加えて引用されている、データ プロバイダが推奨する学術記事を識別します。データセット自体の引用は、nameidentifiercreatorpublisher など、他のプロパティと合わせて指定します。たとえばこのプロパティでは、データ記述子やデータ論文などの関連する学術出版物、またはそのデータセットが補助的な資料になっている記事などを一意に識別できます。JSON-LD 形式の例を以下に示します。

"citation": "https://doi.org/10.1111/111"
"citation": "https://identifiers.org/pubmed:11111111"
"citation": "https://identifiers.org/arxiv:0111.1111v1"
"citation":
 "Doe J (2014) Influence of X ... https://doi.org/10.1111/111"

その他のガイドライン

  • このプロパティは、データセット自体の引用情報を示す目的では使用しないでください。これは、データセット自体ではなく、関連する学術記事を識別するために使用するフィールドです。データセット自体の引用に必要な情報を指定するには、nameidentifiercreatorpublisher プロパティを使用します。
  • 引用スニペットを使用して引用プロパティに入力するには、可能な限り記事識別子(DOI など)を指定します。

    推奨例: 「Doe J (2014) Influence of X. Biomics 1(1). https://doi.org/10.1111/111」

    非推奨例: 「Doe J (2014) Influence of X. Biomics 1(1).」

identifier URLText、または PropertyValue

DOI やコンパクト識別子などの識別子。データセットに識別子が複数ある場合は、identifier プロパティを繰り返し指定します。JSON-LD を使用している場合、これは JSON リスト構文によって表されます。

keywords Text

データセットの概要を示すキーワード。

license URLCreativeWork

データセットの配布ライセンス。次に例を示します。

"license" : "https://creativecommons.org/publicdomain/zero/1.0/"
"license" : {
  "@type": "CreativeWork",
  "name": "Custom license",
  "url": "https://example.com/custom_license"
  }
sameAs URL

同じデータセット(通常は別のリポジトリに格納されている)に関する詳細情報を提供するページへのリンク。

spatialCoverage TextPlace

データセットの空間様相を記述する単一のポイントを指定できます。このプロパティは、データセットに空間ディメンションが含まれている場合にのみ追加します。たとえば、すべての測定結果が収集された単一のポイントや、ある領域の境界ボックスの座標などを指定します。

ポイント

"spatialCoverage:" {
  "@type": "Place",
  "geo": {
    "@type": "GeoCoordinates",
    "latitude": 39.3280,
    "longitude": 120.1633
  }
}

図形

GeoShape を使用して、さまざまな形状の領域を記述します。たとえば、境界ボックスを指定します。

"spatialCoverage:" {
  "@type": "Place",
  "geo": {
    "@type": "GeoShape",
    "box": "39.3280 120.1633 40.445 123.7878"
  }
}

boxcircleline、または polygon プロパティ内のポイントは、緯度と経度に対応するスペース区切りの値のペアとして表す必要があります。

名前のついた場所

"spatialCoverage:" "Tahoe City, CA"
temporalCoverage Text

データセットのデータは、特定の期間を対象として含みます。このプロパティは、データセットに時間ディメンションが含まれている場合にのみ追加します。schema.org では、期間や時点を記述するために ISO 8601 規格を使用しています。データセットの期間に応じて日付を別々に記述できます。無期限の期間は、小数点 2 つ(..)を使用して示します。

単一の日付

"temporalCoverage" : "2008"

期間

"temporalCoverage" : "1950-01-01/2013-12-18"

無期限の期間

"temporalCoverage" : "2013-12-19/.."
variableMeasured TextPropertyValue

データセットが測定する変数(温度や圧力など)。

version TextNumber

データセットのバージョン番号。

url URL

データセットを記述するページの場所。

DataCatalog

DataCatalog の定義の全文は schema.org/DataCatalog でご確認いただけます。

多くの場合、データセットは他の多くのデータセットが格納されているリポジトリで公開されます。同じデータセットをそのような複数のリポジトリに含めることができます。データセットが属しているデータカタログを参照するには、直接参照します。

推奨プロパティ
includedInDataCatalog DataCatalog

データセットが属しているカタログ。

DataDownload

DataDownload の定義の全文は schema.org/DataDownload でご確認いただけます。Dataset プロパティに加え、ダウンロード オプションを提供する、以下のデータセット用のプロパティを追加します。

distribution プロパティでは、データセット自体を取得する方法を記述します。これは、URL がデータセットを記述するランディング ページを指していることが多いためです。distribution プロパティでは、データをどこでどの形式で取得するかを記述します。このプロパティでは複数の値を使用できます。たとえば、CSV バージョンで 1 つの URL を使用し、Excel バージョンを別の URL で使用できます。

必須プロパティ
distribution.contentUrl URL

ダウンロードのリンク。

プロパティ
distribution DataDownload

データセットのダウンロードの場所と、ダウンロードのファイル形式の記述。

distribution.encodingFormat TextURL

配布のファイル形式。

表形式のデータセット

表形式のデータセットは、主に行と列のグリッドを単位として構成されたデータセットです。表形式のデータセットが埋め込まれているページでは、上記の基本的なアプローチを基に、より明示的なマークアップを作成することもできます。現時点では、HTML ページでユーザー指向の表形式コンテンツと並行して提供される、CSVW(「CSV on the Web」、W3C を参照)のバリエーションと解釈しています。

次の例は、CSVW JSON-LD 形式でエンコードされた小規模なテーブルを示しています。構造化データ テストツールには既知のエラーがいくつかあります。

ヘルプとツール