資料集

如果您以結構化資料的形式提供資料集的名稱、說明、建立者和發布格式等輔助資訊,就能讓 Google 更容易找到資料集。Google 發掘資料集的做法是使用 schema.org,以及可新增至資料集說明頁面的其他中繼資料標準。這個標記的目的,是要提高生命科學、社會科學、機器學習、市政資料等領域資料集的曝光率。您可以使用資料集搜尋工具找出資料集。

資料集搜尋示例

以下列舉一些可算是資料集的情況:

  • 包含一些資料的表格或 CSV 檔案
  • 一組經過整理的表格
  • 採某種專利格式且包含資料的檔案
  • 可構成有意義資料集的一組檔案
  • 包含其他格式資料的結構化物件,建議您載入特殊工具進行處理
  • 擷取資料的圖片
  • 與機器學習相關的檔案,例如訓練過的參數或類神經網路結構定義
  • 您覺得像資料集的任何內容

如何新增結構化資料

結構化資料是一種標準化格式,作用是提供網頁相關資訊以及將網頁內容分類。如果您是第一次使用結構化資料,請參閱這篇文章進一步瞭解結構化資料的運作方式。

以下簡要說明如何建立、測試及發布結構化資料。如需在網頁中新增結構化資料的逐步指南,請前往結構化資料程式碼研究室

  1. 新增必要屬性。如要瞭解應在網頁上的何處插入結構化資料,請觀看「JSON-LD 結構化資料:網頁上的插入位置」影片。
  2. 遵循指南
  3. 使用複合式搜尋結果測試驗證程式碼。
  4. 部署幾個包含結構化資料的網頁,並使用網址檢查工具測試 Google 轉譯網頁的情形。請確認 Google 可以存取您的網頁,且網頁並未遭到 robots.txt 檔案或 noindex 標記封鎖,也未設有登入規定。如果網頁看起來沒問題,您可以要求 Google 重新檢索您的網址
  5. 為了讓 Google 掌握異動內容,建議您提交 Sitemap。您可以使用 Search Console Sitemap API 自動執行這項操作。

從資料集搜尋結果中刪除資料集

如果不希望某個資料集顯示在資料集搜尋結果中,請使用漫遊器中繼標記控制系統為資料集建立索引的方式。提醒您,視檢索排程而定,系統可能需要數天或數週的時間,才能將變更反映到資料集搜尋中。

我們發掘資料集的做法

我們可以使用 schema.org 的 Dataset 標記W3C 資料目錄詞彙 (DCAT) 格式所代表的對等結構,判讀網頁中有關資料集的結構化資料。我們同時也在探索如何根據 W3C CSVW 針對結構化資料提供實驗性支援,並希望隨著資料集說明最佳做法的問世,改進及調整我們的做法。如要進一步瞭解我們發掘資料集的做法,請參閱更輕鬆地發掘資料集一文。

範例

以下是在複合式搜尋結果測試中使用 JSON-LD 和 schema.org 語法 (建議) 的資料集範例。相同的 schema.org 詞彙也可用於 RDFa 1.1 或微資料語法, 另外,您還能使用 W3C DCAT 詞彙描述中繼資料。以下範例是根據實際資料集說明而來。

JSON-LD

以下是 JSON-LD 格式的資料集範例:


  <html>
  <head>
    <title>NCDC Storm Events Database</title>
    <script type="application/ld+json">
    {
      "@context":"https://schema.org/",
      "@type":"Dataset",
      "name":"NCDC Storm Events Database",
      "description":"Storm Data is provided by the National Weather Service (NWS) and contain statistics on...",
      "url":"https://catalog.data.gov/dataset/ncdc-storm-events-database",
      "sameAs":"https://gis.ncdc.noaa.gov/geoportal/catalog/search/resource/details.page?id=gov.noaa.ncdc:C00510",
      "identifier": ["https://doi.org/10.1000/182",
                     "https://identifiers.org/ark:/12345/fk1234"],
      "keywords":[
         "ATMOSPHERE > ATMOSPHERIC PHENOMENA > CYCLONES",
         "ATMOSPHERE > ATMOSPHERIC PHENOMENA > DROUGHT",
         "ATMOSPHERE > ATMOSPHERIC PHENOMENA > FOG",
         "ATMOSPHERE > ATMOSPHERIC PHENOMENA > FREEZE"
      ],
      "license" : "https://creativecommons.org/publicdomain/zero/1.0/",
      "hasPart" : [
        {
          "@type": "Dataset",
          "name": "Sub dataset 01",
          "description": "Informative description of the first subdataset...",
          "license" : "https://creativecommons.org/publicdomain/zero/1.0/"
        },
        {
          "@type": "Dataset",
          "name": "Sub dataset 02",
          "description": "Informative description of the second subdataset...",
          "license" : "https://creativecommons.org/publicdomain/zero/1.0/"
        }
      ],
      "creator":{
         "@type":"Organization",
         "url": "https://www.ncei.noaa.gov/",
         "name":"OC/NOAA/NESDIS/NCEI > National Centers for Environmental Information, NESDIS, NOAA, U.S. Department of Commerce",
         "contactPoint":{
            "@type":"ContactPoint",
            "contactType": "customer service",
            "telephone":"+1-828-271-4800",
            "email":"ncei.orders@noaa.gov"
         }
      },
      "includedInDataCatalog":{
         "@type":"DataCatalog",
         "name":"data.gov"
      },
      "distribution":[
         {
            "@type":"DataDownload",
            "encodingFormat":"CSV",
            "contentUrl":"http://www.ncdc.noaa.gov/stormevents/ftp.jsp"
         },
         {
            "@type":"DataDownload",
            "encodingFormat":"XML",
            "contentUrl":"http://gis.ncdc.noaa.gov/all-records/catalog/search/resource/details.page?id=gov.noaa.ncdc:C00510"
         }
      ],
      "temporalCoverage":"1950-01-01/2013-12-18",
      "spatialCoverage":{
         "@type":"Place",
         "geo":{
            "@type":"GeoShape",
            "box":"18.0 -65.0 72.0 172.0"
         }
      }
    }
    </script>
  </head>
  <body>
  </body>
</html>
RDFa

以下是使用 DCAT 詞彙的 RDFa 格式資料集範例:


<article about="/node/1234" typeof="dcat:Dataset">
    <dl>
      <dt>Name:</dt>
      <dd property="dc:title">ACME Inc Cash flow data</dd>
      <dt>Identifiers:</dt>
      <dd property="dc:identifier">https://doi.org/10.1000/182</dd>
      <dd property="dc:identifier">https://identifiers.org/ark:/12345/fk1234</dd>
      <dt>Description:</dt>
      <dd property="dc:description">Financial Statements - Consolidated Statement of Cash Flows</dd>
      <dt>Category:</dt>
      <dd rel="dc:subject">Financial</dd>
      <dt class="field-label">Downloads:</dt>
      <dd>
        <ul>
          <li>
            <a rel="dcat:distribution" href="Consolidated_Statement_of_Cash_Flows_en.csv"><span property="dcat:mediaType" content="text/csv" >Consolidated_Statement_of_Cash_Flows_en.csv</span></a>
          </li>
         <li>
            <a rel="dcat:distribution"  href="files/Consolidated_Statement_of_Cash_Flows_en.xls"><span property="dcat:mediaType" content="application/vnd.ms-excel">Consolidated_Statement_of_Cash_Flows_en.xls</span></a>
          </li>
          <li>
            <a rel="dcat:distribution"  href="files/consolidated_statement_of_cash_flows_en.xml"><span property="dcat:mediaType" content="application/xml">consolidated_statement_of_cash_flows_en.xml</span></a>
          </li>
        </ul>
      </dd>
    </dl>
  </article>

指南規範

網站應遵循結構化資料指南。除了結構化資料指南以外,建議您另外遵循下方所列的 Sitemap來源與出處最佳做法。

Sitemap 最佳做法

請使用 Sitemap 檔案協助 Google 尋找您的網址。使用 Sitemap 檔案和 sameAs 標記有助於記錄整個網站中資料集說明的發布情形。

如果您有資料集存放區,就很可能至少有兩種網頁:各個資料集的標準 (「到達」) 網頁,和列出多個資料集的網頁 (例如搜尋結果或部分資料集)。建議您在標準網頁中新增有關資料集的結構化資料。如要在多個資料集副本中新增結構化資料 (例如搜尋結果頁面中的資訊),請使用 sameAs 屬性連結至標準網頁。

來源和出處最佳做法

開放式資料集經常會重新發布、匯總,以及以其他資料集為基礎。 以下簡單說明我們如何表示資料集是其他資料集的複本還是以其他資料集為基礎。

  • 如果資料集或說明是直接將他處發布的內容重新發布而產生,請使用 sameAs 屬性表示最標準的原始內容網址。sameAs 的值須明確指出資料集的身分:也就是兩個不同的資料集不應使用相同的網址作為 sameAs 的值。
  • 如果重新發布的資料集 (包括其中繼資料) 經過大幅變動,請使用 isBasedOn 屬性。
  • 如果資料集衍生自多個原始資料集,或匯總了多個原始資料集,請使用 isBasedOn 屬性。
  • 使用 identifier 屬性附加任何相關的數位物件 ID (DOI) 或精簡 ID。如果資料集有多個 ID,請重複使用 identifier 屬性。採用 JSON-LD 格式時,請透過 JSON 清單語法表示這個屬性。

我們希望根據意見回饋改進我們的建議,特別是有關出處、版本和時間序列發布相關日期說明的建議,歡迎參與社群討論

文字屬性建議

所有文字屬性的建議長度上限為 5000 個字元。Google 資料集搜尋只會使用任何文字屬性中的前 5000 個字元。名稱和標題通常是幾個字或簡短的句子。

已知錯誤和警告

您可能會在 Google 的結構化資料測試工具和其他驗證系統中碰到錯誤或收到警告。具體而言,驗證系統可能會建議機構要有包含 contactType 的聯絡資訊;實用的值包括 customer serviceemergencyjournalistnewsroompublic engagement。您也可以忽略 csvw:TablemainEntity 屬性非預期值的錯誤。

結構化資料類型定義

您的內容必須包含必要的屬性,才能以複合式搜尋結果的形式呈現。 您也可以加入建議的屬性,為內容新增更多相關資訊,提供更優質的使用者體驗。

您可以使用結構化資料測試工具驗證標記。

重點在於說明資料集相關資訊 (其中繼資料) 和表示其內容。例如,資料集中繼資料會指出資料集的內容、測量的變數、建立者等,但不包含變數的特定值。

Dataset

schema.org/Dataset 內提供 Dataset 的完整定義。

您可以說明關於資料集發布的其他資訊,例如授權、發布時間、其 DOI,或指向其他存放區中標準版本資料集的 sameAs。如果資料集提供出處和授權資訊,請新增 identifierlicensesameAs

必要屬性
description Text

資料集的簡短摘要。

指南規範

  • 摘要長度必須介於 50 至 5000 個半形字元之間。
  • 摘要可包含 Markdown 語法。嵌入的圖片必須使用絕對路徑網址 (而非相對路徑)。
  • 採用 JSON-LD 格式時,請透過 \n (兩個半形字元:反斜線和小寫「n」字母) 表示新的一行。
name Text

資料集的描述性名稱,例如「北半球的雪深」。

指南規範

  • 請盡可能為不同的資料集使用不重複的名稱。
  • 建議使用:以 "Snow depth in the Northern Hemisphere""Snow depth in the Southern Hemisphere" 為兩個不同的資料集命名。

    不建議使用:以 "Snow depth""Snow depth" 為兩個不同的資料集命名。

建議屬性
alternateName Text

用來參照此資料集的替代名稱,例如別名或縮寫。JSON-LD 格式的範例如下:


"name": "The Quick, Draw! Dataset"
"alternateName": ["Quick Draw Dataset", "quickdraw-dataset"]
creator PersonOrganization

這個資料集的建立者或作者。如要識別每位不重複的使用者,請使用 ORCID ID 做為 Person 類型的 sameAs 屬性值。如要識別不重複的組織和機構,請使用 ROR ID。JSON-LD 格式的範例如下:


"creator": [
    {
        "@type": "Person",
        "sameAs": "http://orcid.org/0000-0000-0000-0000",
        "givenName": "Jane",
        "familyName": "Foo",
        "name": "Jane Foo"
    },
    {
        "@type": "Person",
        "sameAs": "http://orcid.org/0000-0000-0000-0001",
        "givenName": "Jo",
        "familyName": "Bar",
        "name": "Jo Bar"
    },
    {
        "@type": "Organization",
        "sameAs": "http://ror.org/xxxxxxxxx",
        "name": "Fictitious Research Consortium"
    }
]
citation TextCreativeWork

除了資料集本身以外,如果資料供應商也建議您引用其他學術文章,您就可以使用這個屬性識別這些文章。如要提供資料集本身的引用資訊,請使用 nameidentifiercreatorpublisher 等其他屬性。舉例來說,這個屬性可專門用於識別相關學術出版品,例如資料描述元、資料論文,或者將這個資料集列為補充內容的文章。JSON-LD 格式的範例如下:


"citation": "https://doi.org/10.1111/111"

"citation": "https://identifiers.org/pubmed:11111111"

"citation": "https://identifiers.org/arxiv:0111.1111v1"

"citation":
 "Doe J (2014) Influence of X ... https://doi.org/10.1111/111"

其他規範

  • 請勿使用此屬性提供資料集本身的引用資訊。這個屬性是用於識別相關學術文章,而非資料集本身。如要在引用資料集本身時提供相關必要資訊,請改用 nameidentifiercreatorpublisher 屬性。
  • 在引用屬性中填入引用文字片段時,請盡量提供文章 ID (例如 DOI)。

    建議使用 "Doe J (2014) Influence of X. Biomics 1(1). https://doi.org/10.1111/111"

    不建議使用"Doe J (2014) Influence of X. Biomics 1(1)."

hasPartisPartOf URLDataset

如果資料集是較小資料集的集合,請使用 hasPart 屬性來表示這種關係。相對地,如果資料集是較大資料集的一部分,請使用 isPartOf 屬性。這兩種屬性皆可採用網址或 Dataset 執行個體的形式。如果使用 Dataset 做為值,則必須包含獨立 Dataset 所需的所有屬性。 範例如下:


"hasPart" : [
  {
    "@type": "Dataset",
    "name": "Sub dataset 01",
    "description": "Informative description of the first subdataset...",
    "license" : "https://creativecommons.org/publicdomain/zero/1.0/"
  },
  {
    "@type": "Dataset",
    "name": "Sub dataset 02",
    "description": "Informative description of the second subdataset...",
    "license" : "https://creativecommons.org/publicdomain/zero/1.0/"
  }
]

"isPartOf" : "https://example.com/aggregate_dataset"
identifier URLTextPropertyValue

資料集 ID,例如 DOI 或精簡 ID。如果資料集有多個 ID,請重複使用 identifier 屬性。採用 JSON-LD 格式時,請透過 JSON 清單語法表示這個屬性。

keywords Text

可摘述資料集內容的關鍵字。

license URLCreativeWork

用來發布資料集的授權。例如:


"license" : "https://creativecommons.org/publicdomain/zero/1.0/"

"license" : {
  "@type": "CreativeWork",
  "name": "Custom license",
  "url": "https://example.com/custom_license"
  }

其他規範

  • 提供明確識別所用授權特定版本的網址。

    建議使用

    
    "license" : "https://creativecommons.org/licenses/by/4.0"

    不建議使用

    
    "license" : "https://creativecommons.org/licenses/by"
measurementTechnique TextURL

資料集使用的技巧、技術或方法,可對應至 variableMeasured 中所述的變數。

sameAs URL

可明確識別資料集的參照網頁網址。

spatialCoverage TextPlace

您可以提供單一座標點來說明資料集的空間特徵。只有具有空間維度的資料集需要加入這項屬性。例如,用來收集所有測量資料的單一座標點,或特定區域界框的座標。

座標點


"spatialCoverage:" {
  "@type": "Place",
  "geo": {
    "@type": "GeoCoordinates",
    "latitude": 39.3280,
    "longitude": 120.1633
  }
}

形狀

使用 GeoShape 說明不同形狀的區域,例如指定一個定界框。


"spatialCoverage:" {
  "@type": "Place",
  "geo": {
    "@type": "GeoShape",
    "box": "39.3280 120.1633 40.445 123.7878"
  }
}

如要表示 boxcirclelinepolygon 屬性中的座標點,您必須將依序對應緯度和經度的兩個值搭配成一組,並在兩組值之間加上分隔用的空格。

指定位置


"spatialCoverage:" "Tahoe City, CA"
temporalCoverage Text

資料集中的資料涵蓋特定時間間隔。只有具有時間維度的資料集需要加入這項屬性。Schema.org 是使用 ISO 8601 來說明時間間隔和時間點。視資料集間隔而定,您可以使用不同方式說明資料集。如要表示開放式間隔,請使用兩個小數點 (..)。

單一日期


"temporalCoverage" : "2008"

時間範圍


"temporalCoverage" : "1950-01-01/2013-12-18"

開放式時間範圍


"temporalCoverage" : "2013-12-19/.."
variableMeasured TextPropertyValue

這個資料集測量的變數,例如溫度或壓力。

version TextNumber

資料集的版本號碼。

url URL

可說明資料集的網頁位置。

DataCatalog

schema.org/DataCatalog 內提供 DataCatalog 的完整定義。

資料集往往會發布至包含許多其他資料集的存放區。同一資料集可包含在多個這類存放區中。您可以直接參照這個資料集所屬的資料目錄。

建議屬性
includedInDataCatalog DataCatalog

資料集所屬的目錄。

DataDownload

schema.org/DataDownload 內提供 DataDownload 的完整定義。除了 Dataset 屬性以外,請為提供下載選項的資料集另外新增下列屬性。

distribution 屬性是用來說明如何取得資料集本身,因為網址往往會指向說明資料集的到達網頁。distribution 屬性會說明資料的存放位置和格式。這項屬性可以有多個值,例如 CSV 版本和 Excel 版本分別可透過不同網址取得。

必要屬性
distribution.contentUrl URL

下載連結。

建議屬性
distribution DataDownload

資料集下載位置和下載檔案格式的說明。

distribution.encodingFormat TextURL

發布內容的檔案格式。

表格式資料集

表格式資料集是主要由資料列與資料欄格線構成的資料集。 如果網頁嵌入了表格式資料集,您也可以根據上述基本做法建立更明確的標記。目前我們能夠判讀 HTML 網頁中與使用者導向表格內容並行提供的 CSVW 變化版本 (CSVW 為「網路 CSV」,詳情請參閱 W3C)。

以下是以 CSVW JSON-LD 格式編碼的小型表格範例。目前複合式搜尋結果測試中有一些已知錯誤,詳情請參閱這節的說明

透過 Search Console 監控複合式搜尋結果

Search Console 這項工具能協助您監控網頁在 Google 搜尋中的成效。 Google 會主動將您的網頁納入搜尋結果,您無需為此申請使用 Search Console,但是您可以藉由這項服務瞭解並改善 Google 檢索您網站的方式。建議在下列情況查看 Search Console:

  1. 首次部署結構化資料後
  2. 發布新範本或更新程式碼後
  3. 定期分析流量

首次部署結構化資料後

在 Google 為網頁建立索引後,請透過相關複合式搜尋結果狀態報告查看是否存在任何問題。 理想情況下,有效網頁會增加,但錯誤或警告不會變多。如果您在結構化資料中發現問題,請依下列步驟操作:

  1. 修正錯誤
  2. 檢查線上網址,查看問題是否仍繼續發生。
  3. 透過狀態報告要求驗證

發布新範本或更新程式碼後

當您對網站進行大幅變更時,請留意結構化資料中錯誤和警告的數量是否增加。
  • 如果錯誤增加,代表新推出的範本可能無法正常運作,或者網站採用新方式與現有範本互動,但效果不佳。
  • 如果有效項目減少,但錯誤並未隨之增加,代表您的網頁可能已不再內嵌結構化資料。請使用網址檢查工具找出問題的原因。

定期分析流量

透過成效報表分析您的 Google 搜尋流量。 這些資料會顯示您的網頁在 Google 搜尋中呈現為複合式搜尋結果的頻率、使用者點擊的頻率,以及您的搜尋結果平均排名。您也可以使用 Search Console API 自動提取這些結果。

疑難排解

如果您無法順利導入結構化資料,請參考下列資源。

資料集搜尋結果未顯示特定資料集

問題發生原因:網站中描述資料集的網頁並未包含結構化資料,或者系統尚未檢索該網頁。

修正問題

  1. 找出您預期要顯示在資料集搜尋結果中的網頁,複製其連結並貼至複合式搜尋結果測試中。如果系統顯示訊息「經這項測試得知無法顯示複合式搜尋結果的網頁」或「仍有標記不符合複合式搜尋結果的顯示條件」,即表示網頁上沒有 Dataset 標記,或者標記方式有誤。請參閱如何新增結構化資料一節中的說明來修正這個問題。
  2. 如果網頁含有標記,表示網頁可能尚未經過檢索。您可以透過 Search Console 檢查檢索狀態

搜尋結果缺少公司標誌或未正確顯示公司標誌

問題發生原因:您的網頁中可能缺少機構標誌的 schema.org 標記,或者您並未透過 Google 提供公司標誌。

修正問題

  1. 在網頁中新增標誌結構化資料
  2. 透過 Google 提供商家詳細資料