Tập dữ liệu

Các tập dữ liệu sẽ dễ tìm thấy hơn khi bạn cung cấp thông tin hỗ trợ như tên, nội dung mô tả, người tạo và định dạng phân phối dưới dạng dữ liệu có cấu trúc. Phương thức khám phá tập dữ liệu của Google là dựa vào schema.org và các tiêu chuẩn khác về siêu dữ liệu có thể thêm vào các trang mô tả tập dữ liệu. Mục đích của mã đánh dấu này là để cải thiện khả năng phát hiện các tập dữ liệu thuộc các lĩnh vực như khoa học đời sống, khoa học xã hội, máy học, dữ liệu công dân và chính phủ, v.v. Bạn có thể tìm tập dữ liệu bằng cách sử dụng công cụ Tìm kiếm Tập dữ liệu.

ví dụ về Tìm kiếm Tập dữ liệu

Dưới đây là một số ví dụ về những nội dung đủ điều kiện làm tập dữ liệu:

  • Bảng hoặc tệp CSV có một số dữ liệu
  • Tập hợp các bảng có tổ chức
  • Một tệp ở định dạng độc quyền có chứa dữ liệu
  • Một tập hợp các tệp cùng nhau cấu thành nên tập dữ liệu có ý nghĩa
  • Một đối tượng có cấu trúc chứa dữ liệu ở một định dạng khác mà bạn có thể muốn tải vào một công cụ đặc biệt để xử lý
  • Ảnh chụp dữ liệu
  • Các tệp liên quan đến công nghệ máy học, chẳng hạn như các tham số được huấn luyện hoặc định nghĩa cấu trúc mạng nơ-ron
  • Nội dung bất kỳ mà bạn thấy giống tập dữ liệu

Cách thêm dữ liệu có cấu trúc

Dữ liệu có cấu trúc là một định dạng chuẩn để cung cấp thông tin về một trang và phân loại nội dung trang. Nếu mới sử dụng dữ liệu có cấu trúc, bạn có thể tìm hiểu thêm về cách hoạt động của dữ liệu có cấu trúc.

Dưới đây là thông tin tổng quan về cách xây dựng, kiểm tra và phát hành dữ liệu có cấu trúc. Để biết hướng dẫn từng bước về cách thêm dữ liệu có cấu trúc vào một trang web, hãy xem lớp học mã về dữ liệu có cấu trúc.

  1. Thêm thuộc tính bắt buộc. Để biết thông tin về nơi để đặt dữ liệu có cấu trúc trên trang, hãy xem Dữ liệu có cấu trúc JSON-LD: Vị trí chèn dữ liệu vào trang.
  2. Làm theo các nguyên tắc.
  3. Xác thực mã của bạn bằng công cụ Kiểm tra kết quả nhiều định dạng.
  4. Triển khai một vài trang có chứa dữ liệu có cấu trúc và dùng Công cụ kiểm tra URL để kiểm tra xem Google nhìn thấy trang đó như thế nào. Hãy đảm bảo rằng Google có thể truy cập trang của bạn và bạn không chặn trang bằng tệp robots.txt, thẻ noindex hoặc yêu cầu đăng nhập. Nếu trang có vẻ không gặp vấn đề nào, bạn có thể yêu cầu Google thu thập lại dữ liệu đối với các URL này.
  5. Để thông báo cho Google về các thay đổi sau này, bạn nên gửi sơ đồ trang web. Bạn có thể tự động hóa quy trình này bằng cách sử dụng API sơ đồ trang web của Search Console.

Xóa tập dữ liệu khỏi kết quả Tìm kiếm Tập dữ liệu

Nếu bạn không muốn một tập dữ liệu hiển thị trong kết quả Tìm kiếm Tập dữ liệu, hãy sử dụng thẻ meta robots để kiểm soát cách thức Google lập chỉ mục tập dữ liệu của bạn. Hãy lưu ý rằng bạn có thể phải đợi (vài ngày hoặc vài tuần, tùy vào lịch thu thập thông tin) để các thay đổi này thể hiện trên trang Tìm kiếm Tập dữ liệu.

Phương thức khám phá tập dữ liệu của chúng tôi

Chúng tôi có thể hiểu được dữ liệu có cấu trúc trong các trang web về tập dữ liệu bằng cách sử dụng mã đánh dấu Dataset trên schema.org hoặc cấu trúc tương đương ở định dạng Data Catalog Vocabulary (DCAT) của W3C. Chúng tôi cũng đang thử nghiệm việc hỗ trợ dữ liệu có cấu trúc dựa trên W3C CSVW và hy vọng sẽ phát triển và điều chỉnh thêm phương thức của chúng tôi khi có thêm các phương pháp hiệu quả khác về cách định nghĩa tập dữ liệu. Để biết thêm thông tin về phương thức khám phá tập dữ liệu của chúng tôi, hãy xem phần Hỗ trợ việc khám phá các tập dữ liệu.

Ví dụ

Sau đây là ví dụ về tập dữ liệu sử dụng cú pháp JSON-LD và schema.org (ưu tiên) trong công cụ Kiểm tra kết quả nhiều định dạng. Từ vựng schema.org tương tự cũng có thể được sử dụng trong cú pháp RDFa 1.1 hoặc Microdata. Bạn cũng có thể sử dụng từ vựng DCAT của W3C để mô tả siêu dữ liệu. Ví dụ sau được dựa trên nội dung mô tả tập dữ liệu trong thực tế.

JSON-LD

Dưới đây là một ví dụ về tập dữ liệu trong JSON-LD:


  <html>
  <head>
    <title>NCDC Storm Events Database</title>
    <script type="application/ld+json">
    {
      "@context":"https://schema.org/",
      "@type":"Dataset",
      "name":"NCDC Storm Events Database",
      "description":"Storm Data is provided by the National Weather Service (NWS) and contain statistics on...",
      "url":"https://catalog.data.gov/dataset/ncdc-storm-events-database",
      "sameAs":"https://gis.ncdc.noaa.gov/geoportal/catalog/search/resource/details.page?id=gov.noaa.ncdc:C00510",
      "identifier": ["https://doi.org/10.1000/182",
                     "https://identifiers.org/ark:/12345/fk1234"],
      "keywords":[
         "ATMOSPHERE > ATMOSPHERIC PHENOMENA > CYCLONES",
         "ATMOSPHERE > ATMOSPHERIC PHENOMENA > DROUGHT",
         "ATMOSPHERE > ATMOSPHERIC PHENOMENA > FOG",
         "ATMOSPHERE > ATMOSPHERIC PHENOMENA > FREEZE"
      ],
      "license" : "https://creativecommons.org/publicdomain/zero/1.0/",
      "hasPart" : [
        {
          "@type": "Dataset",
          "name": "Sub dataset 01",
          "description": "Informative description of the first subdataset...",
          "license" : "https://creativecommons.org/publicdomain/zero/1.0/"
        },
        {
          "@type": "Dataset",
          "name": "Sub dataset 02",
          "description": "Informative description of the second subdataset...",
          "license" : "https://creativecommons.org/publicdomain/zero/1.0/"
        }
      ],
      "creator":{
         "@type":"Organization",
         "url": "https://www.ncei.noaa.gov/",
         "name":"OC/NOAA/NESDIS/NCEI > National Centers for Environmental Information, NESDIS, NOAA, U.S. Department of Commerce",
         "contactPoint":{
            "@type":"ContactPoint",
            "contactType": "customer service",
            "telephone":"+1-828-271-4800",
            "email":"ncei.orders@noaa.gov"
         }
      },
      "includedInDataCatalog":{
         "@type":"DataCatalog",
         "name":"data.gov"
      },
      "distribution":[
         {
            "@type":"DataDownload",
            "encodingFormat":"CSV",
            "contentUrl":"http://www.ncdc.noaa.gov/stormevents/ftp.jsp"
         },
         {
            "@type":"DataDownload",
            "encodingFormat":"XML",
            "contentUrl":"http://gis.ncdc.noaa.gov/all-records/catalog/search/resource/details.page?id=gov.noaa.ncdc:C00510"
         }
      ],
      "temporalCoverage":"1950-01-01/2013-12-18",
      "spatialCoverage":{
         "@type":"Place",
         "geo":{
            "@type":"GeoShape",
            "box":"18.0 -65.0 72.0 172.0"
         }
      }
    }
    </script>
  </head>
  <body>
  </body>
</html>
RDFa

Dưới đây là một ví dụ về tập dữ liệu trong RDFa bằng từ vựng DCAT:


<article about="/node/1234" typeof="dcat:Dataset">
    <dl>
      <dt>Name:</dt>
      <dd property="dc:title">ACME Inc Cash flow data</dd>
      <dt>Identifiers:</dt>
      <dd property="dc:identifier">https://doi.org/10.1000/182</dd>
      <dd property="dc:identifier">https://identifiers.org/ark:/12345/fk1234</dd>
      <dt>Description:</dt>
      <dd property="dc:description">Financial Statements - Consolidated Statement of Cash Flows</dd>
      <dt>Category:</dt>
      <dd rel="dc:subject">Financial</dd>
      <dt class="field-label">Downloads:</dt>
      <dd>
        <ul>
          <li>
            <a rel="dcat:distribution" href="Consolidated_Statement_of_Cash_Flows_en.csv"><span property="dcat:mediaType" content="text/csv" >Consolidated_Statement_of_Cash_Flows_en.csv</span></a>
          </li>
         <li>
            <a rel="dcat:distribution"  href="files/Consolidated_Statement_of_Cash_Flows_en.xls"><span property="dcat:mediaType" content="application/vnd.ms-excel">Consolidated_Statement_of_Cash_Flows_en.xls</span></a>
          </li>
          <li>
            <a rel="dcat:distribution"  href="files/consolidated_statement_of_cash_flows_en.xml"><span property="dcat:mediaType" content="application/xml">consolidated_statement_of_cash_flows_en.xml</span></a>
          </li>
        </ul>
      </dd>
    </dl>
  </article>

Nguyên tắc

Các trang web nên tuân theo nguyên tắc về dữ liệu có cấu trúc. Bên cạnh nguyên tắc về dữ liệu có cấu trúc, bạn cũng nên làm theo các phương pháp hay nhất về sơ đồ trang webnguồn bên dưới.

Các phương pháp hay nhất về sơ đồ trang web

Hãy dùng tệp sơ đồ trang web để giúp Google tìm thấy các URL của bạn. Khi dùng các tệp sơ đồ trang web và mã đánh dấu sameAs, bạn có thể ghi lại cách nội dung mô tả tập dữ liệu được xuất bản trên toàn bộ trang web của bạn.

Nếu có kho lưu trữ tập dữ liệu, bạn có thể có ít nhất hai loại trang: trang chuẩn ("đích") cho mỗi tập dữ liệu và trang liệt kê nhiều tập dữ liệu (ví dụ: kết quả tìm kiếm hoặc một số nhóm tập dữ liệu). Bạn nên thêm dữ liệu có cấu trúc về tập dữ liệu vào các trang chuẩn. Hãy sử dụng thuộc tính sameAs để liên kết đến trang chuẩn nếu bạn thêm dữ liệu có cấu trúc vào nhiều bản sao của tập dữ liệu, chẳng hạn như danh sách trong các trang kết quả tìm kiếm.

Phương pháp hay nhất về nguồn

Thông thường các tập dữ liệu mở sẽ được xuất bản lại, tổng hợp và dựa trên các bộ dữ liệu khác. Đây là đề cương ban đầu về phương thức xử lý của chúng tôi trong những tình huống mà một tập dữ liệu là bản sao trùng lặp của (hoặc dựa trên) một tập dữ liệu khác.

  • Sử dụng thuộc tính sameAs để chỉ ra các URL chính tắc cho bản gốc trong trường hợp tập dữ liệu hoặc đoạn mô tả chỉ là một bản sao trùng lặp của nội dung đã xuất bản ở nơi khác. Giá trị của sameAs cần thể hiện rõ ràng đặc điểm của tập dữ liệu – nói cách khác là hai tập dữ liệu khác nhau không nên sử dụng cùng một URL làm giá trị của sameAs.
  • Sử dụng thuộc tính isBasedOn trong trường hợp tập dữ liệu xuất bản lại (bao gồm cả siêu dữ liệu của tập dữ liệu đó) đã thay đổi đáng kể.
  • Khi một tập dữ liệu được lấy từ hoặc là bản tổng hợp của một số tập dữ liệu gốc, hãy sử dụng thuộc tính isBasedOn.
  • Sử dụng thuộc tính identifier để đính kèm Mã định danh đối tượng kỹ thuật số (DOI) hoặc Mã định danh rút gọn bất kỳ. Nếu tập dữ liệu có nhiều hơn một giá trị nhận dạng, hãy sử dụng lại thuộc tính identifier. Nếu bạn sử dụng JSON-LD, thì thuộc tính này được biểu thị bằng cú pháp danh sách JSON.

Chúng tôi hy vọng sẽ cải thiện các mục đề xuất của chúng tôi dựa trên các ý kiến phản hồi, đặc biệt là phản hồi về cách mô tả nguồn, phiên bản và ngày xuất bản trong một chuỗi theo thời gian. Hãy tham gia các cuộc thảo luận trong cộng đồng.

Các thuộc tính văn bản nên có

Chúng tôi khuyên bạn nên giới hạn tất cả các thuộc tính văn bản ở mức 5000 ký tự trở xuống. Google Tìm kiếm Tập dữ liệu chỉ sử dụng 5000 ký tự đầu tiên của bất kỳ thuộc tính văn bản nào. Tên và tiêu đề thường là một vài từ hoặc một câu ngắn.

Lỗi và cảnh báo đã biết

Bạn có thể gặp lỗi hoặc cảnh báo trong Công cụ kiểm tra dữ liệu có cấu trúc của Google và các hệ thống xác thực khác. Cụ thể, các hệ thống xác thực có thể đề xuất rằng các tổ chức nên cung cấp thông tin liên hệ bao gồm contactType; các giá trị hữu ích bao gồm customer service, emergency, journalist, newsroompublic engagement. Bạn cũng có thể bỏ qua các lỗi về csvw:Table vì đây là một giá trị ngoài dự kiến cho thuộc tính mainEntity.

Định nghĩa kiểu dữ liệu có cấu trúc

Bạn phải bao gồm các thuộc tính bắt buộc để nội dung của mình đủ điều kiện hiển thị dưới dạng kết quả nhiều định dạng. Bạn cũng có thể bao gồm các thuộc tính mà chúng tôi khuyên dùng để thêm thông tin về nội dung nhằm mang lại trải nghiệm tốt hơn cho người dùng.

Bạn có thể sử dụng Công cụ kiểm tra dữ liệu có cấu trúc để xác thực mã đánh dấu của mình.

Trọng tâm ở đây là mô tả thông tin về một tập dữ liệu (siêu dữ liệu của tập) và thể hiện nội dung của tập đó. Ví dụ: siêu dữ liệu về một tập dữ liệu cho biết tập dữ liệu có nội dung gì, các biến số mà tập đó đo lường, người tạo tập dữ liệu, v.v. Tuy nhiên, siêu dữ liệu không chứa giá trị cụ thể cho các biến số và nhiều thông tin khác.

Dataset

Bạn có thể xem định nghĩa đầy đủ về Dataset tại schema.org/Dataset.

Bạn có thể mô tả thông tin bổ sung về quá trình xuất bản tập dữ liệu, chẳng hạn như giấy phép, thời gian xuất bản, DOI của tập dữ liệu đó hoặc thuộc tính sameAs trỏ đến phiên bản chuẩn của tập dữ liệu trong một kho lưu trữ khác. Hãy thêm identifier, licensesameAs cho các tập dữ liệu có cung cấp thông tin giấy phép và nguồn.

Thuộc tính bắt buộc
description Text

Một phần tóm tắt ngắn mô tả một tập dữ liệu.

Nguyên tắc

  • Phần tóm tắt phải dài từ 50 đến 5.000 ký tự.
  • Phần tóm tắt có thể bao gồm cú pháp Markdown. Hình ảnh nhúng phải sử dụng URL đường dẫn tuyệt đối (thay vì đường dẫn tương đối).
  • Khi sử dụng định dạng JSON-LD, hãy biểu thị các dòng mới bằng \n (hai ký tự: dấu gạch chéo ngược và chữ "n" thường).
name Text

Tên mô tả của tập dữ liệu. Ví dụ: "Độ sâu của tuyết ở Bắc bán cầu".

Nguyên tắc

  • Sử dụng tên dành riêng cho các tập dữ liệu khác biệt bất cứ khi nào có thể.
  • Nên: Sử dụng tên "Snow depth in the Northern Hemisphere""Snow depth in the Southern Hemisphere" cho hai tập dữ liệu khác nhau.

    Không nên: Sử dụng tên "Snow depth""Snow depth" cho hai tập dữ liệu khác nhau.

Thuộc tính nên có
alternateName Text

Tên thay thế đã dùng để tham chiếu đến tập dữ liệu này, chẳng hạn như bí danh hoặc từ viết tắt. Ví dụ (ở định dạng JSON-LD):


"name": "The Quick, Draw! Dataset"
"alternateName": ["Quick Draw Dataset", "quickdraw-dataset"]
creator Person hoặc Organization

Tác giả hoặc người tạo tập dữ liệu này. Để xác định riêng từng cá nhân, sử dụng ID ORCID làm giá trị của thuộc tính sameAs của loại Person. Để xác định riêng từng tổ chức, hãy sử dụng giá trị ID ROR. Ví dụ (ở định dạng JSON-LD):


"creator": [
    {
        "@type": "Person",
        "sameAs": "http://orcid.org/0000-0000-0000-0000",
        "givenName": "Jane",
        "familyName": "Foo",
        "name": "Jane Foo"
    },
    {
        "@type": "Person",
        "sameAs": "http://orcid.org/0000-0000-0000-0001",
        "givenName": "Jo",
        "familyName": "Bar",
        "name": "Jo Bar"
    },
    {
        "@type": "Organization",
        "sameAs": "http://ror.org/xxxxxxxxx",
        "name": "Fictitious Research Consortium"
    }
]
citation Text hoặc CreativeWork

Xác định các bài báo học thuật mà nhà cung cấp dữ liệu đề xuất trích dẫn ngoài tập dữ liệu. Cung cấp thông tin trích dẫn cho chính tập dữ liệu bằng các thuộc tính khác, chẳng hạn như các thuộc tính name, identifier, creatorpublisher. Ví dụ: thuộc tính này có thể xác định riêng một ấn phẩm học thuật có liên quan, chẳng hạn như phần mô tả dữ liệu, ấn phẩm dữ liệu hoặc bài viết mà tập dữ liệu này bổ sung. Ví dụ (ở định dạng JSON-LD):


"citation": "https://doi.org/10.1111/111"

"citation": "https://identifiers.org/pubmed:11111111"

"citation": "https://identifiers.org/arxiv:0111.1111v1"

"citation":
 "Doe J (2014) Influence of X ... https://doi.org/10.1111/111"

Nguyên tắc bổ sung

  • Không sử dụng thuộc tính này để cung cấp thông tin trích dẫn cho chính tập dữ liệu. Trường này là để xác định các bài viết học thuật liên quan thay vì bản thân tập dữ liệu. Để cung cấp thông tin cần thiết để trích dẫn chính tập dữ liệu, hãy sử dụng các thuộc tính name, identifier, creatorpublisher.
  • Khi điền đoạn trích dẫn vào thuộc tính trích dẫn, hãy cung cấp giá trị nhận dạng bài viết (chẳng hạn như DOI) bất cứ khi nào có thể.

    Nên: "Doe J (2014) Influence of X. Biomics 1(1). https://doi.org/10.1111/111"

    Không nên: "Doe J (2014) Influence of X. Biomics 1(1)."

hasPart hoặc isPartOf URL hoặc Dataset

Nếu tập dữ liệu là một tập hợp gồm các tập dữ liệu nhỏ hơn, hãy sử dụng thuộc tính hasPart để biểu thị mối quan hệ đó. Ngược lại, nếu tập dữ liệu là một phần của một tập dữ liệu lớn hơn, hãy sử dụng isPartOf. Cả hai thuộc tính có thể có dạng URL hoặc Dataset. Trong trường hợp Dataset được sử dụng làm giá trị, thì mục này phải bao gồm tất cả các thuộc tính cần thiết cho một Dataset độc lập. Ví dụ:


"hasPart" : [
  {
    "@type": "Dataset",
    "name": "Sub dataset 01",
    "description": "Informative description of the first subdataset...",
    "license" : "https://creativecommons.org/publicdomain/zero/1.0/"
  },
  {
    "@type": "Dataset",
    "name": "Sub dataset 02",
    "description": "Informative description of the second subdataset...",
    "license" : "https://creativecommons.org/publicdomain/zero/1.0/"
  }
]

"isPartOf" : "https://example.com/aggregate_dataset"
identifier URL, Text hoặc PropertyValue

Giá trị nhận dạng, chẳng hạn như DOI hoặc Compact Identifier. Nếu tập dữ liệu có nhiều hơn một giá trị nhận dạng, hãy sử dụng lại thuộc tính identifier. Nếu bạn sử dụng JSON-LD, thì thuộc tính này được biểu thị bằng cú pháp danh sách JSON.

keywords Text

Từ khóa tóm tắt tập dữ liệu.

license URL hoặc CreativeWork

Giấy phép cho việc phân phối tập dữ liệu. Ví dụ:


"license" : "https://creativecommons.org/publicdomain/zero/1.0/"

"license" : {
  "@type": "CreativeWork",
  "name": "Custom license",
  "url": "https://example.com/custom_license"
  }

Nguyên tắc bổ sung

  • Cung cấp một URL xác định rõ ràng phiên bản cụ thể của giấy phép được sử dụng.

    Nên

    
    "license" : "https://creativecommons.org/licenses/by/4.0"

    Không nên

    
    "license" : "https://creativecommons.org/licenses/by"
measurementTechnique Text hoặc URL

Kỹ thuật, công nghệ hoặc phương pháp được dùng trong một tập dữ liệu, có thể tương ứng với (các) biến được mô tả trong variableMeasured.

sameAs URL

URL của một trang web tham khảo nêu rõ đặc điểm của tập dữ liệu này.

spatialCoverage Text hoặc Place

Bạn có thể cung cấp một điểm duy nhất mô tả thuộc tính về không gian của tập dữ liệu. Bạn chỉ nên cung cấp thuộc tính này nếu tập dữ liệu có đặc tính không gian. Ví dụ: một điểm duy nhất mà tại đó tất cả số đo được lấy hoặc tọa độ của một vùng xung quanh một khu vực.

Points


"spatialCoverage:" {
  "@type": "Place",
  "geo": {
    "@type": "GeoCoordinates",
    "latitude": 39.3280,
    "longitude": 120.1633
  }
}

Shapes

Sử dụng GeoShape để mô tả các khu vực có hình dạng khác nhau, ví dụ như để chỉ định một vùng xung quanh.


"spatialCoverage:" {
  "@type": "Place",
  "geo": {
    "@type": "GeoShape",
    "box": "39.3280 120.1633 40.445 123.7878"
  }
}

Các điểm bên trong các thuộc tính box, circle, line hoặc polygon phải được thể hiện dưới dạng một cặp hai giá trị phân tách bằng khoảng trắng tương ứng với vĩ độ và kinh độ (theo thứ tự đó).

Địa điểm có tên


"spatialCoverage:" "Tahoe City, CA"
temporalCoverage Text

Dữ liệu trong tập dữ liệu về một khoảng thời gian cụ thể. Bạn chỉ nên cung cấp thuộc tính này nếu tập dữ liệu có đặc tính thời gian. Schema.org sử dụng tiêu chuẩn ISO 8601 để mô tả các khoảng thời gian và thời điểm. Bạn có thể mô tả ngày tháng theo cách khác nhau tùy thuộc vào khoảng thời gian trong tập dữ liệu. Hãy xác định các khoảng thời gian mở bằng hai dấu thập phân (...).

Một ngày cụ thể


"temporalCoverage" : "2008"

Khoảng thời gian


"temporalCoverage" : "1950-01-01/2013-12-18"

Khoảng thời gian mở


"temporalCoverage" : "2013-12-19/.."
variableMeasured Text hoặc PropertyValue

Các biến mà tập dữ liệu này đo lường. Ví dụ: nhiệt độ hoặc áp suất.

version Text hoặc Number

Số phiên bản của tập dữ liệu.

url URL

Vị trí của một trang mô tả tập dữ liệu.

DataCatalog

Bạn có thể xem định nghĩa đầy đủ về DataCatalog tại schema.org/DataCatalog.

Các tập dữ liệu thường được xuất bản trong các kho lưu trữ có chứa nhiều tập dữ liệu khác. Một tập dữ liệu có thể nằm trong nhiều kho lưu trữ. Bạn có thể tham chiếu đến một danh mục dữ liệu chứa tập dữ liệu đó bằng cách tham chiếu trực tiếp.

Thuộc tính nên có
includedInDataCatalog DataCatalog

Danh mục chứa tập dữ liệu.

DataDownload

Bạn có thể xem định nghĩa đầy đủ về DataDownload tại schema.org/DataDownload. Ngoài các thuộc tính Dataset, hãy thêm các thuộc tính sau cho các tập dữ liệu cung cấp tùy chọn tải xuống.

Thuộc tính distribution mô tả cách tải tập dữ liệu vì URL thường trỏ đến trang đích mô tả tập dữ liệu. Thuộc tính distribution mô tả nơi tải dữ liệu và định dạng tải xuống. Thuộc tính này có thể có một số giá trị, ví dụ như phiên bản CSV nằm tại một URL và phiên bản Excel nằm tại một URL khác.

Thuộc tính bắt buộc
distribution.contentUrl URL

Đường liên kết để tải xuống.

Thuộc tính nên có
distribution DataDownload

Thuộc tính mô tả vị trí để tải tập dữ liệu xuống và định dạng tải xuống.

distribution.encodingFormat Text hoặc URL

Định dạng phân phối của tệp.

Tập dữ liệu dạng bảng

Một tập dữ liệu dạng bảng được sắp xếp chủ yếu theo lưới gồm các hàng và cột. Đối với các trang nhúng tập dữ liệu dạng bảng, bạn cũng có thể tạo mã đánh dấu rõ ràng hơn, dựa trên phương pháp cơ bản mô tả ở trên. Tại thời điểm này, chúng tôi hiểu được một biến thể của CSVW ("CSV trên Web", hãy xem W3C), được cung cấp kèm theo nội dung dạng bảng dành cho người dùng trên trang HTML.

Dưới đây là ví dụ về một bảng nhỏ được mã hóa theo định dạng JSON-LD của CSVW. Công cụ Kiểm tra kết quả nhiều định dạng có nêu một số lỗi đã biết.

Theo dõi kết quả nhiều định dạng bằng Search Console

Search Console là công cụ giúp bạn theo dõi hiệu quả hoạt động của các trang web trong Google Tìm kiếm. Bạn không cần đăng ký sử dụng Search Console để đưa trang web vào Google Tìm kiếm, nhưng việc làm vậy có thể giúp bạn hiểu và cải thiện cách Google nhìn thấy trang web của bạn. Bạn nên kiểm tra Search Console trong những trường hợp sau:

  1. Sau lần đầu triển khai dữ liệu có cấu trúc
  2. Sau khi phát hành mẫu mới hoặc cập nhật mã của bạn
  3. Phân tích lưu lượng truy cập định kỳ

Sau lần đầu triển khai dữ liệu có cấu trúc

Sau khi Google lập chỉ mục các trang của bạn, hãy tìm các vấn đề bằng cách sử dụng Báo cáo trạng thái kết quả nhiều định dạng có liên quan. Kết quả lý tưởng nhất là bạn sẽ thấy sự gia tăng về số trang hợp lệ, đồng thời số lỗi hoặc cảnh báo không tăng. Nếu tìm thấy vấn đề trong dữ liệu có cấu trúc, bạn hãy:

  1. Sửa lỗi.
  2. Kiểm tra URL đang hoạt động để xem vấn đề còn tồn tại không.
  3. Yêu cầu xác thực bằng cách sử dụng báo cáo trạng thái.

Sau khi phát hành các mẫu mới hoặc cập nhật mã của bạn

Khi bạn thực hiện những thay đổi đáng kể cho trang web của mình, hãy theo dõi xem số lỗi và cảnh báo về dữ liệu có cấu trúc có tăng không.
  • Nếu bạn thấy số lỗi tăng, thì có lẽ bạn đã triển khai một mẫu mới không hoạt động được hoặc trang web của bạn tương tác với mẫu hiện có theo một cách mới và không hợp lệ.
  • Nếu bạn thấy số mục hợp lệ giảm (nhưng số lỗi không tăng), thì có thể bạn không còn nhúng dữ liệu có cấu trúc trong các trang của mình nữa. Hãy sử dụng Công cụ kiểm tra URL để tìm hiểu nguyên nhân gây ra vấn đề.

Phân tích lưu lượng truy cập định kỳ

Phân tích lưu lượng truy cập bạn nhận được qua Google Tìm kiếm bằng cách sử dụng Báo cáo hiệu suất. Dữ liệu báo cáo sẽ cho bạn biết bạn tần suất trang web xuất hiện dưới dạng kết quả nhiều định dạng trong Tìm kiếm, tần suất người dùng nhấp vào trang và vị trí trung bình của trang trong kết quả tìm kiếm. Bạn cũng có thể tự động lấy các kết quả này bằng API Search Console.

Khắc phục sự cố

Nếu bạn gặp khó khăn khi triển khai dữ liệu có cấu trúc, thì sau đây là một số tài nguyên có thể giúp bạn.

Một tập dữ liệu cụ thể không hiển thị trong kết quả Tìm kiếm Tập dữ liệu

Nguyên nhân: Trang web của bạn chưa có dữ liệu có cấu trúc trên trang mô tả tập dữ liệu hoặc trang này chưa được thu thập dữ liệu.

Khắc phục vấn đề

  1. Hãy sao chép đường liên kết đến trang mà bạn muốn thấy trong kết quả Tìm kiếm Tập dữ liệu và đưa đường liên kết này vào công cụ Kiểm tra kết quả nhiều định dạng. Nếu xuất hiện thông báo "Trang không đủ điều kiện cho các kết quả nhiều định dạng mà quy trình kiểm tra này xác định được", hoặc "Một số mã đánh dấu không đủ điều kiện để hiển thị dưới dạng kết quả nhiều định dạng", thì có nghĩa là trang đó chưa có mã đánh dấu Tập dữ liệu hoặc mã đánh dấu bị sai. Bạn có thể tham khảo phần Cách thêm dữ liệu có cấu trúc để khắc phục vấn đề này.
  2. Nếu trang đã có mã đánh dấu, thì vấn đề có thể là do trang chưa được thu thập dữ liệu. Bạn có thể kiểm tra trạng thái thu thập thông tin bằng Search Console.

Biểu trưng công ty bị thiếu hoặc không hiển thị chính xác trong phần kết quả

Nguyên nhân: Trang của bạn có thể thiếu mã đánh dấu schema.org dành cho biểu trưng của tổ chức hoặc Google chưa nhận dạng doanh nghiệp của bạn.

Khắc phục vấn đề

  1. Thêm dữ liệu có cấu trúc cho biểu trưng vào trang của bạn.
  2. Thiết lập thông tin doanh nghiệp của bạn trên Google