Set data

Set data lebih mudah ditemukan jika Anda memberikan informasi pendukung seperti nama, deskripsi, pembuat, dan format distribusinya sebagai data terstruktur. Sebagai pendekatan untuk memudahkan penemuan set data, Google memanfaatkan schema.org dan standar metadata lainnya yang dapat ditambahkan ke halaman yang mendeskripsikan set data. Penggunaan markup ini ditujukan untuk meningkatkan kualitas penemuan set data dari berbagai bidang seperti ilmu alam, ilmu sosial, machine learning, data sipil dan pemerintahan, serta berbagai set data lainnya. Anda dapat menemukan set data menggunakan alat Dataset Search.

Contoh Dataset Search

Berikut ini beberapa contoh yang dapat dikualifikasikan sebagai set data:

  • Tabel atau file CSV yang memuat sejumlah data
  • Koleksi terkelola yang terdiri dari sejumlah tabel
  • File dalam format eksklusif yang berisi data
  • Kumpulan file yang bersama-sama membentuk beberapa set data yang bermakna
  • Objek terstruktur yang memuat data dalam format lain yang mungkin ingin Anda muat ke alat khusus untuk diproses
  • Data pengambilan gambar
  • File yang berkaitan dengan machine learning, seperti parameter terlatih atau definisi struktur jaringan neural
  • Apa saja yang terlihat seperti set data oleh Anda

Bagaimana cara menambahkan data terstruktur

Data terstruktur adalah format terstandarisasi untuk memberikan informasi tentang suatu halaman dan mengelompokkan konten halaman tersebut. Jika baru mengenal data terstruktur, Anda dapat mempelajari lebih lanjut cara kerja data terstruktur.

Berikut adalah ringkasan tentang cara membuat, menguji, dan merilis data terstruktur. Untuk panduan langkah demi langkah tentang cara menambahkan data terstruktur ke halaman web, lihat codelab data terstruktur.

  1. Tambahkan properti wajib. Untuk informasi tentang tempat untuk menempatkan data terstruktur di halaman, tonton Data terstruktur JSON-LD: Tempat untuk menyisipkan di halaman.
  2. Ikuti panduan.
  3. Validasi kode Anda menggunakan Alat Pengujian Hasil Kaya.
  4. Deploy beberapa halaman yang menyertakan data terstruktur dan gunakan Alat Inspeksi URL untuk menguji bagaimana Google melihat halaman tersebut. Pastikan halaman Anda dapat diakses oleh Google dan tidak diblokir oleh file robots.txt, tag noindex, atau persyaratan login. Jika halaman tidak bermasalah, Anda dapat meminta Google meng-crawl ulang URL Anda.
  5. Agar Google tetap mengetahui adanya perubahan di masa mendatang, sebaiknya Anda mengirimkan peta situs. Anda dapat mengotomatiskan proses ini dengan API Peta Situs Search Console.

Pendekatan kami terhadap penemuan set data

Kami dapat memahami data terstruktur di Halaman web tentang set data, baik menggunakan markup Dataset schema.org, atau struktur sejenis yang direpresentasikan dalam format Kosakata Katalog Data (DCAT) W3C. Kami juga mempelajari dukungan eksperimental untuk data terstruktur yang didasarkan pada CSVW W3C, dan berharap dapat mengembangkan serta menyesuaikan pendekatan kami seiring munculnya berbagai praktik terbaik untuk deskripsi set data. Untuk informasi selengkapnya tentang pendekatan kami terhadap penemuan set data, lihat Memfasilitasi penemuan set data.

Contoh

Berikut ini contoh set data yang menggunakan sintaks JSON-LD dan schema.org (lebih disukai) dalam Pengujian Hasil Kaya. Kosakata schema.org yang sama juga dapat digunakan dalam RDFa 1.1 atau sintaks Microdata. Anda juga dapat menggunakan kosakata DCAT W3C untuk mendeskripsikan metadata. Contoh berikut ini didasarkan pada deskripsi set data dalam pemakaian sebenarnya.

JSON-LD

Berikut adalah contoh set data dalam JSON-LD:


  <html>
  <head>
    <title>NCDC Storm Events Database</title>
    <script type="application/ld+json">
    {
      "@context":"https://schema.org/",
      "@type":"Dataset",
      "name":"NCDC Storm Events Database",
      "description":"Storm Data is provided by the National Weather Service (NWS) and contain statistics on...",
      "url":"https://catalog.data.gov/dataset/ncdc-storm-events-database",
      "sameAs":"https://gis.ncdc.noaa.gov/geoportal/catalog/search/resource/details.page?id=gov.noaa.ncdc:C00510",
      "identifier": ["https://doi.org/10.1000/182",
                     "https://identifiers.org/ark:/12345/fk1234"],
      "keywords":[
         "ATMOSPHERE > ATMOSPHERIC PHENOMENA > CYCLONES",
         "ATMOSPHERE > ATMOSPHERIC PHENOMENA > DROUGHT",
         "ATMOSPHERE > ATMOSPHERIC PHENOMENA > FOG",
         "ATMOSPHERE > ATMOSPHERIC PHENOMENA > FREEZE"
      ],
      "license" : "https://creativecommons.org/publicdomain/zero/1.0/",
      "hasPart" : [
        {
          "@type": "Dataset",
          "name": "Sub dataset 01",
          "description": "Informative description of the first subdataset...",
          "license" : "https://creativecommons.org/publicdomain/zero/1.0/"
        },
        {
          "@type": "Dataset",
          "name": "Sub dataset 02",
          "description": "Informative description of the second subdataset...",
          "license" : "https://creativecommons.org/publicdomain/zero/1.0/"
        }
      ],
      "creator":{
         "@type":"Organization",
         "url": "https://www.ncei.noaa.gov/",
         "name":"OC/NOAA/NESDIS/NCEI > National Centers for Environmental Information, NESDIS, NOAA, U.S. Department of Commerce",
         "contactPoint":{
            "@type":"ContactPoint",
            "contactType": "customer service",
            "telephone":"+1-828-271-4800",
            "email":"ncei.orders@noaa.gov"
         }
      },
      "includedInDataCatalog":{
         "@type":"DataCatalog",
         "name":"data.gov"
      },
      "distribution":[
         {
            "@type":"DataDownload",
            "encodingFormat":"CSV",
            "contentUrl":"http://www.ncdc.noaa.gov/stormevents/ftp.jsp"
         },
         {
            "@type":"DataDownload",
            "encodingFormat":"XML",
            "contentUrl":"http://gis.ncdc.noaa.gov/all-records/catalog/search/resource/details.page?id=gov.noaa.ncdc:C00510"
         }
      ],
      "temporalCoverage":"1950-01-01/2013-12-18",
      "spatialCoverage":{
         "@type":"Place",
         "geo":{
            "@type":"GeoShape",
            "box":"18.0 -65.0 72.0 172.0"
         }
      }
    }
    </script>
  </head>
  <body>
  </body>
</html>
RDFa

Berikut ini contoh set data di RDFa yang menggunakan kosakata DCAT:


<article about="/node/1234" typeof="dcat:Dataset">
    <dl>
      <dt>Name:</dt>
      <dd property="dc:title">ACME Inc Cash flow data</dd>
      <dt>Identifiers:</dt>
      <dd property="dc:identifier">https://doi.org/10.1000/182</dd>
      <dd property="dc:identifier">https://identifiers.org/ark:/12345/fk1234</dd>
      <dt>Description:</dt>
      <dd property="dc:description">Financial Statements - Consolidated Statement of Cash Flows</dd>
      <dt>Category:</dt>
      <dd rel="dc:subject">Financial</dd>
      <dt class="field-label">Downloads:</dt>
      <dd>
        <ul>
          <li>
            <a rel="dcat:distribution" href="Consolidated_Statement_of_Cash_Flows_en.csv"><span property="dcat:mediaType" content="text/csv" >Consolidated_Statement_of_Cash_Flows_en.csv</span></a>
          </li>
         <li>
            <a rel="dcat:distribution"  href="files/Consolidated_Statement_of_Cash_Flows_en.xls"><span property="dcat:mediaType" content="application/vnd.ms-excel">Consolidated_Statement_of_Cash_Flows_en.xls</span></a>
          </li>
          <li>
            <a rel="dcat:distribution"  href="files/consolidated_statement_of_cash_flows_en.xml"><span property="dcat:mediaType" content="application/xml">consolidated_statement_of_cash_flows_en.xml</span></a>
          </li>
        </ul>
      </dd>
    </dl>
  </article>

Panduan

Situs harus mengikuti panduan data terstruktur. Selain panduan tersebut, kami merekomendasikan praktik terbaik untuk peta situs serta sumber dan asal yang tercantum di bawah ini.

Praktik terbaik peta situs

Gunakan file peta situs untuk membantu Google menemukan URL Anda. Penggunaan file peta situs dan markup sameAs membantu mendokumentasikan pemublikasian deskripsi set data di seluruh situs Anda.

Jika Anda memiliki repositori set data, kemungkinan Anda memiliki minimal dua jenis halaman: halaman kanonis ("landing") untuk setiap set data dan halaman yang mencantumkan beberapa set data (misalnya hasil penelusuran, atau beberapa subkumpulan set data). Sebaiknya tambahkan data terstruktur tentang set data ke halaman kanonis. Gunakan properti sameAs untuk menautkan ke halaman kanonis jika Anda menambahkan data terstruktur ke beberapa salinan dari set data tersebut, seperti listingan di halaman hasil penelusuran.

Praktik terbaik untuk sumber dan asal

Set data terbuka sangat umum untuk dipublikasikan ulang, digabung, dan didasarkan pada set data lain. Berikut ini kerangka awal pendekatan kami untuk merepresentasikan situasi ketika set data merupakan salinan dari, atau didasarkan pada, set data lain.

  • Gunakan properti sameAs untuk menunjukkan URL paling kanonis untuk dokumen asli jika set data atau deskripsi merupakan publikasi ulang sederhana atas materi yang diterbitkan di tempat lain. Nilai properti sameAs harus menunjukkan identitas set data dengan jelas - dengan kata lain, dua set data yang berbeda tidak boleh menggunakan URL yang sama dengan nilai sameAs.
  • Gunakan properti isBasedOn jika set data yang dipublikasikan ulang (termasuk metadatanya) telah diubah secara signifikan.
  • Jika set data berasal dari atau menggabungkan beberapa dokumen asli, gunakan properti isBasedOn.
  • Gunakan properti identifier untuk menambahkan ID Objek Digital (DOI) atau ID Ringkas yang relevan. Jika set data memiliki lebih dari satu ID, ulangi properti identifier. Jika menggunakan JSON-LD, ini direpresentasikan dengan daftar sintaks JSON.

Kami berharap dapat menyempurnakan rekomendasi ini berdasarkan masukan pengguna, khususnya terkait deskripsi asal, pembuatan versi, dan tanggal yang terkait dengan publikasi berseri. Silakan bergabung dalam diskusi komunitas.

Rekomendasi properti tekstual

Sebaiknya batasi semua properti tekstual maksimal 5.000 karakter. Google Dataset Search hanya menggunakan 5.000 karakter pertama dari setiap properti tekstual. Nama dan judul biasanya berupa beberapa kata atau kalimat pendek.

Error dan Peringatan Umum

Anda mungkin menemukan error atau peringatan pada Alat Pengujian Data Terstruktur Google dan sistem validasi lainnya. Secara khusus, sistem validasi dapat menyarankan agar organisasi mencantumkan informasi kontak, termasuk contactType. Nilai yang berguna meliputi customer service, emergency, journalist, newsroom, dan public engagement. Anda juga dapat mengabaikan error untuk csvw:Table sebagai nilai tak terduga untuk properti mainEntity.

Definisi jenis data terstruktur

Anda harus menyertakan properti wajib agar konten Anda memenuhi syarat untuk ditampilkan sebagai hasil kaya. Anda juga dapat menyertakan properti yang direkomendasikan untuk menambahkan informasi lain ke konten, yang akan meningkatkan pengalaman pengguna.

Anda dapat menggunakan Alat Pengujian Data Terstruktur untuk memvalidasi markup.

Fokusnya adalah untuk menjelaskan informasi tentang set data (metadatanya) dan merepresentasikan isinya. Misalnya, metadata set data menyatakan tentang apa set data tersebut, variabel apa saja yang diukurnya, siapa yang membuatnya, dan sebagainya. Metadata ini tidak berisi nilai spesifik untuk variabel, misalnya.

Dataset

Definisi lengkap Dataset tersedia di schema.org/Dataset.

Anda dapat mendeskripsikan informasi tambahan tentang publikasi set data, seperti lisensinya, waktu publikasinya, DOI-nya, atau atributsameAs yang mengarah ke versi kanonis set data tersebut di repositori lain. Tambahkan identifier, license, dan sameAs untuk set data yang menyediakan informasi asal dan lisensi.

Properti wajib
description Text

Ringkasan singkat yang menjelaskan set data.

Pedoman

  • Panjang ringkasan harus antara 50 hingga 5000 karakter.
  • Ringkasan dapat menyertakan sintaks Markdown. Gambar yang disematkan harus menggunakan URL jalur absolut (bukan jalur relatif).
  • Jika menggunakan format JSON-LD, nyatakan baris baru dengan \n (dua karakter: garis miring terbalik dan huruf "n" kecil).
name Text

Nama deskriptif dari set data. Misalnya, "Kedalaman salju di Belahan Bumi Utara".

Pedoman

  • Gunakan nama unik untuk set data yang berbeda jika memungkinkan.
  • Direkomendasikan: "Snow depth in the Northern Hemisphere" dan "Snow depth in the Southern Hemisphere" untuk dua set data yang berbeda.

    Tidak direkomendasikan: "Snow depth" dan "Snow depth" untuk dua set data yang berbeda.

Properti yang direkomendasikan
alternateName Text

Nama alternatif yang telah digunakan untuk merujuk pada set data ini, seperti alias atau singkatan. Contoh (dalam format JSON-LD):


"name": "The Quick, Draw! Dataset"
"alternateName": ["Quick Draw Dataset", "quickdraw-dataset"]
creator Person atau Organization

Kreator atau penulis set data ini. Untuk mengidentifikasi individu secara unik, gunakan ID ORCID sebagai nilai properti sameAs dari jenis Person. Untuk mengidentifikasi lembaga dan organisasi secara unik, gunakan ID ROR. Contoh (dalam format JSON-LD):


"creator": [
    {
        "@type": "Person",
        "sameAs": "http://orcid.org/0000-0000-0000-0000",
        "givenName": "Jane",
        "familyName": "Foo",
        "name": "Jane Foo"
    },
    {
        "@type": "Person",
        "sameAs": "http://orcid.org/0000-0000-0000-0001",
        "givenName": "Jo",
        "familyName": "Bar",
        "name": "Jo Bar"
    },
    {
        "@type": "Organization",
        "sameAs": "http://ror.org/xxxxxxxxx",
        "name": "Fictitious Research Consortium"
    }
]
citation Text atau CreativeWork

Mengidentifikasi artikel akademis yang direkomendasikan oleh penyedia data agar dikutip bersama set data. Berikan kutipan untuk set data tersebut bersama properti lainnya, seperti properti name, identifier, creator, dan publisher. Misalnya, properti ini dapat secara unik mengidentifikasi publikasi akademis yang terkait seperti deskripsi data, makalah data, atau artikel yang menjadi materi tambahan set data ini. Contoh (dalam format JSON-LD):


"citation": "https://doi.org/10.1111/111"

"citation": "https://identifiers.org/pubmed:11111111"

"citation": "https://identifiers.org/arxiv:0111.1111v1"

"citation":
 "Doe J (2014) Influence of X ... https://doi.org/10.1111/111"

Panduan tambahan:

  • Jangan gunakan properti ini untuk memberikan informasi kutipan bagi set data. Kolom tersebut bertujuan untuk mengidentifikasi artikel akademis yang terkait, bukan set data. Untuk memberikan informasi yang diperlukan guna mengutip set data tersebut, gunakan properti name, identifier, creator, dan publisher.
  • Saat mengisi properti kutipan dengan cuplikan kutipan, sertakan ID artikel (seperti DOI) jika ada.

    Direkomendasikan: "Doe J (2014) Influence of X. Biomics 1(1). https://doi.org/10.1111/111"

    Tidak direkomendasikan: "Doe J (2014) Influence of X. Biomics 1(1)."

hasPart atau isPartOf URL atau Dataset

Jika set data adalah kumpulan set data yang lebih kecil, gunakan properti hasPart untuk menunjukkan hubungan tersebut. Sebaliknya, jika set data adalah bagian dari set data yang lebih besar, gunakan isPartOf. Kedua properti dapat berbentuk URL atau instance Dataset. Jika Dataset digunakan sebagai nilai, maka semua properti yang diperlukan harus disertakan untuk Dataset mandiri. Contoh:


"hasPart" : [
  {
    "@type": "Dataset",
    "name": "Sub dataset 01",
    "description": "Informative description of the first subdataset...",
    "license" : "https://creativecommons.org/publicdomain/zero/1.0/"
  },
  {
    "@type": "Dataset",
    "name": "Sub dataset 02",
    "description": "Informative description of the second subdataset...",
    "license" : "https://creativecommons.org/publicdomain/zero/1.0/"
  }
]

"isPartOf" : "https://example.com/aggregate_dataset"
identifier URL, Text, atau PropertyValue

ID, seperti DOI atau ID Ringkas. Jika set data memiliki lebih dari satu ID, ulangi properti identifier. Jika menggunakan JSON-LD, ini direpresentasikan dengan daftar sintaks JSON.

keywords Text

Kata kunci yang merangkum set data.

license URL atau CreativeWork

Lisensi yang menjadi dasar pendistribusian set data. Contoh:


"license" : "https://creativecommons.org/publicdomain/zero/1.0/"

"license" : {
  "@type": "CreativeWork",
  "name": "Custom license",
  "url": "https://example.com/custom_license"
  }

Panduan tambahan:

  • Berikan URL yang mengidentifikasi secara jelas versi tertentu dari lisensi yang digunakan.

    Direkomendasikan

    
    "license" : "https://creativecommons.org/licenses/by/4.0"

    Tidak direkomendasikan

    
    "license" : "https://creativecommons.org/licenses/by"
measurementTechnique Text atau URL

Teknik, teknologi, atau metodologi yang digunakan dalam set data, yang dapat sesuai dengan variabel sebagaimana dijelaskan di variableMeasured.

sameAs URL

URL halaman web referensi yang secara jelas menunjukkan identitas set data.

spatialCoverage Text atau Place

Anda dapat memberikan titik tunggal yang menjelaskan aspek ruang dari set data. Hanya sertakan properti ini jika set data memiliki dimensi ruang. Misalnya, titik tunggal tempat semua pengukuran dikumpulkan, atau koordinat kotak pembatas untuk suatu area.

Titik


"spatialCoverage:" {
  "@type": "Place",
  "geo": {
    "@type": "GeoCoordinates",
    "latitude": 39.3280,
    "longitude": 120.1633
  }
}

Bentuk

Gunakan GeoShape untuk menggambarkan area yang bentuknya berbeda-beda. Misalnya, untuk menentukan kotak pembatas.


"spatialCoverage:" {
  "@type": "Place",
  "geo": {
    "@type": "GeoShape",
    "box": "39.3280 120.1633 40.445 123.7878"
  }
}

Titik-titik dalam properti box, circle, line, atau polygon harus dinyatakan sebagai sepasang spasi terpisah dari dua nilai yang menunjukkan lintang dan bujur (sesuai urutan tersebut).

Lokasi bernama


"spatialCoverage:" "Tahoe City, CA"
temporalCoverage Text

Data dalam set data mencakup interval waktu tertentu. Hanya sertakan properti ini jika set data memiliki dimensi waktu. Schema.org menggunakan standar ISO 8601 untuk mendeskripsikan interval waktu dan titik waktu. Anda dapat mendeskripsikan tanggal dengan cara berbeda-beda, tergantung interval set datanya. Nyatakan interval terbuka dengan dua titik desimal (..).

Tanggal tunggal


"temporalCoverage" : "2008"

Jangka waktu


"temporalCoverage" : "1950-01-01/2013-12-18"

Jangka waktu terbuka


"temporalCoverage" : "2013-12-19/.."
variableMeasured Text atau PropertyValue

Variabel yang diukur set data ini. Misalnya suhu atau tekanan.

version Text atau Number

Nomor versi untuk set data.

url URL

Lokasi halaman yang menjelaskan set data.

DataCatalog

Definisi lengkap DataCatalog tersedia di schema.org/DataCatalog.

Set data sering dipublikasikan dalam repositori yang memuat banyak set data lainnya. Set data yang sama dapat disertakan di lebih dari satu repositori. Anda dapat merujuk ke katalog data yang mencakup set data ini dengan merujuknya secara langsung.

Properti yang direkomendasikan
includedInDataCatalog DataCatalog

Katalog yang mencakup set data tersebut.

DataDownload

Definisi lengkap DataDownload tersedia di schema.org/DataDownload. Selain properti Dataset, tambahkan properti berikut untuk set data yang menyediakan opsi download.

Properti distribution menjelaskan cara mendapatkan set data itu sendiri karena URL-nya sering mengarah ke halaman landing yang mendeskripsikan set data tersebut. Properti distribution menjelaskan tempat mendapatkan data dan format yang didukung. Properti ini dapat memiliki beberapa nilai: misalnya, versi CSV tersedia di satu URL, sedangkan versi Excel tersedia di URL lain.

Properti wajib
distribution.contentUrl URL

Link download.

Properti yang direkomendasikan
distribution DataDownload

Deskripsi lokasi untuk mendownload set data dan format file untuk didownload.

distribution.encodingFormat Text atau URL

Format file distribusi.

Set data tabular

Set data tabular ditata terutama dari segi kisi baris dan kolom. Untuk halaman yang menyematkan set data tabular, Anda juga dapat membuat markup yang lebih eksplisit berdasarkan pendekatan dasar yang dijelaskan di atas. Saat ini kami memahami variasi CSVW ("CSV di Web", lihat W3C), yang disediakan secara paralel dengan konten tabular berorientasi pengguna di halaman HTML.

Berikut ini contoh yang menunjukkan tabel kecil yang dienkode dalam format CSVW JSON-LD. Ada beberapa error yang diketahui dalam Pengujian Hasil Kaya.

Memantau hasil kaya dengan Search Console

Search Console adalah alat yang dapat membantu Anda memantau performa halaman Anda di Google Penelusuran. Anda tidak perlu mendaftar ke Search Console agar halaman Anda dapat disertakan dalam hasil Google Penelusuran. Tetapi dengan mendaftar, Anda dapat memahami dan meningkatkan cara Google melihat situs Anda dengan mudah. Sebaiknya Anda memeriksa Search Console dalam kasus berikut:

  1. Setelah men-deploy data terstruktur untuk pertama kalinya
  2. Setelah merilis template baru atau memperbarui kode Anda
  3. Menganalisis traffic secara berkala

Setelah men-deploy data terstruktur untuk pertama kalinya

Setelah Google mengindeks halaman Anda, temukan masalah menggunakan laporan status Hasil kaya yang relevan. Idealnya, Anda akan melihat peningkatan jumlah halaman yang valid, sedangkan jumlah error dan peringatan tidak berubah. Jika Anda menemukan masalah pada data terstruktur Anda:

  1. Perbaiki error.
  2. Periksa URL aktif untuk memeriksa apakah masalah terus berlanjut.
  3. Minta validasi menggunakan laporan status.

Setelah merilis template baru atau memperbarui kode Anda

Jika Anda membuat perubahan yang signifikan pada situs, pantau peningkatan error dan peringatan data terstruktur.
  • Jika terjadi peningkatan error, mungkin Anda meluncurkan template baru yang tidak berfungsi, atau situs Anda berinteraksi dengan template yang ada dengan cara baru yang salah.
  • Jika terjadi penurunan item yang valid (tidak cocok dengan peningkatan error), mungkin Anda tidak lagi menyematkan data terstruktur di halaman Anda. Gunakan Alat Inspeksi URL untuk mempelajari penyebab masalah tersebut.

Menganalisis traffic secara berkala

Analisis traffic Google Penelusuran Anda menggunakan Laporan Performa. Data akan menunjukkan seberapa sering halaman Anda muncul sebagai hasil kaya di Penelusuran, seberapa sering pengguna mengkliknya, dan posisi rata-rata halaman Anda saat muncul di hasil penelusuran. Anda juga dapat otomatis menarik hasil ini dengan Search Console API.

Pemecahan masalah

Jika Anda mengalami masalah saat menerapkan data terstruktur, berikut beberapa referensi yang dapat membantu Anda.