Set data

Set data lebih mudah ditemukan jika Anda memberikan informasi pendukung seperti nama, deskripsi, pembuat, dan format distribusinya sebagai data terstruktur. Sebagai pendekatan untuk memudahkan penemuan set data, Google memanfaatkan schema.org dan standar metadata lainnya yang dapat ditambahkan ke halaman yang mendeskripsikan set data. Penggunaan markup ini ditujukan untuk meningkatkan kualitas penemuan set data dari berbagai bidang seperti ilmu alam, ilmu sosial, machine learning, data sipil dan pemerintahan, serta berbagai set data lainnya.

Berikut ini beberapa contoh yang dapat dikualifikasikan sebagai set data:

  • Tabel atau file CSV yang memuat sejumlah data
  • Koleksi terkelola yang terdiri dari sejumlah tabel
  • File dalam format eksklusif yang berisi data
  • Kumpulan file yang bersama-sama membentuk beberapa set data yang bermakna
  • Objek terstruktur yang memuat data dalam format lain yang mungkin ingin Anda muat ke fitur khusus untuk diproses
  • Gambar yang menangkap data
  • File yang berkaitan dengan machine learning, seperti parameter terlatih atau definisi struktur jaringan neural
  • Apa saja yang terlihat seperti set data oleh Anda

Pendekatan kami terhadap penemuan set data

Kami dapat memahami data terstruktur di Halaman web tentang set data, baik menggunakan markup Set data schema.org, atau struktur sejenis yang direpresentasikan dalam format Data Catalog Vocabulary (DCAT) W3C. Kami juga menjajaki dukungan eksperimental untuk data terstruktur yang didasarkan pada CSVW W3C, dan berharap dapat mengembangkan serta menyesuaikan pendekatan kami seiring munculnya berbagai praktik terbaik untuk deskripsi set data. Untuk informasi selengkapnya tentang pendekatan kami terhadap penemuan set data, lihat Memfasilitasi penemuan set data publik.

Contoh

Berikut ini contoh set data yang menggunakan sintaks JSON-LD (lebih disukai) pada Fitur Pengujian Data Terstruktur. Vocabulary yang sama juga dapat digunakan dalam RDFa 1.1, Microdata, atau DCAT W3C. Contoh berikut ini didasarkan pada deskripsi set data dunia nyata.

JSON-LD

Berikut adalah contoh set data dalam JSON-LD:

RDFa

Berikut adalah contoh set data dalam RDFa:

Panduan

Situs harus mengikuti panduan data terstruktur. Selain panduan tersebut, kami merekomendasikan praktik terbaik untuk peta situs serta sumber dan asal yang tercantum di bawah ini.

Praktik terbaik peta situs

Gunakan file peta situs untuk membantu Google menemukan URL Anda. Penggunaan file peta situs dan markup sameAs membantu mendokumentasikan pemublikasian deskripsi set data di seluruh situs Anda.

Jika Anda memiliki repositori set data, kemungkinan Anda memiliki minimal dua jenis halaman: halaman kanonis ("landing") untuk setiap set data dan halaman yang mencantumkan beberapa set data (misalnya hasil penelusuran, atau beberapa subkumpulan set data). Sebaiknya tambahkan data terstruktur tentang set data ke halaman kanonis. Gunakan properti sameAs untuk menautkan ke halaman kanonis jika Anda menambahkan data terstruktur ke beberapa salinan dari set data tersebut, seperti listingan di halaman hasil penelusuran.

Praktik terbaik untuk sumber dan asal

Set data terbuka sangat umum untuk dipublikasikan ulang, digabung, dan didasarkan pada set data lain. Berikut ini kerangka awal pendekatan kami untuk merepresentasikan situasi ketika set data merupakan salinan dari, atau didasarkan pada, set data lain.

  • Gunakan properti sameAs untuk menunjukkan URL paling kanonis untuk dokumen asli jika set data atau deskripsi merupakan publikasi ulang sederhana atas materi yang diterbitkan di tempat lain.
  • Gunakan properti isBasedOn jika set data yang dipublikasikan ulang (termasuk metadata-nya) telah diubah secara signifikan.
  • Jika set data berasal dari atau menggabungkan beberapa dokumen asli, gunakan properti isBasedOn.
  • Gunakan properti identifier untuk menambahkan ID Objek Digital (DOI) atau ID Ringkas mana pun yang relevan. Jika set data memiliki lebih dari satu ID, ulangi properti identifier. Jika menggunakan JSON-LD, ini direpresentasikan dengan daftar sintaks JSON.

Kami berharap dapat menyempurnakan rekomendasi ini berdasarkan masukan pangguna, khususnya terkait deskripsi asal, pembuatan versi, dan tanggal yang terkait dengan publikasi berseri. Silakan bergabung dalam diskusi komunitas.

Rekomendasi properti tekstual

Sebaiknya batasi semua properti tekstual maksimal 5.000 karakter. Google Dataset Search hanya menggunakan 5.000 karakter pertama dari setiap properti tekstual. Nama dan judul biasanya berupa beberapa kata atau kalimat pendek.

Error dan Peringatan Umum

Anda mungkin menemukan error atau peringatan pada Fitur Pengujian Data Terstruktur Google dan sistem validasi lainnya. Sistem validasi juga dapat menyarankan agar organisasi mencantumkan informasi kontak termasuk contactType; nilai berguna yang meliputi customer service, emergency, journalist, newsroom, dan public engagement. Anda juga dapat mengabaikan error untuk csvw:Table sebagai nilai tak terduga untuk properti mainEntity.

Definisi jenis data terstruktur

Anda harus menyertakan properti wajib agar konten Anda memenuhi syarat untuk ditampilkan sebagai hasil kaya. Anda juga dapat menyertakan properti yang direkomendasikan untuk menambahkan informasi lain ke konten, yang akan meningkatkan kualitas pengalaman pengguna.

Anda dapat menggunakan Fitur Pengujian Data Terstruktur untuk memvalidasi markup.

Fokusnya adalah untuk menjelaskan informasi tentang set data (metadatanya) dan merepresentasikan isinya. Misalnya, metadata set data menyatakan tentang apa set data tersebut, variabel apa saja yang diukurnya, siapa yang membuatnya, dan sebagainya. Metadata ini tidak berisi nilai spesifik untuk variabel, misalnya.

Dataset

Definisi lengkap Dataset tersedia di schema.org/Dataset.

Anda dapat mendeskripsikan informasi tambahan tentang publikasi set data, seperti lisensinya, waktu publikasinya, DOI-nya, atau atribut sameAs yang mengarah ke versi kanonis set data tersebut di repositori lain. Tambahkan identifier, license, dan sameAs untuk set data yang memberikan informasi asal dan lisensi.

Properti wajib
description Text

Ringkasan singkat yang menjelaskan set data.

Panduan

  • Panjang ringkasan harus antara 50 hingga 5000 karakter.
  • Ringkasan dapat menyertakan sintaks Markdown. Gambar yang disematkan harus menggunakan URL jalur absolut (bukan jalur relatif).
  • Jika menggunakan format JSON-LD, nyatakan baris baru dengan \n (dua karakter: garis miring terbalik dan huruf "n" kecil).
name Text

Nama deskriptif dari set data. Misalnya, "Kedalaman Salju di Belahan Bumi Utara".

Properti yang direkomendasikan
alternateName Text

Nama alternatif yang telah digunakan untuk merujuk pada set data ini, seperti alias atau singkatan. Contoh (dalam format JSON-LD):

"name": "The Quick, Draw! Dataset"
"alternateName": ["Quick Draw Dataset", "quickdraw-dataset"]
creator Person atau Organization

Kreator atau penulis set data ini. Untuk mengidentifikasi individu secara unik, gunakan ORCID ID sebagai nilai properti sameAs dari jenis Person. Untuk mengidentifikasi lembaga dan organisasi secara unik, gunakan ID ROR. Contoh (dalam format JSON-LD):

"creator": [
    {
        "@type": "Person",
        "sameAs": "http://orcid.org/0000-0000-0000-0000",
        "givenName": "Jane",
        "familyName": "Foo",
        "name": "Jane Foo"
    },
    {
        "@type": "Person",
        "sameAs": "http://orcid.org/0000-0000-0000-0001",
        "givenName": "Jo",
        "familyName": "Bar",
        "name": "Jo Bar"
    },
    {
        "@type": "Organization",
        "sameAs": "http://ror.org/xxxxxxxxx",
        "name": "Fictitious Research Consortium"
    }
]
citation Text atau CreativeWork

Mengindentifikasi artikel akademis yang direkomendasikan oleh penyedia data agar dikutip bersama set data. Berikan kutipan untuk set data tersebut bersama properti lainnya, seperti properti name, identifier, creator, dan publisher. Misalnya, properti ini dapat secara unik mengidentifikasi publikasi akademis yang terkait seperti deskripsi data, makalah data, atau artikel yang menjadi materi tambahan set data ini. Contoh (dalam format JSON-LD):

"citation": "https://doi.org/10.1111/111"
"citation": "https://identifiers.org/pubmed:11111111"
"citation": "https://identifiers.org/arxiv:0111.1111v1"
"citation":
 "Doe J (2014) Influence of X ... https://doi.org/10.1111/111"

Panduan tambahan:

  • Jangan gunakan properti ini untuk memberikan informasi kutipan bagi set data. Kolom tersebut bertujuan untuk mengidentifikasi artikel akademis yang terkait, bukan set data. Untuk memberikan informasi yang diperlukan guna mengutip set data tersebut, gunakan properti name, identifier, creator, dan publisher
  • Saat mengisi properti kutipan dengan cuplikan kutipan, sertakan ID artikel (seperti DOI) jika ada.

    Disarankan: "Doe J (2014) Influence of X Biomics 1(1). https://doi.org/10.1111/111"

    Tidak disarankan: "Doe J (2014) Influence of X Biomics 1(1)."

identifier URL, Text, atau PropertyValue

ID, seperti DOI atau ID Ringkas. Jika set data memiliki lebih dari satu ID, ulangi properti identifier. Jika menggunakan JSON-LD, ini direpresentasikan dengan daftar sintaks JSON.

keywords Text

Kata kunci yang merangkum set data.

license URL, CreativeWork

Lisensi yang menjadi dasar pendistribusian set data. Contoh:

"license" : "https://creativecommons.org/publicdomain/zero/1.0/"
"license" : {
  "@type": "CreativeWork",
  "name": "Custom license",
  "url": "https://example.com/custom_license"
  }
sameAs URL

Link ke halaman yang memberikan lebih banyak informasi tentang set data yang sama, biasanya yang ada di repositori lain.

spatialCoverage Text, Place

Anda dapat memberikan titik tunggal yang menjelaskan aspek ruang dari set data. Hanya sertakan properti ini jika set data memiliki dimensi ruang. Misalnya, titik tunggal tempat semua pengukuran dikumpulkan, atau koordinat kotak pembatas untuk suatu area.

Titik

"spatialCoverage:" {
  "@type": "Place",
  "geo": {
    "@type": "GeoCoordinates",
    "latitude": 39.3280,
    "longitude": 120.1633
  }
}

Bentuk

Gunakan GeoShape untuk menggambarkan area yang bentuknya berbeda-beda. Misalnya, untuk menentukan kotak pembatas.

"spatialCoverage:" {
  "@type": "Place",
  "geo": {
    "@type": "GeoShape",
    "box": "39.3280 120.1633 40.445 123.7878"
  }
}

Titik dalam properti box, circle, line, atau polygon harus dinyatakan dengan sepasang spasi terpisah dari dua nilai lintang dan bujur (dalam urutan tersebut).

Lokasi bernama

"spatialCoverage:" "Tahoe City, CA"
temporalCoverage Text

Data dalam set data mencakup interval waktu tertentu. Hanya sertakan properti ini jika set data memiliki dimensi waktu. Schema.org menggunakan standar ISO 8601 untuk mendeskripsikan interval waktu dan titik waktu. Anda dapat mendeskripsikan tanggal dengan cara berbeda-beda, tergantung interval set datanya. Nyatakan interval terbuka dengan dua titik desimal (..).

Tanggal tunggal

"temporalCoverage" : "2008"

Jangka waktu

"temporalCoverage" : "1950-01-01/2013-12-18"

Periode waktu terbuka

"temporalCoverage" : "2013-12-19/.."
variableMeasured Text, PropertyValue

Variabel yang diukur set data ini. Misalnya suhu atau tekanan.

version Text, Number

Nomor versi untuk set data.

url URL

Lokasi halaman yang menjelaskan set data.

DataCatalog

Definisi lengkap DataCatalog tersedia di schema.org/DataCatalog.

Set data sering dipublikasikan dalam repositori yang memuat banyak set data lainnya. Set data yang sama dapat disertakan di lebih dari satu repositori. Anda dapat merujuk ke katalog data yang mencakup set data ini dengan merujuknya secara langsung.

Properti yang direkomendasikan
includedInDataCatalog DataCatalog

Katalog yang mencakup set data tersebut.

DataDownload

Definisi lengkap DataDownload tersedia di schema.org/DataDownload. Selain properti Dataset, tambahkan properti berikut untuk set data yang menyediakan opsi download.

Properti distribution menjelaskan cara mendapatkan set data itu sendiri karena URL-nya sering mengarah ke halaman landing yang mendeskripsikan set data tersebut. Properti distribution menjelaskan tempat mendapatkan data dan format yang didukung. Properti ini dapat memiliki beberapa nilai: misalnya, versi CSV tersedia di satu URL, sedangkan versi Excel tersedia di URL lain.

Properti wajib
distribution.contentUrl URL

Link download.

Properti
distribution DataDownload

Deskripsi lokasi untuk mendownload set data dan format file untuk didownload.

distribution.encodingFormat Text, URL

Format file distribusi.

Set data tabular

Set data tabular ditata terutama dari segi kisi baris dan kolom. Untuk halaman yang menyematkan set data tabular, Anda juga dapat membuat markup yang lebih eksplisit berdasarkan pendekatan dasar yang dijelaskan di atas. Saat ini kami memahami variasi CSVW ("CSV di Web", lihat W3C), yang disediakan secara paralel dengan konten tabular berorientasi pengguna pada halaman HTML.

Berikut ini contoh yang menunjukkan tabel kecil yang dienkode dalam format CSVW JSON-LD. Ada beberapa error umum pada Fitur Pengujian Data Terstruktur.

Bantuan dan fitur