Set data

Set data lebih mudah ditemukan jika Anda memberikan informasi pendukung seperti nama, deskripsi, pembuat, dan format distribusinya sebagai data terstruktur. Sebagai pendekatan untuk memudahkan penemuan set data, Google memanfaatkan schema.org dan standar metadata lainnya yang dapat ditambahkan ke halaman yang mendeskripsikan set data. Penggunaan markup ini bertujuan untuk meningkatkan kualitas penemuan set data dari berbagai bidang seperti ilmu alam, ilmu sosial, machine learning, data sipil dan pemerintah, serta berbagai set data lainnya.

Berikut ini beberapa contoh yang dapat dikualifikasikan sebagai set data:

  • Tabel atau file CSV yang memuat sejumlah data
  • Koleksi terkelola yang terdiri dari sejumlah tabel
  • File dalam format eksklusif yang berisi data
  • Kumpulan file yang bersama-sama membentuk beberapa set data yang bermakna
  • Objek terstruktur yang memuat data dalam format lain yang mungkin ingin Anda muat ke fitur khusus untuk diproses
  • Gambar yang menangkap data
  • File yang berkaitan dengan machine learning, seperti parameter terlatih atau definisi struktur jaringan neural
  • Apa saja yang terlihat seperti set data oleh Anda

Pendekatan kami terhadap penemuan set data

Kami dapat memahami data terstruktur di Halaman tentang set data, baik menggunakan markup Dataset schema.org, atau struktur sejenis yang direpresentasikan dalam format Data Catalog Vocabulary (DCAT) W3C. Kami juga menjajaki dukungan eksperimental untuk data terstruktur yang didasarkan pada CSVW W3C, dan berharap dapat mengembangkan serta menyesuaikan pendekatan kami seiring munculnya berbagai praktik terbaik untuk deskripsi set data. Untuk informasi selengkapnya tentang pendekatan kami terhadap penemuan set data, lihat Memfasilitasi penemuan set data publik.

Contoh

Berikut ini contoh set data yang menggunakan sintaks JSON-LD (lebih disukai) pada Fitur Pengujian Data Terstruktur. Vocabulary yang sama juga dapat digunakan dalam RDFa 1.1, Microdata, atau DCAT W3C. Contoh berikut ini didasarkan pada deskripsi set data dunia nyata.

JSON-LD

Berikut ini contoh set data di JSON-LD yang menggunakan Fitur Pengujian Data Terstruktur:

RDFa

Berikut ini contoh set data di RDFa yang menggunakan Fitur Pengujian Data Terstruktur.

Panduan

Situs harus mengikuti panduan data terstruktur. Selain panduan tersebut, kami merekomendasikan praktik terbaik untuk peta situs serta sumber dan asal yang tercantum di bawah ini.

Praktik terbaik peta situs

Gunakan file peta situs untuk membantu Google menemukan URL Anda. Penggunaan file peta situs dan markup sameAs membantu mendokumentasikan cara pemublikasian deskripsi set data di seluruh situs Anda.

Jika Anda memiliki repositori set data, kemungkinan Anda memiliki minimal dua jenis halaman: halaman kanonis ("landing") untuk setiap set data dan halaman yang mencantumkan beberapa set data (misalnya hasil penelusuran, atau beberapa subkumpulan set data). Sebaiknya tambahkan data terstruktur tentang set data ke halaman kanonis. Gunakan properti sameAs untuk menaut ke halaman kanonis jika Anda menambahkan data terstruktur ke beberapa salinan dari set data tersebut, seperti listingan di halaman hasil penelusuran.

Praktik terbaik untuk sumber dan asal

Set data terbuka sangat umum untuk dipublikasikan ulang, digabung, dan didasarkan pada set data lain. Berikut ini kerangka awal pendekatan kami untuk merepresentasikan situasi ketika set data merupakan salinan dari, atau didasarkan pada, set data lain.

  • Gunakan properti sameAs untuk menunjukkan URL paling kanonis untuk dokumen asli jika set data atau deskripsi merupakan publikasi ulang sederhana atas materi yang diterbitkan di tempat lain.
  • Gunakan properti isBasedOn apabila set data yang dipublikasikan ulang (termasuk metadatanya) telah diubah secara signifikan.
  • Jika set data berasal dari atau menggabungkan beberapa dokumen asli, gunakan properti isBasedOn.
  • Gunakan properti identifier untuk melampirkan setiap Pengenal Objek Digital (DOI) yang relevan.

Kami berharap dapat menyempurnakan rekomendasi ini berdasarkan masukan pangguna, khususnya terkait deskripsi asal, pembuatan versi, dan tanggal yang terkait dengan publikasi berseri. Silakan bergabung dalam diskusi komunitas.

Error dan Peringatan Umum

Anda mungkin menemukan error atau peringatan pada Fitur Pengujian Data Terstruktur Google dan sistem validasi lainnya. Secara khusus, peringatan tentang fileFormat (baru-baru ini diganti namanya menjadi encodingFormat) dapat diabaikan dengan aman. Sistem validasi juga dapat menyarankan agar organisasi mencantumkan informasi kontak termasuk contactType; nilai yang berguna meliputi customer service, emergency, journalist, newsroom, dan public engagement. Anda juga dapat mengabaikan error untuk csvw:Table sebagai nilai tak terduga untuk properti mainEntity.

Definisi jenis data terstruktur

Anda harus menyertakan properti wajib agar konten Anda memenuhi syarat untuk ditampilkan sebagai hasil kaya. Anda juga dapat menyertakan properti yang direkomendasikan untuk menambahkan informasi lain tentang konten Anda, dan hal ini dapat meningkatkan kualitas pengalaman pengguna.

Anda dapat menggunakan Fitur Pengujian Data Terstruktur untuk memvalidasi markup.

Fokusnya adalah untuk menjelaskan informasi tentang set data (metadatanya) dan merepresentasikan isinya. Misalnya, metadata set data menyatakan tentang apa set data tersebut, variabel apa saja yang diukurnya, siapa yang membuatnya, dan sebagainya. Metadata ini tidak berisi nilai spesifik untuk variabel, misalnya.

Dataset

Definisi lengkap Dataset tersedia di schema.org/Dataset.

Anda dapat mendeskripsikan informasi tambahan tentang publikasi set data, seperti lisensinya, waktu publikasinya, DOI -nya, atau atribut sameAs yang mengarah ke versi kanonis set data tersebut di repositori lain. Tambahkan identifier, license, dan sameAs untuk set data yang memberikan informasi asal dan lisensi.

Properti wajib
description Text

Ringkasan singkat yang menjelaskan set data.

name Text

Nama deskriptif dari set data. Misalnya, "Kedalaman Salju di Belahan Bumi Utara".

Properti yang direkomendasikan
citation Text atau CreativeWork

Kutipan untuk publikasi yang menjelaskan set data. Misalnya, "J. Smith 'How I created an awesome dataset', Journal of Data Science, 1966".

identifier URL, Text, atau PropertyValue

ID untuk set data, seperti DOI.

keywords Text

Kata kunci yang merangkum set data.

license URL, Text

Lisensi yang menjadi dasar pendistribusian set data.

sameAs URL

Link ke halaman yang memberikan lebih banyak informasi tentang set data yang sama, biasanya yang ada di repositori lain.

spatialCoverage Text, Place

Anda dapat memberikan titik tunggal yang menjelaskan aspek ruang dari set data. Hanya sertakan properti ini jika set data memiliki dimensi ruang. Misalnya, titik tunggal tempat semua pengukuran dikumpulkan, atau koordinat kotak pembatas untuk suatu area.

Titik

"spatialCoverage:" {
  "@type": "Place",
  "geo": {
    "@type": "GeoCoordinates",
    "latitude": 39.3280,
    "longitude": 120.1633
  }
}

Koordinat

Gunakan GeoShape untuk menggambarkan area yang bentuknya berbeda-beda. Misalnya, untuk menentukan kotak pembatas.

"spatialCoverage:" {
  "@type": "Place",
  "geo": {
    "@type": "GeoShape",
    "box": "39.3280 120.1633 40.445 123.7878"
  }
}

Lokasi bernama

"spatialCoverage:" "Tahoe City, CA"
temporalCoverage Text

Data dalam set data mencakup interval waktu tertentu. Hanya sertakan properti ini jika set data memiliki dimensi waktu. Schema.org menggunakan standar ISO 8601 untuk mendeskripsikan interval waktu dan titik waktu. Anda dapat mendeskripsikan tanggal dengan cara berbeda-beda, tergantung interval set datanya. Nyatakan interval terbuka dengan dua titik desimal (..).

Tanggal tunggal

"temporalCoverage" : "2008"

Jangka waktu

"temporalCoverage" : "1950-01-01/2013-12-18"

Periode waktu terbuka

"temporalCoverage" : "2013-12-19/.."
variableMeasured Text, PropertyValue

Variabel yang diukur set data ini. Misalnya suhu atau tekanan.

version Text, Number

Nomor versi untuk set data.

url URL

Lokasi halaman yang menjelaskan set data.

DataCatalog

Definisi lengkap DataCatalog tersedia di schema.org/DataCatalog.

Set data sering dipublikasikan dalam repositori yang memuat banyak set data lainnya. Set data yang sama dapat disertakan di lebih dari satu repositori. Anda dapat merujuk ke katalog data yang mencakup set data ini dengan merujuknya secara langsung.

Properti yang direkomendasikan
includedInDataCatalog DataCatalog

Katalog yang mencakup set data tersebut.

DataDownload

Definisi lengkap DataDownload tersedia di schema.org/DataDownload. Selain properti Dataset, tambahkan properti berikut untuk set data yang menyediakan opsi download.

Properti distribution menjelaskan cara mendapatkan set data itu sendiri karena URL-nya sering mengarah ke halaman landing yang mendeskripsikan set data tersebut. Properti distribution menjelaskan tempat mendapatkan data dan format yang didukung. Properti ini dapat memiliki beberapa nilai: misalnya, versi CSV tersedia di satu URL, sedangkan versi Excel tersedia di URL lain.

Properti wajib
distribution.contentUrl URL

Link download.

Properti
distribution DataDownload

Deskripsi lokasi untuk mendownload set data dan format file untuk didownload.

distribution.fileFormat Text

Format file distribusi.

Set data tabular

Set data tabular ditata terutama dari segi kisi baris dan kolom. Untuk halaman yang menyematkan set data tabular, Anda juga dapat membuat markup yang lebih eksplisit berdasarkan pendekatan dasar yang dijelaskan di atas. Saat ini kami memahami variasi CSVW ("CSV di Web", lihat W3C), yang disediakan secara paralel dengan konten tabular berorientasi pengguna pada halaman HTML.

Berikut ini contoh yang menunjukkan tabel kecil yang dienkode dalam format CSVW JSON-LD. Ada beberapa error umum pada Fitur Pengujian Data Terstruktur.

Bantuan dan fitur

Kirim masukan tentang...

Penelusuran
Penelusuran