Veri Kümesi

Bir veri kümesinin adı, açıklaması, yaratıcısı ve dağıtım biçimleri gibi destekleyici bilgilerini yapılandırılmış veri olarak sağladığınızda söz konusu veri kümesini bulmak daha kolay olur. Google'ın veri kümesi keşfine yaklaşımı, schema.org ve veri kümelerini açıklayan sayfalara eklenebilecek diğer meta veri standartlarından faydalanır. Bu işaretlemenin amacı, yaşam bilimleri, sosyal bilimler, makine öğrenimi, şehre ve devlete ait verileri ve diğer alanlardan veri kümelerinin keşfedilmesini geliştirmektir.

Burada, veri kümesi olarak nitelendirilebilecek bazı örnekleri görebilirsiniz:

  • Bazı veriler içeren bir tablo veya CSV dosyası
  • Düzenlenmiş bir tablo koleksiyonu
  • Veri içeren özel bir biçimdeki bir dosya
  • Birlikte anlamlı bir veri kümesi oluşturan dosya koleksiyonu
  • İşlemek üzere özel bir araca yüklemek isteyebileceğiniz, başka biçimde veriler içeren bir yapılandırılmış nesne
  • Veri yakalayan resimler
  • Eğitilmiş parametreler veya sinir ağı yapısı tanımları gibi makine öğrenimiyle ilgili dosyalar
  • Size veri kümesi gibi görünen herhangi bir şey

Veri kümesi keşfi konusundaki yaklaşımımız

Web sayfalarındaki veri kümeleriyle ilgili yapılandırılmış verileri schema.org Veri Kümesi işaretlemesini veya W3C'nin Veri Kataloğu Kelime Bilgisi (DCAT) biçiminde gösterilen eş değer yapıları kullanarak anlayabiliriz. Ayrıca, W3C CSVW'ye dayanan yapılandırılmış veri için deneysel desteği keşfediyoruz ve yaklaşımımızı ortaya çıkan veri kümesi açıklaması en iyi uygulamaları olarak geliştirmeyi ve uyarlamayı umuyoruz. Veri kümesi keşfi konusundaki yaklaşımımız hakkında daha fazla bilgi için Herkese açık veri kümelerinin keşfedilmesini kolaylaştırma konusuna bakın.

Örnekler

Yapılandırılmış Veri Test Aracı'nda JSON-LD söz diziminin (tercih edilen) kullanıldığı bir veri kümeleri örneğini burada bulabilirsiniz. Aynı kelime bilgisi, RDFa 1.1, Mikro Veri veya W3C DCAT kelime bilgisinde de kullanılabilir. Aşağıdaki örnek, gerçek bir veri kümesi açıklamasına dayanmaktadır.

JSON-LD

Bir JSON-LD veri kümesi örneğini burada bulabilirsiniz:

RDFa

Bir RDFa veri kümesi örneğini burada bulabilirsiniz:

Yönergeler

Siteler, yapılandırılmış veri yönergelerine uymalıdır. Yapılandırılmış veri yönergelerine ek olarak, aşağıdaki site haritası ve aşağıda listelenen kaynak ve köken en iyi uygulamalarını öneririz.

Site haritası en iyi uygulamaları

Google’ın URL’lerinizi bulmasına yardımcı olmak için bir site haritası dosyası kullanın. Site haritası dosyalarının ve sameAs işaretlemesinin kullanılması, veri kümesi açıklamalarının sitenizde nasıl yayınlandığını belgelemeye yardımcı olur.

Bir veri kümesi havuzunuz varsa muhtemelen en az iki sayfa türünüz olur: her bir veri kümesi için standart ("açılış") sayfalar ve birden fazla veri kümesinin listelendiği sayfalar (örneğin, arama sonuçları veya bazı veri kümelerinin alt kümeleri). Standart sayfalara bir veri kümesiyle ilgili yapılandırılmış veri eklemenizi öneririz. Arama sonuçları sayfalarındaki girişler gibi veri kümesinin birden çok kopyasına yapılandırılmış veri eklerseniz standart sayfaya bağlantı vermek için sameAs özelliğini kullanın.

Kaynak ve köken en iyi uygulamaları

Açık veri kümelerinin yeniden yayınlanması, toplanması ve başka veri kümelerine dayanması yaygın görülen bir durumdur. Bu, bir veri kümesinin başka bir veri kümesinin kopyası olduğu veya başka bir veri kümesine dayandığı durumları göstermek için kullandığımız yaklaşımın bir ilk taslağıdır.

  • Veri kümesi veya açıklamanın başka yerde yayınlanmış malzemelerin basit bir şekilde yeniden yayınlandığı durumlarda, orijinale en uygun standart URL’leri belirtmek için sameAs özelliğini kullanın.
  • Yeniden yayınlanan veri kümesinin (meta verileri dahil) önemli ölçüde değiştiği durumlarda isBasedOn özelliğini kullanın.
  • Bir veri kümesi, birkaç orijinalden türetildiğinde veya toplandığında isBasedOn özelliğini kullanın.
  • Alakalı Dijital Nesne tanımlayıcılarını (DOI'ler) veya Kompakt Tanımlayıcıları eklemek için identifier özelliğini kullanın. Veri kümesinde birden fazla tanımlayıcı varsa identifier özelliğini tekrarlayın. JSON-LD kullanılıyorsa bu, JSON listesi söz dizimi kullanılarak gösterilir.

Önerilerimizi, özellikle köken açıklaması, sürüm oluşturma ve zaman serisi yayınlarıyla ilişkili tarihlerle ilgili geri bildirimlere dayanarak daha iyi hale getirmeyi umuyoruz. Lütfen topluluk tartışmalarına katılın.

Metin özelliği önerileri

Tüm metin alanlarını en fazla 5000 karakter ile sınırlandırmanızı öneririz. Google Veri Seti Arama, metin alanlarının yalnızca ilk 5000 karakterini kullanır. Adlar ve başlıklar genellikle birkaç kelimeden veya kısa bir cümleden oluşur.

Bilinen Hatalar ve Uyarılar

Google’ın Yapılandırılmış Veri Test Aracı ve diğer doğrulama sistemlerinde hatalar veya uyarılarla karşılaşabilirsiniz. Doğrulama sistemleri, kuruluşların iletişim bilgilerinin contactType içermesi gerektiğini de belirtebilir; faydalı değerler arasında customer service, emergency, journalist, newsroom ve public engagement bulunur. Ayrıca, mainEntity özelliği için beklenmedik bir değer olan csvw:Table ile ilgili hataları yok sayabilirsiniz.

Yapılandırılmış veri türü tanımları

İçeriğinizin zengin sonuç olarak görüntülenmeye uygun olması için gereken özellikleri eklemeniz gerekir. İçeriğiniz hakkında daha fazla bilgi ekleyerek daha iyi bir kullanıcı deneyimi sağlamak için önerilen özellikleri de dahil edebilirsiniz.

İşaretlemenizi doğrulamak için Yapılandırılmış Veri Test Aracı'nı kullanabilirsiniz.

Odak noktasında bir veri kümesi (meta verileri) ile ilgili bilgileri açıklamak ve içeriklerini temsil etmek vardır. Örneğin, veri kümesi meta verileri, veri kümesinin ne hakkında olduğunu, hangi değişkenleri ölçtüğünü, kimin tarafından oluşturulduğunu ve benzer bilgileri belirtir. Örneğin, değişkenler için belirli değerler içermez.

Veri Kümesi

Dataset tam tanımı schema.org/Dataset adresinde bulunmaktadır.

Lisans, yayınlanma zamanı, DOI'si veya farklı bir veri havuzundaki veri kümesi standart sürümünü işaret eden bir sameAs özelliği gibi veri kümesinin yayınlanmasıyla ilgili ek bilgileri açıklar. Köken ve lisans bilgileri sağlayan veri kümeleri için identifier, license ve sameAs ekleyin.

Gerekli özellikler
description Text

Veri kümesini açıklayan kısa bir özet.

Yönergeler

  • Özet, 50-5.000 karakter uzunluğunda olmalıdır.
  • Özet, Markdown söz dizimini içermelidir. Yerleştirilmiş resimlerin, mutlak yol URL'leri kullanmaları gerekir (göre yollar yerine).
  • JSON-LD biçimini kullanırken yeni satırları \n ile belirtin (iki karakter: ters eğik çizgi ve küçük harf "n").
name Text

Veri kümesinin açıklayıcı adı. Örneğin, "Kuzey Yarıküre'de kar kalınlığı".

Önerilen özellikler
alternateName Text

Bu veri kümesini tanımlamak için kullanılmış olan takma adlar veya kısaltmalar gibi alternatif adlar. Örneğin (JSON-LD biçiminde):

"name": "The Quick, Draw! Dataset"
"alternateName": ["Quick Draw Dataset", "quickdraw-dataset"]
citation Text veya CreativeWork

Alıntı yapılan veri setinin kendisine ek olarak veri sağlayıcısı tarafından önerilen akademik makaleleri tanımlar. Veri setinin kendisi için olan alıntıyı, name, identifier, creator ve publisher gibi diğer alanlarla sağlayın. Örneğin bu alan, veri tanımlayıcısı, veri kağıdı veya bu veri seti için tamamlayıcı materyal olan bir makale gibi ilgili akademik yayını, benzersiz şekilde tanımlayabilir. Örnekler (JSON-LD biçiminde):

"citation": "https://doi.org/10.1111/111"
"citation": "https://identifiers.org/pubmed:11111111"
"citation": "https://identifiers.org/arxiv:0111.1111v1"
"citation":
 "Doe J (2014) Influence of X ... https://doi.org/10.1111/111"

Ek yönergeler

  • Bu alanı, veri kümesinin kendisi için alıntı bilgilerini sağlamak amacıyla kullanmayın. Bu alan, veri setinin kendisini değil, ilgili akademik makaleleri tanımlamak içindir. Veri kümesinin kendisini alıntılamak için gereken bilgileri sağlarken, bu alan yerine name, identifier, creator ve publisher alanlarını kullanın.
  • Alıntı alanını bir alıntı snippet'iyle doldururken, mümkün olduğunda makale tanımlayıcısını (DOI gibi) sağlayın.

    Önerilen: "Doe J (2014) X'in Etkisi. Biyomik 1(1). https://doi.org/10.1111/111"

    Önerilmeyen: "Doe J (2014) X'in Etkisi. Biyomik 1(1)."

identifier URL, Text, or PropertyValue

DOI veya Kompakt Tanımlayıcı gibi bir tanımlayıcı. Veri kümesinde birden fazla tanımlayıcı varsa identifier özelliğini tekrarlayın. JSON-LD kullanılıyorsa bu, JSON listesi söz dizimi kullanılarak gösterilir.

keywords Text

Veri kümesini özetleyen anahtar kelimeler.

license URL, Text

Veri kümesinin dağıtımını belirleyen bir lisans.

sameAs URL

Genellikle farklı bir veri havuzunda, aynı veri kümesiyle ilgili daha fazla bilginin sağlandığı bir sayfaya bağlantı.

spatialCoverage Text, Place

Veri kümesinin uzamsal yönünü açıklayan tek bir nokta sağlayabilirsiniz. Bu özelliği yalnızca veri kümesi uzamsal bir boyuta sahipse ekleyin. Örneğin, tüm ölçümlerin toplandığı tek bir nokta veya bir alan için sınırlandırıcı kutunun koordinatları.

Noktalar

"spatialCoverage:" {
  "@type": "Place",
  "geo": {
    "@type": "GeoCoordinates",
    "latitude": 39.3280,
    "longitude": 120.1633
  }
}

Şekiller

Farklı şekillerdeki alanları açıklamak için GeoShape kullanın. Örneğin, bir sınırlandırıcı kutu belirtmek için.

"spatialCoverage:" {
  "@type": "Place",
  "geo": {
    "@type": "GeoShape",
    "box": "39.3280 120.1633 40.445 123.7878"
  }
}

box, circle, line veya polygon özelliklerinin içindeki noktalar, enlem ve boylama (bu sırayla) karşılık gelen, boşlukla ayrılmış iki değer çifti olarak ifade edilmelidir.

Adlandırılmış konumlar

"spatialCoverage:" "Tahoe City, CA"
temporalCoverage Text

Veri kümesindeki veriler belirli bir zaman aralığını kapsar. Bu özelliği yalnızca veri kümesi geçici bir boyuta sahipse ekleyin. Schema.org, zaman aralıklarını ve zaman noktalarını açıklamak için ISO 8601 standardını kullanır. Veri kümesi aralığına bağlı olarak tarihleri farklı biçimde tanımlayabilirsiniz. Açık uçlu aralıkları iki ondalık basamakla (..) belirtin.

Tek tarih

"temporalCoverage" : "2008"

Dönem

"temporalCoverage" : "1950-01-01/2013-12-18"

Açık uçlu dönem

"temporalCoverage" : "2013-12-19/.."
variableMeasured Text, PropertyValue

Bu veri kümesinin ölçtüğü değişken. Örneğin, sıcaklık veya basınç.

version Text, Number

Veri kümesinin sürüm numarası.

url URL

Veri kümesini açıklayan bir sayfanın konumu.

DataCatalog

DataCatalog tam tanımı schema.org/DataCatalog adresinde bulunmaktadır.

Veri kümeleri genellikle başka birçok veri kümesi içeren veri havuzlarında yayınlanır. Aynı veri kümesi, böyle birden fazla veri havuzuna dahil edilebilir. Doğrudan gönderme yaparak bu veri kümesinin ait olduğu veri kataloğuna doğrudan başvurabilirsiniz.

Önerilen özellikler
includedInDataCatalog DataCatalog

Veri kümesinin ait olduğu katalog.

DataDownload

DataDownload tam tanımı schema.org/DataDownload adresinde bulunmaktadır. Dataset özelliklerine ek olarak, indirme seçenekleri sunan veri kümeleri için aşağıdaki özellikleri ekleyin.

URL genellikle veri kümesini açıklayan açılış sayfasını işaret ettiğinden distribution özelliği, veri kümesinin kendisinin nasıl alınacağını açıklar. distribution özelliği, verilerin nereden alınacağını ve hangi biçimde olacağını açıklar. Bu özelliğin birkaç değeri olabilir: Örneğin, bir CSV sürümünün bir URL'si vardır ve bir Excel sürümü başka bir URL'de bulunmaktadır.

Gerekli özellikler
distribution.contentUrl URL

İndirme bağlantısı.

Özellikler
distribution DataDownload

Veri kümesi indirme dosyasının konumunun ve indirilecek dosya biçiminin açıklaması.

distribution.fileFormat Text

Dağıtımın dosya biçimi.

Tablo biçiminde veri kümeleri

Tablo biçiminde veri kümesi, öncelikle bir satır ve sütun ızgarası şeklinde düzenlenir. Tablo biçiminde veri kümelerini yerleştiren sayfalar için yukarıda açıklanan temel yaklaşıma dayanarak, daha belirgin bir işaretleme de oluşturabilirsiniz. Şu anda, HTML sayfasındaki kullanıcı odaklı tablo biçimli içeriğe paralel olarak sağlanan bir CSVW ("Web’deki CSV", bkz. W3C) çeşidini anlıyoruz.

Burada, CSVW JSON-LD biçiminde kodlanmış küçük bir tabloyu gösteren bir örneği görebilirsiniz. Yapılandırılmış Veri Test Aracı'nda bazı bilinen hatalar gösterilir.

Yardım ve araçlar

Şunun hakkında geri bildirim gönderin...