ชุดข้อมูล

เราจะพบชุดข้อมูลได้ง่ายขึ้นเมื่อคุณให้ข้อมูลสนับสนุน เช่น ชื่อ คำอธิบาย ผู้สร้าง และรูปแบบการเผยแพร่เป็นข้อมูลที่มีโครงสร้าง วิธีการค้นพบชุดข้อมูลของ Google ใช้ประโยชน์จาก schema.org และมาตรฐานข้อมูลเมตาอื่นๆ ที่เพิ่มลงในหน้าที่อธิบายชุดข้อมูล วัตถุประสงค์ของมาร์กอัปนี้คือการปรับปรุงการค้นพบชุดข้อมูลจากสาขาต่างๆ เช่น วิทยาศาสตร์ชีวภาพ สังคมศาสตร์ แมชชีนเลิร์นนิง ข้อมูลหน้าที่พลเมืองและรัฐกิจ และอื่นๆ

ต่อไปนี้คือตัวอย่างของสิ่งที่จัดว่าเป็นชุดข้อมูล

  • ตารางหรือไฟล์ CSV ที่มีข้อมูล
  • คอลเล็กชันตารางที่มีการจัดระเบียบ
  • ไฟล์ในรูปแบบกรรมสิทธิ์ที่มีข้อมูล
  • คอลเล็กชันไฟล์ที่ประกอบกันขึ้นเป็นชุดข้อมูลที่มีความหมาย
  • ออบเจ็กต์ที่มีโครงสร้างซึ่งมีข้อมูลในรูปแบบอื่นที่คุณอาจต้องโหลดลงในเครื่องมือพิเศษเพื่อการประมวลผล
  • รูปภาพที่มีข้อมูล
  • ไฟล์เกี่ยวกับแมชชีนเลิร์นนิง เช่น พารามิเตอร์ที่ฝึกหรือสอน (Train) ไว้ หรือคำจำกัดความโครงสร้างของโครงข่ายประสาทเทียม (Neural Network)
  • ทุกอย่างที่ดูเหมือนชุดข้อมูลสำหรับคุณ

วิธีการค้นพบชุดข้อมูลของเรา

เราเข้าใจข้อมูลที่มีโครงสร้างในหน้าเว็บเกี่ยวกับชุดข้อมูลได้โดยใช้มาร์กอัปชุดข้อมูลของ schema.org หรือโครงสร้างที่เทียบเท่าซึ่งนำเสนออยู่ในรูปแบบคำศัพท์แคตตาล็อกข้อมูล (DCAT) ของ W3C เรายังลองทดสอบการรองรับข้อมูลที่มีโครงสร้างโดยอิงตาม W3C CSVW ด้วย และคาดว่าจะพัฒนาและปรับเปลี่ยนวิธีการของเราเมื่อมีแนวทางปฏิบัติที่ดีที่สุดใหม่ๆ เกิดขึ้นสำหรับการอธิบายชุดข้อมูล ดูข้อมูลเพิ่มเติมเกี่ยวกับวิธีการค้นพบชุดข้อมูลของเราได้ที่การอำนวยความสะดวกให้ค้นพบชุดข้อมูลสาธารณะ

ตัวอย่าง

ต่อไปนี้คือตัวอย่างชุดข้อมูลที่ใช้ไวยากรณ์ JSON-LD (แนะนำ) ในเครื่องมือทดสอบข้อมูลที่มีโครงสร้าง คำศัพท์เดียวกันยังใช้ใน RDFa 1.1, Microdata หรือคำศัพท์ W3C DCAT ได้ด้วย ตัวอย่างต่อไปนี้อิงตามคำอธิบายชุดข้อมูลที่มีการใช้งานจริง

JSON-LD

ตัวอย่างชุดข้อมูลใน JSON-LD ซึ่งใช้เครื่องมือทดสอบข้อมูลที่มีโครงสร้าง

RDFa

ตัวอย่างชุดข้อมูลใน RDFa ซึ่งใช้เครื่องมือทดสอบข้อมูลที่มีโครงสร้าง

หลักเกณฑ์

เว็บไซต์ต้องเป็นไปตามหลักเกณฑ์เกี่ยวกับข้อมูลที่มีโครงสร้าง นอกเหนือจากหลักเกณฑ์เกี่ยวกับข้อมูลที่มีโครงสร้างแล้ว เราขอแนะนำให้ทำตามแนวทางปฏิบัติที่ดีที่สุดสำหรับแผนผังไซต์และแหล่งที่มาและต้นทางต่อไปนี้ด้วย

แนวทางปฏิบัติที่ดีที่สุดเกี่ยวกับแผนผังไซต์

โปรดใช้ไฟล์แผนผังไซต์เพื่อช่วยให้ Google พบ URL ของคุณ การใช้ไฟล์แผนผังไซต์และมาร์กอัป sameAs ช่วยบันทึกวิธีเผยแพร่คำอธิบายชุดข้อมูลผ่านเว็บไซต์ของคุณ

หากคุณมีที่เก็บชุดข้อมูล เป็นไปได้ว่าคุณมีหน้า Canonical ("Landing Page") อย่างน้อย 2 ประเภทสำหรับชุดข้อมูลแต่ละชุดและหน้าที่แสดงรายการชุดข้อมูลหลายรายการ (เช่น ผลการค้นหาหรือชุดข้อมูลบางชุด) เราขอแนะนำให้คุณเพิ่มข้อมูลที่มีโครงสร้างเกี่ยวกับชุดข้อมูลลงในหน้า Canonical ใช้พร็อพเพอร์ตี้ sameAs เพื่อลิงก์หน้า Canonical หากคุณเพิ่มข้อมูลที่มีโครงสร้างลงในสำเนาชุดข้อมูลหลายสำเนา เช่น ข้อมูลในหน้าผลการค้นหา

แนวทางปฏิบัติที่ดีที่สุดเกี่ยวกับแหล่งที่มาและต้นทาง

ชุดข้อมูลแบบเปิดอาจมีการเผยแพร่ต่อ การรวม และการอิงตามชุดข้อมูลอื่นๆ เป็นเรื่องปกติ นี่คือข้อมูลสรุปเบื้องต้นเกี่ยวกับวิธีการนำเสนอสถานการณ์ที่ชุดข้อมูลหนึ่งอิงตามหรือเป็นสำเนาของชุดข้อมูลอื่น

  • ใช้พร็อพเพอร์ตี้ sameAs เพื่อระบุ Canonical URL ที่ตรงกันมากที่สุดของต้นฉบับในกรณีที่ชุดข้อมูลหรือคำอธิบายเป็นเพียงการเผยแพร่ซ้ำเนื้อหาที่เผยแพร่ไว้ที่อื่น
  • ใช้พร็อพเพอร์ตี้ isBasedOn ในกรณีที่ชุดข้อมูลที่เผยแพร่ซ้ำ (รวมถึงข้อมูลเมตา) มีการเปลี่ยนแปลงไปอย่างมาก
  • เมื่อชุดข้อมูลดัดแปลงมาจากหรือรวมมาจากต้นฉบับหลายรายการ ให้ใช้พร็อพเพอร์ตี้ isBasedOn
  • ใช้พร็อพเพอร์ตี้ identifier เพื่อแนบตัวระบุออบเจ็กต์ดิจิทัล (DOI) ที่เกี่ยวข้อง

เราต้องการปรับปรุงคำแนะนำของเราโดยอิงตามความคิดเห็น โดยเฉพาะอย่างยิ่งในเรื่องคำอธิบายต้นทาง การกำหนดเวอร์ชัน และวันที่ที่เชื่อมโยงกับการเผยแพร่ตามอนุกรมเวลา โปรดเข้าร่วมในการสนทนาของชุมชน

คำแนะนำพร็อพเพอร์ตี้แบบข้อความ

เราขอแนะนำให้จำกัดช่องข้อความทั้งหมดไว้ไม่เกิน 5,000 อักขระ Google Dataset Search จะใช้เพียง 5,000 อักขระแรกของช่องข้อความแต่ละช่อง โดยปกติชื่อกับหัวข้อจะเป็นประโยคสั้นๆ หรือมีเพียงไม่กี่คำ

ข้อผิดพลาดและคำเตือนที่ทราบ

คุณอาจพบข้อผิดพลาดหรือคำเตือนในเครื่องมือทดสอบข้อมูลที่มีโครงสร้างของ Google และระบบตรวจสอบความถูกต้องอื่นๆ โดยเฉพาะอย่างยิ่ง คำเตือนเกี่ยวกับ fileFormat (เพิ่งเปลี่ยนชื่อเป็น encodingFormat เมื่อเร็วๆ นี้) คุณไม่จำเป็นต้องสนใจคำเตือนเหล่านั้น นอกจากนี้ ระบบตรวจสอบความถูกต้องอาจแนะนำให้องค์กรมีข้อมูลติดต่อ ซึ่งรวมถึง contactType ในกรณีนี้ ค่าที่เป็นประโยชน์ ได้แก่ customer service, emergency, journalist, newsroom และ public engagement และคุณไม่จำเป็นต้องสนใจข้อผิดพลาดที่ csvw:Table เป็นค่าที่ไม่คาดคิดของพร็อพเพอร์ตี้ mainEntity ด้วย

คำจำกัดความของประเภทข้อมูลที่มีโครงสร้าง

คุณต้องใส่พร็อพเพอร์ตี้ที่จำเป็นลงในเนื้อหาเพื่อให้มีสิทธิ์แสดงเป็นผลการค้นหาที่เป็นสื่อสมบูรณ์ คุณอาจใส่พร็อพเพอร์ตี้ที่แนะนำด้วยเพื่อให้ข้อมูลเพิ่มเติมเกี่ยวกับเนื้อหา ซึ่งจะช่วยให้ผู้ใช้ได้รับประสบการณ์ที่ดียิ่งขึ้น

คุณใช้เครื่องมือทดสอบข้อมูลที่มีโครงสร้างเพื่อตรวจสอบความถูกต้องของมาร์กอัปได้

สิ่งสำคัญคือการอธิบายข้อมูลเกี่ยวกับชุดข้อมูล (ข้อมูลเมตา) และการนำเสนอเนื้อหา เช่น ข้อมูลเมตาของชุดข้อมูลจะบอกว่าชุดข้อมูลนั้นเกี่ยวกับอะไร ตัวแปรที่วัดมีอะไรบ้าง ใครเป็นผู้สร้างชุดข้อมูล และอื่นๆ แต่จะไม่มีค่าที่เจาะจงของตัวแปร เป็นต้น

ชุดข้อมูล

ดูคำจำกัดความทั้งหมดของ Dataset ได้ที่ schema.org/Dataset

คุณอธิบายข้อมูลเพิ่มเติมเกี่ยวกับสิ่งพิมพ์ของชุดข้อมูลได้ เช่น ใบอนุญาต, เวลาที่เผยแพร่, DOI ของชุดข้อมูล หรือ sameAs ที่ชี้ไปยังเวอร์ชัน Canonical ของชุดข้อมูลในที่เก็บอื่น โปรดใส่ identifier, license และ sameAs สำหรับชุดข้อมูลที่มีต้นทางและข้อมูลใบอนุญาต

พร็อพเพอร์ตี้ที่จำเป็น
description Text

สรุปสั้นๆ ที่อธิบายเกี่ยวกับชุดข้อมูล

name Text

ชื่อที่สื่อความหมายของชุดข้อมูล เช่น "ความลึกของหิมะในซีกโลกใต้"

พร็อพเพอร์ตี้ที่แนะนำ
citation Text หรือ CreativeWork

การอ้างอิงสิ่งพิมพ์ที่อธิบายชุดข้อมูล เช่น "J.Smith 'How I created an awesome dataset', วารสารวิทยาการข้อมูล, 1966"

identifier URL, Text หรือ PropertyValue

ตัวระบุของชุดข้อมูล เช่น DOI

keywords Text

คีย์เวิร์ดที่สรุปชุดข้อมูล

license URL, Text

ใบอนุญาตการเผยแพร่ของชุดข้อมูล

sameAs URL

ลิงก์ไปยังหน้าที่มีข้อมูลเพิ่มเติมเกี่ยวกับชุดข้อมูลเดียวกัน โดยทั่วไปจะอยู่ในที่เก็บที่ต่างกัน

spatialCoverage Text, Place

คุณอาจระบุจุดๆ เดียวที่อธิบายแง่มุมด้านตำแหน่งของชุดข้อมูล โปรดระบุพร็อพเพอร์ตี้นี้เมื่อชุดข้อมูลมีมิติข้อมูลเกี่ยวกับตำแหน่งเท่านั้น เช่น จุดๆ เดียวที่มีการรวบรวมการวัดทั้งหมด หรือพิกัดของกรอบพื้นที่

จุด

"spatialCoverage:" {
  "@type": "Place",
  "geo": {
    "@type": "GeoCoordinates",
    "latitude": 39.3280,
    "longitude": 120.1633
  }
}

พิกัด

โปรดใช้ GeoShape เพื่ออธิบายพื้นที่ที่มีรูปทรงต่างๆ เช่น การระบุกรอบพื้นที่

"spatialCoverage:" {
  "@type": "Place",
  "geo": {
    "@type": "GeoShape",
    "box": "39.3280 120.1633 40.445 123.7878"
  }
}

สถานที่ที่มีชื่อ

"spatialCoverage:" "Tahoe City, CA"
temporalCoverage Text

ข้อมูลในชุดข้อมูลครอบคลุมช่วงเวลาที่เจาะจง โปรดระบุพร็อพเพอร์ตี้นี้เมื่อชุดข้อมูลมีมิติข้อมูลเวลาเท่านั้น Schema.org ใช้มาตรฐาน ISO 8601 เพื่ออธิบายช่วงเวลาและจุดเวลา คุณอธิบายวันที่ในแบบต่างๆ ได้โดยขึ้นอยู่กับช่วงเวลาของชุดข้อมูล โปรดระบุช่วงเวลาปลายเปิดด้วยจุดทศนิยม 2 จุด (..)

วันเดียว

"temporalCoverage" : "2008"

ระยะเวลา

"temporalCoverage" : "1950-01-01/2013-12-18"

ระยะเวลาปลายเปิด

"temporalCoverage" : "2013-12-19/.."
variableMeasured Text, PropertyValue

ตัวแปรที่ชุดข้อมูลนี้วัด เช่น อุณหภูมิหรือแรงดัน

version Text, Number

หมายเลขเวอร์ชันของชุดข้อมูล

url URL

ตำแหน่งของหน้าที่อธิบายชุดข้อมูล

DataCatalog

ดูคำจำกัดความทั้งหมดของ DataCatalog ได้ที่ schema.org/DataCatalog

ชุดข้อมูลมักจะเผยแพร่ในที่เก็บที่มีชุดข้อมูลอื่นๆ อีกมากมาย ชุดข้อมูลเดียวกันอาจรวมอยู่ในที่เก็บดังกล่าวมากกว่า 1 ที่ คุณอ้างอิงแคตตาล็อกข้อมูลที่มีชุดข้อมูลนี้อยู่ได้โดยการอ้างอิงแคตตาล็อกโดยตรง

พร็อพเพอร์ตี้ที่แนะนำ
includedInDataCatalog DataCatalog

แคตตาล็อกที่มีชุดข้อมูลอยู่

DataDownload

ดูคำจำกัดความทั้งหมดของ DataDownload ได้ที่ schema.org/DataDownload นอกเหนือจากพร็อพเพอร์ตี้ Dataset แล้ว โปรดเพิ่มพร็อพเพอร์ตี้ต่อไปนี้สำหรับชุดข้อมูลที่มีตัวเลือกในการดาวน์โหลดด้วย

พร็อพเพอร์ตี้ distribution อธิบายวิธีดูชุดข้อมูลเพราะ URL มักจะชี้ไปที่หน้า Landing Page ที่อธิบายชุดข้อมูล พร็อพเพอร์ตี้ distribution อธิบายตำแหน่งและรูปแบบของข้อมูล พร็อพเพอร์ตี้นี้อาจมีค่าหลายรายการ เช่น เวอร์ชัน CSV มี URL เดียวและเวอร์ชัน Excel อยู่ที่ URL อื่น

พร็อพเพอร์ตี้ที่จำเป็น
distribution.contentUrl URL

ลิงก์สำหรับการดาวน์โหลด

พร็อพเพอร์ตี้
distribution DataDownload

คำอธิบายตำแหน่งของการดาวน์โหลดชุดข้อมูลและรูปแบบไฟล์สำหรับการดาวน์โหลด

distribution.fileFormat Text

รูปแบบไฟล์ของการเผยแพร่

ชุดข้อมูลแบบตาราง

ชุดข้อมูลแบบตารางคือชุดข้อมูลที่จัดระเบียบเป็นตารางที่มีแถวและคอลัมน์เป็นหลัก สำหรับหน้าที่ฝังชุดข้อมูลแบบตาราง คุณยังสร้างมาร์กอัปที่ชัดเจนยิ่งขึ้นได้ด้วย โดยต่อยอดจากวิธีการพื้นฐานที่อธิบายไว้ข้างต้น ขณะนี้เราเข้าใจ CSVW ("CSV ในเว็บ" โปรดดู W3C) รูปแบบต่างๆ ที่ระบุพร้อมกันกับเนื้อหาแบบตารางสำหรับผู้ใช้ในหน้า HTML

ต่อไปนี้คือตัวอย่างที่แสดงตารางขนาดเล็กที่เข้ารหัสในรูปแบบ CSVW JSON-LD มีข้อผิดพลาดที่ทราบบางอย่างในเครื่องมือทดสอบข้อมูลที่มีโครงสร้าง

ความช่วยเหลือและเครื่องมือ