การตรวจสอบ DSPL

การตรวจสอบ DSPL เป็นยูทิลิตีที่ตรวจสอบชุดข้อมูล DSPL ตามเกณฑ์ต่างๆ รวมถึงการปฏิบัติตามสคีมา DSPL อย่างเป็นทางการ ความสอดคล้องของการอ้างอิงภายในและโครงสร้างไฟล์ CSV ยูทิลิตีสามารถ ตรวจจับปัญหาหลายอย่างที่จะทำให้เกิดข้อผิดพลาดในการนำเข้า DSPL ซึ่งช่วยให้คุณตรวจพบ และแก้ไขปัญหาเหล่านี้อย่างรวดเร็ว ก่อนจะเริ่มขั้นตอนการป้อนข้อมูล

โปรดทราบว่ายูทิลิตีไม่ได้ตรวจสอบชุดข้อมูล DSPL สำหรับ ทุกโจทย์ที่เป็นไปได้ แต่เครื่องมือนี้จะตรวจพบ ดังนั้น หากเครื่องมือตรวจสอบชุดข้อมูลสำเร็จจะมี มีโอกาสสูงที่จะนำเข้าและมองเห็นได้ในข้อมูลสาธารณะ สำรวจ โปรดดูส่วนรายละเอียดการตรวจสอบ ด้านล่างสำหรับข้อมูลเพิ่มเติม

กำลังตรวจสอบ DSPL

พื้นฐาน

หมายเหตุ: คำแนะนำเหล่านี้จะสมมติว่าคุณมี ทำตามการติดตั้ง วิธีการที่ระบุไว้ในหน้าเครื่องมือ DSPL

หากต้องการเรียกใช้การตรวจสอบ DSPL ให้ไปที่เครื่องชำระเงิน / ข้อความแจ้งในระบบ และ ประเภท:

python dsplcheck.py [path to dataset XML or zip file]

ซึ่งจะแทนที่พจน์ในวงเล็บด้วยเส้นทางสัมพัทธ์ไปยัง ไฟล์ XML ของชุดข้อมูลหรือชุด DSPL ที่ซิปแล้ว

หากชุดข้อมูลถูกต้อง เครื่องมือจะพิมพ์ "การตรวจสอบความถูกต้อง สำเร็จ" มิฉะนั้น ระบบจะแสดงข้อความแสดงข้อผิดพลาดอย่างน้อย 1 รายการ ซึ่งอธิบายสาเหตุที่การตรวจสอบ ล้มเหลว หากเกิดกรณีหลัง ให้แก้ไข ตามการกำหนดทิศทาง แล้วเรียกใช้เครื่องมืออีกครั้ง

กำลังตรวจสอบระดับ

โดยค่าเริ่มต้น DSPL Check จะตรวจสอบชุดข้อมูลทั้งหมด รวมถึงไฟล์ CSV อ้างอิงจากไฟล์ DSPL XML หลัก กระบวนการนี้ทำงานได้ดีกับ ถึงชุดข้อมูลขนาดกลาง แต่อาจถูกใช้งานหรือหน่วยความจำหมด ในชุดข้อมูลที่มีขนาดใหญ่มาก (ภายในหลายร้อยเมกะไบต์หรือ ใหญ่กว่า)

เครื่องมือนี้มีระดับการตรวจสอบเพื่อจัดการกับกรณีเหล่านี้ ซึ่งช่วยให้คุณสามารถกำหนดขอบเขตในการตรวจสอบและปรับปรุง ประสิทธิภาพหากจำเป็น แทรก --checking_level=[...] เพื่อใช้งาน ก่อนเส้นทางชุดข้อมูล ซึ่งแทนที่คำในวงเล็บด้วยค่าใดค่าหนึ่ง ค่าต่อไปนี้

  • schema_only: ตรวจสอบไฟล์ XML ของชุดข้อมูลโดยใช้ สคีมา DSPL อย่างเป็นทางการ จากนั้นหยุดดำเนินการ
  • schema_and_model: ตรวจสอบสคีมาและโมเดลพื้นฐาน แต่ ละเว้นเนื้อหา CSV หลังบรรทัดส่วนหัว
  • full: ตรวจสอบสคีมา โมเดล และข้อมูล (ค่าเริ่มต้น)

รายละเอียดการตรวจสอบ

การตรวจสอบ DSPL จะดำเนินการตรวจสอบตามลำดับต่อไปนี้

  • การตรวจสอบสคีมา XML: ตรวจสอบว่าชุดข้อมูล ไฟล์ข้อมูลเมตาเป็น XML ที่ถูกต้องและสอดคล้องกับ สคีมา DSPL อย่างเป็นทางการ
  • การมีอยู่ของ CSV: ตรวจสอบว่าไฟล์ CSV ทั้งหมด ที่อ้างอิงจากชุดข้อมูลของคุณมีอยู่และสามารถโหลดได้
  • การตรวจสอบแนวคิด: การตรวจสอบแบบต่างๆ ของแต่ละแนวคิดใน ชุดข้อมูลเหล่านี้ ซึ่งรวมถึง:
    • ชุดข้อมูลมีอย่างน้อย 1 แนวคิด*
    • การอ้างอิงหัวข้อทั้งหมดถูกต้อง
    • มีการอ้างอิงตารางอยู่หากใช้แนวคิดแบบไม่เป็นเวลา มิติข้อมูล*
    • ใช้การอ้างอิงตารางได้หากมี
    • ตารางที่อ้างอิงมีคอลัมน์ที่สอดคล้องกับรหัสแนวคิด
  • การตรวจสอบสไลซ์: การตรวจสอบแบบต่างๆ ของแต่ละสไลซ์ในไฟล์ ชุดข้อมูลเหล่านี้ ซึ่งรวมถึง:
    • ชุดข้อมูลมีอย่างน้อย 1 ส่วน*
    • มีอย่างน้อย 1 ส่วนที่อ้างอิงมิติข้อมูลที่ไม่ใช่เวลา*
    • ส่วนแบ่งมีเมตริกและมิติข้อมูลอย่างน้อย 1 รายการ
    • การอ้างอิงมิติข้อมูลที่ตรงกัน 1 รายการ time แนวคิด Canonical*
    • แต่ละสไลซ์มีชุดค่าผสมของมิติข้อมูลที่ไม่ซ้ำกัน
    • การอ้างอิงถึงแนวคิดในเครื่องทั้งหมดถูกต้อง
    • มีการอ้างอิงตารางอยู่
    • การอ้างอิงตารางถูกต้อง
    • ตารางที่อ้างอิงมีคอลัมน์สำหรับมิติข้อมูลและเมตริกแต่ละรายการ ในส่วนแบ่ง
    • ประเภทคอลัมน์ในตารางที่อ้างอิงตรงกับประเภทของคอลัมน์ แนวคิดที่ใช้ใน Slice
  • การตรวจสอบตาราง: การตรวจสอบแบบต่างๆ ของแต่ละตารางใน ชุดข้อมูลเหล่านี้ ซึ่งรวมถึง:
    • ชุดข้อมูลมีอย่างน้อย 1 ตาราง*
    • ไฟล์ CSV มีจำนวนคอลัมน์เท่ากับตาราง
    • สตริงส่วนหัว CSV ตรงกับรหัสคอลัมน์
    • คอลัมน์วันที่ทั้งหมดมีแอตทริบิวต์ format
    • รูปแบบวันที่จะสอดคล้องกับแนวคิดเวลาที่เกี่ยวข้อง (โดยคร่าวๆ) เช่น รูปแบบสำหรับคอลัมน์ time:year ต้องมีอย่างน้อย อักขระ y ตัว *
  • การตรวจสอบข้อมูล CSV: การตรวจสอบไฟล์ข้อมูล CSV ในแบบต่างๆ ที่อ้างอิงโดยไฟล์ XML ชุดข้อมูลของคุณ ได้แก่
    • แถว CSV แต่ละแถวมีจำนวนคอลัมน์เท่ากับส่วนหัว
    • CSV คำจำกัดความของแนวคิดมีไม่เกิน 1 แถวสำหรับแต่ละแถว รหัสแนวคิด
    • Slice CSV มีไม่เกิน 1 แถวสําหรับชุดค่าผสมแต่ละชุด ขนาด
    • ค่ามิติข้อมูลที่อ้างอิงใน CSV ของส่วนแบ่งถูกต้อง
    • Slice CSV ได้รับการจัดเรียงอย่างถูกต้อง
    • ค่า CSV แบบจำนวนเต็มและแบบลอยมีการจัดรูปแบบอย่างถูกต้อง

เกณฑ์ที่มีเครื่องหมาย * จำเป็นสำหรับ ในเครื่องมือสำรวจข้อมูลสาธารณะ แต่ในทางเทคนิคแล้วไม่มีการดำเนินการ รูปแบบ DSPL

ในทางกลับกัน เครื่องมือไม่ได้ดูข้อมูลต่อไปนี้

  • การนำเข้าชุดข้อมูล
  • การอ้างอิงแอตทริบิวต์และพร็อพเพอร์ตี้
  • ส่วนขยายแนวคิด