การตรวจสอบ DSPL เป็นยูทิลิตีที่ตรวจสอบชุดข้อมูล DSPL ตามเกณฑ์ต่างๆ รวมถึงการปฏิบัติตามสคีมา DSPL อย่างเป็นทางการ ความสอดคล้องของการอ้างอิงภายในและโครงสร้างไฟล์ CSV ยูทิลิตีสามารถ ตรวจจับปัญหาหลายอย่างที่จะทำให้เกิดข้อผิดพลาดในการนำเข้า DSPL ซึ่งช่วยให้คุณตรวจพบ และแก้ไขปัญหาเหล่านี้อย่างรวดเร็ว ก่อนจะเริ่มขั้นตอนการป้อนข้อมูล
โปรดทราบว่ายูทิลิตีไม่ได้ตรวจสอบชุดข้อมูล DSPL สำหรับ ทุกโจทย์ที่เป็นไปได้ แต่เครื่องมือนี้จะตรวจพบ ดังนั้น หากเครื่องมือตรวจสอบชุดข้อมูลสำเร็จจะมี มีโอกาสสูงที่จะนำเข้าและมองเห็นได้ในข้อมูลสาธารณะ สำรวจ โปรดดูส่วนรายละเอียดการตรวจสอบ ด้านล่างสำหรับข้อมูลเพิ่มเติม
กำลังตรวจสอบ DSPL
พื้นฐาน
หมายเหตุ: คำแนะนำเหล่านี้จะสมมติว่าคุณมี ทำตามการติดตั้ง วิธีการที่ระบุไว้ในหน้าเครื่องมือ DSPL
หากต้องการเรียกใช้การตรวจสอบ DSPL ให้ไปที่เครื่องชำระเงิน / ข้อความแจ้งในระบบ และ ประเภท:
python dsplcheck.py [path to dataset XML or zip file]
ซึ่งจะแทนที่พจน์ในวงเล็บด้วยเส้นทางสัมพัทธ์ไปยัง ไฟล์ XML ของชุดข้อมูลหรือชุด DSPL ที่ซิปแล้ว
หากชุดข้อมูลถูกต้อง เครื่องมือจะพิมพ์ "การตรวจสอบความถูกต้อง สำเร็จ" มิฉะนั้น ระบบจะแสดงข้อความแสดงข้อผิดพลาดอย่างน้อย 1 รายการ ซึ่งอธิบายสาเหตุที่การตรวจสอบ ล้มเหลว หากเกิดกรณีหลัง ให้แก้ไข ตามการกำหนดทิศทาง แล้วเรียกใช้เครื่องมืออีกครั้ง
กำลังตรวจสอบระดับ
โดยค่าเริ่มต้น DSPL Check จะตรวจสอบชุดข้อมูลทั้งหมด รวมถึงไฟล์ CSV อ้างอิงจากไฟล์ DSPL XML หลัก กระบวนการนี้ทำงานได้ดีกับ ถึงชุดข้อมูลขนาดกลาง แต่อาจถูกใช้งานหรือหน่วยความจำหมด ในชุดข้อมูลที่มีขนาดใหญ่มาก (ภายในหลายร้อยเมกะไบต์หรือ ใหญ่กว่า)
เครื่องมือนี้มีระดับการตรวจสอบเพื่อจัดการกับกรณีเหล่านี้
ซึ่งช่วยให้คุณสามารถกำหนดขอบเขตในการตรวจสอบและปรับปรุง
ประสิทธิภาพหากจำเป็น แทรก --checking_level=[...]
เพื่อใช้งาน
ก่อนเส้นทางชุดข้อมูล ซึ่งแทนที่คำในวงเล็บด้วยค่าใดค่าหนึ่ง
ค่าต่อไปนี้
schema_only
: ตรวจสอบไฟล์ XML ของชุดข้อมูลโดยใช้ สคีมา DSPL อย่างเป็นทางการ จากนั้นหยุดดำเนินการschema_and_model
: ตรวจสอบสคีมาและโมเดลพื้นฐาน แต่ ละเว้นเนื้อหา CSV หลังบรรทัดส่วนหัวfull
: ตรวจสอบสคีมา โมเดล และข้อมูล (ค่าเริ่มต้น)
รายละเอียดการตรวจสอบ
การตรวจสอบ DSPL จะดำเนินการตรวจสอบตามลำดับต่อไปนี้
- การตรวจสอบสคีมา XML: ตรวจสอบว่าชุดข้อมูล ไฟล์ข้อมูลเมตาเป็น XML ที่ถูกต้องและสอดคล้องกับ สคีมา DSPL อย่างเป็นทางการ
- การมีอยู่ของ CSV: ตรวจสอบว่าไฟล์ CSV ทั้งหมด ที่อ้างอิงจากชุดข้อมูลของคุณมีอยู่และสามารถโหลดได้
-
การตรวจสอบแนวคิด: การตรวจสอบแบบต่างๆ ของแต่ละแนวคิดใน
ชุดข้อมูลเหล่านี้ ซึ่งรวมถึง:
- ชุดข้อมูลมีอย่างน้อย 1 แนวคิด*
- การอ้างอิงหัวข้อทั้งหมดถูกต้อง
- มีการอ้างอิงตารางอยู่หากใช้แนวคิดแบบไม่เป็นเวลา มิติข้อมูล*
- ใช้การอ้างอิงตารางได้หากมี
- ตารางที่อ้างอิงมีคอลัมน์ที่สอดคล้องกับรหัสแนวคิด
-
การตรวจสอบสไลซ์: การตรวจสอบแบบต่างๆ ของแต่ละสไลซ์ในไฟล์
ชุดข้อมูลเหล่านี้ ซึ่งรวมถึง:
- ชุดข้อมูลมีอย่างน้อย 1 ส่วน*
- มีอย่างน้อย 1 ส่วนที่อ้างอิงมิติข้อมูลที่ไม่ใช่เวลา*
- ส่วนแบ่งมีเมตริกและมิติข้อมูลอย่างน้อย 1 รายการ
- การอ้างอิงมิติข้อมูลที่ตรงกัน 1 รายการ
time
แนวคิด Canonical* - แต่ละสไลซ์มีชุดค่าผสมของมิติข้อมูลที่ไม่ซ้ำกัน
- การอ้างอิงถึงแนวคิดในเครื่องทั้งหมดถูกต้อง
- มีการอ้างอิงตารางอยู่
- การอ้างอิงตารางถูกต้อง
- ตารางที่อ้างอิงมีคอลัมน์สำหรับมิติข้อมูลและเมตริกแต่ละรายการ ในส่วนแบ่ง
- ประเภทคอลัมน์ในตารางที่อ้างอิงตรงกับประเภทของคอลัมน์ แนวคิดที่ใช้ใน Slice
-
การตรวจสอบตาราง: การตรวจสอบแบบต่างๆ ของแต่ละตารางใน
ชุดข้อมูลเหล่านี้ ซึ่งรวมถึง:
- ชุดข้อมูลมีอย่างน้อย 1 ตาราง*
- ไฟล์ CSV มีจำนวนคอลัมน์เท่ากับตาราง
- สตริงส่วนหัว CSV ตรงกับรหัสคอลัมน์
- คอลัมน์วันที่ทั้งหมดมีแอตทริบิวต์
format
- รูปแบบวันที่จะสอดคล้องกับแนวคิดเวลาที่เกี่ยวข้อง (โดยคร่าวๆ)
เช่น รูปแบบสำหรับคอลัมน์
time:year
ต้องมีอย่างน้อย อักขระy
ตัว *
-
การตรวจสอบข้อมูล CSV: การตรวจสอบไฟล์ข้อมูล CSV ในแบบต่างๆ
ที่อ้างอิงโดยไฟล์ XML ชุดข้อมูลของคุณ ได้แก่
- แถว CSV แต่ละแถวมีจำนวนคอลัมน์เท่ากับส่วนหัว
- CSV คำจำกัดความของแนวคิดมีไม่เกิน 1 แถวสำหรับแต่ละแถว รหัสแนวคิด
- Slice CSV มีไม่เกิน 1 แถวสําหรับชุดค่าผสมแต่ละชุด ขนาด
- ค่ามิติข้อมูลที่อ้างอิงใน CSV ของส่วนแบ่งถูกต้อง
- Slice CSV ได้รับการจัดเรียงอย่างถูกต้อง
- ค่า CSV แบบจำนวนเต็มและแบบลอยมีการจัดรูปแบบอย่างถูกต้อง
เกณฑ์ที่มีเครื่องหมาย * จำเป็นสำหรับ ในเครื่องมือสำรวจข้อมูลสาธารณะ แต่ในทางเทคนิคแล้วไม่มีการดำเนินการ รูปแบบ DSPL
ในทางกลับกัน เครื่องมือไม่ได้ดูข้อมูลต่อไปนี้
- การนำเข้าชุดข้อมูล
- การอ้างอิงแอตทริบิวต์และพร็อพเพอร์ตี้
- ส่วนขยายแนวคิด