فحص DSPL

فحص DSPL هي أداة تحقق من صحة مجموعة بيانات DSPL. لعدد من المعايير، بما في ذلك الالتزام بمخطط DSPL الرسمي اتساق المراجع الداخلية وبنية ملف CSV. يمكن للأداة المساعدة اكتشاف العديد من المشكلات التي قد تسبب أخطاء استيراد DSPL، مما يساعدك على اكتشاف وإصلاح هذه المشكلات بسرعة قبل البدء في عملية الإدخال.

لاحظ أن الأداة لا تتحقق (حتى الآن) من مجموعة بيانات DSPL كل مشكلة محتملة. ومع ذلك، فإنها ستكتشف أكثر لذلك، إذا تم التحقق من صحة مجموعة البيانات بنجاح باستخدام الأداة، فهناك هناك احتمال قوي أن يكون قابلاً للاستيراد والتصور في البيانات العامة المستكشف. يُرجى الاطّلاع على قسم تفاصيل الدفع. أدناه للحصول على مزيد من المعلومات.

جارٍ فحص DSPL

الأساسيات

ملاحظة: تفترض هذه التوجيهات أن لديك سبق أن اتبعت عملية التثبيت التعليمات الواردة في صفحة أدوات DSPL.

لإجراء فحص DSPL، انتقِل إلى الوحدة الطرفية أو الطلب في نظامك. type:

python dsplcheck.py [path to dataset XML or zip file]

حيث يتم استبدال العبارة الموضوعة بين قوسين بالمسار النسبي إما أو ملف XML لمجموعة بيانات أو حزمة DSPL مضغوطة.

إذا كانت مجموعة البيانات صالحة، تطبع الأداة "التحقق من الصحة" ناجح" . بخلاف ذلك، ستظهر رسالة خطأ واحدة أو أكثر. يصف سبب فشل التحقق من الصحة. إذا حدث آخر، فقم بإصلاح مجموعة البيانات وفقًا للتوجيهات، ثم شغل الأداة مرة أخرى.

مستوى التحقق

تفحص ميزة DSPL Check مجموعة البيانات بأكملها تلقائيًا، بما في ذلك ملفات CSV. المشار إليها من ملف DSPL XML الرئيسي. تعمل هذه العملية بشكل جيد على المشروعات مجموعات البيانات متوسطة الحجم، ولكن قد تواجه أعطالاً أو تنفد مساحة الذاكرة على مجموعات البيانات الكبيرة جدًا (أي في مئات الميغابايت أو أكبر).

لمعالجة هذه الحالات، توفّر الأداة مستوى مراجعة. يسمح لك بتحديد نطاق الفحص والتحسين الأداء حسب الحاجة. للاستخدام، أدخِل --checking_level=[...]. قبل مسار مجموعة البيانات، حيث يتم استبدال المصطلح بين قوسين بواحد القيم التالية:

  • schema_only: تحقّق من صحة ملف XML لمجموعة البيانات مقابل مخطط DSPL الرسمي، ثم توقف.
  • schema_and_model: يمكنك إجراء التحقّق من صحة المخطط والنموذج الأساسي، ولكن تجاهل محتوى CSV بعد سطر العنوان.
  • full: التحقّق من صحة المخطط والنموذج والبيانات (تلقائيًا)

جارٍ التحقّق من التفاصيل

ينفذ فحص DSPL التسلسل التالي من عمليات التحقق:

  • التحقّق من مخطّط XML: للتحقّق من أنّ مجموعة البيانات ملف بيانات وصفية يعد XML صالحًا ويتوافق مع مخطط DSPL الرسمي.
  • وجود ملف CSV: يتحقّق من أنّ جميع ملفات CSV المشار إليها من مجموعة البيانات لديك وتكون قابلة للتحميل.
  • عمليات التحقق من المفاهيم: عمليات تحقق متعددة لكل مفهوم في ، بما في ذلك:
    • تتضمن مجموعة البيانات مفهومًا واحدًا على الأقل*
    • جميع مراجع المواضيع صالحة
    • يتوفّر مرجع جدول في حال استخدام المفهوم كمرجع غير زمني السمة*
    • مرجع الجدول صالح في حال توفّره
    • يحتوي الجدول المرجعي على عمود يتوافق مع رقم تعريف المفهوم.
  • عمليات التحقق من الشرائح: عمليات تحقق متعددة لكل شريحة في ، بما في ذلك:
    • تحتوي مجموعة البيانات على شريحة واحدة على الأقل*
    • تشير شريحة واحدة على الأقل إلى سمة غير زمنية*
    • تحتوي الشريحة على مقياس واحد وسمة واحدة على الأقل
    • مراجع سمة واحدة بالضبط time المفهوم الأساسي*
    • لكل شريحة مجموعة فريدة من الأبعاد
    • جميع الإشارات إلى المفاهيم المحلية صالحة
    • مرجع الجدول موجود
    • مرجع الجدول صالح
    • يحتوي الجدول المرجعي على عمود لكل سمة ومقياس في الشريحة
    • تتطابق أنواع الأعمدة في الجدول المشار إليه مع أنواع والمفاهيم المستخدمة في الشريحة
  • عمليات فحص الجدول: عمليات فحص مختلفة لكل جدول في ، بما في ذلك:
    • تحتوي مجموعة البيانات على جدول واحد على الأقل*
    • يحتوي ملف CSV على نفس عدد الأعمدة الموجودة في الجدول
    • تطابق سلاسل عناوين ملف CSV أرقام تعريف الأعمدة
    • تحتوي جميع أعمدة التاريخ على سمة format.
    • تتوافق تنسيقات التاريخ (تقريبًا) مع مفاهيم الوقت المرتبطة، على سبيل المثال، يتضمّن تنسيق عمود time:year ما لا يقل عن حرف y واحد*
  • عمليات فحص البيانات بتنسيق CSV: عمليات فحص مختلفة لملفات بيانات CSV المُشار إليها في ملف XML لمجموعة البيانات، بما في ذلك:
    • يحتوي كل صف CSV على نفس عدد الأعمدة الموجودة في العنوان
    • لا يحتوي ملف CSV لتعريف المفهوم على أكثر من صف واحد لكل ملف. رقم تعريف المفهوم
    • لا تحتوي شريحة CSV على أكثر من صف واحد لكل مجموعة من الأبعاد
    • قيم الأبعاد المشار إليها في شريحة CSV صالحة
    • تم فرز شريحة CSV بشكل صحيح
    • يجب تنسيق قيم CSV الأعداد الصحيحة والعائمة بشكل صحيح.

إنّ المعايير التي يتم وضع علامة * عليها ضرورية مؤثرات عرض البيانات في مستكشف البيانات العامة، ولكنها غير مطلوبة من الناحية الفنية من قبل تنسيق DSPL.

من ناحية أخرى، لم تضع الأداة (حتى الآن) في الاعتبار ما يلي:

  • عمليات استيراد مجموعات البيانات
  • مراجع السمات والمواقع
  • إضافات المفاهيم