DSPL जांच

DSPL जांच एक सुविधा है, जो DSPL डेटासेट की कई शर्तों के मुताबिक पुष्टि करती है. इसमें आधिकारिक DSPL स्कीमा का पालन करना, अंदरूनी रेफ़रंस की उपलब्धता, और CSV फ़ाइल के स्ट्रक्चर शामिल हैं. यूटिलिटी कई समस्याओं का पता लगा सकती है, जिनकी वजह से डीएसपीएल इंपोर्ट से जुड़ी गड़बड़ियां हो सकती हैं. इनकी मदद से, इनपुट प्रोसेस शुरू करने से पहले ही इन समस्याओं का पता लगाकर उन्हें ठीक किया जा सकता है.

ध्यान दें कि यूटिलिटी आपके सभी संभावित समस्या के लिए DSPL डेटासेट की जांच नहीं करती है. हालांकि, इससे सबसे सामान्य समस्याएं सामने आ जाएंगी. इसलिए, अगर टूल से आपके डेटासेट की पुष्टि हो जाती है, तो संभावना बढ़ जाती है कि यह इंपोर्ट किया जा सकेगा और सार्वजनिक डेटा एक्सप्लोरर में दिखेगा. ज़्यादा जानकारी के लिए, नीचे मौजूद जांच की जानकारी सेक्शन देखें.

DSPL जांच की जा रही है

बुनियादी बातें

ध्यान दें: इन निर्देशों का पालन करने के लिए, आपने डीएसपीएल टूल पेज पर दिए गए, इंस्टॉल करने के निर्देशों का पालन पहले ही कर लिया है.

DSPL जांच करने के लिए, अपने सिस्टम के टर्मिनल / प्रॉम्प्ट पर जाएं और यह टाइप करें:

python dsplcheck.py [path to dataset XML or zip file]

जहां ब्रैकेट किए गए शब्द को डेटासेट डेटासेट वाली फ़ाइल या ज़िप किए गए डीएसपीएल बंडल से जुड़े पाथ से बदल दिया जाता है.

अगर डेटासेट मान्य है, तो टूल "पुष्टि हो चुकी है" मैसेज प्रिंट करता है. ऐसा न करने पर, गड़बड़ी के एक या उससे ज़्यादा मैसेज दिखेंगे, जिनमें पुष्टि करने की वजह नहीं दी गई होगी. अगर बाद में कोई गड़बड़ी होती है, तो डेटासेट को बताए गए तरीके से ठीक करें और टूल को फिर से चलाएं.

चेकिंग लेवल

डिफ़ॉल्ट रूप से, डीएसपीएल जांच में पूरे डेटासेट की जांच की जाती है. इसमें मुख्य डीएसपीएल एक्सएमएल फ़ाइल में दी गई CSV फ़ाइलें भी शामिल होती हैं. यह प्रोसेस छोटे से मध्यम आकार के डेटासेट पर अच्छी तरह काम करती है, लेकिन हो सकता है कि यह बहुत बड़े डेटासेट (जैसे, सैकड़ों मेगाबाइट या इससे बड़े डेटासेट में) रुक जाए या मेमोरी खत्म हो जाए.

इन मामलों को हल करने के लिए, टूल में जांच का लेवल विकल्प मौजूद होता है. इसकी मदद से, जांच का दायरा सेट किया जा सकता है और ज़रूरत के मुताबिक परफ़ॉर्मेंस को बेहतर किया जा सकता है. इस्तेमाल करने के लिए, डेटासेट पाथ से पहले --checking_level=[...] डालें, जहां ब्रैकेट वाले शब्द को नीचे दी गई किसी एक वैल्यू से बदला जाता है:

  • schema_only आधिकारिक डेटासेट की स्कीमा के मुताबिक डेटासेट एक्सएमएल फ़ाइल की पुष्टि करें और फिर उसे बंद कर दें.
  • schema_and_model: स्कीमा और बेसिक मॉडल की पुष्टि करें, लेकिन हेडर लाइन के बाद CSV कॉन्टेंट को अनदेखा करें.
  • full: स्कीमा, मॉडल, और डेटा की पुष्टि करें (डिफ़ॉल्ट).

जानकारी की जांच की जा रही है

DSPL जांच की पुष्टि नीचे दिए गए क्रम में होती है:

  • एक्सएमएल स्कीमा की पुष्टि करना: इस बात की पुष्टि की जाती है कि आपकी डेटासेट मेटाडेटा फ़ाइल मान्य एक्सएमएल फ़ाइल है और यह आधिकारिक डीएसपीएल स्कीमा के मुताबिक है.
  • CSV की मौजूदगी: जांच करता है कि आपके डेटासेट से जुड़ी सभी CSV फ़ाइलें मौजूद हैं और उन्हें लोड किया जा सकता है.
  • कॉन्सेप्ट की जांच: आपके डेटासेट में मौजूद हर कॉन्सेप्ट की अलग-अलग जांच करता है. इनमें ये तरीके शामिल हैं:
    • डेटासेट में कम से कम एक सिद्धांत है*
    • सभी विषय के संदर्भ मान्य हैं
    • अगर कॉन्सेप्ट का इस्तेमाल नॉन-टाइम डाइमेंशन के तौर पर किया गया है, तो टेबल के रेफ़रंस का इस्तेमाल किया जाता है*
    • टेबल रेफ़रंस (अगर मौजूद है) मान्य है
    • रेफ़र की गई टेबल में, कॉन्सेप्ट आईडी से जुड़ा कॉलम है
  • स्लाइस की जांच: आपके डेटासेट में मौजूद हर स्लाइस की अलग-अलग जांच जिनमें ये शामिल हैं:
    • डेटासेट में कम से कम एक स्लाइस है*
    • कम से कम एक स्लाइस नॉन-टाइम डाइमेंशन का रेफ़रंस देता है*
    • स्लाइस में कम से कम एक मेट्रिक और एक आयाम होता है
    • सिर्फ़ एक डाइमेंशन ने time कैननिकल सिद्धांत* का रेफ़रंस दिया है
    • हर स्लाइस में डाइमेंशन का यूनीक कॉम्बिनेशन होता है
    • स्थानीय सिद्धांतों के सभी संदर्भ मान्य हैं
    • तालिका संदर्भ मौजूद है
    • तालिका संदर्भ मान्य है
    • रेफ़रंस टेबल में, स्लाइस के हर डाइमेंशन और मेट्रिक के लिए एक कॉलम होता है
    • रेफ़रंस के तौर पर दी गई टेबल में मौजूद कॉलम के टाइप, स्लाइस में इस्तेमाल किए गए कॉन्सेप्ट से मेल खाते हैं
  • टेबल की जांच: आपके डेटासेट में मौजूद हर टेबल की अलग-अलग जांच जिनमें ये शामिल हैं:
    • डेटासेट में कम से कम एक टेबल* है
    • CSV फ़ाइल में उतने ही स्तंभ हैं जितने कि तालिका
    • CSV के हेडर वाली स्ट्रिंग, कॉलम आईडी से मैच करती हैं
    • तारीख के सभी कॉलम में format एट्रिब्यूट है
    • तारीख के फ़ॉर्मैट, संबंधित समय के कॉन्सेप्ट के साथ (मोटे तौर पर) अलाइन होते हैं. उदाहरण के लिए, time:year कॉलम के फ़ॉर्मैट में कम से कम एक y वर्ण होता है*
  • CSV डेटा की जांच: आपके डेटासेट की एक्सएमएल फ़ाइल से जुड़ी CSV डेटा फ़ाइलों की अलग-अलग जांच. इनमें ये शामिल हैं:
    • हर CSV पंक्ति में उसके हेडर के बराबर कॉलम होते हैं
    • कॉन्सेप्ट की जानकारी वाली CSV फ़ाइल में, हर कॉन्सेप्ट आईडी के लिए, एक से ज़्यादा पंक्तियां नहीं हैं
    • स्लाइस CSV में डाइमेंशन के हर कॉम्बिनेशन के लिए एक से ज़्यादा पंक्तियां नहीं होती हैं
    • स्लाइस CSV में रेफ़र की गई डाइमेंशन वैल्यू मान्य हैं
    • स्लाइस CSV को ठीक से क्रम से लगाया गया है
    • पूर्णांक और फ़्लोट वाली CSV वैल्यू सही तरीके से फ़ॉर्मैट की गई हैं

पब्लिक डेटा एक्सप्लोरर में, विज़ुअलाइज़ेशन के लिए * के निशान वाली शर्तें ज़रूरी होती हैं. हालांकि, DSPL फ़ॉर्मैट के लिए, तकनीकी तौर पर इनकी ज़रूरत नहीं होती.

दूसरी ओर, यह टूल अभी (नीचे) इन्हें नहीं देखता है:

  • डेटासेट इंपोर्ट
  • एट्रिब्यूट और प्रॉपर्टी के बारे में जानकारी
  • कॉन्सेप्ट एक्सटेंशन