DSPL जांच एक सुविधा है, जो DSPL डेटासेट की कई शर्तों के मुताबिक पुष्टि करती है. इसमें आधिकारिक DSPL स्कीमा का पालन करना, अंदरूनी रेफ़रंस की उपलब्धता, और CSV फ़ाइल के स्ट्रक्चर शामिल हैं. यूटिलिटी कई समस्याओं का पता लगा सकती है, जिनकी वजह से डीएसपीएल इंपोर्ट से जुड़ी गड़बड़ियां हो सकती हैं. इनकी मदद से, इनपुट प्रोसेस शुरू करने से पहले ही इन समस्याओं का पता लगाकर उन्हें ठीक किया जा सकता है.
ध्यान दें कि यूटिलिटी आपके सभी संभावित समस्या के लिए DSPL डेटासेट की जांच नहीं करती है. हालांकि, इससे सबसे सामान्य समस्याएं सामने आ जाएंगी. इसलिए, अगर टूल से आपके डेटासेट की पुष्टि हो जाती है, तो संभावना बढ़ जाती है कि यह इंपोर्ट किया जा सकेगा और सार्वजनिक डेटा एक्सप्लोरर में दिखेगा. ज़्यादा जानकारी के लिए, नीचे मौजूद जांच की जानकारी सेक्शन देखें.
DSPL जांच की जा रही है
बुनियादी बातें
ध्यान दें: इन निर्देशों का पालन करने के लिए, आपने डीएसपीएल टूल पेज पर दिए गए, इंस्टॉल करने के निर्देशों का पालन पहले ही कर लिया है.
DSPL जांच करने के लिए, अपने सिस्टम के टर्मिनल / प्रॉम्प्ट पर जाएं और यह टाइप करें:
python dsplcheck.py [path to dataset XML or zip file]
जहां ब्रैकेट किए गए शब्द को डेटासेट डेटासेट वाली फ़ाइल या ज़िप किए गए डीएसपीएल बंडल से जुड़े पाथ से बदल दिया जाता है.
अगर डेटासेट मान्य है, तो टूल "पुष्टि हो चुकी है" मैसेज प्रिंट करता है. ऐसा न करने पर, गड़बड़ी के एक या उससे ज़्यादा मैसेज दिखेंगे, जिनमें पुष्टि करने की वजह नहीं दी गई होगी. अगर बाद में कोई गड़बड़ी होती है, तो डेटासेट को बताए गए तरीके से ठीक करें और टूल को फिर से चलाएं.
चेकिंग लेवल
डिफ़ॉल्ट रूप से, डीएसपीएल जांच में पूरे डेटासेट की जांच की जाती है. इसमें मुख्य डीएसपीएल एक्सएमएल फ़ाइल में दी गई CSV फ़ाइलें भी शामिल होती हैं. यह प्रोसेस छोटे से मध्यम आकार के डेटासेट पर अच्छी तरह काम करती है, लेकिन हो सकता है कि यह बहुत बड़े डेटासेट (जैसे, सैकड़ों मेगाबाइट या इससे बड़े डेटासेट में) रुक जाए या मेमोरी खत्म हो जाए.
इन मामलों को हल करने के लिए, टूल में जांच का लेवल विकल्प मौजूद होता है. इसकी मदद से, जांच का दायरा सेट किया जा सकता है और ज़रूरत के मुताबिक परफ़ॉर्मेंस को बेहतर किया जा सकता है. इस्तेमाल करने के लिए, डेटासेट पाथ से पहले --checking_level=[...]
डालें, जहां ब्रैकेट वाले शब्द को नीचे दी गई किसी एक वैल्यू से बदला जाता है:
schema_only
आधिकारिक डेटासेट की स्कीमा के मुताबिक डेटासेट एक्सएमएल फ़ाइल की पुष्टि करें और फिर उसे बंद कर दें.schema_and_model
: स्कीमा और बेसिक मॉडल की पुष्टि करें, लेकिन हेडर लाइन के बाद CSV कॉन्टेंट को अनदेखा करें.full
: स्कीमा, मॉडल, और डेटा की पुष्टि करें (डिफ़ॉल्ट).
जानकारी की जांच की जा रही है
DSPL जांच की पुष्टि नीचे दिए गए क्रम में होती है:
- एक्सएमएल स्कीमा की पुष्टि करना: इस बात की पुष्टि की जाती है कि आपकी डेटासेट मेटाडेटा फ़ाइल मान्य एक्सएमएल फ़ाइल है और यह आधिकारिक डीएसपीएल स्कीमा के मुताबिक है.
- CSV की मौजूदगी: जांच करता है कि आपके डेटासेट से जुड़ी सभी CSV फ़ाइलें मौजूद हैं और उन्हें लोड किया जा सकता है.
-
कॉन्सेप्ट की जांच: आपके डेटासेट में मौजूद हर कॉन्सेप्ट की अलग-अलग जांच
करता है. इनमें ये तरीके शामिल हैं:
- डेटासेट में कम से कम एक सिद्धांत है*
- सभी विषय के संदर्भ मान्य हैं
- अगर कॉन्सेप्ट का इस्तेमाल नॉन-टाइम डाइमेंशन के तौर पर किया गया है, तो टेबल के रेफ़रंस का इस्तेमाल किया जाता है*
- टेबल रेफ़रंस (अगर मौजूद है) मान्य है
- रेफ़र की गई टेबल में, कॉन्सेप्ट आईडी से जुड़ा कॉलम है
-
स्लाइस की जांच: आपके डेटासेट में मौजूद हर स्लाइस की अलग-अलग जांच
जिनमें ये शामिल हैं:
- डेटासेट में कम से कम एक स्लाइस है*
- कम से कम एक स्लाइस नॉन-टाइम डाइमेंशन का रेफ़रंस देता है*
- स्लाइस में कम से कम एक मेट्रिक और एक आयाम होता है
- सिर्फ़ एक डाइमेंशन ने
time
कैननिकल सिद्धांत* का रेफ़रंस दिया है - हर स्लाइस में डाइमेंशन का यूनीक कॉम्बिनेशन होता है
- स्थानीय सिद्धांतों के सभी संदर्भ मान्य हैं
- तालिका संदर्भ मौजूद है
- तालिका संदर्भ मान्य है
- रेफ़रंस टेबल में, स्लाइस के हर डाइमेंशन और मेट्रिक के लिए एक कॉलम होता है
- रेफ़रंस के तौर पर दी गई टेबल में मौजूद कॉलम के टाइप, स्लाइस में इस्तेमाल किए गए कॉन्सेप्ट से मेल खाते हैं
-
टेबल की जांच: आपके डेटासेट में मौजूद हर टेबल की अलग-अलग जांच
जिनमें ये शामिल हैं:
- डेटासेट में कम से कम एक टेबल* है
- CSV फ़ाइल में उतने ही स्तंभ हैं जितने कि तालिका
- CSV के हेडर वाली स्ट्रिंग, कॉलम आईडी से मैच करती हैं
- तारीख के सभी कॉलम में
format
एट्रिब्यूट है - तारीख के फ़ॉर्मैट, संबंधित समय के कॉन्सेप्ट के साथ (मोटे तौर पर) अलाइन होते हैं. उदाहरण के लिए,
time:year
कॉलम के फ़ॉर्मैट में कम से कम एकy
वर्ण होता है*
-
CSV डेटा की जांच: आपके डेटासेट की एक्सएमएल फ़ाइल से जुड़ी CSV डेटा फ़ाइलों की अलग-अलग जांच. इनमें ये शामिल हैं:
- हर CSV पंक्ति में उसके हेडर के बराबर कॉलम होते हैं
- कॉन्सेप्ट की जानकारी वाली CSV फ़ाइल में, हर कॉन्सेप्ट आईडी के लिए, एक से ज़्यादा पंक्तियां नहीं हैं
- स्लाइस CSV में डाइमेंशन के हर कॉम्बिनेशन के लिए एक से ज़्यादा पंक्तियां नहीं होती हैं
- स्लाइस CSV में रेफ़र की गई डाइमेंशन वैल्यू मान्य हैं
- स्लाइस CSV को ठीक से क्रम से लगाया गया है
- पूर्णांक और फ़्लोट वाली CSV वैल्यू सही तरीके से फ़ॉर्मैट की गई हैं
पब्लिक डेटा एक्सप्लोरर में, विज़ुअलाइज़ेशन के लिए * के निशान वाली शर्तें ज़रूरी होती हैं. हालांकि, DSPL फ़ॉर्मैट के लिए, तकनीकी तौर पर इनकी ज़रूरत नहीं होती.
दूसरी ओर, यह टूल अभी (नीचे) इन्हें नहीं देखता है:
- डेटासेट इंपोर्ट
- एट्रिब्यूट और प्रॉपर्टी के बारे में जानकारी
- कॉन्सेप्ट एक्सटेंशन