DSPL Check एक सुविधा है, जो DSPL डेटासेट की पुष्टि करती है जिसमें आधिकारिक DSPL स्कीमा का पालन करना भी शामिल है. इंटरनल रेफ़रंस और CSV फ़ाइल के स्ट्रक्चर को एक जैसा बनाता है. यह यूटिलिटी यह कर सकती है: ऐसी कई समस्याओं को पकड़ते हैं जिनकी वजह से DSPL इंपोर्ट में गड़बड़ियां होती हैं. इससे आपको गड़बड़ी और इनपुट प्रोसेस शुरू करने से पहले इन समस्याओं को तुरंत ठीक कर लें.
ध्यान दें कि यूटिलिटी (अभी तक) इसके लिए आपके DSPL डेटासेट की जांच नहीं करती हर संभावित समस्या को हल कर दिया जाता है. हालांकि, यह सबसे आम इसलिए, अगर टूल की मदद से आपके डेटासेट की पुष्टि हो जाती है, तो इस बात की काफ़ी संभावना है कि इसे सार्वजनिक डेटा में इंपोर्ट किया जा सकेगा और देखा जा सकेगा एक्सप्लोरर. जांच करने से जुड़ी जानकारी सेक्शन देखें ज़्यादा जानकारी के लिए नीचे दी गई जानकारी देखें.
DSPL जांच की जा रही है
बुनियादी बातें
ध्यान दें: इन निर्देशों का पालन करने के लिए, ने पहले ही इंस्टॉलेशन का अनुसरण किया है निर्देश देखें.
DSPL Check चलाने के लिए, अपने सिस्टम के टर्मिनल / प्रॉम्प्ट पर जाएं और टाइप:
python dsplcheck.py [path to dataset XML or zip file]
जहां ब्रैकेटेड शब्द को या तो डेटासेट एक्सएमएल फ़ाइल या ज़िप किया गया DSPL बंडल.
अगर डेटासेट मान्य है, तो यह टूल "पुष्टि करने की प्रोसेस" को प्रिंट करता है हो गया" दिखाई देगा. ऐसा न करने पर, एक या उससे ज़्यादा गड़बड़ी के मैसेज दिखेंगे जिसमें बताया गया है कि पुष्टि क्यों नहीं हो सकी. अगर स्थिति बाद की होती है, तो समस्या को ठीक करें अपने डेटासेट को निर्देश के मुताबिक इस्तेमाल करें और फिर टूल को फिर से चलाएं.
जांच का लेवल
डिफ़ॉल्ट रूप से, DSPL Check पूरे डेटासेट की जांच करेगा. इसमें CSV फ़ाइल भी शामिल हैं मुख्य DSPL एक्सएमएल फ़ाइल से लिया गया है. यह प्रोसेस छोटे साइज़ पर मीडियम साइज़ के डेटासेट में बदल जाता है, लेकिन हो सकता है कि वह अटक जाए या मेमोरी खत्म हो जाए जो बहुत बड़े डेटासेट पर होते हैं (यानी, सैंकड़ों मेगाबाइट में या बड़ा).
इन मामलों को हल करने के लिए, टूल में जांच करने का लेवल सेट किया गया है
विकल्प, जिससे आप जांच का दायरा सेट कर सकते है और
ज़रूरत के हिसाब से. इस्तेमाल करने के लिए --checking_level=[...]
डालें
डेटासेट पथ से पहले, जहां कोष्ठक किए गए शब्द को
नीचे दिए गए मान:
schema_only
: डेटासेट एक्सएमएल फ़ाइल को आधिकारिक DSPL स्कीमा चुनें.schema_and_model
: स्कीमा और बेसिक मॉडल की पुष्टि करें, लेकिन हेडर लाइन के बाद CSV कॉन्टेंट को अनदेखा करें.full
: स्कीमा, मॉडल, और डेटा की पुष्टि करें (डिफ़ॉल्ट).
जानकारी की जांच की जा रही है
DSPL Check नीचे बताए गए तरीके से पुष्टि करता है:
- एक्सएमएल स्कीमा की वैधता की जांच: इस बात की पुष्टि करता है कि आपके डेटासेट की पुष्टि की जा रही है या नहीं मेटाडेटा फ़ाइल मान्य एक्सएमएल है और आधिकारिक DSPL स्कीमा.
- CSV फ़ाइल मौजूद है: इससे पता चलता है कि सभी CSV फ़ाइलें जो आपके डेटासेट से संबंधित हैं और लोड किए जा सकते हैं.
-
कॉन्सेप्ट की जांच: आपके
डेटासेट में यह शामिल है:
- डेटासेट में कम से कम एक कॉन्सेप्ट है*
- सभी विषय मान्य हैं
- अगर कॉन्सेप्ट का इस्तेमाल नॉन-टाइम के तौर पर किया जाता है, तो टेबल के लिए रेफ़रंस मौजूद होता है डाइमेंशन*
- अगर टेबल का रेफ़रंस मौजूद है, तो वह मान्य होती है
- रेफ़रंस की गई टेबल में, कॉन्सेप्ट आईडी से जुड़ा एक कॉलम है
-
स्लाइस की जांच: आपके खाते में मौजूद हर स्लाइस के अलग-अलग चेक
डेटासेट में यह शामिल है:
- डेटासेट में कम से कम एक स्लाइस है*
- कम से कम एक स्लाइस, नॉन-टाइम डाइमेंशन का रेफ़रंस देती है*
- स्लाइस में कम से कम एक मेट्रिक और एक डाइमेंशन है
- सटीक रूप से एक आयाम संदर्भ
time
कैननिकल सिद्धांत* - हर स्लाइस में डाइमेंशन का एक यूनीक कॉम्बिनेशन होता है
- स्थानीय सिद्धांतों के सभी संदर्भ मान्य हैं
- टेबल का रेफ़रंस मौजूद है
- टेबल का रेफ़रंस मान्य है
- रेफ़र की गई टेबल में, हर डाइमेंशन और मेट्रिक के लिए एक कॉलम होता है स्लाइस में
- रेफ़र की गई टेबल में कॉलम के टाइप स्लाइस में इस्तेमाल किए गए कॉन्सेप्ट
-
टेबल की जांच: आपके स्टोर में मौजूद हर टेबल की अलग-अलग जांच
डेटासेट में यह शामिल है:
- डेटासेट में कम से कम एक टेबल है*
- CSV फ़ाइल में कॉलम की संख्या, टेबल के बराबर है
- CSV हेडर स्ट्रिंग, कॉलम आईडी से मेल खाती हैं
- तारीख के सभी कॉलम में
format
एट्रिब्यूट है - तारीख के फ़ॉर्मैट, इनसे जुड़े समय के सिद्धांतों के साथ अलाइन होते हैं,
उदाहरण के लिए,
time:year
कॉलम के फ़ॉर्मैट में कम से कम एकy
वर्ण*
-
CSV डेटा की जांच: CSV डेटा फ़ाइलों की अलग-अलग जांच
आपके डेटासेट की एक्सएमएल फ़ाइल में, इनमें ये शामिल हैं:
- हर CSV पंक्ति में उतने ही कॉलम होते हैं जितने उसके हेडर में होते हैं
- कॉन्सेप्ट डेफ़िनिशन CSV में हर एक के लिए एक से ज़्यादा लाइन नहीं हैं कॉन्सेप्ट आईडी
- स्लाइस CSV में इसके हर संयोजन के लिए एक से ज़्यादा पंक्ति नहीं है डाइमेंशन
- स्लाइस CSV में दिए गए डाइमेंशन वैल्यू मान्य हैं
- स्लाइस CSV को सही तरीके से क्रम में लगाया गया है
- पूर्णांक और फ़्लोट CSV वैल्यू सही तरीके से फ़ॉर्मैट की गई हैं
* से मार्क किए गए मानदंड इनके लिए ज़रूरी हैं में जोड़ दिया जाता है, लेकिन तकनीकी रूप से इसके लिए ज़रूरी नहीं को DSPL फ़ॉर्मैट में बदला जा सकता है.
वहीं दूसरी ओर, यह टूल इन चीज़ों पर अब तक ध्यान नहीं देता:
- डेटासेट इंपोर्ट
- एट्रिब्यूट और प्रॉपर्टी के रेफ़रंस
- कॉन्सेप्ट एक्सटेंशन