DSPL Check एक सुविधा है, जो DSPL डेटासेट की पुष्टि करती है जिसमें आधिकारिक DSPL स्कीमा का पालन करना भी शामिल है. इंटरनल रेफ़रंस और CSV फ़ाइल के स्ट्रक्चर को एक जैसा बनाता है. यह यूटिलिटी यह कर सकती है: ऐसी कई समस्याओं को पकड़ते हैं जिनकी वजह से DSPL इंपोर्ट में गड़बड़ियां होती हैं. इससे आपको गड़बड़ी और इनपुट प्रोसेस शुरू करने से पहले इन समस्याओं को तुरंत ठीक कर लें.
ध्यान दें कि यूटिलिटी (अभी तक) इसके लिए आपके DSPL डेटासेट की जांच नहीं करती हर संभावित समस्या को हल कर दिया जाता है. हालांकि, यह सबसे आम इसलिए, अगर टूल की मदद से आपके डेटासेट की पुष्टि हो जाती है, तो इस बात की काफ़ी संभावना है कि इसे सार्वजनिक डेटा में इंपोर्ट किया जा सकेगा और देखा जा सकेगा एक्सप्लोरर. जांच करने से जुड़ी जानकारी सेक्शन देखें ज़्यादा जानकारी के लिए नीचे दी गई जानकारी देखें.
DSPL जांच की जा रही है
बुनियादी बातें
ध्यान दें: इन निर्देशों का पालन करने के लिए, ने पहले ही इंस्टॉलेशन का अनुसरण किया है निर्देश देखें.
DSPL Check चलाने के लिए, अपने सिस्टम के टर्मिनल / प्रॉम्प्ट पर जाएं और टाइप:
python dsplcheck.py [path to dataset XML or zip file]
जहां ब्रैकेटेड शब्द को या तो डेटासेट एक्सएमएल फ़ाइल या ज़िप किया गया DSPL बंडल.
अगर डेटासेट मान्य है, तो यह टूल "पुष्टि करने की प्रोसेस" को प्रिंट करता है हो गया" दिखाई देगा. ऐसा न करने पर, एक या उससे ज़्यादा गड़बड़ी के मैसेज दिखेंगे जिसमें बताया गया है कि पुष्टि क्यों नहीं हो सकी. अगर स्थिति बाद की होती है, तो समस्या को ठीक करें अपने डेटासेट को निर्देश के मुताबिक इस्तेमाल करें और फिर टूल को फिर से चलाएं.
जांच का लेवल
डिफ़ॉल्ट रूप से, DSPL Check पूरे डेटासेट की जांच करेगा. इसमें CSV फ़ाइल भी शामिल हैं मुख्य DSPL एक्सएमएल फ़ाइल से लिया गया है. यह प्रोसेस छोटे साइज़ पर मीडियम साइज़ के डेटासेट में बदल जाता है, लेकिन हो सकता है कि वह अटक जाए या मेमोरी खत्म हो जाए जो बहुत बड़े डेटासेट पर होते हैं (यानी, सैंकड़ों मेगाबाइट में या बड़ा).
इन मामलों को हल करने के लिए, टूल में जांच करने का लेवल सेट किया गया है
विकल्प, जिससे आप जांच का दायरा सेट कर सकते है और
ज़रूरत के हिसाब से. इस्तेमाल करने के लिए --checking_level=[...] डालें
डेटासेट पथ से पहले, जहां कोष्ठक किए गए शब्द को
नीचे दिए गए मान:
schema_only: डेटासेट एक्सएमएल फ़ाइल को आधिकारिक DSPL स्कीमा चुनें.schema_and_model: स्कीमा और बेसिक मॉडल की पुष्टि करें, लेकिन हेडर लाइन के बाद CSV कॉन्टेंट को अनदेखा करें.full: स्कीमा, मॉडल, और डेटा की पुष्टि करें (डिफ़ॉल्ट).
जानकारी की जांच की जा रही है
DSPL Check नीचे बताए गए तरीके से पुष्टि करता है:
- एक्सएमएल स्कीमा की वैधता की जांच: इस बात की पुष्टि करता है कि आपके डेटासेट की पुष्टि की जा रही है या नहीं मेटाडेटा फ़ाइल मान्य एक्सएमएल है और आधिकारिक DSPL स्कीमा.
- CSV फ़ाइल मौजूद है: इससे पता चलता है कि सभी CSV फ़ाइलें जो आपके डेटासेट से संबंधित हैं और लोड किए जा सकते हैं.
-
कॉन्सेप्ट की जांच: आपके
डेटासेट में यह शामिल है:
- डेटासेट में कम से कम एक कॉन्सेप्ट है*
- सभी विषय मान्य हैं
- अगर कॉन्सेप्ट का इस्तेमाल नॉन-टाइम के तौर पर किया जाता है, तो टेबल के लिए रेफ़रंस मौजूद होता है डाइमेंशन*
- अगर टेबल का रेफ़रंस मौजूद है, तो वह मान्य होती है
- रेफ़रंस की गई टेबल में, कॉन्सेप्ट आईडी से जुड़ा एक कॉलम है
-
स्लाइस की जांच: आपके खाते में मौजूद हर स्लाइस के अलग-अलग चेक
डेटासेट में यह शामिल है:
- डेटासेट में कम से कम एक स्लाइस है*
- कम से कम एक स्लाइस, नॉन-टाइम डाइमेंशन का रेफ़रंस देती है*
- स्लाइस में कम से कम एक मेट्रिक और एक डाइमेंशन है
- सटीक रूप से एक आयाम संदर्भ
timeकैननिकल सिद्धांत* - हर स्लाइस में डाइमेंशन का एक यूनीक कॉम्बिनेशन होता है
- स्थानीय सिद्धांतों के सभी संदर्भ मान्य हैं
- टेबल का रेफ़रंस मौजूद है
- टेबल का रेफ़रंस मान्य है
- रेफ़र की गई टेबल में, हर डाइमेंशन और मेट्रिक के लिए एक कॉलम होता है स्लाइस में
- रेफ़र की गई टेबल में कॉलम के टाइप स्लाइस में इस्तेमाल किए गए कॉन्सेप्ट
-
टेबल की जांच: आपके स्टोर में मौजूद हर टेबल की अलग-अलग जांच
डेटासेट में यह शामिल है:
- डेटासेट में कम से कम एक टेबल है*
- CSV फ़ाइल में कॉलम की संख्या, टेबल के बराबर है
- CSV हेडर स्ट्रिंग, कॉलम आईडी से मेल खाती हैं
- तारीख के सभी कॉलम में
formatएट्रिब्यूट है - तारीख के फ़ॉर्मैट, इनसे जुड़े समय के सिद्धांतों के साथ अलाइन होते हैं,
उदाहरण के लिए,
time:yearकॉलम के फ़ॉर्मैट में कम से कम एकyवर्ण*
-
CSV डेटा की जांच: CSV डेटा फ़ाइलों की अलग-अलग जांच
आपके डेटासेट की एक्सएमएल फ़ाइल में, इनमें ये शामिल हैं:
- हर CSV पंक्ति में उतने ही कॉलम होते हैं जितने उसके हेडर में होते हैं
- कॉन्सेप्ट डेफ़िनिशन CSV में हर एक के लिए एक से ज़्यादा लाइन नहीं हैं कॉन्सेप्ट आईडी
- स्लाइस CSV में इसके हर संयोजन के लिए एक से ज़्यादा पंक्ति नहीं है डाइमेंशन
- स्लाइस CSV में दिए गए डाइमेंशन वैल्यू मान्य हैं
- स्लाइस CSV को सही तरीके से क्रम में लगाया गया है
- पूर्णांक और फ़्लोट CSV वैल्यू सही तरीके से फ़ॉर्मैट की गई हैं
* से मार्क किए गए मानदंड इनके लिए ज़रूरी हैं में जोड़ दिया जाता है, लेकिन तकनीकी रूप से इसके लिए ज़रूरी नहीं को DSPL फ़ॉर्मैट में बदला जा सकता है.
वहीं दूसरी ओर, यह टूल इन चीज़ों पर अब तक ध्यान नहीं देता:
- डेटासेट इंपोर्ट
- एट्रिब्यूट और प्रॉपर्टी के रेफ़रंस
- कॉन्सेप्ट एक्सटेंशन