DSPL जांच

DSPL Check एक सुविधा है, जो DSPL डेटासेट की पुष्टि करती है जिसमें आधिकारिक DSPL स्कीमा का पालन करना भी शामिल है. इंटरनल रेफ़रंस और CSV फ़ाइल के स्ट्रक्चर को एक जैसा बनाता है. यह यूटिलिटी यह कर सकती है: ऐसी कई समस्याओं को पकड़ते हैं जिनकी वजह से DSPL इंपोर्ट में गड़बड़ियां होती हैं. इससे आपको गड़बड़ी और इनपुट प्रोसेस शुरू करने से पहले इन समस्याओं को तुरंत ठीक कर लें.

ध्यान दें कि यूटिलिटी (अभी तक) इसके लिए आपके DSPL डेटासेट की जांच नहीं करती हर संभावित समस्या को हल कर दिया जाता है. हालांकि, यह सबसे आम इसलिए, अगर टूल की मदद से आपके डेटासेट की पुष्टि हो जाती है, तो इस बात की काफ़ी संभावना है कि इसे सार्वजनिक डेटा में इंपोर्ट किया जा सकेगा और देखा जा सकेगा एक्सप्लोरर. जांच करने से जुड़ी जानकारी सेक्शन देखें ज़्यादा जानकारी के लिए नीचे दी गई जानकारी देखें.

DSPL जांच की जा रही है

बुनियादी बातें

ध्यान दें: इन निर्देशों का पालन करने के लिए, ने पहले ही इंस्टॉलेशन का अनुसरण किया है निर्देश देखें.

DSPL Check चलाने के लिए, अपने सिस्टम के टर्मिनल / प्रॉम्प्ट पर जाएं और टाइप:

python dsplcheck.py [path to dataset XML or zip file]

जहां ब्रैकेटेड शब्द को या तो डेटासेट एक्सएमएल फ़ाइल या ज़िप किया गया DSPL बंडल.

अगर डेटासेट मान्य है, तो यह टूल "पुष्टि करने की प्रोसेस" को प्रिंट करता है हो गया" दिखाई देगा. ऐसा न करने पर, एक या उससे ज़्यादा गड़बड़ी के मैसेज दिखेंगे जिसमें बताया गया है कि पुष्टि क्यों नहीं हो सकी. अगर स्थिति बाद की होती है, तो समस्या को ठीक करें अपने डेटासेट को निर्देश के मुताबिक इस्तेमाल करें और फिर टूल को फिर से चलाएं.

जांच का लेवल

डिफ़ॉल्ट रूप से, DSPL Check पूरे डेटासेट की जांच करेगा. इसमें CSV फ़ाइल भी शामिल हैं मुख्य DSPL एक्सएमएल फ़ाइल से लिया गया है. यह प्रोसेस छोटे साइज़ पर मीडियम साइज़ के डेटासेट में बदल जाता है, लेकिन हो सकता है कि वह अटक जाए या मेमोरी खत्म हो जाए जो बहुत बड़े डेटासेट पर होते हैं (यानी, सैंकड़ों मेगाबाइट में या बड़ा).

इन मामलों को हल करने के लिए, टूल में जांच करने का लेवल सेट किया गया है विकल्प, जिससे आप जांच का दायरा सेट कर सकते है और ज़रूरत के हिसाब से. इस्तेमाल करने के लिए --checking_level=[...] डालें डेटासेट पथ से पहले, जहां कोष्ठक किए गए शब्द को नीचे दिए गए मान:

  • schema_only: डेटासेट एक्सएमएल फ़ाइल को आधिकारिक DSPL स्कीमा चुनें.
  • schema_and_model: स्कीमा और बेसिक मॉडल की पुष्टि करें, लेकिन हेडर लाइन के बाद CSV कॉन्टेंट को अनदेखा करें.
  • full: स्कीमा, मॉडल, और डेटा की पुष्टि करें (डिफ़ॉल्ट).

जानकारी की जांच की जा रही है

DSPL Check नीचे बताए गए तरीके से पुष्टि करता है:

  • एक्सएमएल स्कीमा की वैधता की जांच: इस बात की पुष्टि करता है कि आपके डेटासेट की पुष्टि की जा रही है या नहीं मेटाडेटा फ़ाइल मान्य एक्सएमएल है और आधिकारिक DSPL स्कीमा.
  • CSV फ़ाइल मौजूद है: इससे पता चलता है कि सभी CSV फ़ाइलें जो आपके डेटासेट से संबंधित हैं और लोड किए जा सकते हैं.
  • कॉन्सेप्ट की जांच: आपके डेटासेट में यह शामिल है:
    • डेटासेट में कम से कम एक कॉन्सेप्ट है*
    • सभी विषय मान्य हैं
    • अगर कॉन्सेप्ट का इस्तेमाल नॉन-टाइम के तौर पर किया जाता है, तो टेबल के लिए रेफ़रंस मौजूद होता है डाइमेंशन*
    • अगर टेबल का रेफ़रंस मौजूद है, तो वह मान्य होती है
    • रेफ़रंस की गई टेबल में, कॉन्सेप्ट आईडी से जुड़ा एक कॉलम है
  • स्लाइस की जांच: आपके खाते में मौजूद हर स्लाइस के अलग-अलग चेक डेटासेट में यह शामिल है:
    • डेटासेट में कम से कम एक स्लाइस है*
    • कम से कम एक स्लाइस, नॉन-टाइम डाइमेंशन का रेफ़रंस देती है*
    • स्लाइस में कम से कम एक मेट्रिक और एक डाइमेंशन है
    • सटीक रूप से एक आयाम संदर्भ time कैननिकल सिद्धांत*
    • हर स्लाइस में डाइमेंशन का एक यूनीक कॉम्बिनेशन होता है
    • स्थानीय सिद्धांतों के सभी संदर्भ मान्य हैं
    • टेबल का रेफ़रंस मौजूद है
    • टेबल का रेफ़रंस मान्य है
    • रेफ़र की गई टेबल में, हर डाइमेंशन और मेट्रिक के लिए एक कॉलम होता है स्लाइस में
    • रेफ़र की गई टेबल में कॉलम के टाइप स्लाइस में इस्तेमाल किए गए कॉन्सेप्ट
  • टेबल की जांच: आपके स्टोर में मौजूद हर टेबल की अलग-अलग जांच डेटासेट में यह शामिल है:
    • डेटासेट में कम से कम एक टेबल है*
    • CSV फ़ाइल में कॉलम की संख्या, टेबल के बराबर है
    • CSV हेडर स्ट्रिंग, कॉलम आईडी से मेल खाती हैं
    • तारीख के सभी कॉलम में format एट्रिब्यूट है
    • तारीख के फ़ॉर्मैट, इनसे जुड़े समय के सिद्धांतों के साथ अलाइन होते हैं, उदाहरण के लिए, time:year कॉलम के फ़ॉर्मैट में कम से कम एक y वर्ण*
  • CSV डेटा की जांच: CSV डेटा फ़ाइलों की अलग-अलग जांच आपके डेटासेट की एक्सएमएल फ़ाइल में, इनमें ये शामिल हैं:
    • हर CSV पंक्ति में उतने ही कॉलम होते हैं जितने उसके हेडर में होते हैं
    • कॉन्सेप्ट डेफ़िनिशन CSV में हर एक के लिए एक से ज़्यादा लाइन नहीं हैं कॉन्सेप्ट आईडी
    • स्लाइस CSV में इसके हर संयोजन के लिए एक से ज़्यादा पंक्ति नहीं है डाइमेंशन
    • स्लाइस CSV में दिए गए डाइमेंशन वैल्यू मान्य हैं
    • स्लाइस CSV को सही तरीके से क्रम में लगाया गया है
    • पूर्णांक और फ़्लोट CSV वैल्यू सही तरीके से फ़ॉर्मैट की गई हैं

* से मार्क किए गए मानदंड इनके लिए ज़रूरी हैं में जोड़ दिया जाता है, लेकिन तकनीकी रूप से इसके लिए ज़रूरी नहीं को DSPL फ़ॉर्मैट में बदला जा सकता है.

वहीं दूसरी ओर, यह टूल इन चीज़ों पर अब तक ध्यान नहीं देता:

  • डेटासेट इंपोर्ट
  • एट्रिब्यूट और प्रॉपर्टी के रेफ़रंस
  • कॉन्सेप्ट एक्सटेंशन