डेटासेट

डेटासेट के बारे में अलग से दूसरी जानकारी देने पर उन्हें ढूंढना आसान हो जाता है. यह दूसरी जानकारी स्ट्रक्चर्ड डेटा के रूप में उनके नाम, ब्यौरे, क्रिएटर और बँटवारे के फ़ॉर्मैट दी जाती है. Google डेटासेट खोजने के अपने तरीके में schema.org और उन दूसरे मेटाडेटा मानकों का इस्तेमाल करता है, जिन्हें डेटासेट की जानकारी देने वाले पेजों में जोड़ा जा सकता है. इस मार्कअप का मकसद चिकित्सा विज्ञान, सामाजिक विज्ञान, मशीन लर्निंग, नागरिक और सरकारी डेटा वगैरह जैसे फ़ील्ड से डेटासेट खोजने की सुविधा को बेहतर बनाना है.

यहां कुछ ऐसी चीज़ों के उदाहरण दिए गए हैं, जिन्हें डेटासेट के तौर पर इस्तेमाल किया जा सकता है:

  • कुछ डेटा वाली टेबल या CSV फ़ाइल
  • टेबल का व्यवस्थित संग्रह
  • मालिकाना फ़ॉर्मैट में ऐसी फ़ाइल जिसमें डेटा मौजूद हो
  • फ़ाइलों का ऐसा संग्रह, जो एक साथ मिलकर कुछ बेहतर डेटासेट तैयार कर सके
  • किसी दूसरे फ़ॉर्मैट में मौजूद डेटा वाला ऐसा स्ट्रक्चर्ड ऑब्जेक्ट जिसे प्रॉसेस करने के लिए आप शायद किसी खास टूल में लोड करना चाहें
  • इमेज कैप्चर करने वाला डेटा
  • मशीन लर्निंग से जुड़ी फ़ाइलें, जैसे, तैयार किए गए पैरामीटर या न्यूरल नेटवर्क स्ट्रक्चर की परिभाषाएं
  • ऐसी कोई भी चीज़, जो आपको डेटासेट की तरह लगती हो

डेटासेट खोजने का हमारा तरीका

हम डेटासेट के ज़रिए वेब पेजों में मौजूद स्ट्रक्चर्ड डेटा को समझ सकते हैं. इसके लिए हम schema.org डेटासेट मार्कअप या इसी तरह के W3C के डेटा कैटलॉग शब्दों (डीसीएटी) वाले फ़ॉर्मैट में दिखाए गए स्ट्रक्चर का इस्तेमाल करते हैं. हम W3C CSVW के आधार पर स्ट्रक्चर्ड डेटा के लिए प्रयोग के तौर पर सुविधाओं की खोज भी कर रहे हैं. हम डेटासेट की जानकारी देने के लिए और भी बेहतर काम करने के साथ ही, हमारे तरीके को सबसे अच्छे तरीके के तौर पर अपनाए जाने की उम्मीद करते हैं. डेटासेट खोजने के हमारे तरीके के बारे में ज़्यादा जानकारी के लिए, सबके लिए उपलब्ध डेटासेट की खोज आसान बनाना देखें.

उदाहरण

स्ट्रक्चर्ड डेटा की जाँच करने वाले टूल में JSON-LD सिंटेक्स (पसंदीदा) का इस्तेमाल करने वाले डेटासेट का एक उदाहरण यहां दिया गया है. RDFa 1.1, माइक्रोडेटा या W3C डीसीएटी के शब्दों में भी उसी शब्द वाले फ़ॉर्मैट का इस्तेमाल किया जा सकता है. नीचे दिया गया उदाहरण असली डेटासेट की जानकारी पर आधारित है.

JSON-LD

यहां JSON-LD में लिखे डेटासेट का उदाहरण दिया गया है, जो स्ट्रक्चर्ड डेटा की जाँच करने वाले टूल का इस्तेमाल करता है.

RDFa

यहां RDFa में ऐसे डेटासेट का उदाहरण दिया गया है जो स्ट्रक्चर्ड डेटा की जाँच करने वाले टूल का इस्तेमाल करता है.

दिशानिर्देश

साइटों के लिए स्ट्रक्चर्ड डेटा के दिशानिर्देशों का पालन करना चाहिए. स्ट्रक्चर्ड डेटा के दिशानिर्देशों के अलावा, हम नीचे दिए गए इन साइटमैप और स्रोत और मूल जगह के सबसे अच्छे तरीके अपनाने का सुझाव देते हैं.

साइटमैप इस्तेमाल करने के सबसे अच्छे तरीके

साइटमैप फ़ाइल का इस्तेमाल करें ताकि Google को आपके यूआरएल ढूंढने में मदद मिल सके. साइटमैप फ़ाइल और sameAs मार्कअप का इस्तेमाल करने से, आपकी साइट पर डेटासेट की जानकरियां प्रकाशित करने का रिकॉर्ड रखने में मदद मिलती है.

अगर आपके पास डेटासेट रिपॉज़िटरी (डेटा संग्रह की जगह) है, तो आपके पास कम से कम दो तरह के पेज हो सकते हैं: हर डेटासेट के लिए कैननिकल ("लैंडिंग") पेज और एक से ज़्यादा डेटासेट वाले पेज (जैसे कि, खोज नतीजे या डेटासेट के कुछ सबसेट). हमारा सुझाव है कि आप कैननिकल पेज में डेटासेट के बारे में स्ट्रक्चर्ड डेटा जोड़ें. अगर आप डेटासेट की एक से ज़्यादा कॉपी में स्ट्रक्चर्ड डेटा (यानी खोज नतीजों के पेज में सूचियां) जोड़ते हैं, तो कैननिकल पेज से लिंक करने के लिए sameAs प्रॉपर्टी का इस्तेमाल करें.

स्रोत और मूल जगह के लिए सबसे अच्छे तरीके

खुले डेटासेट को फिर से प्रकाशित करना, इकट्ठा करना, और दूसरे डेटासेट के आधार पर तैयार करना सामान्य बात है. यह स्थितियों को दिखाने के हमारे तरीके का शुरुआती हिस्सा है. इसमें डेटासेट को किसी दूसरे डेटासेट की कॉपी करके या दूसरे डेटासेट के आधार पर अलग तरीके से बनाया जाता है.

  • जब डेटासेट या दी गई जानकारी को कहीं और प्रकाशित की गई सामग्रियों की कॉपी करके फिर से प्रकाशित करना हो, तो मूल डेटासेट के सबसे ज़्यादा कैननिकल यूआरएल दिखाने के लिए sameAs प्रॉपर्टी का इस्तेमाल करें.
  • फिर से प्रकाशित किए गए डेटासेट (उसके मेटाडेटा के साथ) में काफ़ी बदलाव किए जाने के मामलों में isBasedOn प्रॉपर्टी का इस्तेमाल करें.
  • जब डेटासेट के बारे में जानकारी कई मूल डेटासेट से ली गई हो या इकट्ठी की गई हो, तो isBasedOn प्रॉपर्टी का इस्तेमाल करें.
  • किसी भी काम के डिजिटल ऑब्जेक्ट आइडेंटीफ़ायर (डीओआई) को जोड़ने के लिए identifier प्रॉपर्टी का इस्तेमाल करें.

हम सुझावों के आधार पर अपनी सलाह को बेहतर बनाने की उम्मीद करते है. खास तौर पर ऐसे सुझाव जो मूल जगह, वर्शन, और टाइम सीरीज़ के प्रकाशन से संबंधित तारीखों की जानकारी के बारे में हैं. कृपया समुदाय की चर्चाओं में शामिल हों.

टेक्स्ट प्रॉपर्टी के लिए सुझाव

हम टेक्स्ट वाले सभी फ़ील्ड को 5000 या इससे कम वर्णों तक सीमित रखने का सुझाव देते हैं. 'Google डेटासेट सर्च' किसी भी टेक्स्ट वाले फ़ील्ड के पहले 5000 वर्णों का ही इस्तेमाल करता है. नाम और शीर्षक आम तौर पर कुछ शब्दों के या एक छोटे वाक्य के होते हैं.

पहले से जानकारी वाली गड़बड़ियां और चेतावनियां

आपको Google के स्ट्रक्चर्ड डेटा की जाँच करने वाले टूल और पुष्टि के दूसरे सिस्टम में गड़बड़ियां या चेतावनियां मिल सकती हैं. खास तौर पर, fileFormat (जिसका नाम हाल ही में बदलकर encodingFormat रख दिया गया है) के बारे में चेतावनियों को सुरक्षित रूप से अनदेखा किया जा सकता है. पुष्टि करने वाले सिस्टम यह सुझाव भी दे सकते हैं कि संगठनों में contactType के साथ ही संपर्क जानकारी भी होनी चाहिए. इसके उपयोगी मानों में customer service, emergency, journalist, newsroom, और public engagement को शामिल किया जाना चाहिए. आप csvw:Table की गड़बड़ियों को mainEntity प्रॉपर्टी के अनचाहे मान के तौर पर अनदेखा भी कर सकते हैं.

स्ट्रक्चर्ड डेटा के प्रकार की परिभाषाएं

अपनी सामग्री रिच नतीजे के तौर पर दिखाई दे, इसके लिए आपको ज़रूरी प्रॉपर्टी जोड़नी होंगी. अपनी सामग्री के बारे में ज़्यादा जानकारी जोड़ने के लिए, आप सुझाई गई प्रॉपर्टी भी शामिल कर सकते हैं. इससे इस्तेमाल करने वाले के अनुभव को बेहतर बनाया जा सकता है.

अपने मार्कअप की पुष्टि करने के लिए, आप स्ट्रक्चर्ड डेटा की जाँच करने वाले टूल का इस्तेमाल कर सकते हैं.

इसमें डेटासेट (उसके मेटाडेटा) और उसकी सामग्रियों को दिखाने के बारे में जानकारी देने पर खास तौर से ध्यान दिया जाता है. जैसे कि, डेटासेट का मेटाडेटा उसके बारे में जानकारी देता है. इससे पता चलता है कि यह किस वैरिएबल के लिए काम करता है, इसे किसने बनाया है वगैरह. यानी, इसमें वैरिएबल के लिए खास मान शामिल नहीं होते हैं.

डेटासेट

Datasetकी पूरी परिभाषा schema.org/Dataset पर मौजूद है.

आप डेटासेट के प्रकाशन के बारे में ज़्यादा जानकारी दे सकते हैं, जैसे कि लाइसेंस, प्रकाशित करने की तारीख, इसका डीओआई, या किसी अलग रिपोज़िटरी (डेटा संग्रह की जगह) में डेटासेट के कैननिकल वर्शन के बारे में बताने वाली sameAs प्रॉपर्टी. मूल जगह और लाइसेंस की जानकारी देने वाले डेटासेट के लिए identifier, license, और sameAs जोड़ें.

ज़रूरी प्रॉपर्टी
description Text

डेटासेट के बारे में कम शब्दों में खास जानकारी.

name Text

डेटासेट की जानकारी देने वाला नाम. जैसे कि, "उत्तरी गोलार्ध में बर्फ़ की मोटाई".

सुझाई गई प्रॉपर्टी
citation Text या CreativeWork

डेटासेट की जानकारी देने वाला प्रकाशन का उद्धरण. जैसे कि, "J.Smith 'How I created an awesome dataset', Journal of Data Science, 1966".

identifier URL, Text या PropertyValue

डेटासेट की पहचान करने के लिए इस्तेमाल होने वाली जानकारी, जैसे कि डीओआई.

keywords Text

डेटासेट की खास जानकारी देने वाले कीवर्ड.

license URL, Text

वह लाइसेंस, जिसके ज़रिए डेटासेट उपलब्ध कराया जाता है.

sameAs URL

एक जैसे डेटासेट के बारे में ज़्यादा जानकारी देने वाले पेज का लिंक. आम तौर पर यह किसी अलग रिपोज़िटरी (डेटा संग्रह की जगह) में मौजूद होता है.

spatialCoverage Text, जगह

आप डेटासेट की जगह संबंधी जानकारी एक ही स्थान पर मुहैया करा सकते हैं. अगर डेटासेट में जगह की जानकारी दी गई है, तो ही इस प्रॉपर्टी को शामिल करें. जैसे कि, ऐसी एक जगह जहां इकट्ठी की गई माप की सारी जानकारियां या किसी जगह के लिए बाउंडिंग बॉक्स की जगह की जानकारी मौजूद हो.

पॉइंट

"spatialCoverage:" {
  "@type": "Place",
  "geo": {
    "@type": "GeoCoordinates",
    "latitude": 39.3280,
    "longitude": 120.1633
  }
}

जगह की जानकारी

अलग-अलग आकार वाली जगहों के बारे में जानकारी देने के लिए GeoShape का इस्तेमाल करें. जैसे कि, बाउंडिंग बॉक्स बताने के लिए.

"spatialCoverage:" {
  "@type": "Place",
  "geo": {
    "@type": "GeoShape",
    "box": "39.3280 120.1633 40.445 123.7878"
  }
}

जगहों के नाम

"spatialCoverage:" "Tahoe City, CA"
temporalCoverage Text

डेटासेट के डेटा में समय अंतराल की खास जानकारी शामिल होती है. अगर डेटासेट में समय की जानकारी दी गई है, तो ही इस प्रॉपर्टी को शामिल करें. Schema.org में आईएसओ ISO 8601 मानक का इस्तेमाल करके समय अंतरालों और किसी खास समय के बारे में जानकारी दी जाती है. आप डेटासेट में दिए अंतराल के आधार पर, तारीखों के बारे में अलग-अलग तरह से जानकारी दे सकते हैं. समय के दो खुले अंतरालों के बारे में बताने के लिए दो दशमलव बिंदुओं (..) का इस्तेमाल किया जाता है.

कोई एक तारीख

"temporalCoverage" : "2008"

समयावधि

"temporalCoverage" : "1950-01-01/2013-12-18"

खुली समय अवधि

"temporalCoverage" : "2013-12-19/.."
variableMeasured Text, PropertyValue

ऐसा वैरिएबल जिसकी जानकारी यह डेटासेट देता है. जैसे कि, तापमान या दबाव.

version Text, Number

डेटासेट का वर्शन नंबर.

url URL

डेटासेट के बारे में जानकारी देने वाले पेज की जगह.

DataCatalog

DataCatalog की पूरी परिभाषा schema.org/DataCatalog पर मौजूद है.

डेटासेट अक्सर रिपोज़िटरी (डेटा संग्रह की जगह) में प्रकाशित किए जाते हैं. यहां पर कई दूसरे डेटासेट भी मौजूद होते हैं. एक ही डेटासेट को ऐसी एक से ज़्यादा रिपोज़िटरी (डेटा संग्रह की जगह) में शामिल किया जा सकता है. आप सीधे इस डेटासेट की जानकारी देते हुए इसके डेटा कैटलॉग के बारे में बता सकते हैं.

सुझाई गई प्रॉपर्टी
includedInDataCatalog DataCatalog

वह कैटलॉग, जिससे यह डेटासेट संबंधित है.

DataDownload

DataDownload की पूरी परिभाषा schema.org/DataDownload पर मौजूद है. डेटासेट की प्रॉपर्टी के अलावा, डेटासेट के लिए नीचे बताई गई वे प्रॉपर्टी जोड़ें जो डाउनलोड के विकल्प मुहैया कराती हैं.

distribution प्रॉपर्टी, डेटासेट पाने की सुविधा मुहैया कराती है. इसमें मौजूद यूआरएल अक्सर डेटासेट की जानकारी देने वाले लैंडिंग पेज पर ले जाता है. distribution प्रॉपर्टी में यह जानकारी दी जाती है कि डेटा कहां से और किस फ़ॉर्मैट में मिलेगा. इस प्रॉपर्टी में कई मान हो सकते हैं: जैसे कि, CSV वर्शन एक यूआरएल में मौजूद होता है और Excel वर्शन दूसरे यूआरएल में.

ज़रूरी प्रॉपर्टी
distribution.contentUrl URL

डाउनलोड करने के लिए लिंक.

प्रॉपर्टी
distribution DataDownload

डेटासेट डाउनलोड करने की जगह और डाउनलोड किए जाने वाले फ़ाइल फ़ॉर्मैट की जानकारी.

distribution.fileFormat Text

डेटासेट वितरण का फ़ाइल फ़ॉर्मैट.

टेबल में रखा गया डेटासेट

टेबल में रखे गए डेटासेट को खास तौर पर पंक्तियों और कॉलम के ग्रिड में व्यवस्थित किया जाता है. टेबल में रखे गए डेटासेट एम्बेड करने वाले पेजों के लिए, आप ऊपर बताए गए मूल तरीके के हिसाब से ज़्यादा साफ़ जानकारी देने वाला मार्कअप भी बना सकते हैं. फ़िलहाल हमें CSVW ("वेब पर CSV", W3C देखें) के उस फ़र्क़ की जानकारी है, जिसे एचटीएमएल पेज पर टेबल में रखी गई उपयोगकर्ता के काम की सामग्री के साथ ही उपलब्ध कराया जाता है.

यहां ऐसी छोटी सी टेबल का उदाहरण दिया गया है जिसे CSVW JSON-LD फ़ॉर्मैट में कोड में बदला गया हैं. स्ट्रक्चर्ड डेटा की जाँच करने वाले टूल में पहले से जानकारी वाली कुछ गड़बड़ियां मौजूद हैं.

सहायता और टूल

निम्न के बारे में फ़ीडबैक भेजें...