मॉड्यूल 1: पूछना

1. स्टेकहोल्डर के टाइप

डेटासेट के दस्तावेज़ों को पारदर्शी बनाने और डेटा कार्ड बनाने से पहले, यह ज़रूरी है कि आप डेटासेट के लाइफ़साइकल के सभी चरणों में शामिल स्टेकहोल्डर की पहचान करें और उन्हें न्योता भेजें. इससे डेटा कार्ड बनाना आसान हो जाता है, क्योंकि कॉन्टेंट बनाते समय आपको हर ज़रूरी जानकारी मिलती है. इससे बेहतर कॉन्टेंट बनाने में मदद मिलती है.

हमने एक टाइपोलॉजी बनाई है. इससे आपको यह समझने में मदद मिलती है कि अलग-अलग फ़ंक्शन से जुड़े स्टेकहोल्डर, डेटासेट के लाइफ़साइकल की प्रोसेस में कैसे शामिल होते हैं. साथ ही, इससे आपको उन मान्यताओं के बारे में पता चलता है जो अक्सर अलग-अलग स्टेकहोल्डर के बारे में बनाई जाती हैं. हमारी टाइपोलॉजी को तीन स्टेकहोल्डर ग्रुप में बांटा गया है. ये ग्रुप, डेटासेट के लाइफ़साइकल में शामिल होते हैं: प्रोड्यूसर, एजेंट, और उपयोगकर्ता.

इस टाइपोलॉजी से, डेटासेट और उनके दस्तावेज़ों से जुड़ी लगातार बदलती ज़रूरतों और उम्मीदों के बारे में पता चलता है. हर समस्या का एक ही समाधान नहीं होता.

प्रोड्यूसर

डेटासेट और दस्तावेज़ बनाने वाले लोगों को प्रोड्यूसर कहा जाता है. ये लोग, डेटासेट इकट्ठा करने, उसके मालिकाना हक, उसे लॉन्च करने, और उसे बनाए रखने के लिए ज़िम्मेदार होते हैं.

डेटासेट बनाने और पब्लिश करने के साथ-साथ, उन्हें लॉन्च करने, अपनाने, और/या सफल बनाने की ज़िम्मेदारी, डेटासेट बनाने वालों की होती है.

डेटा इकट्ठा करने या लेबल करने के लिए, व्यक्तियों या ग्रुप को भी शामिल किया जा सकता है. साथ ही, डेटा लाइफ़साइकल के दौरान अलग-अलग चरणों में, तरीकों या व्याख्या के बारे में सलाह दी जा सकती है.

संदर्भ के आधार पर, प्रोड्यूसर आपके मौजूदा और आने वाले समय के टीम मेंबर, पार्टनर, क्लाइंट या डेटा-होस्टिंग प्लैटफ़ॉर्म भी हो सकते हैं. ये सभी, डेटासेट को बनाए रखने या उसे अप-टू-डेट रखने, डिप्लॉय करने, और मॉनिटर करने के लिए ज़िम्मेदार होते हैं.

एजेंट

एजेंट, स्टेकहोल्डर होते हैं. ये आपके डेटासेट के दस्तावेज़ या डेटा कार्ड और मशीन लर्निंग (एमएल) मॉडल से जुड़े अन्य दस्तावेज़ पढ़ते हैं. इनके पास यह तय करने का अधिकार होता है कि वे या अन्य लोग, बताए गए डेटासेट या एआई सिस्टम का इस्तेमाल कैसे करें.

अपने डोमेन के आधार पर, एजेंट की भूमिकाएं अलग-अलग हो सकती हैं. जैसे, किसी शैक्षणिक संस्थान में रिसर्चर की भूमिका निभाने वाला व्यक्ति, यह पता लगाना चाहता है कि डेटासेट का सही तरीके से इस्तेमाल किया जा रहा है या नहीं. इसके अलावा, किसी प्रॉडक्ट टीम में डेटा साइंटिस्ट की भूमिका निभाने वाला व्यक्ति, यह पता लगाना चाहता है कि प्रॉडक्ट इंटिग्रेशन के लिए डेटासेट सही है या नहीं.

यह अंतर इसलिए ज़रूरी है, क्योंकि समीक्षकों में ऐसे हितधारक शामिल होते हैं जो डेटासेट का सीधे तौर पर इस्तेमाल नहीं करते, लेकिन फिर भी डेटा कार्ड से जुड़ते हैं. जैसे, इंडस्ट्री कंसल्टेंट, खोजी पत्रकार, कम्यूनिटी के प्रतिनिधि, और कानूनी इकाइयां. ऐसा हो सकता है कि एजेंट के पास, सामान्य डेटासेट के दस्तावेज़ में दी गई जानकारी को समझने के लिए तकनीकी विशेषज्ञता न हो. हालांकि, अक्सर उनके पास ज़रूरत के मुताबिक विशेषज्ञता का ऐक्सेस होता है.

उपयोगकर्ता

उपयोगकर्ता, ऐसे व्यक्ति और प्रतिनिधि होते हैं जो डेटासेट पर ट्रेन किए गए मॉडल पर निर्भर प्रॉडक्ट के साथ इंटरैक्ट करते हैं.

ऐसा हो सकता है कि उपयोगकर्ता, प्रॉडक्ट के इस्तेमाल के दौरान अपना डेटा शेयर करने की सहमति दें. हालांकि, उन्हें आम तौर पर प्रॉडक्ट के इस्तेमाल के दौरान, डेटा के इस्तेमाल के बारे में अलग-अलग तरह की जानकारी और कंट्रोल की ज़रूरत होती है. भले ही, यह डेटासेट से जुड़ा हो.

खास जानकारी

यहां दी गई टेबल में, स्टेकहोल्डर ग्रुप के बारे में खास जानकारी दी गई है. इसमें उनके ब्यौरे, ज़िम्मेदारियां, उदाहरण, और सामान्य टास्क शामिल हैं:

स्टेकहोल्डर ग्रुप

ब्यौरा

ज़िम्मेदारियां

उदाहरण

इस रिपोर्ट की मदद से किए जाने वाले सामान्य काम

निर्माता

डेटासेट और/या दस्तावेज़ बनाएं.

डेटासेट को डिज़ाइन करना, बनाना, क्वालिटी टेस्ट करना, दस्तावेज़ बनाना, लॉन्च करना, अपनाना, बनाए रखना, और अपडेट करना.

रिसर्चर, डेटा साइंटिस्ट और विश्लेषक, सॉफ़्टवेयर इंजीनियर, और प्रॉडक्ट और प्रोग्राम मैनेजर

डेटासेट को अपनाना, जानकारी ज़ाहिर करना, आने वाले समय के लिए तैयार रहना, निष्पक्षता और सुरक्षा, और सुधार

एजेंट

अपने काम, प्रॉडक्ट, संगठनों या कम्यूनिटी के लिए डेटासेट का आकलन और इस्तेमाल कर सकते हैं.

डेटा कार्ड का इस्तेमाल कर सकता है, लेकिन हो सकता है कि वह डेटासेट के साथ इंटरैक्ट न कर पाए.

एमएल या प्रॉडक्ट इंजीनियर, शोधकर्ता, तीसरे पक्ष के वेंडर, विषय-वस्तु विशेषज्ञ, उद्योग, सलाहकार, नीति विशेषज्ञ, डेटा सेवा देने वाली कंपनियां, और लीडरशिप या मैनेजमेंट

जटिलता को मैनेज करना, जवाबदेह होना, समझौता करना, प्रोडक्शन में डिप्लॉय करना, संग्रह करना

उपयोगकर्ता

उन एजेंट के बनाए गए प्रॉडक्ट, डिवाइसों, और ऐप्लिकेशन के साथ इंटरैक्ट करना जो प्रोड्यूसर के डेटासेट का इस्तेमाल करते हैं.

प्रॉडक्ट के ज़रिए अपना डेटा शेयर कर सकते हैं. साथ ही, प्रोड्यूसर और एजेंट के लिए काम के सिग्नल उपलब्ध करा सकते हैं.

डेटा कॉन्ट्रिब्यूटर, प्रॉडक्ट के उपयोगकर्ता, और एक जैसे उपयोगकर्ताओं के ग्रुप के प्रतिनिधि

प्रॉडक्ट इस्तेमाल करना, डेटा और निजता के बारे में समझना, सुझाव/राय देना या शिकायत करना

2. अपने स्टेकहोल्डर को मैप करना

अब आपको हमारी टाइपोलॉजी के बारे में कुछ जानकारी मिल गई है. इसलिए, अपने डेटासेट के लाइफ़साइकल की समीक्षा करें. इससे आपको मैपिंग की इस बुनियादी गतिविधि के ज़रिए, अपने स्टेकहोल्डर की पहचान करने में मदद मिलेगी. गतिविधि के दौरान, इस बात का ध्यान रखें कि डेटासेट या उसके दस्तावेज़ के साथ कौन इंटरैक्ट कर सकता है. यह भी सोचें कि स्टेकहोल्डर, डेटा कार्ड में कैसे योगदान दे सकते हैं.

अपने स्टेकहोल्डर को मैप करने के लिए, यह तरीका अपनाएं:

  1. उन प्रोड्यूसर की सूची बनाएं जो डेटा कार्ड बनाएंगे.

9019cf76931e3ae5.png

  1. उन एजेंट की सूची बनाएं जो डेटा कार्ड को पढ़ेंगे और उनका इस्तेमाल करेंगे.

a6c5bfc2fadd8cb5.png

  1. उन उपयोगकर्ताओं की सूची बनाएं जो डेटा कार्ड में बताए गए डेटासेट का इस्तेमाल करेंगे या जिन पर इसका असर पड़ेगा.

210d18c6ec533955.png

  1. अपने स्टेकहोल्डर, डेटा कार्ड बनाने में उनकी भूमिकाओं, और उनके डेटा कार्ड के मकसद का मैप बनाने के लिए, इस टेंप्लेट का इस्तेमाल करें. इस मैप से, आपको डेटासेट के दस्तावेज़ों की डाउनस्ट्रीम ज़रूरतों के बारे में जानकारी मिलती है. साथ ही, डेटासेट के दस्तावेज़ बनाने की पूरी प्रोसेस के दौरान, प्राथमिकताओं और ज़िम्मेदारियों को असाइन करने की सुविधा मिलती है.

d24cf1a113189a25.png

3. एजेंट की जानकारी देने वाले वीडियो (एआईजे)

अपने स्टेकहोल्डर की पहचान करने के बाद, यह तय किया जा सकता है कि आपको अपने डेटा कार्ड में एजेंट यानी अपने मुख्य स्टेकहोल्डर को क्या जानकारी देनी है, ताकि आप उन्हें सफलता के लिए तैयार कर सकें.

आम तौर पर, किसी व्यक्ति को टेक्नोलॉजी का इस्तेमाल करते समय जो अनुभव मिलता है उसे उपयोगकर्ता का सफ़र कहा जाता है. हालांकि, हम ऐसे एजेंट के बारे में बात कर रहे हैं जिसे सोच-समझकर फ़ैसला लेने के लिए, डेटासेट के बारे में ज़रूरी जानकारी हासिल करनी होती है. इसलिए, हम इन अनुभवों को एजेंट की जानकारी से जुड़ी यात्रा (एआईजे) कहते हैं.

एआईजे का मकसद यह समझना है कि:

  • वे टास्क जिनके लिए एजेंट को डेटासेट की ज़रूरत पड़ सकती है.
  • वह जानकारी जिसकी मदद से एजेंट अपने टास्क पूरे कर सकते हैं.
  • वह प्रोसेस जिससे एजेंट जानकारी का अनुमान लगाते हैं.

एआईजे में ये शामिल हैं:

51ce23c7a9aaa9e4.png

उदाहरण

उदाहरण के लिए, मान लें कि आपका कोई एजेंट डेटा साइंटिस्ट है. डेटा साइंटिस्ट के लिए एआईजे कुछ ऐसा दिख सकता है:

मैं एक डेटा साइंटिस्ट हूं. मुझे डेटासेट के स्ट्रक्चर के बारे में जानना है. इसलिए, मैं पूछता हूं...

... डेटा का फ़ॉर्मैट क्या है?

... डेटासेट की मोडैलिटी क्या है?

... डेटासेट में कितनी सुविधाएं हैं?

... कितनी सुविधाओं को इंजीनियर किया गया है?

... कौनसी सुविधाएं एक-दूसरे से काफ़ी मिलती-जुलती हैं?

... अगर स्ट्रक्चर में कोई डिपेंडेंसी है, तो क्या होगा?

यहां एक ऐसे एजेंट का उदाहरण दिया गया है जो प्रॉडक्ट की नीति पर काम करता है. साथ ही, प्रॉडक्ट के प्रोडक्शन और डेवलपमेंट से जुड़े दिशा-निर्देश तय करता है:

नीति सलाहकार के तौर पर, मुझे यह जानना है कि डेटा का गलत इस्तेमाल कैसे किया जा सकता है. इसलिए, मैं पूछती हूं...

... डेटासेट का इस्तेमाल किस मकसद से किया गया था?

... किस ऐप्लिकेशन ने डेटासेट बनाया?

... what are known dangerous or risky applications of the dataset?

... क्या किसी खास ग्रुप को इससे खतरा है?

... इस डेटासेट के इस्तेमाल से, निर्वाचन क्षेत्रों पर क्या असर पड़ता है?

... कैसे मदद मांगी जा सकती है?

4. अपने एआईजे लिखें

  1. यहां दिए गए प्रॉम्प्ट के आधार पर कुछ एआईजे लिखो:

ab594f2e5ce86029.png

  1. ध्यान दें कि आपने न सिर्फ़ अपने स्टेकहोल्डर को ध्यान में रखा है, बल्कि कुछ ऐसे शुरुआती सवालों को भी शामिल किया है जिनके जवाब, उन्हें डेटा कार्ड पढ़कर मिल सकते हैं. इसका मतलब है कि अब आपको डेटा कार्ड में शामिल किए जाने वाले सवालों का फ़ाइनल सेट मिल गया है.

5. ऑप्टिक्स

आपने देखा होगा कि एआईजे़ को फ़्रेम करने के लिए, नज़रिया, लेंस, और स्कोप जैसे शब्दों का इस्तेमाल किया गया है. इन शब्दों को पहले भी परिभाषित किया गया था. हालांकि, ये एक गाइडिंग मेटाफ़र का हिस्सा हैं, जिसे हम ऑप्टिक्स कहते हैं. हमने इन्हें इसलिए बनाया है, ताकि आपको यह समझने में मदद मिल सके कि आपके एजेंट, डेटासेट को कैसे समझ सकते हैं.

स्कोप

ऑप्टिक्स में, स्कोप में लेंस और मिरर का इस्तेमाल किया जाता है. इनकी मदद से, चीज़ों को देखा, उनकी जांच की, उन्हें बड़ा किया, और उनकी इमेज को रिफ़्लेक्ट किया जाता है. साथ ही, इनसे अलग-अलग तरह के मटीरियल की जांच भी की जाती है. डेटासेट के संदर्भ में, यह एक बेहतरीन मेटाफ़र है. इसकी मदद से, साफ़ तौर पर दिखने वाले, न दिखने वाले, और छिपे हुए पहलुओं को ज़ाहिर करने के लिए, सवालों पर फ़ोकस किया जाता है और उन्हें फ़्रेम किया जाता है.

हम इसे स्कोप कहते हैं. यह एक ऐसा तरीका है जिससे डेटासेट को समझने के लिए, एक के बाद एक कई सवाल पूछे जा सकते हैं. अलग-अलग लेवल के स्कोप को एक साथ रखकर, ऐसा कॉन्टेंट बनाया जा सकता है जिससे आपके एजेंट, पारदर्शिता रिपोर्ट के ज़रिए डेटासेट को आसानी से समझ सकें.

नीचे दी गई टेबल में, हमारे फ़्रेमवर्क में मौजूद तीन तरह के स्कोप के बारे में बताया गया है. साथ ही, हर स्कोप के बारे में जानकारी, उदाहरण, और उसके मकसद के बारे में बताया गया है:

स्कोप

ब्यौरा

उदाहरण

मकसद

टेलिस्कोपिक

ऐसे एट्रिब्यूट के बारे में सवाल जो कई डेटासेट में आम तौर पर मौजूद होते हैं. ये विशेषताओं को टैग करते हैं.

क्या इस डेटासेट में व्यक्तिगत पहचान से जुड़ी जानकारी (पीआईआई) शामिल है?

ज़्यादा जानकारी के लिए कॉन्टेक्स्ट सेट करें और उसे पेश करें. इससे आपके एजेंट को डेटा कार्ड या पारदर्शिता से जुड़े आर्टफ़ैक्ट को नेविगेट करने में मदद मिलती है.

पेरिस्कोपिक

प्रॉडक्ट बनाने वाली कंपनी के डेटासेट के लिए खास एट्रिब्यूट के बारे में सवाल. इनमें आंकड़ों के बारे में बताया गया है.

कितनी सुविधाओं में व्यक्तिगत पहचान से जुड़ी जानकारी (पीआईआई) शामिल है?

आम तौर पर, इसका इस्तेमाल ऑपरेशनल जानकारी देने के लिए किया जाता है. जैसे, डेटासेट का शेप और साइज़ या फ़ंक्शनल जानकारी. जैसे, सोर्स या मकसद.

माइक्रोस्कोपिक

डेटासेट के न देखे जा सकने वाले पहलुओं के बारे में सवाल. जैसे, फ़ैसले, प्रोसेस, और असर. वे वजह पूछते हैं.

इस डेटासेट में व्यक्तिगत पहचान से जुड़ी जानकारी को कैसे छिपाया गया था?

फ़ैसलों के बारे में ज़्यादा जानकारी पाएं या लंबी प्रोसेस वाले दस्तावेज़ों की खास जानकारी पाएं. इन दस्तावेज़ों में, पेरिस्कोपिक और टेलिस्कोपिक सवालों के जवाब देने के बारे में बताया गया होता है.

डेटा कार्ड बनाने की प्रोसेस के दौरान, आपको इन तीन तरह के स्कोप को ध्यान में रखना होगा. सिर्फ़ टेलिस्कोप वाला डेटा कार्ड, आपके डेटासेट के बारे में सामान्य जानकारी देता है. इससे कोई खास फ़ायदा नहीं मिलता. सिर्फ़ पेरिस्कोप वाले डेटा कार्ड में, कॉन्टेक्स्ट, काम की जानकारी या अहमियत के बारे में कोई जानकारी नहीं होती. इसलिए, यह बहुत तकनीकी हो सकता है. सिर्फ़ माइक्रोस्कोप वाले डेटा कार्ड से, एजेंट को जानकारी समझने में मुश्किल हो सकती है. साथ ही, वे मुख्य जानकारी पर ध्यान नहीं दे पाएंगे.

इसलिए, हमें लगता है कि डेटा कार्ड की व्याख्याओं पर, स्कोप के इन लेवल के मौजूद होने या न होने का बहुत ज़्यादा असर पड़ता है. इन सवालों से एजेंट और प्रोड्यूसर को जोखिम का आकलन करने, जोखिम कम करने के लिए प्लान बनाने, और बेहतर डेटासेट बनाने के लिए मौकों की पहचान करने में मदद मिलती है. दूरबीन, पेरिस्कोप, और माइक्रोस्कोप की मदद से, काम की जानकारी मिलती है. इससे कई स्टेकहोल्डर, आपके डेटा कार्ड को आसानी से समझ पाते हैं.

उदाहरण

एजेंट की जानकारी वाले सफ़र (एआईजे) सेक्शन में, आपने एआईजे के कुछ उदाहरण देखे. इनमें से एक उदाहरण डेटा साइंटिस्ट के लिए था. अगर उस उदाहरण को ध्यान से देखा जाए, तो आपको पता चलेगा कि उन सवालों में से कुछ को स्कोप के हिसाब से ग्रुप किया जा सकता है. इनमें ये सवाल शामिल हैं:

मैं एक डेटा साइंटिस्ट हूं. मुझे डेटासेट के स्ट्रक्चर के बारे में जानना है. इसलिए, मैं पूछता हूं...

टेलीस्कोपिक

... डेटा का फ़ॉर्मैट क्या है?

... डेटासेट की मोडैलिटी क्या है?

Periscopic

... डेटासेट में कितनी सुविधाएं हैं?

... कितनी सुविधाओं को इंजीनियर किया गया है?

माइक्रोस्कोपिक

... कौनसी सुविधाएं एक-दूसरे से काफ़ी मिलती-जुलती हैं?

... अगर स्ट्रक्चर में कोई डिपेंडेंसी है, तो क्या होगा?

ऐसा हो सकता है कि आपने अपने एजेंट को ध्यान में रखते हुए, टेलीस्कोपिक, पेरिस्कोपिक, और माइक्रोस्कोपिक सवालों के बारे में पहले से ही सोच लिया हो.

6. स्कोप की मदद से, अपने एआईजे को फिर से स्ट्रक्चर करना

  • स्कोप के साथ अपने एआईजे को फिर से स्ट्रक्चर करने के लिए, इस सैंपल प्रॉम्प्ट का इस्तेमाल करें:

2b6e2a7a041060f4.png

7. बधाई हो

बधाई हो! आपने डेटा कार्ड बनाना शुरू किया. अब आपके पास अपने सवालों का आकलन करने का विकल्प है.