मशीन लर्निंग की ग्लॉसरी: ज़िम्मेदारी से डेवलप किया गया एआई

इस पेज पर, ज़िम्मेदारी से काम करने वाली एआई (AI) की ग्लॉसरी के शब्द मौजूद हैं. ग्लॉसरी में मौजूद सभी शब्दों के लिए, यहां क्लिक करें.

A

एट्रिब्यूट

#responsible

feature का समानार्थी शब्द.

मशीन लर्निंग के लिए निष्पक्षता का मतलब है कि एट्रिब्यूट से अक्सर लोगों की विशेषताओं का पता चलता है.

ऑटोमेशन बायस

#responsible

जब फ़ैसला लेने वाला व्यक्ति, ऑटोमेशन के बिना दी गई जानकारी के बजाय, ऑटोमेटेड सिस्टम से मिले सुझावों को प्राथमिकता देता है. भले ही, ऑटोमेटेड सिस्टम से फ़ैसला लेने में गड़बड़ियां होती हों.

ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में निष्पक्षता: पक्षपात के टाइप देखें.

B

पक्षपात (नैतिकता/निष्पक्षता)

#responsible
#fundamentals

1. किसी चीज़, व्यक्ति या ग्रुप के बारे में गलत धारणा, पूर्वाग्रह या किसी को दूसरों से ज़्यादा तरजीह देना. इन पूर्वाग्रहों का असर, डेटा इकट्ठा करने और उसका विश्लेषण करने, सिस्टम के डिज़ाइन, और उपयोगकर्ताओं के सिस्टम के साथ इंटरैक्ट करने के तरीके पर पड़ सकता है. इस तरह के भेदभाव के फ़ॉर्म में ये शामिल हैं:

2. सैंपलिंग या रिपोर्टिंग की प्रोसेस की वजह से, सिस्टम में हुई गड़बड़ी. इस तरह के भेदभाव के फ़ॉर्म में ये शामिल हैं:

इसे मशीन लर्निंग मॉडल में मौजूद बायस या अनुमान के लिए बायस के साथ न जोड़ें.

ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में निष्पक्षता: पक्षपात के टाइप देखें.

C

कंफ़र्मेशन बायस

#responsible

किसी जानकारी को इस तरह से खोजना, उसका विश्लेषण करना, उसे पसंद करना, और याद रखना कि इससे पहले से मौजूद मान्यताओं या अनुमान की पुष्टि हो. मशीन लर्निंग डेवलपर, अनजाने में डेटा को इस तरह इकट्ठा या लेबल कर सकते हैं कि नतीजे पर उनके मौजूदा विश्वासों का असर पड़े. कंफ़र्मेशन बायस, अनजाने में होने वाली पक्षपात का एक फ़ॉर्म है.

एक्सपेरिमेंट करने वाले का पूर्वाग्रह, पुष्टि करने के पूर्वाग्रह का एक रूप है. इसमें, एक्सपेरिमेंट करने वाला व्यक्ति तब तक मॉडल को ट्रेनिंग देता रहता है, जब तक कि पहले से मौजूद किसी अनुमान की पुष्टि नहीं हो जाती.

काउंटरफ़ैक्टुअल फ़ेयरनेस

#responsible
#मेट्रिक

यह एक निष्पक्षता मेट्रिक है. इससे यह पता चलता है कि क्लासिफ़िकेशन मॉडल, एक व्यक्ति के लिए वही नतीजा देता है जो एक या उससे ज़्यादा संवेदनशील एट्रिब्यूट को छोड़कर, पहले व्यक्ति के लिए देता है. किसी मॉडल में भेदभाव के संभावित सोर्स को दिखाने के लिए, क्लासिफ़िकेशन मॉडल के लिए, काउंटरफ़ैक्टुअल फ़ेयरनेस का आकलन करना एक तरीका है.

ज़्यादा जानकारी के लिए, इनमें से कोई एक लेख पढ़ें:

कवरेज बायस

#responsible

चुनी गई वैल्यू में बायस देखें.

D

डेमोग्राफ़िक पैरिटी

#responsible
#मेट्रिक

निष्पक्षता मेट्रिक, जो तब पूरी होती है, जब किसी मॉडल के क्लासिफ़िकेशन के नतीजे, किसी दिए गए संवेदनशील एट्रिब्यूट पर निर्भर न हों.

उदाहरण के लिए, अगर लिलिपुटियन और ब्रॉबडिंगनियन, दोनों ही ग्लब्बडबड्रीब यूनिवर्सिटी में आवेदन करते हैं, तो डेमोग्राफ़ी के हिसाब से बराबरी तब हासिल होती है, जब लिलिपुटियन और ब्रॉबडिंगनियन, दोनों के लिए स्वीकार किए गए लोगों का प्रतिशत एक जैसा हो. भले ही, एक ग्रुप औसतन दूसरे ग्रुप से ज़्यादा योग्य हो.

समान संभावना और समान अवसर के साथ तुलना करें. इनमें, संवेदनशील एट्रिब्यूट के आधार पर, एग्रीगेट में कैटगरी के नतीजों को दिखाने की अनुमति होती है. हालांकि, कुछ खास ग्राउंड ट्रूथ लेबल के लिए, कैटगरी के नतीजों को संवेदनशील एट्रिब्यूट के आधार पर दिखाने की अनुमति नहीं होती. डेमोग्राफ़ी के हिसाब से बराबरी के लिए ऑप्टिमाइज़ करते समय, फ़ायदे और नुकसान को एक्सप्लोर करने वाले विज़ुअलाइज़ेशन के लिए, "स्मार्ट मशीन लर्निंग की मदद से, भेदभाव को रोकना" देखें.

ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में निष्पक्षता: डेमोग्राफ़िक के हिसाब से बराबरी देखें.

अलग-अलग असर

#responsible

लोगों के बारे में ऐसे फ़ैसले लेना जिनका असर, अलग-अलग उप-समूहों पर अलग-अलग तरीके से पड़ता हो. आम तौर पर, इसका मतलब उन स्थितियों से है जहां एल्गोरिदम की मदद से फ़ैसला लेने की प्रोसेस से, कुछ उप-समूहों को दूसरों की तुलना में ज़्यादा फ़ायदा या नुकसान पहुंचता है.

उदाहरण के लिए, मान लें कि कोई एल्गोरिदम यह तय करता है कि किसी व्यक्ति को छोटे घर के लिए क़र्ज़ मिल सकता है या नहीं. अगर उसके मेलिंग पते में कोई खास पिन कोड है, तो एल्गोरिदम उसे "ज़रूरी शर्तें पूरी नहीं करता" के तौर पर मार्क कर सकता है. अगर बिग-इंडियन लिलिपुटियन के पास, लिटल-इंडियन लिलिपुटियन के मुकाबले इस पिन कोड वाले मेलिंग पते होने की संभावना ज़्यादा है, तो इस एल्गोरिदम का असर अलग-अलग हो सकता है.

इसे अलग-अलग तरह से व्यवहार करने से अलग समझें. इसमें उन अंतर पर फ़ोकस किया जाता है जो तब पैदा होते हैं, जब एल्गोरिदम से फ़ैसला लेने की प्रोसेस में, सबग्रुप की विशेषताओं को साफ़ तौर पर इनपुट के तौर पर इस्तेमाल किया जाता है.

अलग-अलग तरह से व्यवहार करना

#responsible

एल्गोरिदम की मदद से फ़ैसला लेने की प्रोसेस में, लोगों के संवेदनशील एट्रिब्यूट को ध्यान में रखना. इससे लोगों के अलग-अलग ग्रुप के साथ अलग-अलग व्यवहार किया जाता है.

उदाहरण के लिए, एक एल्गोरिदम के बारे में सोचें जो क़र्ज़ के आवेदन में दिए गए डेटा के आधार पर, लिलिपुटियन के लिए छोटे घर के क़र्ज़ की ज़रूरी शर्तें तय करता है. अगर एल्गोरिदम, इनपुट के तौर पर बिग-इंडियन या लिटल-इंडियन के तौर पर लिलिपुटियन के अफ़िलिएशन का इस्तेमाल करता है, तो वह उस डाइमेंशन के हिसाब से अलग-अलग तरीके से काम कर रहा है.

इसे अलग-अलग असर से अलग समझें. यह सब-ग्रुप पर एल्गोरिदम के फ़ैसलों के सामाजिक असर में अंतर पर फ़ोकस करता है. भले ही, वे सब-ग्रुप मॉडल के इनपुट हों या नहीं.

E

समान अवसर

#responsible
#मेट्रिक

फ़ेयरनेस मेट्रिक, जिससे यह पता चलता है कि कोई मॉडल, संवेदनशील एट्रिब्यूट की सभी वैल्यू के लिए, मनचाहा नतीजा बराबर अच्छी तरह से अनुमान लगा रहा है या नहीं. दूसरे शब्दों में, अगर किसी मॉडल के लिए पॉज़िटिव क्लास का नतीजा पाना ज़रूरी है, तो सभी ग्रुप के लिए ट्रू पॉज़िटिव रेट एक जैसा होना चाहिए.

सभी को बराबर अवसर मिलना, समान संभावनाओं से जुड़ा है. इसके लिए ज़रूरी है कि सभी ग्रुप के लिए, सही पॉज़िटिव रेट और फ़ॉल्स पॉज़िटिव रेट, दोनों एक जैसे हों.

मान लें कि Glubbdubdrib University, Lilliputians और Brobdingnagians दोनों को, गणित के एक कठिन प्रोग्राम में शामिल करती है. लिलिपुटियन के माध्यमिक स्कूलों में, गणित की कक्षाओं के लिए बेहतर पाठ्यक्रम उपलब्ध कराया जाता है. ज़्यादातर छात्र-छात्राएं, यूनिवर्सिटी प्रोग्राम के लिए ज़रूरी शर्तें पूरी करते हैं. ब्रॉबडिंगन के सेकंडरी स्कूलों में, मैथ की क्लास नहीं दी जाती हैं. इस वजह से, वहां के बहुत कम छात्र-छात्राएं मैथ में पास हो पाते हैं. "प्रवेश दिया गया" लेबल के लिए, सभी को समान अवसर मिलते हैं. यह बात तब लागू होती है, जब किसी देश (लिलिपुटियन या ब्रॉबडिंगनागियन) के लिए, ज़रूरी शर्तें पूरी करने वाले सभी छात्र-छात्राओं को समान रूप से प्रवेश दिया जाए. भले ही, वे लिलिपुटियन हों या ब्रॉबडिंगनागियन.

उदाहरण के लिए, मान लें कि 100 Lilliputians और 100 Brobdingnagians ने Glubbdubdrib University में आवेदन किया है और दाखिले के फ़ैसले इस तरह किए गए हैं:

टेबल 1. लिलिपुटियन आवेदक (90% क्वालिफ़ाई हैं)

  क्वालिफ़ाई हुई अयोग्य
स्वीकार किया गया 45 3
अस्वीकार किया गया 45 7
कुल 90 10
ज़रूरी शर्तें पूरी करने वाले छात्र-छात्राओं का प्रतिशत: 45/90 = 50%
शर्तें पूरी न करने वाले छात्र-छात्राओं का प्रतिशत: 7/10 = 70%
लिलिपुटियन छात्र-छात्राओं का कुल प्रतिशत: (45+3)/100 = 48%

 

टेबल 2. Brobdingnagian आवेदक (10% क्वालिफ़ाई हैं):

  क्वालिफ़ाई हुई अयोग्य
स्वीकार किया गया 5 9
अस्वीकार किया गया 5 81
कुल 10 90
ज़रूरी शर्तें पूरी करने वाले छात्र-छात्राओं का प्रतिशत: 5/10 = 50%
शर्तें पूरी न करने वाले छात्र-छात्राओं का प्रतिशत: 81/90 = 90%
ब्रॉबडिंगनागियन छात्र-छात्राओं का कुल प्रतिशत: (5+9)/100 = 14%

ऊपर दिए गए उदाहरणों से पता चलता है कि ज़रूरी शर्तें पूरी करने वाले सभी छात्र-छात्राओं को बराबर अवसर मिलते हैं. ऐसा इसलिए है, क्योंकि ज़रूरी शर्तें पूरी करने वाले Lilliputians और Brobdingnagians, दोनों के लिए 50% संभावना होती है कि उन्हें स्वीकार किया जाए.

सभी को समान अवसर मिलना ज़रूरी है. हालांकि, निष्पक्षता की इन दो मेट्रिक के लिए ज़रूरी शर्तें पूरी नहीं की गई हैं:

  • डेमोग्राफ़िक पैरिटी: Lilliputians और Brobdingnagians को यूनिवर्सिटी में अलग-अलग दरों पर स्वीकार किया जाता है; 48% Lilliputians छात्र-छात्राओं को स्वीकार किया जाता है, लेकिन सिर्फ़ 14% Brobdingnagian छात्र-छात्राओं को स्वीकार किया जाता है.
  • समान संभावनाएं: ज़रूरी शर्तें पूरी करने वाले लिलिपुटियन और ब्रॉबडिंगनागियन, दोनों छात्र-छात्राओं को स्वीकार किए जाने की संभावना एक जैसी होती है. हालांकि, यह शर्त पूरी नहीं होती कि ज़रूरी शर्तें पूरी न करने वाले लिलिपुटियन और ब्रॉबडिंगनागियन, दोनों छात्र-छात्राओं को अस्वीकार किए जाने की संभावना एक जैसी होती है. अमान्य आवेदनों को अस्वीकार करने की दर, लिलिपुटियन के लिए 70% है, जबकि ब्रॉबडिंगनागियन के लिए यह दर 90% है.

ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में निष्पक्षता: सभी के लिए बराबर अवसर देखें.

बराबर ऑड

#responsible
#मेट्रिक

यह मेट्रिक यह आकलन करती है कि कोई मॉडल, संवेदनशील एट्रिब्यूट की सभी वैल्यू के लिए, नतीजों का अनुमान एक जैसा अच्छी तरह से लगा रहा है या नहीं. यह मेट्रिक, पॉज़िटिव क्लास और नेगेटिव क्लास, दोनों के लिए यह आकलन करती है. दूसरे शब्दों में, सभी ग्रुप के लिए ट्रू पॉज़िटिव रेट और फ़ॉल्स नेगेटिव रेट, दोनों एक जैसे होने चाहिए.

सभी के लिए बराबर संभावनाएं, सभी के लिए बराबर अवसर से जुड़ी है. यह सिर्फ़ किसी एक क्लास (पॉज़िटिव या नेगेटिव) के लिए, गड़बड़ी की दरों पर फ़ोकस करती है.

उदाहरण के लिए, मान लें कि Glubbdubdrib University ने गणित के एक कठिन प्रोग्राम में, Lilliputians और Brobdingnagians, दोनों को स्वीकार किया है. लिलिपुटियन के सेकंडरी स्कूलों में, मैथ की कक्षाओं का बेहतर पाठ्यक्रम उपलब्ध कराया जाता है. साथ ही, ज़्यादातर छात्र-छात्राएं यूनिवर्सिटी प्रोग्राम के लिए ज़रूरी शर्तें पूरी करते हैं. ब्रॉबडिंगन के सेकंडरी स्कूलों में, गणित की क्लास नहीं होतीं. इस वजह से, वहां के बहुत कम छात्र-छात्राएं क्वालीफ़ाई कर पाते हैं. समान अवसरों की शर्त तब पूरी होती है, जब कोई भी आवेदक, चाहे वह छोटा हो या बड़ा, ज़रूरी शर्तें पूरी करता हो, तो उसे प्रोग्राम में शामिल होने की उतनी ही संभावना होती है जितनी किसी दूसरे आवेदक को. इसके अलावा, अगर कोई आवेदक ज़रूरी शर्तें पूरी नहीं करता है, तो उसे प्रोग्राम में शामिल होने की उतनी ही संभावना होती है जितनी किसी दूसरे आवेदक को.

मान लें कि 100 लिलिपुटियन और 100 ब्रॉबडिंगनागियन, ग्लब्बडब्रिब यूनिवर्सिटी में आवेदन करते हैं. साथ ही, दाखिले के फ़ैसले इस तरह लिए जाते हैं:

टेबल 3. लिलिपुटियन आवेदक (90% क्वालिफ़ाई हैं)

  क्वालिफ़ाई हुई अयोग्य
स्वीकार किया गया 45 2
अस्वीकार किया गया 45 8
कुल 90 10
ज़रूरी शर्तें पूरी करने वाले छात्र-छात्राओं का प्रतिशत: 45/90 = 50%
शर्तें पूरी न करने वाले छात्र-छात्राओं का प्रतिशत: 8/10 = 80%
लिलिपुटियन छात्र-छात्राओं का कुल प्रतिशत: (45+2)/100 = 47%

 

टेबल 4. Brobdingnagian आवेदक (10% क्वालिफ़ाई हैं):

  क्वालिफ़ाई हुई अयोग्य
स्वीकार किया गया 5 18
अस्वीकार किया गया 5 72
कुल 10 90
ज़रूरी शर्तें पूरी करने वाले छात्र-छात्राओं का प्रतिशत: 5/10 = 50%
शर्तें पूरी न करने वाले छात्र-छात्राओं का प्रतिशत: 72/90 = 80%
ब्रॉबडिंगनागियन छात्र-छात्राओं का कुल प्रतिशत: (5+18)/100 = 23%

यहां सभी के लिए संभावनाएं बराबर हैं, क्योंकि ज़रूरी शर्तें पूरी करने वाले Lilliputian और Brobdingnagian, दोनों के लिए 50% संभावना है कि उन्हें स्वीकार किया जाए. साथ ही, ज़रूरी शर्तें पूरी न करने वाले Lilliputian और Brobdingnagian, दोनों के लिए 80% संभावना है कि उन्हें अस्वीकार किया जाए.

"सुपरवाइज़्ड लर्निंग में अवसर की समानता" में, बराबर संभावनाओं को आधिकारिक तौर पर इस तरह से परिभाषित किया गया है: "अगर Ŷ और A, Y के आधार पर स्वतंत्र हैं, तो प्रिडिक्टर Ŷ, सुरक्षित एट्रिब्यूट A और नतीजे Y के लिए बराबर संभावनाओं को पूरा करता है."

एक्सपेरिमेंटर बायस

#responsible

कंफ़र्मेशन बायस देखें.

F

निष्पक्षता से जुड़ी शर्त

#responsible
किसी एल्गोरिदम पर पाबंदी लगाना, ताकि यह पक्का किया जा सके कि निष्पक्षता की एक या उससे ज़्यादा परिभाषाएं पूरी की गई हैं. निष्पक्षता से जुड़ी पाबंदियों के उदाहरण:

निष्पक्षता मेट्रिक

#responsible
#मेट्रिक

"निष्पक्षता" की गणितीय परिभाषा, जिसे मेज़र किया जा सकता है. आम तौर पर इस्तेमाल होने वाली निष्पक्षता मेट्रिक में ये शामिल हैं:

निष्पक्षता की कई मेट्रिक एक-दूसरे के साथ काम नहीं करतीं. निष्पक्षता की मेट्रिक के साथ काम न करने की समस्या देखें.

G

ग्रुप एट्रिब्यूशन में मौजूद पूर्वाग्रह

#responsible

यह मानते हुए कि किसी व्यक्ति के लिए जो सही है वह उस ग्रुप के सभी लोगों के लिए भी सही है. डेटा इकट्ठा करने के लिए, सुविधाजनक सैंपलिंग का इस्तेमाल करने पर, ग्रुप एट्रिब्यूशन बायस के असर को और भी बढ़ाया जा सकता है. नमूने के तौर पर चुने गए ऐसे डेटा में, एट्रिब्यूशन ऐसे हो सकते हैं जो असल स्थिति को नहीं दिखाते.

बाहरी ग्रुप के लिए एक जैसी सोच और अपने ग्रुप के लिए एक जैसी सोच के बारे में भी जानें. ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में निष्पक्षता: पक्षपात के टाइप देखें.

H

पुराने डेटा के आधार पर गलत नतीजे

#responsible

बायस का एक ऐसा टाइप जो दुनिया में पहले से मौजूद है और किसी डेटासेट में शामिल हो गया है. इन पक्षपातों से, मौजूदा सांस्कृतिक रूढ़िवादी सोच, डेमोग्राफ़िक (उम्र, लिंग, आय, शिक्षा वगैरह) में असमानताएं, और कुछ सामाजिक ग्रुप के ख़िलाफ़ पूर्वाग्रह दिखते हैं.

उदाहरण के लिए, एक क्लासिफ़िकेशन मॉडल पर विचार करें, जो यह अनुमान लगाता है कि क़र्ज़ के लिए आवेदन करने वाला व्यक्ति, क़र्ज़ चुकाने में चूक करेगा या नहीं. इस मॉडल को दो अलग-अलग कम्यूनिटी के स्थानीय बैंकों से, 1980 के दशक के क़र्ज़ के पुराने डेटा पर ट्रेन किया गया था. अगर समुदाय A के पिछले आवेदकों के क़र्ज़ न चुकाने की संभावना, समुदाय B के आवेदकों के मुकाबले छह गुना ज़्यादा थी, तो मॉडल को पुराने डेटा से यह पता चल सकता है कि समुदाय A के आवेदकों को क़र्ज़ देने में ज़्यादा जोखिम है. इस वजह से, मॉडल को समुदाय A के आवेदकों को क़र्ज़ देने की संभावना कम दिख सकती है. भले ही, समुदाय A के क़र्ज़ न चुकाने की दरों को बढ़ाने वाली पुरानी स्थितियां अब काम की न हों.

ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में निष्पक्षता: पक्षपात के टाइप देखें.

I

अनजाने में भेदभाव करना

#responsible

अपने मन के मॉडल और यादों के आधार पर, अपने-आप किसी चीज़ से जुड़ना या कोई अनुमान लगाना. छिपे हुए पूर्वाग्रह से इन पर असर पड़ सकता है:

  • डेटा को कैसे इकट्ठा और कैटगरी में बांटा जाता है.
  • मशीन लर्निंग सिस्टम को डिज़ाइन और डेवलप करने का तरीका.

उदाहरण के लिए, शादी की फ़ोटो की पहचान करने के लिए क्लासिफ़िकेशन मॉडल बनाते समय, कोई इंजीनियर फ़ोटो में सफ़ेद ड्रेस की मौजूदगी को सुविधा के तौर पर इस्तेमाल कर सकता है. हालांकि, सफ़ेद रंग के कपड़े पहनने का रिवाज सिर्फ़ कुछ समयावधि और कुछ संस्कृतियों में रहा है.

एक पक्ष की पुष्टि करना भी देखें.

निष्पक्षता मेट्रिक के साथ काम न करना

#responsible
#मेट्रिक

यह विचार कि निष्पक्षता के कुछ सिद्धांत एक-दूसरे के साथ काम नहीं करते और एक साथ लागू नहीं किए जा सकते. इसलिए, सभी एमएल समस्याओं पर लागू होने वाली, निष्पक्षता को मेज़र करने वाली कोई एक मेट्रिक नहीं है.

ऐसा लग सकता है कि यह बात हतोत्साहित करने वाली है, लेकिन निष्पक्षता मेट्रिक के साथ काम न करने का मतलब यह नहीं है कि निष्पक्षता को बढ़ावा देने की कोशिशें बेकार हैं. इसके बजाय, यह सुझाव दिया गया है कि किसी एआई मॉडल की समस्या के हिसाब से, निष्पक्षता को परिभाषित किया जाना चाहिए. ऐसा, इसके इस्तेमाल के उदाहरणों से होने वाले नुकसान को रोकने के मकसद से किया जाना चाहिए.

फ़ेयरनेस मेट्रिक के साथ काम न करने के बारे में ज़्यादा जानने के लिए, "फ़ेयरनेस (अ)संभव है" लेख पढ़ें.

निष्पक्षता

#responsible
#मेट्रिक

निष्पक्षता मेट्रिक, जो यह जांच करती है कि मिलते-जुलते लोगों को एक जैसा दर्जा दिया गया है या नहीं. उदाहरण के लिए, Brobdingnagian Academy यह पक्का करके, सभी को एक जैसा मौका देना चाहती है कि एक जैसे ग्रेड और स्टैंडर्ड टेस्ट के स्कोर वाले दो छात्र-छात्राओं को, दाखिला पाने की बराबर संभावना हो.

ध्यान दें कि किसी व्यक्ति के लिए निष्पक्षता का आकलन, इस बात पर पूरी तरह से निर्भर करता है कि आपने "मिलती-जुलती" (इस मामले में, ग्रेड और टेस्ट के स्कोर) को कैसे तय किया है. अगर मिलती-जुलती मेट्रिक में अहम जानकारी (जैसे, छात्र के सिलेबस की कठिनाई) मौजूद नहीं है, तो निष्पक्षता से जुड़ी नई समस्याएं पैदा हो सकती हैं.

किसी व्यक्ति के लिए निजता बनाए रखने के बारे में ज़्यादा जानने के लिए, "जानकारी के ज़रिए निजता बनाए रखना" लेख पढ़ें.

इन-ग्रुप बायस

#responsible

अपने ग्रुप या अपनी विशेषताओं को पक्षपात के साथ दिखाना. अगर टेस्टर या रेटर में मशीन लर्निंग डेवलपर के दोस्त, परिवार या साथ काम करने वाले लोग शामिल हैं, तो ग्रुप में मौजूद लोगों के पक्ष में झुकाव की वजह से, प्रॉडक्ट की जांच या डेटासेट अमान्य हो सकता है.

इन-ग्रुप बायस, ग्रुप एट्रिब्यूशन बायस का एक टाइप है. बाहरी ग्रुप के लिए एकरूपता का पूर्वाग्रह भी देखें.

ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में निष्पक्षता: पक्षपात के टाइप देखें.

नहीं

नॉन-रिस्पॉन्स बायस

#responsible

चुनी गई वैल्यू में बायस देखें.

O

आउट-ग्रुप होमोजेनिटी बायस

#responsible

इस तरह के लोग, अपने ग्रुप के सदस्यों की तुलना में दूसरे ग्रुप के सदस्यों को एक जैसा मानते हैं. ऐसा वे, व्यवहार, वैल्यू, व्यक्तित्व के लक्षण, और अन्य विशेषताओं की तुलना करते समय करते हैं. इन-ग्रुप से उन लोगों का मतलब है जिनसे आपका नियमित तौर पर इंटरैक्शन होता है; आउट-ग्रुप से उन लोगों का मतलब है जिनसे आपका नियमित तौर पर इंटरैक्शन नहीं होता. अगर लोगों से बाहरी ग्रुप के बारे में एट्रिब्यूट देने के लिए कहा जाता है, तो हो सकता है कि वे एट्रिब्यूट, उन एट्रिब्यूट के मुकाबले कम बारीक और ज़्यादा स्टीरियोटाइप वाले हों जो लोग अपने ग्रुप के लोगों के लिए बताते हैं.

उदाहरण के लिए, लिलिपुटियन, लिलिपुटियन के अन्य लोगों के घरों के बारे में ज़्यादा जानकारी दे सकते हैं. इसके लिए, वे वास्तुकला के स्टाइल, खिड़कियों, दरवाज़ों, और साइज़ में छोटे अंतर का हवाला दे सकते हैं. हालांकि, वही लिलिपुटियन यह भी कह सकते हैं कि ब्रोबडिंगनियन सभी एक जैसे घरों में रहते हैं.

आउट-ग्रुप होमोजेनिटी बायस, ग्रुप एट्रिब्यूशन बायस का एक टाइप है.

इन-ग्रुप बायस भी देखें.

P

हिस्सा लेने वाले लोगों के पक्ष में झुकाव

#responsible

नॉन-रिस्पॉन्स बायस का दूसरा नाम. चुनी गई वैल्यू में बायस देखें.

प्रोसेस होने के बाद

#responsible
#fundamentals

मॉडल को चलाने के बाद, मॉडल के आउटपुट में बदलाव करना. पोस्ट-प्रोसेसिंग का इस्तेमाल, मॉडल में बदलाव किए बिना, निष्पक्षता से जुड़ी पाबंदियों को लागू करने के लिए किया जा सकता है.

उदाहरण के लिए, बाइनरी क्लासिफ़ायर पर पोस्ट-प्रोसेसिंग लागू की जा सकती है. इसके लिए, क्लासिफ़िकेशन थ्रेशोल्ड को इस तरह सेट करें कि किसी एट्रिब्यूट के लिए समान अवसर बनाए रखा जा सके. इसके लिए, यह देखें कि ट्रू पॉजिटिव रेट, उस एट्रिब्यूट की सभी वैल्यू के लिए एक जैसा हो.

अनुमानित पैरिटी

#responsible
#मेट्रिक

यह एक निष्पक्षता मेट्रिक है. इससे यह पता चलता है कि किसी क्लासिफ़ायर के लिए, सटीक रेट, सबग्रुप के लिए एक जैसे हैं या नहीं.

उदाहरण के लिए, कॉलेज में दाखिला पाने का अनुमान लगाने वाला मॉडल, देश के हिसाब से अनुमानित समानता को पूरा करेगा. ऐसा तब होगा, जब लिलिपुटियन और ब्रॉबडिंगनियन के लिए, सटीक अनुमान लगाने की दर एक जैसी हो.

अनुमानित किराया बराबरी को कभी-कभी किराया बराबरी का अनुमान भी कहा जाता है.

अनुमानित समानता के बारे में ज़्यादा जानकारी के लिए, "निष्पक्षता की परिभाषाएं बताई गई हैं" (सेक्शन 3.2.1) देखें.

किराये की अनुमानित समानता

#responsible
#मेट्रिक

प्रेडिकटिव पैरिटी का दूसरा नाम.

डेटा को पहले से प्रोसेस करना

#responsible
मॉडल को ट्रेन करने से पहले, डेटा को प्रोसेस करना. डेटा को पहले से प्रोसेस करना उतना ही आसान हो सकता है जितना कि अंग्रेज़ी के ऐसे टेक्स्ट को हटाना जो अंग्रेज़ी के डिक्शनरी में मौजूद नहीं है. इसके अलावा, यह इतना मुश्किल भी हो सकता है जितना कि डेटा पॉइंट को इस तरह से फिर से एक्सप्रेशन करना कि संवेदनशील एट्रिब्यूट से जुड़े ज़्यादा से ज़्यादा एट्रिब्यूट हट जाएं. डेटा को पहले से प्रोसेस करने से, निष्पक्षता से जुड़ी शर्तों को पूरा करने में मदद मिल सकती है.

प्रॉक्सी (संवेदनशील एट्रिब्यूट)

#responsible
यह एक ऐसा एट्रिब्यूट है जिसका इस्तेमाल, संवेदनशील एट्रिब्यूट के लिए किया जाता है. उदाहरण के लिए, किसी व्यक्ति के पिन कोड का इस्तेमाल, उसकी आय, नस्ल या जातीयता के बारे में जानकारी देने के लिए किया जा सकता है.

R

रिपोर्टिंग में पक्षपात

#responsible

यह ज़रूरी नहीं है कि लोग जितनी बार किसी ऐक्शन, नतीजे या प्रॉपर्टी के बारे में लिखते हैं उतनी ही बार वे असल ज़िंदगी में भी ऐसा करते हों. इसके अलावा, यह भी ज़रूरी नहीं है कि किसी प्रॉपर्टी में किसी खास तरह के लोगों की संख्या जितनी ज़्यादा हो उतनी ही बार लोग उसके बारे में लिखते हों. रिपोर्टिंग में पक्षपात होने पर, उस डेटा के कॉम्पोज़िशन पर असर पड़ सकता है जिससे मशीन लर्निंग सिस्टम सीखते हैं.

उदाहरण के लिए, किताबों में laughed शब्द, breathed शब्द से ज़्यादा इस्तेमाल होता है. मशीन लर्निंग मॉडल, किसी किताब के कॉर्पस में हंसने और सांस लेने की फ़्रीक्वेंसी का अनुमान लगाता है. इससे यह पता चलता है कि हंसने की फ़्रीक्वेंसी, सांस लेने की फ़्रीक्वेंसी से ज़्यादा है.

ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में निष्पक्षता: पक्षपात के टाइप देखें.

S

सैंपलिंग बायस

#responsible

चुनी गई वैल्यू में बायस देखें.

चुनने में पक्षपात

#responsible

सैंपल किए गए डेटा से निकाले गए नतीजों में गड़बड़ियां. ऐसा, डेटा में मौजूद सैंपल और उन सैंपल के बीच व्यवस्थित अंतर पैदा करने वाली चुनने की प्रोसेस की वजह से होता है. चुनिंदा डेटा का इस्तेमाल करने के ये तरीके हैं:

  • कवरेज में पक्षपात: डेटासेट में दी गई जनसंख्या, उस जनसंख्या से मेल नहीं खाती जिसके लिए मशीन लर्निंग मॉडल, अनुमान लगा रहा है.
  • सैंपलिंग में गड़बड़ी: टारगेट ग्रुप से डेटा को रैंडम तरीके से इकट्ठा नहीं किया जाता.
  • नॉन-रिस्पॉन्स बायस (इसे पार्टिसिपेशन बायस भी कहा जाता है): कुछ ग्रुप के उपयोगकर्ता, दूसरे ग्रुप के उपयोगकर्ताओं की तुलना में सर्वे से अलग-अलग दरों पर ऑप्ट-आउट करते हैं.

उदाहरण के लिए, मान लें कि आपने एक मशीन लर्निंग मॉडल बनाया है, जो लोगों के मनोरंजन के लिए फ़िल्म चुनने में मदद करता है. ट्रेनिंग डेटा इकट्ठा करने के लिए, सिनेमा में फ़िल्म देखने के लिए आई हर उस व्यक्ति को सर्वे दिया जाता है जो थिएटर की सबसे आगे वाली सीट पर बैठा हो. ऐसा हो सकता है कि आपको यह तरीका, डेटासेट इकट्ठा करने का एक सही तरीका लगे. हालांकि, डेटा इकट्ठा करने के इस तरीके से, चुनिंदा डेटा के लिए ये गड़बड़ियां हो सकती हैं:

  • कवरेज में पक्षपात: फ़िल्म देखने के लिए चुने गए लोगों के सैंपल से, हो सकता है कि आपके मॉडल के अनुमान उन लोगों पर लागू न हों जिन्होंने पहले से फ़िल्म में इतनी दिलचस्पी नहीं दिखाई थी.
  • सैंपलिंग में पक्षपात: आपने रैंडम सैंपलिंग के बजाय, सिर्फ़ उन लोगों का सैंपल लिया जो फ़िल्म देखने के लिए सबसे आगे की पंक्ति में बैठे थे. ऐसा हो सकता है कि आगे की पंक्ति में बैठे लोगों की दिलचस्पी, दूसरी पंक्तियों में बैठे लोगों की तुलना में ज़्यादा हो.
  • नॉन-रिस्पॉन्स बायस: आम तौर पर, जिन लोगों की राय ज़्यादा ज़ोरदार होती है वे वैकल्पिक सर्वे में ज़्यादा बार जवाब देते हैं. फ़िल्म के बारे में सर्वे करना ज़रूरी नहीं है. इसलिए, जवाबों के सामान्य (बेल-आकार) डिस्ट्रिब्यूशन के बजाय, बाइमोडल डिस्ट्रिब्यूशन होने की संभावना ज़्यादा होती है.

संवेदनशील एट्रिब्यूट

#responsible
यह एक ऐसा एट्रिब्यूट है जिसे कानूनी, नैतिक, सामाजिक या निजी वजहों से खास तौर पर ध्यान में रखा जा सकता है.

U

संवेदनशील एट्रिब्यूट के बारे में जानकारी न होना

#responsible

ऐसी स्थिति जिसमें संवेदनशील एट्रिब्यूट मौजूद हैं, लेकिन उन्हें ट्रेनिंग डेटा में शामिल नहीं किया गया है. संवेदनशील एट्रिब्यूट अक्सर किसी व्यक्ति के डेटा के अन्य एट्रिब्यूट से जुड़े होते हैं. इसलिए, संवेदनशील एट्रिब्यूट के बारे में जानकारी के बिना ट्रेन किया गया मॉडल, उस एट्रिब्यूट के लिए अलग-अलग असर डाल सकता है या निष्पक्षता से जुड़ी अन्य शर्तों का उल्लंघन कर सकता है.