मशीन लर्निंग शब्दावली: निष्पक्षता

इस पेज में निष्पक्षता से जुड़ी शब्दावली शब्द शामिल हैं. शब्दावली के सभी शब्दों के लिए, यहां क्लिक करें.

जवाब

एट्रिब्यूट

#fairness

feature का समानार्थी शब्द.

मशीन लर्निंग के निष्पक्षता में, एट्रिब्यूट अक्सर लोगों से जुड़े गुणों के बारे में बताते हैं.

ऑटोमेशन बायस

#fairness

जब कोई व्यक्ति फ़ैसला लेता है कि कोई व्यक्ति, ऑटोमेशन के बिना तैयार की गई जानकारी के बजाय, अपने-आप काम करने वाला फ़ैसला लेने वाले सिस्टम के सुझावों को स्वीकार करता है, तब भी

B

पक्षपात (नैतिक/निष्पक्षता)

#fairness
#fundamentals

1. कुछ चीज़ों, लोगों या समूहों के बारे में दूसरों की तुलना में रूढ़िवादी, पक्षपात या पक्षपात करना. ये पूर्वाग्रह डेटा के संग्रह और व्याख्या करने, सिस्टम के डिज़ाइन, और उपयोगकर्ताओं के सिस्टम के साथ इंटरैक्ट करने के तरीके को प्रभावित कर सकते हैं. इस तरह के पूर्वाग्रह में ये शामिल हैं:

2. सैंपलिंग या रिपोर्टिंग प्रोसेस के दौरान होने वाली व्यवस्थित गड़बड़ी. इस तरह के पूर्वाग्रह में ये शामिल हैं:

मशीन लर्निंग मॉडल में, पूर्वाग्रह वाले शब्द या पूर्वाग्रह को समझने की कोशिश न करें.

C

एक पक्ष की पुष्टि करना

#fairness

जानकारी को इस तरह खोजने, समझने, उसके पक्ष में रखने, और उसे याद करने की आदत हो जाती है जो किसी व्यक्ति की पहले से मौजूद मान्यताओं या परिकल्पनाओं की पुष्टि करती हो. मशीन लर्निंग डेवलपर अनजाने में डेटा को इस तरह इकट्ठा या लेबल कर सकते हैं जिससे उनकी मौजूदा मान्यताओं पर असर पड़ता है. पुष्टि करने वाला पूर्वाग्रह एक तरह का इंप्लिसिट पूर्वाग्रह है.

प्रयोग करने वाले का पूर्वाग्रह पुष्टि करने से जुड़ा एक तरह का पूर्वाग्रह है. इसमें एक प्रयोग करने वाला व्यक्ति, मॉडल को तब तक ट्रेनिंग देना जारी रखता है, जब तक कि वह पहले से मौजूद किसी परिकल्पना की पुष्टि नहीं हो जाती.

काउंटरफ़ैक्चुअल फ़ेयरनेस

#fairness

फ़ेयरनेस मेट्रिक, जिससे यह पता चलता है कि कैटगरी तय करने वाला टूल, एक या उससे ज़्यादा संवेदनशील एट्रिब्यूट को छोड़कर, किसी एक व्यक्ति के लिए एक जैसे नतीजे दिखाता है या नहीं. काउंटरफ़ैक्चुअल फ़ेयरनेस के लिए क्लासिफ़ायर का मूल्यांकन करना, किसी मॉडल में पक्षपात वाले संभावित सोर्स को सामने लाने का एक तरीका है.

काउंटरफ़ैक्चुअल फ़ेयरनेस के बारे में ज़्यादा जानने के लिए, "जब वर्ल्ड्स कोलाइड: निष्पक्षता में अलग-अलग काउंटरफ़ैक्चुअल आकलन को इंटिग्रेट करना" देखें.

कवरेज बायस

#fairness

चुनाव में पक्षपात देखें.

D

डेमोग्राफ़िक (उम्र, लिंग, आय, शिक्षा वगैरह) की समानता

#fairness

फ़ेयरनेस मेट्रिक का इस्तेमाल तब किया जाता है, जब किसी मॉडल की कैटगरी के नतीजे, दिए गए संवेदनशील एट्रिब्यूट पर निर्भर न हों.

उदाहरण के लिए, अगर लिलिपुटियन और ब्रोबडिंगनागियन, दोनों ग्लबडबड्रिब यूनिवर्सिटी में आवेदन करते हैं, तो डेमोग्राफ़िक समानता तब मिलती है, जब लिलिप्युटियन लोगों का प्रतिशत बराबर हो.

समान स्थिति और अवसर की समानता के बीच अंतर है. इससे, कैटगरी तय करने के नतीजों को संवेदनशील विशेषताओं पर निर्भर होने की अनुमति मिलती है. हालांकि, संवेदनशील एट्रिब्यूट पर निर्भर होने के लिए, बताए गए बुनियादी तथ्य वाले लेबल के लिए, कैटगरी में बांटने के नतीजों की अनुमति नहीं दी जाती. विज़ुअलाइज़ेशन में अंतर जानने के लिए, "स्मार्ट मशीन लर्निंग की मदद से भेदभाव करना" लेख पढ़ें.

अलग-अलग तरह का असर

#fairness

ऐसे लोगों के बारे में फ़ैसले लेना जिनसे जनसंख्या के अलग-अलग सबग्रुप पर बुरा असर पड़ता है. आम तौर पर, यह उन स्थितियों के बारे में बताता है जिनमें एल्गोरिदम की वजह से फ़ैसला लेने की प्रक्रिया, कुछ सबग्रुप को दूसरों की तुलना में ज़्यादा नुकसान पहुंचाती है या उन्हें फ़ायदा पहुंचाती है.

उदाहरण के लिए, मान लीजिए कि किसी लिलिप्यूटियन को मिनिएचर-होम लोन के लिए मंज़ूरी देने वाला एल्गोरिदम, उन्हें "मंज़ूरी नहीं है" कैटगरी में रख सकता है. ऐसा तब होगा, जब उनके डाक पते में कोई पिन कोड हो. अगर इस बात की संभावना ज़्यादा है कि बिग-एंडियन लिलिपुटियन, लिटल-एंडियन लिलिप्यूटियन की तुलना में इस पिन कोड वाले डाक पते वाले ईमेल पते रखते हैं, तो इस एल्गोरिदम का असर अलग-अलग हो सकता है.

अलग-अलग ट्रीटमेंट के उलट, दोनों में अंतर होता है. इन असमानताओं पर तब ध्यान दिया जाता है, जब सबग्रुप की विशेषताएं एल्गोरिदम से जुड़ी फ़ैसला लेने की प्रोसेस के लिए साफ़ तौर पर इनपुट होती हैं.

अलग-अलग ट्रीटमेंट

#fairness

किसी व्यक्ति की संवेदनशील विशेषताओं को एल्गोरिदम की मदद से फ़ैसला लेने के लिए इस प्रोसेस में शामिल करना. इससे, लोगों के अलग-अलग सबग्रुप के साथ अलग-अलग तरह का व्यवहार किया जाता है.

उदाहरण के लिए, एक ऐसा एल्गोरिदम देखें जो लिलीप्युटीन के क़र्ज़ के आवेदन में दिए गए डेटा के आधार पर, यह तय करता है कि उनके लिए मिनिएचर-होम लोन लेने की शर्तें क्या हैं. अगर एल्गोरिदम, इनपुट के तौर पर लिलिपुटियन की अफ़िलिएशन को बिग-एंडियन या लिटिल-एंडियन के तौर पर इस्तेमाल करता है, तो यह उस डाइमेंशन के साथ अलग व्यवहार लागू कर रहा है.

असमान प्रभाव के विपरीत, जिसमें सबग्रुप पर एल्गोरिदम से जुड़े फ़ैसलों के सामाजिक असर में असमानता पर ध्यान दिया जाता है, भले ही वे सबग्रुप मॉडल के लिए इनपुट हों या नहीं.

E

समान अवसर

#fairness

फ़ेयरनेस मेट्रिक. इससे यह पता लगाया जाता है कि कोई मॉडल, संवेदनशील एट्रिब्यूट की सभी वैल्यू के लिए, मनमुताबिक नतीजे का बराबर अनुमान लगा रहा है या नहीं. दूसरे शब्दों में, अगर किसी मॉडल के लिए ज़रूरी नतीजा पॉज़िटिव क्लास है, तो लक्ष्य यह होगा कि सही पॉज़िटिव रेट सभी ग्रुप के लिए एक ही हो.

अवसरों की समानता, समान संभावना से जुड़ी है, जिसके लिए ज़रूरी है कि सभी ग्रुप के लिए, ट्रू पॉज़िटिव रेट और फ़ॉल्स पॉज़िटिव रेट, दोनों एक जैसे हों.

मान लीजिए कि ग्लूबडबड्रिब यूनिवर्सिटी, लिलीपुटियन और ब्रोबडिंगनागियन, दोनों को गणित के कड़े प्रोग्राम में शामिल करती है. लिलिप्युटियन के सेकंडरी स्कूलों में गणित की कक्षाओं का बेहतरीन पाठ्यक्रम उपलब्ध है. इनमें से ज़्यादातर छात्र-छात्राएं यूनिवर्सिटी के प्रोग्राम की ज़रूरी शर्तें पूरी करते हैं. ब्रोबडिंगनागियन के सेकंडरी स्कूलों में गणित की कोई भी क्लास नहीं होती. इसकी वजह से, उनके छात्र-छात्राओं की संख्या बहुत कम है. राष्ट्रीयता (लिलिप्यूटियन या ब्रोबडिंगनाजियन) के हिसाब से "मंज़ूरी दिए गए" लेबल के पसंदीदा लेबल के लिए समान अवसर की बराबरी है, अगर काबिल छात्र-छात्राओं को भी अनुमति मिलने की एक ही संभावना है, चाहे वे लिलिपुटियन हों या ब्रोबडिंगनैजियन.

उदाहरण के लिए, मान लें कि ग्लबडुबड्रिब यूनिवर्सिटी में 100 लिलिप्यूटियन और 100 ब्रोबडिंगनैगियन आवेदन करते हैं और इनमें दाखिला लेने का फ़ैसला इस तरह लिया जाता है:

टेबल 1. लिलिप्यूटियन आवेदक (90% क्वालिफ़ाइड)

  क्वालिफ़ाई किया है अयोग्य
शामिल किया गया 45 3
अस्वीकार किया गया 45 7
कुल 90 10
योग्य छात्र-छात्राओं का प्रतिशत: 45/90 = 50%
काबिल न होने वाले छात्र-छात्राओं का प्रतिशत अस्वीकार किया गया: 7/10 = 70%
लिलीप्यूट के छात्र-छात्राओं का कुल प्रतिशत: (45+3)/100 = 48%

 

टेबल 2. ब्रोबडिंगनागियन आवेदक (10% योग्यता रखने वाले हैं):

  क्वालिफ़ाई किया है अयोग्य
शामिल किया गया 5 9
अस्वीकार किया गया 5 81
कुल 10 90
आवेदन करने वाले योग्य छात्र-छात्राओं का प्रतिशत: 5/10 = 50%
आवेदन नहीं कर पाने वाले छात्र-छात्राओं का प्रतिशत: 81/90 = 90%
ब्रोबडिंगनागियन छात्र-छात्राओं का कुल प्रतिशत: (5+9)/100 = 14%

पहले दिए गए उदाहरण, योग्यता पूरी करने वाले छात्र-छात्राओं को मंज़ूरी पाने के समान अवसर देते हैं. इसकी वजह यह है कि क्वालीफ़ाइड लिलिप्यूटियन और ब्रोबडिंगनागियन, दोनों के पास एडमिशन मिलने की 50% संभावना है.

हालांकि, अवसरों के समान अवसर सही हैं, लेकिन इन दो निष्पक्षता मेट्रिक से संतुष्ट नहीं हैं:

  • डेमोग्राफ़िक (उम्र, लिंग, आय, शिक्षा वगैरह) के हिसाब से: लिलिप्यूटियन और ब्रोबडिंगनागियन को यूनिवर्सिटी में अलग-अलग रेट पर दाखिला मिलता है. लिलिपुटियन के 48% छात्र-छात्राओं को इसमें शामिल किया जाता है, लेकिन ब्रोबडिंगनागियन के सिर्फ़ 14% छात्र-छात्राओं को ही इसमें शामिल किया जाता है.
  • एक जैसी शर्तें: लिलिप्युटियन और ब्रोबडिंगनाजियन, दोनों ही योग्यता पूरी करने वाले छात्र-छात्राओं को इसमें शामिल होने का एक जैसा मौका मिलता है. हालांकि, योग्यता न पाने वाले लिलिपुटियन और ब्रोबडिंगनैगियन, दोनों के पास एक जैसी दिक्कतें हैं. इससे संतुष्ट नहीं है. ज़रूरी शर्तें पूरी न करने वाले लिलिप्युटियन के लोगों की अस्वीकार किए जाने की दर 70% है, जबकि ज़रूरी शर्तें पूरी न करने वाले ब्रोबडिंगनैगियन के अस्वीकार करने की दर 90% है.

अवसरों में समानता के बारे में ज़्यादा जानकारी के लिए, "सुपरवाइज़्ड लर्निंग में अवसर की समानता" देखें. इसके अलावा, "स्मार्ट मशीन लर्निंग के साथ भेदभाव पर हमला करना" भी देखें. ऐसा करने से, आपको बराबरी का मौका देने के लिए ऑप्टिमाइज़ करते समय, आंकड़ों के विज़ुअलाइज़ेशन को समझने में मदद मिलेगी.

बराबरी की संभावना

#fairness

यह फ़ेयरनेस मेट्रिक से पता चलता है कि कोई मॉडल, किसी संवेदनशील एट्रिब्यूट की सभी वैल्यू के लिए, नतीजों का बराबर अनुमान लगा रहा है या नहीं. यह मेट्रिक, पॉज़िटिव क्लास और नेगेटिव क्लास, दोनों के लिए होती है. सिर्फ़ एक क्लास या किसी अन्य क्लास के लिए नहीं. दूसरे शब्दों में, सभी ग्रुप के लिए ट्रू पॉज़िटिव रेट और गलत नेगेटिव रेट, दोनों एक ही होने चाहिए.

समान संभावना, अवसर की समानता से जुड़ी है, जिसका फ़ोकस सिर्फ़ एक क्लास (पॉज़िटिव या नेगेटिव) के लिए गड़बड़ी की दर पर होता है.

उदाहरण के लिए, मान लें कि ग्लबडुबड्रिब यूनिवर्सिटी, लिलिप्यूटियन और ब्रोब्डिंगनैगियन, दोनों को गणित के मुश्किल प्रोग्राम में शामिल करती है. लिलिप्युटियन के सेकंडरी स्कूलों में गणित की कक्षाओं का बेहतर पाठ्यक्रम उपलब्ध होता है. इनमें से ज़्यादातर छात्र-छात्राएं यूनिवर्सिटी प्रोग्राम के लिए क्वालीफ़ाइड होते हैं. ब्रोबडिंगनागियन के सेकंडरी स्कूल में गणित की कोई क्लास नहीं जाती. इसकी वजह से, उनके छात्र-छात्राओं में बहुत कम छात्र-छात्राएं पढ़ते हैं. शर्तों के मुताबिक

मान लीजिए कि ग्लबडुबड्रिब यूनिवर्सिटी में 100 लिलिपुटियन और 100 ब्रोबडिंगनागियन आवेदन करते हैं और इनमें दाखिला लेने का फ़ैसला इस तरह लिया जाता है:

टेबल 3. लिलिप्यूटियन आवेदक (90% क्वालिफ़ाइड)

  क्वालिफ़ाई किया है अयोग्य
शामिल किया गया 45 2
अस्वीकार किया गया 45 8
कुल 90 10
योग्य छात्र-छात्राओं का प्रतिशत: 45/90 = 50%
काबिल न होने वाले छात्र-छात्राओं का प्रतिशत अस्वीकार किया गया: 8/10 = 80%
लिलीप्यूट के छात्र-छात्राओं का कुल प्रतिशत: (45+2)/100 = 47%

 

टेबल 4. ब्रोबडिंगनागियन आवेदक (10% योग्यता रखने वाले हैं):

  क्वालिफ़ाई किया है अयोग्य
शामिल किया गया 5 18
अस्वीकार किया गया 5 72
कुल 10 90
योग्य छात्र-छात्राओं का प्रतिशत: 5/10 = 50%
आवेदन नहीं करने वाले छात्र-छात्राओं का प्रतिशत: 72/90 = 80%
ब्रोबडिंगनागियन छात्र-छात्राओं का कुल प्रतिशत: (5+18)/100 = 23%

बराबरी वाली मुश्किलों का सामना करना पड़ता है, क्योंकि लिलिप्यूटियन और ब्रोबडिंगनागियन, दोनों ही छात्र-छात्राओं को इसमें शामिल होने की संभावना 50% है. वहीं, काबिल न होने वाले लिलिप्यूटियन और ब्रोबडिंगनागियन, दोनों के आवेदन अस्वीकार होने की संभावना 80% है.

समान सीमाओं को औपचारिक तौर पर "सुपरवाइज़्ड लर्निंग में अवसर की समानता" इस तरह परिभाषित किया गया है: "प्रीडिक्टर CANNOT TRANSLATE

एक्सपेरिमेंट करने वाले का बायस

#fairness

पुष्टि का मापदंड देखें.

म॰

फ़ेयरनेस कंस्ट्रेंट

#fairness
एल्गोरिदम में कंस्ट्रेंट लागू करके, यह पक्का किया जा सकता है कि निष्पक्षता की एक या उससे ज़्यादा परिभाषाएं पूरी की गई हों. निष्पक्षता से जुड़ी पाबंदियों के कुछ उदाहरण:

फ़ेयरनेस मेट्रिक

#fairness

"निष्पक्षता" की गणितीय परिभाषा, जिसे मापा जा सकता है. निष्पक्षता से जुड़ी आम तौर पर इस्तेमाल की जाने वाली मेट्रिक में ये शामिल हैं:

फ़ेयरनेस से जुड़ी कई मेट्रिक म्युचुअली एक्सक्लूसिव होती हैं. इनके बारे में जानने के लिए, फ़ेयरनेस मेट्रिक के साथ काम न करने वाली मेट्रिक देखें.

G

ग्रुप एट्रिब्यूशन बायस

#fairness

यह मानते हुए कि किसी व्यक्ति के लिए जो भी सही है, वह उस समूह के सभी लोगों के लिए भी सही होता है. अगर डेटा इकट्ठा करने के लिए सुविधा सैंपलिंग का इस्तेमाल किया जाता है, तो ग्रुप एट्रिब्यूशन बायस का असर बढ़ सकता है. बिना प्रतिनिधित्व वाले सैंपल में, ऐसे एट्रिब्यूशन बनाए जा सकते हैं जो वास्तविकता न दिखाते हों.

आउट-ग्रुप एकरूपता का पूर्वाग्रह और इन-ग्रुप बायस भी देखें.

H

ऐतिहासिक पक्षपात

#fairness

एक तरह का पूर्वाग्रह जो दुनिया में पहले से ही मौजूद है और जिसका इस्तेमाल डेटासेट के लिए किया जा चुका है. ये पूर्वाग्रह की वजह से मौजूदा सांस्कृतिक रूढ़िवादी सोच, डेमोग्राफ़िक असमानता, और कुछ खास सामाजिक समूहों के ख़िलाफ़ दर्ज पूर्वाग्रहों को दिखाने की कोशिश होती है.

उदाहरण के लिए, एक कैटगरी तय करने के मॉडल पर विचार करें जिससे यह अनुमान लगाया जा सके कि क़र्ज़ का आवेदन करने वाला कोई व्यक्ति, क़र्ज़ की डिफ़ॉल्ट रकम लेगा या नहीं. इसे दो अलग-अलग समुदायों के स्थानीय बैंकों से मिले, 1980 के दशक के क़र्ज़ के डिफ़ॉल्ट डेटा के आधार पर ट्रेनिंग दी गई थी. अगर कम्यूनिटी A के पुराने आवेदकों के क़र्ज़ की डिफ़ॉल्ट दरें कम्यूनिटी B के आवेदकों की तुलना में छह गुना ज़्यादा होती हैं, तो मॉडल को एक ऐतिहासिक पूर्वाग्रह मिल सकता है. इसकी वजह से कम्यूनिटी A में क़र्ज़ को मंज़ूरी मिलने की संभावना कम हो सकती है.

I

अनजाने में भेदभाव करना

#fairness

लोगों के मन के मॉडल और यादों के आधार पर, अपने-आप उनसे जुड़ने या अनुमान लगाने में मदद मिलती है. इंप्लिसिट बायस इन चीज़ों पर असर डाल सकते हैं:

  • डेटा को इकट्ठा करने और उसे कैटगरी में बांटने का तरीका.
  • मशीन लर्निंग सिस्टम को कैसे डिज़ाइन और डेवलप किया जाता है.

उदाहरण के लिए, शादी की फ़ोटो की पहचान करने के लिए क्लासिफ़ायर बनाते समय, इंजीनियर किसी फ़ोटो में सफ़ेद ड्रेस की मौजूदगी को सुविधा के तौर पर इस्तेमाल कर सकता है. हालांकि, सफ़ेद कपड़ों का प्रचलन सिर्फ़ कुछ काल में और कुछ संस्कृतियों में किया जाता रहा है.

पुष्टि करने का पूर्वाग्रह भी देखें.

फ़ेयरनेस मेट्रिक के साथ काम नहीं करने की जानकारी

#fairness

यह विचार कि निष्पक्षता की कुछ धारणाएं आपस में मेल नहीं खातीं और एक साथ पूरा नहीं किया जा सकता. इस वजह से, निष्पक्षता का आकलन करने के लिए ऐसी कोई एक यूनिवर्सल मेट्रिक नहीं है जिसे मशीन लर्निंग से जुड़े सभी सवालों पर लागू किया जा सके.

हालांकि, निष्पक्षता वाली मेट्रिक के साथ काम न करने का मतलब यह नहीं है कि निष्पक्षता की कोशिश का कोई फ़ायदा नहीं होगा. इसके बजाय, इससे पता चलता है कि एमएल की किसी समस्या के लिए, निष्पक्षता को कॉन्टेक्स्ट के हिसाब से परिभाषित किया जाना चाहिए. इसका मकसद, इसके इस्तेमाल के उदाहरणों से होने वाले नुकसान को रोकना है.

इस विषय पर ज़्यादा जानकारी के लिए, " निष्पक्षता की (इम) संभावना पर" देखें.

व्यक्तिगत निष्पक्षता

#fairness

एक निष्पक्षता मेट्रिक, जो यह जांच करती है कि मिलते-जुलते लोगों को एक जैसे रखा जाता है या नहीं. उदाहरण के लिए, Brobdingnagian Academy की मदद से, यह पक्का करने की कोशिश की जा सकती है कि एक जैसे ग्रेड और टेस्ट स्कोर वाले दो छात्र-छात्राओं को दाखिला मिलने की संभावना बराबर हो.

ध्यान दें कि व्यक्तिगत निष्पक्षता पूरी तरह से इस बात पर निर्भर करती है कि आप "समानता" (इस मामले में, ग्रेड और टेस्ट स्कोर) को कैसे परिभाषित करते हैं और अगर आपकी समानता मेट्रिक (जैसे, छात्र/छात्रा के पाठ्यक्रम की सख्ती) में कोई ज़रूरी जानकारी नहीं मिल पाती है, तो आपके लिए निष्पक्षता की नई समस्याएं पैदा हो सकती हैं.

व्यक्तिगत निष्पक्षता के बारे में ज़्यादा जानकारी के लिए, "फ़ेयरनेस थ्रू अवेयरनेस" पर जाएं.

इन-ग्रुप बायस

#fairness

अपने ग्रुप या अपने लक्षणों में पक्षपात दिखाना. अगर टेस्टर या रेटिंग देने वालों में मशीन लर्निंग डेवलपर के दोस्त, परिवार या सहकर्मी शामिल हैं, तो इन-ग्रुप बायस प्रॉडक्ट की टेस्टिंग या डेटासेट को अमान्य कर सकता है.

इन-ग्रुप बायस, ग्रुप एट्रिब्यूशन बायस का एक रूप है. ग्रुप से बाहर एक जैसा बायस भी देखें.

नहीं

नॉन-रिस्पॉन्स बायस

#fairness

चुनाव में पक्षपात देखें.

O

एक ही ग्रुप से बाहर होने वाला भेदभाव

#fairness

नज़रिए, मूल्यों, व्यक्तित्व की विशेषताओं, और अन्य विशेषताओं की तुलना करते समय, ग्रुप के सदस्यों की तुलना में, ग्रुप से बाहर के सदस्यों को ज़्यादा समान रूप में देखने का रुझान होता है. इन-ग्रुप का मतलब उन लोगों से है जिनसे आप नियमित तौर पर इंटरैक्ट करते हैं. ग्रुप के बाहर का मतलब उन लोगों से है जिनसे आप नियमित रूप से इंटरैक्ट नहीं करते. अगर आपने डेटासेट में लोगों को आउट-ग्रुप के बारे में एट्रिब्यूट सबमिट करने के लिए कहा है, तो हो सकता है कि वे एट्रिब्यूट कम बारीक हों. साथ ही, वे ग्रुप में शामिल लोगों के लिए सूची में शामिल एट्रिब्यूट की तुलना में ज़्यादा रूढ़िवादी हो सकते हैं.

उदाहरण के लिए, लिलिप्युटियन लोगों के घरों के डिज़ाइन के बारे में थोड़ी-बहुत जानकारी दे सकते हैं. उदाहरण के लिए, वे घर की बनावट, खिड़कियों, दरवाज़ों, और उनके आकार में मामूली अंतर बता सकते हैं. हालांकि, यही लिलिप्युटियन सिर्फ़ यह बता सकते हैं कि ब्रोबिंगनेगियन के सभी घर एक जैसे रहते हैं.

आउट-ग्रुप एकरूपता बायस, ग्रुप एट्रिब्यूशन बायस का एक रूप है.

इन-ग्रुप बायस भी देखें.

P

हिस्सा लेने से जुड़ा भेदभाव

#fairness

गैर-प्रतिक्रिया पूर्वाग्रह के लिए समानार्थी शब्द. चुनाव में पक्षपात देखें.

पोस्ट-प्रोसेसिंग

#fairness
#fundamentals

मॉडल चलाने के बाद मॉडल के आउटपुट में बदलाव करना. मॉडल में बदलाव किए बिना, निष्पक्षता से जुड़ी पाबंदियों को लागू करने के लिए, पोस्ट-प्रोसेसिंग का इस्तेमाल किया जा सकता है.

उदाहरण के लिए, कोई क्लासिफ़िकेशन थ्रेशोल्ड सेट करके, पोस्ट-प्रोसेसिंग को बाइनरी क्लासिफ़ायर पर लागू कर सकता है. इससे कुछ एट्रिब्यूट के लिए ऑपर्च्यूनिटी की एक जैसी क्वालिटी बनी रहेगी. इसके लिए, जांच करके पता करना होगा कि उस एट्रिब्यूट की सभी वैल्यू के लिए सही पॉज़िटिव रेट है.

अनुमानित समानता

#fairness

फ़ेयरनेस मेट्रिक, जिससे यह पता चलता है कि क्लासिफ़ायर के लिए, सटीक दरें, विचार किए जा रहे सबग्रुप के बराबर हैं या नहीं.

उदाहरण के लिए, कोई मॉडल जो यह अनुमान लगाता है कि कॉलेज में शामिल होने की मंज़ूरी मिलने की दर, राष्ट्रीयता के हिसाब से एक जैसी है, अगर लिलिप्यूटियन और ब्रोबडिंगनैगियन के सटीक होने की दर एक जैसी हो.

अनुमानित समानता को कभी-कभी अनुमानित दर समानता भी कहा जाता है.

अनुमानित समानता के बारे में ज़्यादा जानकारी के लिए, "निष्पक्षता की परिभाषाएं एक्सप्लेन्ड" (सेक्शन 3.2.1) देखें.

अनुमानित दर की समानता

#fairness

अनुमानित समानता का एक और नाम है.

प्री-प्रोसेसिंग

#fairness
किसी मॉडल को ट्रेनिंग देने के लिए, इस्तेमाल किए जाने से पहले डेटा को प्रोसेस किया जा रहा है. प्री-प्रोसेसिंग, किसी अंग्रेज़ी टेक्स्ट संग्रह से शब्दों को हटाने जितना आसान हो सकती है, जो अंग्रेज़ी शब्दकोश में मौजूद नहीं होते. इसके अलावा, यह डेटा पॉइंट को इस तरह बताने जितना मुश्किल भी हो सकता है कि संवेदनशील एट्रिब्यूट से जुड़े एट्रिब्यूट को हटा दिया जाए. प्रीप्रोसेसिंग से, निष्पक्षता से जुड़ी शर्तों को पूरा करने में मदद मिल सकती है.

प्रॉक्सी (संवेदनशील विशेषताएं)

#fairness
संवेदनशील एट्रिब्यूट को स्टैंड-इन के तौर पर इस्तेमाल किया जाने वाला एट्रिब्यूट. उदाहरण के लिए, किसी व्यक्ति के पिन कोड का इस्तेमाल, उसकी आय, नस्ल या जातीयता के लिए किया जा सकता है.

R

रिपोर्टिंग पूर्वाग्रह

#fairness

लोगों की कार्रवाइयों, नतीजों या प्रॉपर्टी के बारे में लिखने की फ़्रीक्वेंसी, उनकी असल दुनिया की फ़्रीक्वेंसी को नहीं दिखाती है. इसके अलावा, इससे यह नहीं पता चलता है कि प्रॉपर्टी से किसी खास समूह के लोगों में कितनी जानकारी मिलती है. रिपोर्टिंग पूर्वाग्रह उस डेटा के स्ट्रक्चर पर असर डाल सकता है जिससे मशीन लर्निंग सिस्टम सीखते हैं.

उदाहरण के लिए, किताबों में हंसते हुए शब्द, सांस के मुकाबले ज़्यादा प्रचलित है. किसी किताब के संग्रह से हंसने और सांस लेने की फ़्रीक्वेंसी का अनुमान लगाने वाला मशीन लर्निंग मॉडल, यह तय कर सकता है कि सांस लेने से हंसना ज़्यादा सामान्य है.

S

सैंपलिंग बायस

#fairness

चुनाव में पक्षपात देखें.

चुनिंदा बायस

#fairness

चुनने की प्रोसेस के कारण सैंपल डेटा से लिए गए नतीजों में गड़बड़ियां, जो डेटा में देखे गए सैंपल और नहीं देखे गए सैंपल के बीच व्यवस्थित अंतर पैदा करती हैं. चुनने से जुड़े इस तरह के पूर्वाग्रह इस तरह के होते हैं:

  • कवरेज बायस: डेटासेट में दिखाई गई जनसंख्या, उस जनसंख्या से मेल नहीं खाती जिसके बारे में मशीन लर्निंग मॉडल अनुमान लगा रहा है.
  • सैंपलिंग बायस: टारगेट ग्रुप से किसी भी क्रम में डेटा इकट्ठा नहीं किया जाता.
  • नॉन-रिस्पॉन्स बायस (इसे हिस्सा लेने वाले पक्षपात भी कहा जाता है): कुछ खास ग्रुप के उपयोगकर्ता, अन्य ग्रुप के उपयोगकर्ताओं की तुलना में अलग-अलग रेट पर सर्वे से ऑप्ट-आउट कर देते हैं.

उदाहरण के लिए, मान लें कि आपको एक मशीन लर्निंग मॉडल बनाना है जो यह अनुमान लगाता है कि लोग कोई फ़िल्म पसंद कर सकते हैं या नहीं. ट्रेनिंग का डेटा इकट्ठा करने के लिए, आपको थिएटर की सबसे पहली पंक्ति में मौजूद सभी लोगों को एक सर्वे देना होता है. भले ही, यह डेटासेट इकट्ठा करने का एक उचित तरीका लग सकता है, लेकिन डेटा इकट्ठा करने के इस तरीके की वजह से चुनने में अंतर हो सकता है:

  • कवरेज पूर्वाग्रह: ऐसे लोगों से नमूना लेने पर, जिन्होंने फ़िल्म देखने का विकल्प चुना है, हो सकता है कि आपके मॉडल के अनुमान उन लोगों को सामान्य न बना पाएं जिन्होंने पहले फ़िल्म में अपनी रुचि नहीं दिखाई थी.
  • सैंपलिंग में पक्षपात: अनुमानित जनसंख्या (फ़िल्म में सभी लोग) से रैंडम तरीके से सैंपलिंग करने के बजाय, आपने सिर्फ़ सबसे पहली लाइन में मौजूद लोगों से सैंपल लिए. ऐसा हो सकता है कि पहली पंक्ति में बैठे लोगों को फ़िल्म में दूसरी पंक्तियों के मुकाबले ज़्यादा दिलचस्पी हो.
  • गैर-प्रतिक्रिया वाला पूर्वाग्रह: आम तौर पर, मज़बूत विचारों वाले लोगों की थोड़ी-बहुत राय रखने वाले लोगों की तुलना में, वैकल्पिक सर्वे में ज़्यादा जवाब दिए जाते हैं. फ़िल्म सर्वे ज़रूरी नहीं है. इसलिए, सामान्य (घंटी के आकार का) डिस्ट्रिब्यूशन की तुलना में, रिस्पॉन्स से बायोमोडल डिस्ट्रिब्यूशन बनने की संभावना ज़्यादा होती है.

संवेदनशील एट्रिब्यूट

#fairness
ऐसी मानवीय विशेषता जिसे कानूनी, नैतिक, सामाजिक या निजी वजहों पर खास ध्यान दिया जा सकता है.

U

अनजाने में (संवेदनशील विशेषता के लिए)

#fairness

ऐसी स्थिति जिसमें संवेदनशील एट्रिब्यूट मौजूद होते हैं, लेकिन ट्रेनिंग डेटा में शामिल नहीं किए जाते. संवेदनशील एट्रिब्यूट अक्सर, किसी व्यक्ति के डेटा के अन्य एट्रिब्यूट से जुड़े होते हैं. इसलिए, किसी संवेदनशील एट्रिब्यूट के बारे में बिना जानकारी के तैयार किए गए मॉडल का, उस एट्रिब्यूट को अब भी अलग-अलग तरह से असर पड़ सकता है या अन्य फ़ेयरनेस कंस्ट्रेंट का उल्लंघन हो सकता है.