मशीन लर्निंग ग्लॉसरी: फ़ेयरनेस

इस पेज में फ़ेयरनेस शब्दावली से जुड़े शब्द शामिल हैं. शब्दावली के सभी शब्दों के लिए, यहां क्लिक करें.

A

एट्रिब्यूट

#fairness

सुविधा का समानार्थी शब्द.

मशीन लर्निंग फ़ेयरनेस में, एट्रिब्यूट अक्सर उन एट्रिब्यूट से जुड़े होते हैं जो लोगों से जुड़े होते हैं.

ऑटोमेशन से जुड़ी गड़बड़ी

#fairness

जब कोई व्यक्ति फ़ैसला लेने वाला व्यक्ति, अपने-आप फ़ैसला लेने वाले सिस्टम से मिलने वाले सुझावों का इस्तेमाल करता है, तो यह सिस्टम उन गड़बड़ियों की जानकारी देता है जो अपने-आप तय होती हैं. भले ही, अपने-आप फ़ैसले लेने वाले सिस्टम में गड़बड़ियां हों.

B

भेदभाव (नैतिकता/फ़ेयरनेस)

#fairness
#fundamentals

1. कुछ चीज़ों, लोगों या दूसरे ग्रुप के ऊपर पक्षपात करना, पक्षपात या पक्षपात करना. इन अनचाही चीज़ों से डेटा को इकट्ठा करने, उसे समझने, सिस्टम के डिज़ाइन, और सिस्टम के साथ उपयोगकर्ता के इंटरैक्ट करने के तरीके पर असर पड़ सकता है. इस तरह के भेदभाव का असर ये हो सकता है:

2. नमूने या रिपोर्टिंग प्रोसेस से शुरू हुई सिस्टम की गड़बड़ी. इस तरह के भेदभाव का असर ये हो सकता है:

मशीन लर्निंग मॉडल में मौजूद बायस शब्द या प्रीडिक्शन बायस से जुड़ी कोई भ्रम की स्थिति नहीं होनी चाहिए.

C

कंफ़र्मेशन बायस

#fairness

किसी व्यक्ति की पहले से मौजूद आस्थाओं या अनुमानों की पुष्टि करने के लिए, जानकारी खोजने, उनके बारे में जानकारी देने, उनके पक्ष में आने, और उन्हें वापस लाने की संभावना. मशीन लर्निंग डेवलपर ऐसे डेटा को अनजाने में इकट्ठा या लेबल कर सकते हैं जो उनके मौजूदा विचारों पर असर डालते हैं. कंफ़र्मेशन बायस एक तरह का इंप्लिसिट बायस है.

एक्सपेरिमेंटर बायस एक तरह का कंफ़र्मेशन बायस है. इसमें प्रयोग करने वाले तब तक मॉडल को ट्रेनिंग देते रहते हैं, जब तक पहले से मौजूद किसी अनुमान की पुष्टि नहीं हो जाती.

कानूनी विरोध करने के लिए सही

#fairness
फ़ेयरनेस मेट्रिक की मदद से, यह पता लगाया जाता है कि कैटगरी तय करने वाला व्यक्ति, किसी एक व्यक्ति के लिए एक जैसा नतीजा जनरेट करता है या नहीं, जैसा कि किसी दूसरे व्यक्ति के लिए किया जाता है. हालांकि, इसमें एक या उससे ज़्यादा संवेदनशील एट्रिब्यूट शामिल नहीं होते. किसी कॉन्टेंट की कैटगरी तय करने के लिए, उसका आकलन किया जाता है.

कानूनी विरोध के बारे में ज़्यादा जानकारी के लिए, जब दुनिया का कोलाइड: "अलग-अलग काउंटरफ़ैक्चुअल डिसिज़न ऑफ़ फ़ेयरनेस" देखें.

कवरेज बायस

#fairness

चुनावी भेदभाव देखें.

D

जनसांख्यिकी समानता

#fairness

अगर किसी मॉडल की कैटगरी तय करने के नतीजे, दिए गए संवेदनशील एट्रिब्यूट पर निर्भर नहीं हैं, तो इससे संतुष्ट फ़ेयरनेस मेट्रिक होती है.

उदाहरण के लिए, अगर लिलीपुटियन और ब्रोब्डिंगनागियन, दोनों ही ग्लुबडुब्रिब यूनिवर्सिटी में लागू होते हैं, तो उम्र, लिंग, आय, शिक्षा वगैरह के हिसाब से एक जैसे नतीजे मिलते हैं. ऐसा तब होता है, जब लिलिपुटियन के स्वीकार किए गए प्रतिशत का प्रतिशत बराबर हो.

बराबर होने की संभावना और अवसर की समानता में अंतर है, जो संवेदनशील एट्रिब्यूट पर निर्भर करने के आधार पर, क्लासिफ़िकेशन को एग्रीगेट करने की अनुमति देता है. हालांकि, संवेदनशील एट्रिब्यूट पर निर्भर करने के लिए, तय किए गए ग्राउंड-ट्रूथ लेबल के लिए नतीजों को अलग-अलग कैटगरी में बांटने की अनुमति नहीं देता. डेमोग्राफ़िक (उम्र, लिंग, आय, शिक्षा वगैरह) के हिसाब से ऑप्टिमाइज़ करने के लिए, विज़ुअलाइज़ेशन के लिए "स्मार्ट मशीन लर्निंग के साथ होने वाले भेदभाव का सामना करना" देखें.

फ़र्क़ का असर

#fairness

अलग-अलग जनसंख्या के छोटे-छोटे ग्रुप पर असर डालने वाले लोगों के बारे में फ़ैसले लेना. आम तौर पर, यह ऐसी स्थितियों के बारे में बताता है जब एल्गोरिदम से जुड़ा फ़ैसला लेने वाली प्रोसेस कुछ उप-ग्रुप को नुकसान पहुंचाती है या उनका फ़ायदा देती है.

उदाहरण के लिए, मान लीजिए कि एक एल्गोरिदम, जो यह तय करता है कि छोटे कारोबार के लिए लिलीपुट की ज़रूरी शर्तें पूरी होंगी या नहीं, अगर उनके डाक पते में कोई खास पिन कोड होगा, तो ऐसे में उन्हें “मंज़ूरी नहीं मिली” की कैटगरी में रखा जाएगा. इस बात की ज़्यादा संभावना है कि लिग-एंडियन लिलीपुटियन की तुलना में बिग-एंडियन लिलीपुट के डाक पते से डाक के पते भेजे गए हों. इसलिए, इस एल्गोरिदम का असर अलग-अलग हो सकता है.

अलग-अलग ट्रीटमेंट में अंतर होता है. सब-ग्रुप की विशेषताओं की वजह से, एल्गोरिदम के आधार पर फ़ैसला लेने की प्रोसेस में सीधे तौर पर इनपुट मिलता है.

असमान व्यवहार

#fairness

विषयों के संवेदनशील एट्रिब्यूट को एल्गोरिदम के आधार पर फ़ैसला लेने की प्रक्रिया में शामिल किया जाता है. इससे, लोगों के अलग-अलग सबग्रुप को अलग-अलग तरीके से व्यवहार किया जाता है.

उदाहरण के लिए, एक ऐसा एल्गोरिदम देखें जो लिलीपुटियन को क़र्ज़ के लिए मिले आवेदन के डेटा के आधार पर, मिनी-होम लोन के लिए ज़रूरी शर्तें तय करता है. अगर एल्गोरिदम, इनपुट के तौर पर लिलीपुटियन की वैल्यू को बिग-एंडियन या लिटिल-एंडियन के तौर पर इस्तेमाल करता है, तो उस डाइमेंशन के साथ अलग व्यवहार लागू किया जाता है.

अलग-अलग असर वाला कॉन्टेंट होता है, जो सबग्रुप पर एल्गोरिदम के फ़ैसलों के सामाजिक असर पर फ़ोकस करता है. भले ही, वे सबग्रुप, मॉडल में इनपुट हों या न हों.

E

अवसर की समानता

#fairness
किसी फ़ेयर मेट्रिक की मदद से, यह पता लगाया जाता है कि किसी पसंदीदा लेबल (जो किसी को फ़ायदा पहुंचाता है या किसी व्यक्ति को फ़ायदा मिलता है) और दी गई एट्रिब्यूट के लिए, डेटा की कैटगरी तय करने वाला यह बताता है कि उस एट्रिब्यूट की सभी वैल्यू के लिए लेबल उसी तरह लागू होगा. दूसरे शब्दों में, अवसर की समानता यह मापती है कि क्या किसी अवसर के लिए योग्य लोगों को ग्रुप की सदस्यता से कोई फ़र्क़ नहीं पड़ता.

उदाहरण के लिए, मान लें कि ग्लुबडुब्रिब यूनिवर्सिटी ने लिलीपुटियन और ब्रोब्डिंगनागियंस को गणित के एक सख्त प्रोग्राम में पढ़ाया है. लिलिपुटियन के सेकंडरी स्कूल, गणित की कक्षाओं का एक मज़बूत पाठ्यक्रम पेश करते हैं. इनमें से ज़्यादातर छात्र, यूनिवर्सिटी प्रोग्राम के लिए क्वालिफ़ाई करते हैं. ब्रोब्डिंगनगिया के सेकंडरी स्कूल में गणित की क्लास बिलकुल नहीं मिलती. इसलिए, उनके बहुत कम छात्र-छात्राएं योग्य होते हैं. राष्ट्रीयता (लिलीपुटियन या ब्रॉडिंगनागियन) को ध्यान में रखते हुए, "मंज़ूरी दी गई" के पसंदीदा लेबल को बराबरी का मौका देने का मतलब है कि अगर लिडिपुट या ब्रोब्डिंगनागियन है, तो इस बात से कोई फ़र्क़ नहीं पड़ता कि छात्र-छात्राओं को एडमिशन मिला है या नहीं.

उदाहरण के लिए, मान लें कि 100 लिलीपुटियन और 100 Brobdingnagians, ग्लूबडुब्रिब यूनिवर्सिटी में आवेदन करते हैं और प्रवेश से जुड़े फ़ैसले इस तरह से लिए जाते हैं:

टेबल 1. लिलीपुट के आवेदक (90% योग्य हैं)

  क्वालिफ़ाई किया है अयोग्य
शामिल होने की तारीख 45 3
अस्वीकार किया गया 45 7
कुल 90 10
शर्तें पूरी करने वाले छात्र-छात्राओं का प्रतिशत: 45/90 = 50%
नामंज़ूर किए गए छात्रों का प्रतिशत: 7/10 = 70%
लिलीपुट के छात्र-छात्राओं का कुल प्रतिशत: (45+3)/100 = 48%

 

टेबल 2. Broddingnagian के आवेदक (10% योग्य हैं):

  क्वालिफ़ाई किया है अयोग्य
शामिल होने की तारीख 5 9
अस्वीकार किया गया 5 81
कुल 10 90
शर्तें पूरी करने वाले छात्र-छात्राओं का प्रतिशत: 5/10 = 50%
अस्वीकार किए गए छात्र-छात्राओं का प्रतिशत: 81/90 = 90%
ब्रोडडिनेशियन छात्र/छात्राओं का कुल प्रतिशत: (5+9)/100 = 14%

पहले के उदाहरणों में, योग्यता पा चुके छात्र/छात्राओं को स्वीकार करने के समान अवसर दिए गए हैं, क्योंकि लिलीपुटियन और ब्रॉडिंगनागियन योग्य हैं, क्योंकि इन दोनों के आवेदन में शामिल होने की संभावना 50% है.

अवसर की बराबरी के बारे में ज़्यादा जानकारी के लिए, सुपरवाइज़्ड लर्निंग में अवसर की समानता" देखें. साथ ही, अवसर की समानता के लिए ऑप्टिमाइज़ करते समय होने वाले विश्लेषण के लिए, "स्मार्ट मशीन लर्निंग के साथ भेदभाव से बचाव" का विज़ुअलाइज़ेशन देखें.

बराबर विषमता

#fairness
फ़ेयरनेस मेट्रिक की मदद से, यह जांच की जाती है कि किसी लेबल और एट्रिब्यूट के लिए एट्रिब्यूट की कैटगरी तय करने पर, वह लेबल उस एट्रिब्यूट की सभी वैल्यू के लिए बराबर लेबल लगाता है.

उदाहरण के लिए, मान लें कि ग्लुबडुब्रिब यूनिवर्सिटी ने लिलीपुटियन और ब्रोब्डिंगनागियंस को गणित के एक सख्त प्रोग्राम में दाखिला लिया है. लिलीपुटियन के सेकंडरी स्कूल, गणित की कक्षाओं का एक मज़बूत पाठ्यक्रम पेश करते हैं. इनमें से ज़्यादातर छात्र/छात्राएं यूनिवर्सिटी प्रोग्राम के लिए क्वालिफ़ाइड हैं. ब्रोब्डिंगनगियन के सेकंडरी स्कूलों में गणित की क्लास बिलकुल नहीं दी जा सकती. इसकी वजह से, बहुत कम छात्र-छात्राएं इन्हें क्वालिफ़ाई कर लेते हैं. बराबरी के नज़रिए से यह स्वीकार किया जाता है कि अगर कोई आवेदक लिलीपुटियन या ब्रोब्डिंगनागियन है, तो इस बात की कोई संभावना नहीं है कि अगर वे योग्य हैं, तो उन्हें भी प्रोग्राम में शामिल होने की बराबर अनुमति होगी. इसके अलावा, अगर वे योग्य नहीं हैं, तो उनके आवेदन अस्वीकार किए जाने की संभावना भी बराबर होगी.

मान लें कि ग्लूबडुब्रिब में 100 लिलिपुटियन और 100 Broddingnagians लागू होते हैं, और दाखिले का फ़ैसला इस तरह लिया जाता है:

टेबल 3. लिलीपुट के आवेदक (90% योग्य हैं)

  क्वालिफ़ाई किया है अयोग्य
शामिल होने की तारीख 45 2
अस्वीकार किया गया 45 8
कुल 90 10
शर्तें पूरी करने वाले छात्र-छात्राओं का प्रतिशत: 45/90 = 50%
अस्वीकार किए गए छात्र-छात्राओं का प्रतिशत: 8/10 = 80%
लिलीपुट के छात्र-छात्राओं का कुल प्रतिशत: (45+2)/100 = 47%

 

टेबल 4. Broddingnagian के आवेदक (10% योग्य हैं):

  क्वालिफ़ाई किया है अयोग्य
शामिल होने की तारीख 5 18
अस्वीकार किया गया 5 72
कुल 10 90
शर्तें पूरी करने वाले छात्र-छात्राओं का प्रतिशत: 5/10 = 50%
ज़रूरी शर्तें पूरी न करने वाले छात्र-छात्राओं का प्रतिशत: 72/90 = 80%
ब्रोडिंगनाग के छात्र-छात्राओं का कुल प्रतिशत: (5+18)/100 = 23%

दोनों तरह की स्थितियों में संतुष्ट होने की वजह यह है कि लिलीपुटियन और ब्रॉडिंगनागियन के सभी छात्र-छात्राएं इस परीक्षा में शामिल होने की 50% संभावना रखते हैं.

बराबरी वाली संभावनाओं को औपचारिक रूप से "निगरानी में रखे गए शिक्षा में अवसर की बराबरी" के तौर पर परिभाषित किया जाता है. यह तरीका है: "पूर्वाधिकारी ζ, सुरक्षित विशेषता A के लिए बराबरी की संभावनाओं को पूरा करता है. अगर Y और A, स्वतंत्र हैं, तो Y के नतीजे हैं."

एक्सपेरिमेंटर बायस

#fairness

पुष्टि करने से जुड़ा भेदभाव देखें.

शुक्र

फ़ेयरनेस कंस्ट्रेंट

#fairness
यह पक्का करने के लिए कि निष्पक्षता की एक या ज़्यादा परिभाषाएं पूरी हों, एक एल्गोरिदम पर कंस्ट्रेंट लागू करें. फ़ेयरनेस से जुड़ी पाबंदियों के उदाहरण:

फ़ेयरनेस मेट्रिक

#fairness

मापे जाने वाले “फ़ेयरनेस” की गणित से जुड़ी परिभाषा. आम तौर पर, इस्तेमाल की जाने वाली फ़ेयरनेस की कुछ मेट्रिक के बारे में यहां बताया गया है:

फ़ेयरनेस की कई मेट्रिक, अलग-अलग होती हैं. फ़ेयरनेस मेट्रिक के साथ काम नहीं करने से जुड़ी मेट्रिक देखें.

G

ग्रुप एट्रिब्यूशन में भेदभाव

#fairness

मान लें कि किसी एक व्यक्ति के लिए क्या सही है, वह ग्रुप के सभी लोगों के लिए भी सही है. डेटा एट्रिब्यूशन के लिए इस्तेमाल किए जाने वाले सुविधा के नमूने का इस्तेमाल करने पर, ग्रुप एट्रिब्यूशन के झुकाव के असर को और ज़्यादा बढ़ाया जा सकता है. अगर किसी सैंपल से जुड़ी जानकारी सटीक नहीं है, तो उसके लिए एट्रिब्यूशन दिए जा सकते हैं.

आउट-ग्रुप एक जैसा भेदभाव और इन-ग्रुप बायस भी देखें.

I

इंप्लिसिट बायस

#fairness

किसी के मानसिक मॉडल और यादों के आधार पर, अपने-आप उनसे जुड़ने या अनुमान लगाने से जुड़े काम किए जाते हैं. इंप्लिसिट बायस नतीजों से इन चीज़ों पर असर पड़ सकता है:

  • डेटा को इकट्ठा करने और उसे कैटगरी में बांटने का तरीका.
  • मशीन लर्निंग सिस्टम को कैसे डिज़ाइन और डेवलप किया जाता है.

उदाहरण के लिए, शादी की फ़ोटो की कैटगरी तय करने के लिए, इंजीनियर फ़ोटो में सफ़ेद ड्रेस की सुविधा का इस्तेमाल कर सकता है. हालांकि, सफ़ेद पहनावे का असर, कुछ खास युगों और कुछ खास संस्कृतियों में रहा है.

पुष्टि करने का मापदंड भी देखें.

फ़ेयरनेस मेट्रिक के साथ काम न करना

#fairness

यह सोच कि निष्पक्षता की कुछ बातें साथ-साथ काम नहीं करतीं और एक साथ संतुष्ट नहीं किए जा सकते हैं. नतीजे के तौर पर, कोई एक Universal मेट्रिकसभी एमएल समस्याओं पर लागू नहीं किया जा सकता.

हालांकि, यह बात आपको बुरा लग सकता है, लेकिन निष्पक्षता की मेट्रिक का साथ देने का मतलब यह नहीं है कि निष्पक्षता से जुड़ी कोशिशों का कोई फ़ायदा नहीं होता. इसके बजाय, हमारा सुझाव है कि एमएल की किसी समस्या के लिए, निष्पक्षता के बारे में बताया जाना चाहिए. साथ ही, उसका मकसद इस्तेमाल के उदाहरणों से खास तरह के नुकसान से बचना चाहिए.

इस विषय पर ज़्यादा जानकारी के लिए, "फ़ेयरनेस की संभावना ("इनकार)" देखें.

व्यक्तिगत निष्पक्षता

#fairness

एक निष्पक्षता मेट्रिक जो यह देखती है कि मिलते-जुलते लोगों को एक ही तरह से बांटा गया है या नहीं. उदाहरण के लिए, हो सकता है कि Broddingnagian Academy अलग-अलग निष्पक्षता बनाए रखना चाहे. इससे यह पक्का किया जा सकता है कि मिलते-जुलते ग्रेड और स्टैंडर्ड स्कोर वाले दो छात्र/छात्राओं को बराबरी के सर्टिफ़िकेट मिल सकें.

ध्यान दें कि हर निष्पक्षता पूरी तरह से इस बात पर निर्भर करती है कि आपने "समानता" (इस मामले में, ग्रेड और टेस्ट स्कोर) को कैसे तय किया है. साथ ही, अगर आपकी समानता की मेट्रिक में अहम जानकारी (जैसे, छात्र/छात्रा के पाठ्यक्रम की सख्ती) शामिल नहीं है, तो नया निष्पक्षता से जुड़ी समस्याएं आ सकती हैं.

हर व्यक्ति की निष्पक्षता के बारे में ज़्यादा जानकारी के लिए, "फ़ेयरनेस थ्रू अवेयरनेस" देखें.

इन-ग्रुप बायस

#fairness

खुद के समूह या अपनी विशेषताओं के हिसाब से कुछ दिखाना. अगर टेस्टर या रेटिंग देने वाले लोग, मशीन लर्निंग डेवलपर के दोस्त, परिवार या सहकर्मी हैं, तो इन-ग्रुप बायस की वजह से, प्रॉडक्ट टेस्टिंग या डेटासेट अमान्य हो सकता है.

इन-ग्रुप बायस ग्रुप एट्रिब्यूशन का होता है. यह भी देखें कि आउट ग्रुप के बीच एक जैसा भेदभाव कैसे होता है.

N

नॉन-रिस्पॉन्स बायस

#fairness

चुनावी भेदभाव देखें.

O

ग्रुप के बीच एक जैसा भेदभाव

#fairness

ग्रुप के बाहर के सदस्यों की तरह, ग्रुप के सदस्यों की तरह व्यवहार करने, व्यवहार, व्यवहार, और खास बातों और अन्य विशेषताओं की तुलना करने पर, एक जैसा व्यवहार देखने को मिलता है. ग्रुप में उन लोगों को कहते हैं जिनसे आप नियमित तौर पर इंटरैक्ट करते हैं; आउट-ग्रुप उन लोगों को कहते हैं जिनसे आप नियमित रूप से इंटरैक्ट नहीं करते हैं. {0}अगर आपको डेटासेट के ज़रिए लोगों से आउट-ग्रुप के बारे में जानकारी देने के लिए कहा जाता है, तो इन एट्रिब्यूट की विशेषताओं के मुकाबले उनमें कम अंतर होता है. साथ ही, यह भी हो सकता है कि ग्रुप में शामिल लोगों के लिए लिस्ट किए गए एट्रिब्यूट की तुलना में ज़्यादा टाइप किए गए एट्रिब्यूट हों.

उदाहरण के लिए, लिलीपुटियन अन्य लिलीपुटियन के घरों के बारे में विस्तार से बताते हैं. साथ ही, वास्तुकला शैली, विंडो, दरवाज़े, और आकार में छोटे-मोटे अंतर बताते हैं. हालांकि, हालांकि, लिलीपुट के वही लोग यह एलान कर सकते हैं कि ब्रोब्डिंगनगियन सभी एक ही घर में रहते हैं.

आउट-ग्रुप होमोजीनिटी बायस एक तरह का ग्रुप एट्रिब्यूशन बायस का हिस्सा है.

इन-ग्रुप बायस भी देखें.

P

पार्टिसिपेशन बायस

#fairness

नॉन-रिस्पॉन्स बायस के लिए समानार्थी शब्द. चुनावी भेदभाव देखें.

प्रोसेसिंग के बाद

#fairness
#fundamentals

मॉडल चलने के बाद, मॉडल के आउटपुट में बदलाव करना. बाद में प्रोसेस करने की सुविधा का इस्तेमाल करके, फ़ेयरनेस कंस्ट्रेंट को लागू किया जा सकता है. इसके लिए, मॉडल में बदलाव करने की ज़रूरत नहीं होती.

उदाहरण के लिए, कोई क्लासिफ़िकेशन थ्रेशोल्ड सेट करके, बाइनरी क्लासिफ़ायर में पोस्ट-प्रोसेसिंग लागू की जा सकती है. इससे कुछ एट्रिब्यूट के लिए यह जांच की जा सकती है कि सही पॉज़िटिव रेट, उस एट्रिब्यूट की सभी वैल्यू के लिए एक जैसा ही रहता है. इसलिए, ऑपर्च्यूनिटी ऑफ़ ऑपर्च्यूनिटी का रखरखाव किया जाता है.

अनुमानित समानता

#fairness

फ़ेयरनेस मेट्रिक यह जांच करती है कि किसी दिए गए क्लासिफ़ायर के लिए, सटीक दरें, उन सबग्रुप के बराबर हैं जिन पर विचार किया जा रहा है.

उदाहरण के लिए, कॉलेज का अनुमान लगाने वाला कोई मॉडल, राष्ट्रीयता के लिए अनुमानित समानता को पूरा कर पाएगा. ऐसा तब होता है, जब लिलीप्यूटियन और ब्रोब्डिंगनागियन के लिए वैल्यू की सटीक वैल्यू एक जैसी हो.

अनुमानित समानता को कभी-कभी अनुमानित कीमत एक जैसी भी कहा जाता है.

अनुमानित समानता के बारे में ज़्यादा जानकारी के लिए, "फ़ेयरनेस डेफ़िनिशन" की जानकारी " (सेक्शन 3.2.1) देखें.

अनुमानित दर एक जैसी है

#fairness

अनुमानित समानता का एक और नाम.

प्री-प्रोसेसिंग

#fairness
मॉडल को ट्रेनिंग देने के लिए, इस्तेमाल किए जाने से पहले डेटा को प्रोसेस करना. प्री-प्रोसेसिंग, अंग्रेज़ी टेक्स्ट डिक्शनरी में मौजूद शब्दों को हटाने जितना आसान हो सकता है. यह डेटा एंट्री को डेटा पॉइंट को फिर से ज़ाहिर करने जितना मुश्किल भी हो सकता है. साथ ही, यह ऐसे कई एट्रिब्यूट को हटा देता है जो संवेदनशील एट्रिब्यूट से जुड़े होते हैं. प्री-प्रोसेसिंग से फ़ेयरनेस की समस्याएं ठीक हो सकती हैं.

प्रॉक्सी (संवेदनशील विशेषताएं)

#fairness
संवेदनशील एट्रिब्यूट के लिए, स्टैंडबाय मोड में इस्तेमाल किए गए एट्रिब्यूट को. उदाहरण के लिए, किसी व्यक्ति के पिन कोड का इस्तेमाल उसकी आय, नस्ल या जातीयता के प्रॉक्सी के तौर पर किया जा सकता है.

आर

रिपोर्टिंग बायस

#fairness

यह बात जिस तथ्य के लिए लोगों के ऐक्शन, आउटकम या प्रॉपर्टी के बारे में लिखती है, वह असल दुनिया की फ़्रीक्वेंसी और किसी व्यक्ति की वर्ग की विशेषता को दिखाने वाली डिग्री नहीं है. रिपोर्टिंग बायस से, मशीन लर्निंग सिस्टम के डेटा के कंपोज़िशन पर असर पड़ सकता है.

उदाहरण के लिए, किताबों में हंसी शब्द की तुलना में हंसी ज़्यादा लोकप्रिय है. मशीन लर्निंग मॉडल, किसी किताब के संग्रह से हंसने और सांस लेने की फ़्रीक्वेंसी का अनुमान लगाने से तय होता है कि हंसने की संख्या, सांस लेने की तुलना में ज़्यादा आम है या नहीं.

रवि

सैंपलिंग बायस

#fairness

चुनावी भेदभाव देखें.

सिलेक्शन बायस

#fairness

चुनी गई प्रोसेस की वजह से नमूने के तौर पर मिले डेटा से ली गई गड़बड़ियां. ये डेटा के उन नमूनों में व्यवस्थित तरीके से अंतर करती हैं जो डेटा में मौजूद नहीं हैं और जो नहीं देखे गए. चुने गए पक्षपात के ये रूप मौजूद हैं:

  • कवरेज से जुड़ी गड़बड़ी: डेटासेट में दिखाई गई जनसंख्या, उस जनसंख्या से मेल नहीं खाती जिसके बारे में मशीन लर्निंग मॉडल अनुमान लगा रहा है.
  • सैंपल बायस: टारगेट ग्रुप से डेटा, किसी भी क्रम में इकट्ठा नहीं किया जाता.
  • नॉन-रिस्पॉन्स बायस (हिस्सा लेने से जुड़ा भेदभाव): कुछ ग्रुप के उपयोगकर्ता, दूसरे ग्रुप के उपयोगकर्ताओं की तुलना में अलग-अलग दरों पर सर्वे से ऑप्ट-आउट करते हैं.

उदाहरण के लिए, मान लीजिए कि आप एक ऐसा मशीन लर्निंग मॉडल बना रहे हैं, जो यह अनुमान लगाता है कि लोगों को कोई फ़िल्म पसंद आएगी या नहीं. ट्रेनिंग का डेटा इकट्ठा करने के लिए, आपको थिएटर की अगली पंक्ति में सभी को एक सर्वे दिखाना होता है. हैरान हो सकता है कि यह डेटासेट इकट्ठा करने का सही तरीका लग सकता है. हालांकि, डेटा इकट्ठा करने के इस तरीके से, चुने गए इस तरह के भेदभाव हो सकते हैं:

  • कवरेज से जुड़ा भेदभाव: फ़िल्म देखने के लिए चुनी गई जनसंख्या के नमूने का इस्तेमाल करके, आपके मॉडल के अनुमान उन लोगों के लिए आम नहीं होंगे जो पहले से ही उस स्तर की फ़िल्म में दिलचस्पी नहीं दिखा रहे हैं.
  • सैंपलिंग बायस: सैंपल के तौर पर इस्तेमाल किए जाने वाले लोगों (सभी फ़िल्मों में मौजूद लोगों) को बिना किसी क्रम के चुने जाने के बजाय, आपने सिर्फ़ आगे की लाइन में मौजूद लोगों को सैंपल किया. हो सकता है कि अगली लाइन में रहने वाले लोग, फ़िल्म की अगली लाइन में ज़्यादा दिलचस्पी दिखाएं.
  • नॉन-रिस्पॉन्स बायस: आम तौर पर, सामान्य राय वाले लोगों की तुलना में वैकल्पिक राय वाले लोग ज़्यादा वैकल्पिक सर्वे का जवाब देते हैं. फ़िल्म का सर्वे वैकल्पिक होता है. इसलिए, जवाब मिलने की संभावना ज़्यादा होती है, जैसे किबायमोडल डिस्ट्रिब्यूशन सामान्य (घंटी के आकार का) डिस्ट्रिब्यूशन.

संवेदनशील एट्रिब्यूट

#fairness
ऐसी मानवीय विशेषता जिसे कानूनी, नैतिक, सामाजिक या निजी वजहों से खास तौर पर ध्यान में रखा जा सकता है.

U

जागरूकता (संवेदनशील विशेषता के लिए)

#fairness

ऐसी स्थिति जिसमें संवेदनशील विशेषताएं मौजूद हों, लेकिन ट्रेनिंग डेटा में शामिल न हों. संवेदनशील एट्रिब्यूट को किसी व्यक्ति के डेटा के अन्य एट्रिब्यूट से जोड़कर देखा जाता है. इसलिए, संवेदनशील एट्रिब्यूट के बारे में जानकारी न होने पर प्रशिक्षित मॉडल से, उस एट्रिब्यूट को लेकर अलग-अलग असर पड़ सकता है. साथ ही, फ़ेयरनेस की कमी का उल्लंघन भी कर सकता है.