इस पेज में फ़ेयरनेस शब्दावली से जुड़े शब्द शामिल हैं. शब्दावली के सभी शब्दों के लिए, यहां क्लिक करें.
A
एट्रिब्यूट
सुविधा का समानार्थी शब्द.
मशीन लर्निंग फ़ेयरनेस में, एट्रिब्यूट अक्सर उन एट्रिब्यूट से जुड़े होते हैं जो लोगों से जुड़े होते हैं.
ऑटोमेशन से जुड़ी गड़बड़ी
जब कोई व्यक्ति फ़ैसला लेने वाला व्यक्ति, अपने-आप फ़ैसला लेने वाले सिस्टम से मिलने वाले सुझावों का इस्तेमाल करता है, तो यह सिस्टम उन गड़बड़ियों की जानकारी देता है जो अपने-आप तय होती हैं. भले ही, अपने-आप फ़ैसले लेने वाले सिस्टम में गड़बड़ियां हों.
B
भेदभाव (नैतिकता/फ़ेयरनेस)
1. कुछ चीज़ों, लोगों या दूसरे ग्रुप के ऊपर पक्षपात करना, पक्षपात या पक्षपात करना. इन अनचाही चीज़ों से डेटा को इकट्ठा करने, उसे समझने, सिस्टम के डिज़ाइन, और सिस्टम के साथ उपयोगकर्ता के इंटरैक्ट करने के तरीके पर असर पड़ सकता है. इस तरह के भेदभाव का असर ये हो सकता है:
- ऑटोमेशन बायस
- पुष्टि करने से जुड़ा भेदभाव
- प्रयोग करने वाले व्यक्ति का मापदंड
- ग्रुप एट्रिब्यूशन से जुड़ा भेदभाव
- इंप्लिसिट बायस
- इन-ग्रुप बायस
- आउट-ग्रुप एक जैसा होने का भेदभाव
2. नमूने या रिपोर्टिंग प्रोसेस से शुरू हुई सिस्टम की गड़बड़ी. इस तरह के भेदभाव का असर ये हो सकता है:
मशीन लर्निंग मॉडल में मौजूद बायस शब्द या प्रीडिक्शन बायस से जुड़ी कोई भ्रम की स्थिति नहीं होनी चाहिए.
C
कंफ़र्मेशन बायस
किसी व्यक्ति की पहले से मौजूद आस्थाओं या अनुमानों की पुष्टि करने के लिए, जानकारी खोजने, उनके बारे में जानकारी देने, उनके पक्ष में आने, और उन्हें वापस लाने की संभावना. मशीन लर्निंग डेवलपर ऐसे डेटा को अनजाने में इकट्ठा या लेबल कर सकते हैं जो उनके मौजूदा विचारों पर असर डालते हैं. कंफ़र्मेशन बायस एक तरह का इंप्लिसिट बायस है.
एक्सपेरिमेंटर बायस एक तरह का कंफ़र्मेशन बायस है. इसमें प्रयोग करने वाले तब तक मॉडल को ट्रेनिंग देते रहते हैं, जब तक पहले से मौजूद किसी अनुमान की पुष्टि नहीं हो जाती.
कानूनी विरोध करने के लिए सही
फ़ेयरनेस मेट्रिक की मदद से, यह पता लगाया जाता है कि कैटगरी तय करने वाला व्यक्ति, किसी एक व्यक्ति के लिए एक जैसा नतीजा जनरेट करता है या नहीं, जैसा कि किसी दूसरे व्यक्ति के लिए किया जाता है. हालांकि, इसमें एक या उससे ज़्यादा संवेदनशील एट्रिब्यूट शामिल नहीं होते. किसी कॉन्टेंट की कैटगरी तय करने के लिए, उसका आकलन किया जाता है.कानूनी विरोध के बारे में ज़्यादा जानकारी के लिए, जब दुनिया का कोलाइड: "अलग-अलग काउंटरफ़ैक्चुअल डिसिज़न ऑफ़ फ़ेयरनेस" देखें.
कवरेज बायस
चुनावी भेदभाव देखें.
D
जनसांख्यिकी समानता
अगर किसी मॉडल की कैटगरी तय करने के नतीजे, दिए गए संवेदनशील एट्रिब्यूट पर निर्भर नहीं हैं, तो इससे संतुष्ट फ़ेयरनेस मेट्रिक होती है.
उदाहरण के लिए, अगर लिलीपुटियन और ब्रोब्डिंगनागियन, दोनों ही ग्लुबडुब्रिब यूनिवर्सिटी में लागू होते हैं, तो उम्र, लिंग, आय, शिक्षा वगैरह के हिसाब से एक जैसे नतीजे मिलते हैं. ऐसा तब होता है, जब लिलिपुटियन के स्वीकार किए गए प्रतिशत का प्रतिशत बराबर हो.
बराबर होने की संभावना और अवसर की समानता में अंतर है, जो संवेदनशील एट्रिब्यूट पर निर्भर करने के आधार पर, क्लासिफ़िकेशन को एग्रीगेट करने की अनुमति देता है. हालांकि, संवेदनशील एट्रिब्यूट पर निर्भर करने के लिए, तय किए गए ग्राउंड-ट्रूथ लेबल के लिए नतीजों को अलग-अलग कैटगरी में बांटने की अनुमति नहीं देता. डेमोग्राफ़िक (उम्र, लिंग, आय, शिक्षा वगैरह) के हिसाब से ऑप्टिमाइज़ करने के लिए, विज़ुअलाइज़ेशन के लिए "स्मार्ट मशीन लर्निंग के साथ होने वाले भेदभाव का सामना करना" देखें.
फ़र्क़ का असर
अलग-अलग जनसंख्या के छोटे-छोटे ग्रुप पर असर डालने वाले लोगों के बारे में फ़ैसले लेना. आम तौर पर, यह ऐसी स्थितियों के बारे में बताता है जब एल्गोरिदम से जुड़ा फ़ैसला लेने वाली प्रोसेस कुछ उप-ग्रुप को नुकसान पहुंचाती है या उनका फ़ायदा देती है.
उदाहरण के लिए, मान लीजिए कि एक एल्गोरिदम, जो यह तय करता है कि छोटे कारोबार के लिए लिलीपुट की ज़रूरी शर्तें पूरी होंगी या नहीं, अगर उनके डाक पते में कोई खास पिन कोड होगा, तो ऐसे में उन्हें “मंज़ूरी नहीं मिली” की कैटगरी में रखा जाएगा. इस बात की ज़्यादा संभावना है कि लिग-एंडियन लिलीपुटियन की तुलना में बिग-एंडियन लिलीपुट के डाक पते से डाक के पते भेजे गए हों. इसलिए, इस एल्गोरिदम का असर अलग-अलग हो सकता है.
अलग-अलग ट्रीटमेंट में अंतर होता है. सब-ग्रुप की विशेषताओं की वजह से, एल्गोरिदम के आधार पर फ़ैसला लेने की प्रोसेस में सीधे तौर पर इनपुट मिलता है.
असमान व्यवहार
विषयों के संवेदनशील एट्रिब्यूट को एल्गोरिदम के आधार पर फ़ैसला लेने की प्रक्रिया में शामिल किया जाता है. इससे, लोगों के अलग-अलग सबग्रुप को अलग-अलग तरीके से व्यवहार किया जाता है.
उदाहरण के लिए, एक ऐसा एल्गोरिदम देखें जो लिलीपुटियन को क़र्ज़ के लिए मिले आवेदन के डेटा के आधार पर, मिनी-होम लोन के लिए ज़रूरी शर्तें तय करता है. अगर एल्गोरिदम, इनपुट के तौर पर लिलीपुटियन की वैल्यू को बिग-एंडियन या लिटिल-एंडियन के तौर पर इस्तेमाल करता है, तो उस डाइमेंशन के साथ अलग व्यवहार लागू किया जाता है.
अलग-अलग असर वाला कॉन्टेंट होता है, जो सबग्रुप पर एल्गोरिदम के फ़ैसलों के सामाजिक असर पर फ़ोकस करता है. भले ही, वे सबग्रुप, मॉडल में इनपुट हों या न हों.
E
अवसर की समानता
किसी फ़ेयर मेट्रिक की मदद से, यह पता लगाया जाता है कि किसी पसंदीदा लेबल (जो किसी को फ़ायदा पहुंचाता है या किसी व्यक्ति को फ़ायदा मिलता है) और दी गई एट्रिब्यूट के लिए, डेटा की कैटगरी तय करने वाला यह बताता है कि उस एट्रिब्यूट की सभी वैल्यू के लिए लेबल उसी तरह लागू होगा. दूसरे शब्दों में, अवसर की समानता यह मापती है कि क्या किसी अवसर के लिए योग्य लोगों को ग्रुप की सदस्यता से कोई फ़र्क़ नहीं पड़ता.उदाहरण के लिए, मान लें कि ग्लुबडुब्रिब यूनिवर्सिटी ने लिलीपुटियन और ब्रोब्डिंगनागियंस को गणित के एक सख्त प्रोग्राम में पढ़ाया है. लिलिपुटियन के सेकंडरी स्कूल, गणित की कक्षाओं का एक मज़बूत पाठ्यक्रम पेश करते हैं. इनमें से ज़्यादातर छात्र, यूनिवर्सिटी प्रोग्राम के लिए क्वालिफ़ाई करते हैं. ब्रोब्डिंगनगिया के सेकंडरी स्कूल में गणित की क्लास बिलकुल नहीं मिलती. इसलिए, उनके बहुत कम छात्र-छात्राएं योग्य होते हैं. राष्ट्रीयता (लिलीपुटियन या ब्रॉडिंगनागियन) को ध्यान में रखते हुए, "मंज़ूरी दी गई" के पसंदीदा लेबल को बराबरी का मौका देने का मतलब है कि अगर लिडिपुट या ब्रोब्डिंगनागियन है, तो इस बात से कोई फ़र्क़ नहीं पड़ता कि छात्र-छात्राओं को एडमिशन मिला है या नहीं.
उदाहरण के लिए, मान लें कि 100 लिलीपुटियन और 100 Brobdingnagians, ग्लूबडुब्रिब यूनिवर्सिटी में आवेदन करते हैं और प्रवेश से जुड़े फ़ैसले इस तरह से लिए जाते हैं:
टेबल 1. लिलीपुट के आवेदक (90% योग्य हैं)
क्वालिफ़ाई किया है | अयोग्य | |
---|---|---|
शामिल होने की तारीख | 45 | 3 |
अस्वीकार किया गया | 45 | 7 |
कुल | 90 | 10 |
शर्तें पूरी करने वाले छात्र-छात्राओं का प्रतिशत: 45/90 = 50% नामंज़ूर किए गए छात्रों का प्रतिशत: 7/10 = 70% लिलीपुट के छात्र-छात्राओं का कुल प्रतिशत: (45+3)/100 = 48% |
टेबल 2. Broddingnagian के आवेदक (10% योग्य हैं):
क्वालिफ़ाई किया है | अयोग्य | |
---|---|---|
शामिल होने की तारीख | 5 | 9 |
अस्वीकार किया गया | 5 | 81 |
कुल | 10 | 90 |
शर्तें पूरी करने वाले छात्र-छात्राओं का प्रतिशत: 5/10 = 50% अस्वीकार किए गए छात्र-छात्राओं का प्रतिशत: 81/90 = 90% ब्रोडडिनेशियन छात्र/छात्राओं का कुल प्रतिशत: (5+9)/100 = 14% |
पहले के उदाहरणों में, योग्यता पा चुके छात्र/छात्राओं को स्वीकार करने के समान अवसर दिए गए हैं, क्योंकि लिलीपुटियन और ब्रॉडिंगनागियन योग्य हैं, क्योंकि इन दोनों के आवेदन में शामिल होने की संभावना 50% है.
अवसर की बराबरी के बारे में ज़्यादा जानकारी के लिए, सुपरवाइज़्ड लर्निंग में अवसर की समानता" देखें. साथ ही, अवसर की समानता के लिए ऑप्टिमाइज़ करते समय होने वाले विश्लेषण के लिए, "स्मार्ट मशीन लर्निंग के साथ भेदभाव से बचाव" का विज़ुअलाइज़ेशन देखें.
बराबर विषमता
फ़ेयरनेस मेट्रिक की मदद से, यह जांच की जाती है कि किसी लेबल और एट्रिब्यूट के लिए एट्रिब्यूट की कैटगरी तय करने पर, वह लेबल उस एट्रिब्यूट की सभी वैल्यू के लिए बराबर लेबल लगाता है.उदाहरण के लिए, मान लें कि ग्लुबडुब्रिब यूनिवर्सिटी ने लिलीपुटियन और ब्रोब्डिंगनागियंस को गणित के एक सख्त प्रोग्राम में दाखिला लिया है. लिलीपुटियन के सेकंडरी स्कूल, गणित की कक्षाओं का एक मज़बूत पाठ्यक्रम पेश करते हैं. इनमें से ज़्यादातर छात्र/छात्राएं यूनिवर्सिटी प्रोग्राम के लिए क्वालिफ़ाइड हैं. ब्रोब्डिंगनगियन के सेकंडरी स्कूलों में गणित की क्लास बिलकुल नहीं दी जा सकती. इसकी वजह से, बहुत कम छात्र-छात्राएं इन्हें क्वालिफ़ाई कर लेते हैं. बराबरी के नज़रिए से यह स्वीकार किया जाता है कि अगर कोई आवेदक लिलीपुटियन या ब्रोब्डिंगनागियन है, तो इस बात की कोई संभावना नहीं है कि अगर वे योग्य हैं, तो उन्हें भी प्रोग्राम में शामिल होने की बराबर अनुमति होगी. इसके अलावा, अगर वे योग्य नहीं हैं, तो उनके आवेदन अस्वीकार किए जाने की संभावना भी बराबर होगी.
मान लें कि ग्लूबडुब्रिब में 100 लिलिपुटियन और 100 Broddingnagians लागू होते हैं, और दाखिले का फ़ैसला इस तरह लिया जाता है:
टेबल 3. लिलीपुट के आवेदक (90% योग्य हैं)
क्वालिफ़ाई किया है | अयोग्य | |
---|---|---|
शामिल होने की तारीख | 45 | 2 |
अस्वीकार किया गया | 45 | 8 |
कुल | 90 | 10 |
शर्तें पूरी करने वाले छात्र-छात्राओं का प्रतिशत: 45/90 = 50% अस्वीकार किए गए छात्र-छात्राओं का प्रतिशत: 8/10 = 80% लिलीपुट के छात्र-छात्राओं का कुल प्रतिशत: (45+2)/100 = 47% |
टेबल 4. Broddingnagian के आवेदक (10% योग्य हैं):
क्वालिफ़ाई किया है | अयोग्य | |
---|---|---|
शामिल होने की तारीख | 5 | 18 |
अस्वीकार किया गया | 5 | 72 |
कुल | 10 | 90 |
शर्तें पूरी करने वाले छात्र-छात्राओं का प्रतिशत: 5/10 = 50% ज़रूरी शर्तें पूरी न करने वाले छात्र-छात्राओं का प्रतिशत: 72/90 = 80% ब्रोडिंगनाग के छात्र-छात्राओं का कुल प्रतिशत: (5+18)/100 = 23% |
दोनों तरह की स्थितियों में संतुष्ट होने की वजह यह है कि लिलीपुटियन और ब्रॉडिंगनागियन के सभी छात्र-छात्राएं इस परीक्षा में शामिल होने की 50% संभावना रखते हैं.
बराबरी वाली संभावनाओं को औपचारिक रूप से "निगरानी में रखे गए शिक्षा में अवसर की बराबरी" के तौर पर परिभाषित किया जाता है. यह तरीका है: "पूर्वाधिकारी ζ, सुरक्षित विशेषता A के लिए बराबरी की संभावनाओं को पूरा करता है. अगर Y और A, स्वतंत्र हैं, तो Y के नतीजे हैं."
एक्सपेरिमेंटर बायस
पुष्टि करने से जुड़ा भेदभाव देखें.
शुक्र
फ़ेयरनेस कंस्ट्रेंट
यह पक्का करने के लिए कि निष्पक्षता की एक या ज़्यादा परिभाषाएं पूरी हों, एक एल्गोरिदम पर कंस्ट्रेंट लागू करें. फ़ेयरनेस से जुड़ी पाबंदियों के उदाहरण:- आपके मॉडल के आउटपुट को प्रोसेस करने के बाद.
- लॉस फ़ंक्शन में बदलाव करके, फ़ेयर मेट्रिक का उल्लंघन करने वाले जुर्माने को शामिल करना है.
- सीधे किसी ऑप्टिमाइज़ेशन समस्या में गणित का कंस्ट्रेंट जोड़ना.
फ़ेयरनेस मेट्रिक
मापे जाने वाले “फ़ेयरनेस” की गणित से जुड़ी परिभाषा. आम तौर पर, इस्तेमाल की जाने वाली फ़ेयरनेस की कुछ मेट्रिक के बारे में यहां बताया गया है:
फ़ेयरनेस की कई मेट्रिक, अलग-अलग होती हैं. फ़ेयरनेस मेट्रिक के साथ काम नहीं करने से जुड़ी मेट्रिक देखें.
G
ग्रुप एट्रिब्यूशन में भेदभाव
मान लें कि किसी एक व्यक्ति के लिए क्या सही है, वह ग्रुप के सभी लोगों के लिए भी सही है. डेटा एट्रिब्यूशन के लिए इस्तेमाल किए जाने वाले सुविधा के नमूने का इस्तेमाल करने पर, ग्रुप एट्रिब्यूशन के झुकाव के असर को और ज़्यादा बढ़ाया जा सकता है. अगर किसी सैंपल से जुड़ी जानकारी सटीक नहीं है, तो उसके लिए एट्रिब्यूशन दिए जा सकते हैं.
आउट-ग्रुप एक जैसा भेदभाव और इन-ग्रुप बायस भी देखें.
I
इंप्लिसिट बायस
किसी के मानसिक मॉडल और यादों के आधार पर, अपने-आप उनसे जुड़ने या अनुमान लगाने से जुड़े काम किए जाते हैं. इंप्लिसिट बायस नतीजों से इन चीज़ों पर असर पड़ सकता है:
- डेटा को इकट्ठा करने और उसे कैटगरी में बांटने का तरीका.
- मशीन लर्निंग सिस्टम को कैसे डिज़ाइन और डेवलप किया जाता है.
उदाहरण के लिए, शादी की फ़ोटो की कैटगरी तय करने के लिए, इंजीनियर फ़ोटो में सफ़ेद ड्रेस की सुविधा का इस्तेमाल कर सकता है. हालांकि, सफ़ेद पहनावे का असर, कुछ खास युगों और कुछ खास संस्कृतियों में रहा है.
पुष्टि करने का मापदंड भी देखें.
फ़ेयरनेस मेट्रिक के साथ काम न करना
यह सोच कि निष्पक्षता की कुछ बातें साथ-साथ काम नहीं करतीं और एक साथ संतुष्ट नहीं किए जा सकते हैं. नतीजे के तौर पर, कोई एक Universal मेट्रिकसभी एमएल समस्याओं पर लागू नहीं किया जा सकता.
हालांकि, यह बात आपको बुरा लग सकता है, लेकिन निष्पक्षता की मेट्रिक का साथ देने का मतलब यह नहीं है कि निष्पक्षता से जुड़ी कोशिशों का कोई फ़ायदा नहीं होता. इसके बजाय, हमारा सुझाव है कि एमएल की किसी समस्या के लिए, निष्पक्षता के बारे में बताया जाना चाहिए. साथ ही, उसका मकसद इस्तेमाल के उदाहरणों से खास तरह के नुकसान से बचना चाहिए.
इस विषय पर ज़्यादा जानकारी के लिए, "फ़ेयरनेस की संभावना ("इनकार)" देखें.
व्यक्तिगत निष्पक्षता
एक निष्पक्षता मेट्रिक जो यह देखती है कि मिलते-जुलते लोगों को एक ही तरह से बांटा गया है या नहीं. उदाहरण के लिए, हो सकता है कि Broddingnagian Academy अलग-अलग निष्पक्षता बनाए रखना चाहे. इससे यह पक्का किया जा सकता है कि मिलते-जुलते ग्रेड और स्टैंडर्ड स्कोर वाले दो छात्र/छात्राओं को बराबरी के सर्टिफ़िकेट मिल सकें.
ध्यान दें कि हर निष्पक्षता पूरी तरह से इस बात पर निर्भर करती है कि आपने "समानता" (इस मामले में, ग्रेड और टेस्ट स्कोर) को कैसे तय किया है. साथ ही, अगर आपकी समानता की मेट्रिक में अहम जानकारी (जैसे, छात्र/छात्रा के पाठ्यक्रम की सख्ती) शामिल नहीं है, तो नया निष्पक्षता से जुड़ी समस्याएं आ सकती हैं.
हर व्यक्ति की निष्पक्षता के बारे में ज़्यादा जानकारी के लिए, "फ़ेयरनेस थ्रू अवेयरनेस" देखें.
इन-ग्रुप बायस
खुद के समूह या अपनी विशेषताओं के हिसाब से कुछ दिखाना. अगर टेस्टर या रेटिंग देने वाले लोग, मशीन लर्निंग डेवलपर के दोस्त, परिवार या सहकर्मी हैं, तो इन-ग्रुप बायस की वजह से, प्रॉडक्ट टेस्टिंग या डेटासेट अमान्य हो सकता है.
इन-ग्रुप बायस ग्रुप एट्रिब्यूशन का होता है. यह भी देखें कि आउट ग्रुप के बीच एक जैसा भेदभाव कैसे होता है.
N
नॉन-रिस्पॉन्स बायस
चुनावी भेदभाव देखें.
O
ग्रुप के बीच एक जैसा भेदभाव
ग्रुप के बाहर के सदस्यों की तरह, ग्रुप के सदस्यों की तरह व्यवहार करने, व्यवहार, व्यवहार, और खास बातों और अन्य विशेषताओं की तुलना करने पर, एक जैसा व्यवहार देखने को मिलता है. ग्रुप में उन लोगों को कहते हैं जिनसे आप नियमित तौर पर इंटरैक्ट करते हैं; आउट-ग्रुप उन लोगों को कहते हैं जिनसे आप नियमित रूप से इंटरैक्ट नहीं करते हैं. {0}अगर आपको डेटासेट के ज़रिए लोगों से आउट-ग्रुप के बारे में जानकारी देने के लिए कहा जाता है, तो इन एट्रिब्यूट की विशेषताओं के मुकाबले उनमें कम अंतर होता है. साथ ही, यह भी हो सकता है कि ग्रुप में शामिल लोगों के लिए लिस्ट किए गए एट्रिब्यूट की तुलना में ज़्यादा टाइप किए गए एट्रिब्यूट हों.
उदाहरण के लिए, लिलीपुटियन अन्य लिलीपुटियन के घरों के बारे में विस्तार से बताते हैं. साथ ही, वास्तुकला शैली, विंडो, दरवाज़े, और आकार में छोटे-मोटे अंतर बताते हैं. हालांकि, हालांकि, लिलीपुट के वही लोग यह एलान कर सकते हैं कि ब्रोब्डिंगनगियन सभी एक ही घर में रहते हैं.
आउट-ग्रुप होमोजीनिटी बायस एक तरह का ग्रुप एट्रिब्यूशन बायस का हिस्सा है.
इन-ग्रुप बायस भी देखें.
P
पार्टिसिपेशन बायस
नॉन-रिस्पॉन्स बायस के लिए समानार्थी शब्द. चुनावी भेदभाव देखें.
प्रोसेसिंग के बाद
मॉडल चलने के बाद, मॉडल के आउटपुट में बदलाव करना. बाद में प्रोसेस करने की सुविधा का इस्तेमाल करके, फ़ेयरनेस कंस्ट्रेंट को लागू किया जा सकता है. इसके लिए, मॉडल में बदलाव करने की ज़रूरत नहीं होती.
उदाहरण के लिए, कोई क्लासिफ़िकेशन थ्रेशोल्ड सेट करके, बाइनरी क्लासिफ़ायर में पोस्ट-प्रोसेसिंग लागू की जा सकती है. इससे कुछ एट्रिब्यूट के लिए यह जांच की जा सकती है कि सही पॉज़िटिव रेट, उस एट्रिब्यूट की सभी वैल्यू के लिए एक जैसा ही रहता है. इसलिए, ऑपर्च्यूनिटी ऑफ़ ऑपर्च्यूनिटी का रखरखाव किया जाता है.
अनुमानित समानता
फ़ेयरनेस मेट्रिक यह जांच करती है कि किसी दिए गए क्लासिफ़ायर के लिए, सटीक दरें, उन सबग्रुप के बराबर हैं जिन पर विचार किया जा रहा है.
उदाहरण के लिए, कॉलेज का अनुमान लगाने वाला कोई मॉडल, राष्ट्रीयता के लिए अनुमानित समानता को पूरा कर पाएगा. ऐसा तब होता है, जब लिलीप्यूटियन और ब्रोब्डिंगनागियन के लिए वैल्यू की सटीक वैल्यू एक जैसी हो.
अनुमानित समानता को कभी-कभी अनुमानित कीमत एक जैसी भी कहा जाता है.
अनुमानित समानता के बारे में ज़्यादा जानकारी के लिए, "फ़ेयरनेस डेफ़िनिशन" की जानकारी " (सेक्शन 3.2.1) देखें.
अनुमानित दर एक जैसी है
अनुमानित समानता का एक और नाम.
प्री-प्रोसेसिंग
मॉडल को ट्रेनिंग देने के लिए, इस्तेमाल किए जाने से पहले डेटा को प्रोसेस करना. प्री-प्रोसेसिंग, अंग्रेज़ी टेक्स्ट डिक्शनरी में मौजूद शब्दों को हटाने जितना आसान हो सकता है. यह डेटा एंट्री को डेटा पॉइंट को फिर से ज़ाहिर करने जितना मुश्किल भी हो सकता है. साथ ही, यह ऐसे कई एट्रिब्यूट को हटा देता है जो संवेदनशील एट्रिब्यूट से जुड़े होते हैं. प्री-प्रोसेसिंग से फ़ेयरनेस की समस्याएं ठीक हो सकती हैं.प्रॉक्सी (संवेदनशील विशेषताएं)
संवेदनशील एट्रिब्यूट के लिए, स्टैंडबाय मोड में इस्तेमाल किए गए एट्रिब्यूट को. उदाहरण के लिए, किसी व्यक्ति के पिन कोड का इस्तेमाल उसकी आय, नस्ल या जातीयता के प्रॉक्सी के तौर पर किया जा सकता है.आर
रिपोर्टिंग बायस
यह बात जिस तथ्य के लिए लोगों के ऐक्शन, आउटकम या प्रॉपर्टी के बारे में लिखती है, वह असल दुनिया की फ़्रीक्वेंसी और किसी व्यक्ति की वर्ग की विशेषता को दिखाने वाली डिग्री नहीं है. रिपोर्टिंग बायस से, मशीन लर्निंग सिस्टम के डेटा के कंपोज़िशन पर असर पड़ सकता है.
उदाहरण के लिए, किताबों में हंसी शब्द की तुलना में हंसी ज़्यादा लोकप्रिय है. मशीन लर्निंग मॉडल, किसी किताब के संग्रह से हंसने और सांस लेने की फ़्रीक्वेंसी का अनुमान लगाने से तय होता है कि हंसने की संख्या, सांस लेने की तुलना में ज़्यादा आम है या नहीं.
रवि
सैंपलिंग बायस
चुनावी भेदभाव देखें.
सिलेक्शन बायस
चुनी गई प्रोसेस की वजह से नमूने के तौर पर मिले डेटा से ली गई गड़बड़ियां. ये डेटा के उन नमूनों में व्यवस्थित तरीके से अंतर करती हैं जो डेटा में मौजूद नहीं हैं और जो नहीं देखे गए. चुने गए पक्षपात के ये रूप मौजूद हैं:
- कवरेज से जुड़ी गड़बड़ी: डेटासेट में दिखाई गई जनसंख्या, उस जनसंख्या से मेल नहीं खाती जिसके बारे में मशीन लर्निंग मॉडल अनुमान लगा रहा है.
- सैंपल बायस: टारगेट ग्रुप से डेटा, किसी भी क्रम में इकट्ठा नहीं किया जाता.
- नॉन-रिस्पॉन्स बायस (हिस्सा लेने से जुड़ा भेदभाव): कुछ ग्रुप के उपयोगकर्ता, दूसरे ग्रुप के उपयोगकर्ताओं की तुलना में अलग-अलग दरों पर सर्वे से ऑप्ट-आउट करते हैं.
उदाहरण के लिए, मान लीजिए कि आप एक ऐसा मशीन लर्निंग मॉडल बना रहे हैं, जो यह अनुमान लगाता है कि लोगों को कोई फ़िल्म पसंद आएगी या नहीं. ट्रेनिंग का डेटा इकट्ठा करने के लिए, आपको थिएटर की अगली पंक्ति में सभी को एक सर्वे दिखाना होता है. हैरान हो सकता है कि यह डेटासेट इकट्ठा करने का सही तरीका लग सकता है. हालांकि, डेटा इकट्ठा करने के इस तरीके से, चुने गए इस तरह के भेदभाव हो सकते हैं:
- कवरेज से जुड़ा भेदभाव: फ़िल्म देखने के लिए चुनी गई जनसंख्या के नमूने का इस्तेमाल करके, आपके मॉडल के अनुमान उन लोगों के लिए आम नहीं होंगे जो पहले से ही उस स्तर की फ़िल्म में दिलचस्पी नहीं दिखा रहे हैं.
- सैंपलिंग बायस: सैंपल के तौर पर इस्तेमाल किए जाने वाले लोगों (सभी फ़िल्मों में मौजूद लोगों) को बिना किसी क्रम के चुने जाने के बजाय, आपने सिर्फ़ आगे की लाइन में मौजूद लोगों को सैंपल किया. हो सकता है कि अगली लाइन में रहने वाले लोग, फ़िल्म की अगली लाइन में ज़्यादा दिलचस्पी दिखाएं.
- नॉन-रिस्पॉन्स बायस: आम तौर पर, सामान्य राय वाले लोगों की तुलना में वैकल्पिक राय वाले लोग ज़्यादा वैकल्पिक सर्वे का जवाब देते हैं. फ़िल्म का सर्वे वैकल्पिक होता है. इसलिए, जवाब मिलने की संभावना ज़्यादा होती है, जैसे किबायमोडल डिस्ट्रिब्यूशन सामान्य (घंटी के आकार का) डिस्ट्रिब्यूशन.
संवेदनशील एट्रिब्यूट
ऐसी मानवीय विशेषता जिसे कानूनी, नैतिक, सामाजिक या निजी वजहों से खास तौर पर ध्यान में रखा जा सकता है.U
जागरूकता (संवेदनशील विशेषता के लिए)
ऐसी स्थिति जिसमें संवेदनशील विशेषताएं मौजूद हों, लेकिन ट्रेनिंग डेटा में शामिल न हों. संवेदनशील एट्रिब्यूट को किसी व्यक्ति के डेटा के अन्य एट्रिब्यूट से जोड़कर देखा जाता है. इसलिए, संवेदनशील एट्रिब्यूट के बारे में जानकारी न होने पर प्रशिक्षित मॉडल से, उस एट्रिब्यूट को लेकर अलग-अलग असर पड़ सकता है. साथ ही, फ़ेयरनेस की कमी का उल्लंघन भी कर सकता है.