एमएल प्रैक्टिकल: Perspective API में निष्पक्षता

अपनी समझ की जांच करें: भेदभाव की पहचान करना और उसे दूर करना

भेदभाव की पहचान करना

एक्सरसाइज़ #1: मॉडल को एक्सप्लोर करें सेक्शन में, आपने इस बात की पुष्टि की है कि यह मॉडल उन टिप्पणियों को आपत्तिजनक कैटगरी में डाल रहा था जिनमें पहचान से जुड़े शब्द इस्तेमाल किए गए थे. इस भेदभाव की वजह को किन मेट्रिक से समझा जा सकता है? नीचे दिए गए विकल्पों के बारे में जानें.
सटीक जानकारी

सटीक सेटिंग से, उन अनुमानों के प्रतिशत का पता चलता है जो सही होते हैं—यह उन अनुमानों का प्रतिशत होता है जो सही मायनों में पॉज़िटिव या सही नेगेटिव होते हैं. अलग-अलग सबग्रुप (जैसे, अलग-अलग लिंग के लोगों की डेमोग्राफ़िक्स) की सटीक तुलना करके, हम हर ग्रुप के लिए मॉडल की परफ़ॉर्मेंस का आकलन कर सकते हैं. साथ ही, इससे किसी मॉडल पर भेदभाव के असर के बारे में पता चलता है.

हालांकि, सटीक होने की वजह से दोनों तरह के सुझावों को एक साथ देखा जाता है, लेकिन सही और गलत अनुमानों को ध्यान में रखा जाता है. इसलिए, यह दो तरह के सही अनुमानों और दो तरह के गलत सुझावों के बीच फ़र्क़ नहीं करता है. सिर्फ़ सटीक जानकारी देखने पर, हम ट्रू पॉज़िटिव, ट्रू नेगेटिव, फ़ॉल्स पॉज़िटिव, और फ़ॉल्स नेगेटिव के ब्रेकडाउन का पता नहीं लगा सकते. इससे, भेदभाव की वजह के बारे में ज़्यादा जानकारी मिल सकती है.

फ़ॉल्स पॉज़िटिव रेट

फ़ॉल्स पॉज़िटिव रेट (एफ़पीआर), असल नेगेटिव टिप्पणियों का प्रतिशत होता है, यानी कि बिना बुरे बर्ताव वाली टिप्पणियों को गलती से पॉज़िटिव कैटगरी में डाल दिया गया था. एफ़पीआर, मॉडल पर भेदभाव के असर का एक इंडिकेटर है. जब हम अलग-अलग सबग्रुप (जैसे, अलग-अलग जेंडर डेमोग्राफ़िक्स) के लिए एफ़पीआर की तुलना करते हैं, तब हमें पता चलता है कि जिन टेक्स्ट टिप्पणियों में लिंग से जुड़ी पहचान से जुड़े शब्द शामिल होते हैं उन्हें ऐसी टिप्पणियों की तुलना में गलत तरीके से बुरे बर्ताव (गलत पॉज़िटिव) के तौर पर मार्क किए जाने की संभावना ज़्यादा होती है जिनमें ये शब्द शामिल न हों.

हालांकि, हम इस भेदभाव के असर को मापने की कोशिश नहीं कर रहे हैं, हम इसकी वजह जानना चाहते हैं. ऐसा करने के लिए, हमें एफ़पीआर फ़ॉर्मूला के इनपुट को अच्छे से समझना होगा.

असल नेगेटिव और असल पॉज़िटिव
इस मॉडल की ट्रेनिंग और टेस्ट डेटासेट में, असल पॉज़िटिव, उन सभी टिप्पणियों के उदाहरण हैं जिनमें अच्छा बर्ताव किया गया है और असल नेगेटिव वे सभी उदाहरण हैं जो बुरे बर्ताव वाले नहीं हैं. यह देखते हुए कि पहचान से जुड़े शब्दों में कोई समस्या नहीं है, हम उम्मीद करते हैं कि ऐसी टिप्पणियों की संख्या संतुलित होगी जिनमें पहचान के लिए इस्तेमाल होने वाले शब्द शामिल हों. साथ ही, ऐसी टिप्पणियों की संख्या संतुलित होती है जो सही नहीं होती हैं. अगर हमें असल नेगेटिव की संख्या अनुपात के हिसाब से कम दिखती है, तो इसका मतलब है कि मॉडल को पॉज़िटिव या न्यूट्रल कॉन्टेक्स्ट में इस्तेमाल किए गए, पहचान से जुड़े शब्दों के बहुत ज़्यादा उदाहरण नहीं मिले. इस मामले में, यह मॉडल पहचान से जुड़े शब्दों और बुरे बर्ताव के बीच के संबंध को समझ सकता है.
फिर से बुलाएँ
रीकॉल, असल पॉज़िटिव अनुमानों का प्रतिशत होता है जिन्हें सही तरीके से पॉज़िटिव कैटगरी में रखा गया था. इससे हमें यह पता चलता है कि मॉडल ने बुरे बर्ताव वाली कितनी टिप्पणियों का पता लगाया है. यहां, हम फ़ॉल्स पॉज़िटिव (बुरे बर्ताव वाली ऐसी टिप्पणियां जिन्हें बुरे बर्ताव वाली कैटगरी में रखा गया था) को लेकर पूर्वाग्रह की चिंता करते हैं. इस बात को याद रखने से इस समस्या के बारे में कोई अहम जानकारी नहीं मिलती.

भेदभाव को दूर करना

इनमें से कौनसी कार्रवाई, एक्सरसाइज़ #1 और एक्सरसाइज़ #2 में इस्तेमाल की गई ट्रेनिंग के डेटा से, भेदभाव को दूर करने का असरदार तरीका हो सकती है? नीचे दिए गए विकल्पों के बारे में जानें.
ट्रेनिंग सेट में, पहचान से जुड़े शब्दों वाले ज़्यादा नेगेटिव (नॉनटॉक्सिक) उदाहरण जोड़ें.
पहचान से जुड़े शब्दों वाले और नेगेटिव उदाहरण (ऐसी टिप्पणियां जिनमें कोई बुरा बर्ताव नहीं है) जोड़ने से ट्रेनिंग सेट के बीच संतुलन बनाने में मदद मिलती है. इसके बाद, मॉडल को बुरे बर्ताव और बिना बुरे बर्ताव के संदर्भ में पहचान से जुड़े शब्दों के बीच बेहतर संतुलन दिखेगा. इससे, यह पता लगाया जा सकेगा कि इन शब्दों का इस्तेमाल किसी अन्य व्यक्ति के साथ नहीं किया जा सकता.
ट्रेनिंग सेट में, पहचान से जुड़े शब्दों वाले ज़्यादा पॉज़िटिव (बुरे बर्ताव वाले) उदाहरण जोड़ें.
पहचान से जुड़े शब्दों वाले उदाहरण के सबसेट में, बुरे बर्ताव वाले उदाहरण पहले से ही ज़्यादा दिखाए जा चुके हैं. अगर हम ट्रेनिंग सेट में ऐसे और भी उदाहरण जोड़ते हैं, तो हम मौजूदा भेदभाव को दूर करने के बजाय इसे और बढ़ा देंगे.
ट्रेनिंग सेट में, पहचान से जुड़े शब्दों के बिना, बुरे बर्ताव वाले और नेगेटिव उदाहरण जोड़ें.
नेगेटिव उदाहरणों में पहचान से जुड़े शब्दों को पहले से ही कम दिखाया गया है. पहचान से जुड़े शब्दों के बिना ज़्यादा नेगेटिव उदाहरण जोड़ने से यह असंतुलन बढ़ जाएगा और इससे भेदभाव हटाने में मदद नहीं मिलेगी.
ट्रेनिंग सेट में, पहचान से जुड़े शब्दों के बिना, पॉज़िटिव (बुरे बर्ताव वाले) उदाहरण जोड़ें.

यह मुमकिन है कि पहचान से जुड़े शब्दों के बिना और पॉज़िटिव उदाहरण जोड़ने से, पहचान से जुड़े शब्दों और बुरे बर्ताव के बीच के संबंध को खत्म करने में मदद मिले. इस अंतर को मॉडल ने पहले सीखा था.

भेदभाव के लिए आकलन करना

आपने टेक्स्ट में बुरे बर्ताव की कैटगरी तय करने वाले टूल को शुरुआत से ही ट्रेनिंग दी है. इसके इस्तेमाल से आपकी इंजीनियरिंग टीम, बुरे बर्ताव वाली कैटगरी की टिप्पणियों को अपने-आप दिखाने से रोक सकती है. आपको चिंता है कि लिंग से जुड़ी टिप्पणियों में बुरे बर्ताव को लेकर किसी भी तरह का भेदभाव होने की वजह से, लिंग के बारे में होने वाली बातचीत को छिपाया जा सकता है. साथ ही, कैटगरी तय करने वाले टूल के अनुमानों में, आप लिंग के आधार पर होने वाले भेदभाव का आकलन करना चाहें. मॉडल का आकलन करने के लिए, आपको इनमें से किस मेट्रिक का इस्तेमाल करना चाहिए? नीचे दिए गए विकल्पों के बारे में जानें.
फ़ॉल्स पॉज़िटिव रेट (एफ़पीआर)
प्रोडक्शन में, इस मॉडल का इस्तेमाल पॉज़िटिव (बुरे बर्ताव) वाले अनुमानों को अपने-आप दिखने से रोकने के लिए किया जाएगा. आपका लक्ष्य यह पक्का करना है कि मॉडल, लिंग से जुड़ी टिप्पणियों को कुल टिप्पणियों के मुकाबले ज़्यादा रेट वाली गलत टिप्पणियों (नॉन-टॉक्सिक कॉमेंट) को न रोके. लिंग के सबग्रुप के लिए एफ़पीआर की तुलना पूरे एफ़पीआर से करना, आपके इस्तेमाल के उदाहरण में किए गए भेदभाव को दूर करने का एक बेहतरीन तरीका है.
फ़ॉल्स नेगेटिव रेट (एफ़एनआर)
एफ़एनआर उस दर को मापता है जिस पर मॉडल, पॉज़िटिव क्लास (यहां, "बुरा बर्ताव") को नेगेटिव क्लास ("नॉनटॉक्सिक") के तौर पर गलत कैटगरी में रखता है. इस्तेमाल के इस उदाहरण में, यह आपको वह दर बताता है जिस पर बुरे बर्ताव वाली टिप्पणियां, फ़िल्टर से निकलकर उपयोगकर्ताओं को दिखेंगी. यहां, आपकी मुख्य चिंता इस बात की है कि सामान्य विषय पर होने वाली बातचीत को दबाने के मामले में, भेदभाव किस तरह दिखता है. एफ़एनआर आपको मॉडल की परफ़ॉर्मेंस के इस डाइमेंशन के बारे में कोई अहम जानकारी नहीं देता.
सटीक जानकारी
सटीक मेट्रिक से उन मॉडल अनुमानों का प्रतिशत मापा जाता है जो सही थे. साथ ही, यह उन अनुमानों के प्रतिशत के उलट होता है जो गलत थे. इस्तेमाल के इस उदाहरण में, सटीक जानकारी से आपको पता चलता है कि फ़िल्टर में, बुरे बर्ताव वाली जानकारी को कम किया गया है या बुरे बर्ताव वाली बातचीत को दिखाया गया है. इस बात की कितनी संभावना है. आपकी मुख्य चिंता पुरानी समस्या है, न कि दूसरी समस्या. सटीक होने की वजह से, दोनों समस्याएं आपस में जुड़ी होती हैं. इसलिए, यहां आकलन करने के लिए, यह सही मेट्रिक नहीं है.
AUC
AUC से, किसी मॉडल के अनुमान लगाने की क्षमता का पूरा मेज़रमेंट मिलता है. पूरी परफ़ॉर्मेंस का आकलन करने के लिए, यह एक अच्छी मेट्रिक है. हालांकि, यहां आपको खास तौर पर टिप्पणियों को रोकने की दरों को लेकर चिंता है. इसलिए, AUC आपको इस समस्या के बारे में सीधे तौर पर अहम जानकारी नहीं देता है.
आपकी टीम में एक कॉन्टेंट मॉडरेटर को जोड़ा गया है और प्रॉडक्ट मैनेजर ने आपके क्लासिफ़ायर को डिप्लॉय करने के तरीके में बदलाव करने का फ़ैसला लिया है. बुरे बर्ताव वाली टिप्पणियों के दायरे में आने वाली टिप्पणियों को अपने-आप दबाने के बजाय, फ़िल्टर करने वाला सॉफ़्टवेयर इन टिप्पणियों को कॉन्टेंट मॉडरेटर से समीक्षा के लिए फ़्लैग करता है. इसमें कोई व्यक्ति उन टिप्पणियों की समीक्षा करेगा जिन्हें बुरे बर्ताव वाला लेबल लगा है. इसलिए, कॉन्टेंट को बंद करने के मामले में पक्षपात नहीं दिखेगा. पूर्वाग्रह और भेदभाव से राहत पाने के असर को मापने के लिए, आपको इनमें से किस मेट्रिक का इस्तेमाल करना चाहिए? नीचे दिए गए विकल्पों के बारे में जानें.
फ़ॉल्स पॉज़िटिव रेट (एफ़पीआर)
फ़ॉल्स पॉज़िटिव रेट से, आपको उन टिप्पणियों का प्रतिशत पता चल जाएगा जो बुरे बर्ताव वाली नहीं हैं. साथ ही, इन टिप्पणियों को गलत कैटगरी में रखा गया था. अब कोई ह्यूमन मॉडरेटर उन सभी टिप्पणियों की जांच करेगा जिन्हें मॉडल ने "बुरे बर्ताव" का लेबल दिया है और उसे गलत कॉन्टेंट वाले ज़्यादातर कॉन्टेंट को पकड़ना चाहिए. इसलिए, अब एफ़पीआर को प्राथमिकता के तौर पर नहीं रखा जाएगा.
फ़ॉल्स नेगेटिव रेट (एफ़एनआर)
ह्यूमन मॉडरेटर, "बुरा बर्ताव" लेबल वाली सभी टिप्पणियों की जांच करता है और यह पक्का करता है कि फ़ॉल्स पॉज़िटिव पर रोक न लगाई जाए. हालांकि, वह "बुरा बर्ताव" लेबल वाली टिप्पणियों की समीक्षा नहीं करेगा. इससे फ़ॉल्स नेगेटिव के लिए पूर्वाग्रह की संभावना बढ़ जाती है. एफ़एनआर (पॉज़िटिव को नेगेटिव कैटगरी में रखा गया का प्रतिशत) का इस्तेमाल करके, व्यवस्थित रूप से यह आकलन किया जा सकता है कि लिंग के सबग्रुप के लिए की गई, बुरे बर्ताव वाली टिप्पणियों को कुल टिप्पणियों की तुलना में, बुरे बर्ताव वाली टिप्पणियां ज़्यादा लेबल किया जा सकता है या नहीं.
स्पष्टता
सटीक जानकारी से आपको उन पॉज़िटिव अनुमानों का प्रतिशत पता चलता है जो असल में पॉज़िटिव हैं—इस मामले में, "बुरे बर्ताव" के सही अनुमानों का प्रतिशत बताता है. कोई मॉडरेटर, "बुरे बर्ताव" वाले सभी सुझावों की जांच करेगा. इसलिए, आकलन की मुख्य मेट्रिक में से किसी एक को सटीक बनाने की ज़रूरत नहीं है.
फिर से बुलाएँ
रीकॉल से आपको उन पॉज़िटिव डेटा का प्रतिशत पता चलता है जिन्हें सही कैटगरी में रखा गया था. इस वैल्यू से, उन पॉज़िटिव का प्रतिशत पता लगाया जा सकता है जिन्हें गलत कैटगरी में रखा गया था (1 - रीकॉल). इस मेट्रिक की मदद से, यह पता लगाया जा सकता है कि क्या लिंग से जुड़ी, बुरे बर्ताव वाली टिप्पणियों को कुल टिप्पणियों की तुलना में, "गैर-बुरा बर्ताव" के तौर पर गलत कैटगरी में रखा गया है.