जनरेट किए गए एआई (AI) के लिए एडवर्टाइज़रल टेस्टिंग

विज्ञापन की जांच करना, एक एमएल मॉडल का सही तरीके से आकलन करने का एक तरीका है. इससे यह पता चलता है कि नुकसान पहुंचाने वाले या अनजाने में नुकसान पहुंचाने वाले इनपुट के साथ, एमएल मॉडल का व्यवहार कैसा है. यह गाइड, सामान्य एआई (AI) के लिए, विज्ञापन के एक उदाहरण के तौर पर काम करने वाले उदाहरण के बारे में बताती है.

विज्ञापनों की जांच करना क्या है?

असरदार और सुरक्षित एआई (AI) ऐप्लिकेशन बनाने के लिए, टेस्टिंग ज़रूरी है. पेज पर विज्ञापन देने से जुड़ी जांच में, किसी ऐप्लिकेशन को काम के आउटपुट के बारे में सबसे पहले बताया जाता है. अलग-अलग तरह की क्वेरी से किसी मॉडल के असुरक्षित तरीके से काम नहीं करने (यानी सुरक्षा नीति का उल्लंघन) की संभावना होती है. ये समस्याएं ऐसी गड़बड़ियों की वजह से भी हो सकती हैं जिन्हें लोग आसानी से पहचान न सकें.

क्वेरी “अलग-अलग” स्थिति में अलग-अलग तरीके से हो सकती हैं. कभी-कभी विरोध करने वाली क्वेरी में नीति का उल्लंघन करने वाली भाषा या नीति का उल्लंघन करने वाले विचार शामिल किए जा सकते हैं. इसके अलावा, मॉडल को “ट्रिक” करने की कोशिश की जा सकती है या धोखाधड़ी करने वाली या आपत्तिजनक चीज़ बताई जा सकती है. सीधे तौर पर परेशान करने वाली क्वेरी ऐसी हो सकती हैं जो भरोसेमंद नहीं होती. हालांकि, इनमें संवेदनशील, सांस्कृतिक या संवेदनशील विषय हो सकते हैं. इसमें डेमोग्राफ़िक्स, स्वास्थ्य, फ़ाइनेंस या धर्म से जुड़ी जानकारी शामिल हो सकती है.

कभी-कभी होने वाली जांच की मदद से टीमों को मॉडल और प्रॉडक्ट को बेहतर बनाने में मदद मिल सकती है. इन समस्याओं को ठीक करने के बाद, उनसे जुड़ी समस्याओं को ठीक किया जा सकता है. जैसे, फ़ाइन ट्यूनिंग, मॉडल सुरक्षा उपाय या फ़िल्टर. इसके अलावा, इससे प्रॉडक्ट लॉन्च होने के बारे में फ़ैसले लेने में मदद मिल सकती है. इसके लिए, जोखिम की आशंका को मापा जा सकता है, जैसे कि आउटपुट नीति का उल्लंघन करने वाले आउटपुट से जुड़े मॉडल की जानकारी.

ज़िम्मेदार एआई (AI) के लिए, सबसे सही तरीके के तौर पर यह गाइड, सामान्य मॉडल और सिस्टम की जांच करने के लिए, उदाहरण के तौर पर वर्कफ़्लो देती है.

विज्ञापन की जांच के उदाहरण का वर्कफ़्लो

विज्ञापन की जांच, एक ऐसे वर्कफ़्लो के बाद होती है जो स्टैंडर्ड मॉडल के इवैलुएशन से मिलता-जुलता है.

इनपुट की पहचान करें और उनका पता लगाएं

एडवर्सल टेस्टिंग वर्कफ़्लो का पहला चरण यह तय करना होता है कि सिस्टम पर जान-बूझकर और व्यवस्थित तरीके से हमला किए जाने पर, कैसा व्यवहार हो. सोच-समझकर बनाए गए इनपुट से सीधे तौर पर टेस्टिंग वर्कफ़्लो की क्षमता पर असर पड़ सकता है. इन इनपुट से, किसी टेस्ट टेस्ट के दायरे और मकसद को तय करने में मदद मिल सकती है:

  • प्रॉडक्ट की नीति और काम न करने के मोड
  • इस्तेमाल के उदाहरण
  • विविधता के लिए ज़रूरी शर्तें

प्रॉडक्ट की नीति और काम न करने के मोड

जनरेट करने वाले एआई (AI) प्रॉडक्ट को, प्रॉडक्ट के व्यवहार और मॉडल आउटपुट के बारे में ऐसी सुरक्षा नीतियां तय करनी चाहिए जिनकी अनुमति नहीं है. ऐसी स्थिति में इन्हें "असुरक्षित" माना जाता है. नीति में ऐसे तरीकों की जानकारी दी जानी चाहिए जो पूरे नहीं हो सके. इन्हें नीति का उल्लंघन माना जाएगा. असफलताओं के मोड की इस सूची का इस्तेमाल परीक्षा के आधार के तौर पर किया जाना चाहिए. फ़ेलियर मोड के कुछ उदाहरणों में, ऐसा कॉन्टेंट शामिल हो सकता है जिसमें अपशब्दों का इस्तेमाल किया गया हो या जिसमें वित्तीय, कानूनी या मेडिकल सलाह दी गई हो.

इस्तेमाल के उदाहरण

विज्ञापन से जुड़े टेस्ट के लिए दूसरा अहम तरीका है, इस्तेमाल के ऐसे उदाहरण जो हैं. हर सामान्य प्रॉडक्ट के इस्तेमाल के उदाहरण थोड़े अलग होते हैं. हालांकि, कुछ सामान्य प्रॉडक्ट में, तथ्यों का पता लगाना, खास जानकारी, और कोड मॉडल को भाषा के मॉडल के लिए बनाना शामिल है. इसके अलावा, इलाके, इलाके या कला या कपड़ों के स्टाइल के हिसाब से बैकग्राउंड जनरेट करने के बारे में भी बताया जाता है.

विविधता के लिए ज़रूरी शर्तें

विज्ञापन के अलग-अलग वर्शन के टेस्ट डेटासेट काफ़ी अलग-अलग तरह के होने चाहिए. साथ ही, इनमें डेटासेट की समस्या से जुड़े सभी मोड और इस्तेमाल के उदाहरण शामिल होने चाहिए. अलग-अलग तरह के टेस्ट डेटासेट को मेज़र करने से, संभावित पक्षपात की पहचान करने में मदद मिलती है. साथ ही, यह पक्का होता है कि मॉडल की जांच अलग-अलग उपयोगकर्ता जनसंख्या को ध्यान में रखते हुए की जाए.

विविधता पर विचार करने के तीन तरीके हैं:

  • अलग-अलग तरह के शब्दों का इस्तेमाल: पक्का करें कि क्वेरी की लंबाई अलग-अलग हो (उदाहरण के लिए, शब्द संख्या), एक बड़ी शब्दावली रेंज का इस्तेमाल करें, डुप्लीकेट नहीं होने चाहिए, और अलग-अलग क्वेरी फ़ॉर्मूला (उदाहरण के लिए, wh-questions, सीधे तौर पर या सीधे तौर पर नहीं भेजे गए अनुरोध) के बारे में बताएं.
  • सामरिक विविधता: यह पक्का करें कि क्वेरी में हर नीति (जैसे, स्वास्थ्य से जुड़े डायबिटीज़) के अलग-अलग विषयों को शामिल किया गया हो. इन विषयों में, इस्तेमाल और अलग-अलग मामलों में संवेदनशील और पहचान पर आधारित विशेषताएं (उदाहरण के लिए, लिंग, जातीयता) शामिल हैं.
  • नीति और इस्तेमाल के उदाहरण की विविधता: पक्का करें कि क्वेरी में सभी नीति उल्लंघन (उदाहरण के लिए, नफ़रत फैलाने वाली भाषा) और इस्तेमाल के उदाहरण (उदाहरण के लिए, विशेषज्ञ की सलाह) शामिल हैं.

टेस्ट डेटासेट ढूंढना या बनाना

रिवर्स टेस्ट के लिए टेस्ट डेटासेट, स्टैंडर्ड मॉडल इवैलुएशन टेस्ट सेट से अलग बनाए गए हैं. स्टैंडर्ड मॉडल के मूल्यांकन में, टेस्ट डेटासेट आम तौर पर इस तरह से डिज़ाइन किए जाते हैं कि वे डेटा के डिस्ट्रिब्यूशन को सही तरीके से दिखा पाएं. विज्ञापन देने वालों की जांच के लिए, टेस्ट डेटा को मॉडल से समस्या के आउटपुट पाने के लिए चुना जाता है. इसके लिए, यह दिखाया जाता है कि डिस्ट्रिब्यूशन के उदाहरण और एज केस पर मॉडल का व्यवहार, सुरक्षा नीतियों के मुताबिक है या नहीं. अच्छी क्वालिटी के विज्ञापन टेस्ट सेट में, सुरक्षा नीति के सभी डाइमेंशन कवर होने चाहिए. साथ ही, इसमें इस्तेमाल के ऐसे मामलों की कवरेज शामिल होनी चाहिए जो मॉडल के हिसाब से होने चाहिए. इसमें कई अलग-अलग तरह के शब्द होने चाहिए. उदाहरण के लिए, अलग-अलग लंबाई और भाषाओं वाली क्वेरी. साथ ही, शब्दों का मतलब भी अलग-अलग होना चाहिए. उदाहरण के लिए, इनमें अलग-अलग विषय और डेमोग्राफ़िक्स शामिल होने चाहिए.

मौजूदा वर्शन की जांच करने के लिए, सुरक्षा से जुड़ी नीतियों और फ़ेलियर मोड के बारे में जानें. साथ ही, इमेज जनरेट करने के लिए टेक्स्ट और इमेज मॉडल के लिए, इस्तेमाल के उदाहरण देखें. टीमें अपने प्रॉडक्ट की परफ़ॉर्मेंस के लिए बेसलाइन तय करने के लिए, पहले से मौजूद डेटासेट का इस्तेमाल कर सकती हैं. इसके बाद, वे अपने प्रॉडक्ट के काम न कर पाने के खास मोड पर बारीकी से विश्लेषण कर सकती हैं.

अगर मौजूदा टेस्ट डेटासेट काफ़ी नहीं हैं, तो टीमें 'खास गड़बड़ियों वाले मोड' और 'इस्तेमाल के उदाहरणों' को टारगेट करने के लिए, नया डेटा जनरेट कर सकती हैं. नए डेटासेट बनाने का एक तरीका है कि आप क्वेरी का छोटा डेटासेट (यानी, हर कैटगरी के दर्जनों उदाहरण) बनाकर मैन्युअल रूप से बनाएं. इसके बाद, डेटा-सिंथेसिस टूल का इस्तेमाल करके उसे अपने "सीड" डेटासेट पर बढ़ाएं.

सीड डेटासेट में ऐसे उदाहरण शामिल होने चाहिए जो सिस्टम से प्रोडक्शन में मिलने वाले मिलते-जुलते हों. साथ ही, उनका मकसद नीति के उल्लंघन को ठीक करना होना चाहिए. सुरक्षा से जुड़ी सुविधाओं में, बुरे बर्ताव वाली भाषा का पता लगाने की संभावना ज़्यादा होती है. इसलिए, क्रिएटिव तरीके से वाक्यांश का इस्तेमाल करें और विज्ञापन में, गलत भाषा का इस्तेमाल करें.

आप अपने टेस्ट डेटासेट में संवेदनशील एट्रिब्यूट (जैसे कि उम्र, लिंग, नस्ल, धर्म) के साथ, सीधे तौर पर या सीधे तौर पर नहीं जुड़े रेफ़रंस का इस्तेमाल कर सकते हैं. ध्यान रखें कि इन शब्दों का इस्तेमाल, अलग-अलग संस्कृतियों के लिए अलग-अलग हो सकता है. अलग-अलग टोन, वाक्य की बनावट, लंबाई, शब्द का मतलब, और मतलब. ऐसे उदाहरण जहां एक से ज़्यादा लेबल (उदाहरण के लिए, नफ़रत फैलाने वाली भाषा बनाम अश्लीलता) लागू हो सकते हैं, वे शोर और डुप्लीकेट कॉन्टेंट बना सकते हैं. ऐसा होने पर, हो सकता है कि आकलन और ट्रेनिंग सिस्टम उन्हें सही तरीके से हैंडल न करें.

बीच के क्रम में होने वाले टेस्ट सेट का विश्लेषण किया जाना चाहिए. ऐसा इसलिए किया जाना चाहिए, ताकि यह पता लगाया जा सके कि शब्दों का अलग-अलग तरह से मतलब और मतलब कितना है. साथ ही, नीतियों के उल्लंघन और इस्तेमाल के मामलों में कवरेज, यूनीक, और कितना अलग है, और सभी तरह के शोर के हिसाब से विश्लेषण किया जाना चाहिए.

मॉडल आउटपुट जनरेट करना

अगला कदम, टेस्ट डेटासेट के आधार पर मॉडल के आउटपुट जनरेट करना है. नतीजों से प्रॉडक्ट की टीमों को यह पता चलता है कि नुकसान पहुंचाने वाले उपयोगकर्ताओं के संपर्क में आने या अनजाने में नुकसान पहुंचाने वाले इनपुट मिलने पर, उनके मॉडल कैसा परफ़ॉर्म कर सकते हैं. इस सिस्टम के व्यवहार और व्यवहार की पहचान के आधार पर, बेसलाइन मेज़रमेंट किया जा सकता है जिसे आगे के मॉडल डेवलपमेंट में कम किया जा सकता है.

आउटपुट की व्याख्या करें

विज्ञापन से जुड़े टेस्ट के आउटपुट जनरेट होने पर, उनकी व्याख्या करें. इससे, उन्हें काम न करने वाले मोड और/या नुकसान के तौर पर कैटगरी में बांटा जा सकता है. ये लेबल टेक्स्ट और इमेज कॉन्टेंट के लिए सुरक्षा सिग्नल देने में मदद कर सकते हैं. इसके अलावा, सिग्नल सभी मॉडल और प्रॉडक्ट में होने वाले नुकसान को मापने और कम करने में मदद कर सकते हैं.

सुरक्षा कैटगरी का इस्तेमाल करके नीति उल्लंघनों के लिए मॉडल आउटपुट (या इनपुट) की व्याख्या अपने-आप की जा सकती है. सटीक जानकारी देने के लिए, उन सिग्नल का इस्तेमाल किया जा सकता है जो पूरी तरह से तय नहीं किए गए हैं. जैसे, नफ़रत फैलाने वाली भाषा. उन सिग्नल के लिए, रेटिंग देने वाले लोगों के जनरेट किए गए लेबल की जांच करने और उन्हें सही करने के लिए, रेटिंग देने वाले लोगों का इस्तेमाल करना ज़रूरी है. इनके लिए "अनिश्चित" लेबल होते हैं.

अपने-आप जनरेट होने वाली जानकारी के अलावा, अपने डेटा के सैंपल की व्याख्या करने के लिए, रेटिंग देने वाले लोगों की मदद भी ली जा सकती है. ध्यान दें कि मैन्युअल तौर पर कॉन्टेंट मॉडरेशन से जुड़े मॉडल के एनोटेशन के लिए, परेशान करने वाले या नुकसान पहुंचा सकने वाले टेक्स्ट या इमेज का इस्तेमाल किया जाता है. इसके अलावा, रेटिंग देने वाले लोग एक ही कॉन्टेंट को अपनी निजी जानकारी, ज्ञान या मान्यता के आधार पर अलग-अलग तरह से समझा सकते हैं. रेटिंग देने वालों के लिए दिशा-निर्देश या टेंप्लेट डेवलप करना मददगार हो सकता है. साथ ही, यह ध्यान रखें कि रेटिंग देने वाले लोगों के पूल की विविधता से एनोटेशन के नतीजों पर असर पड़ सकता है.

रिपोर्ट करें और कम करें

आखिरी चरण में, रिपोर्ट में मौजूद टेस्ट के नतीजों की खास जानकारी दी जाती है. सुरक्षा की दरें, विज़ुअलाइज़ेशन, और समस्या न होने की वजहों के उदाहरण देने के लिए, मेट्रिक और रिपोर्ट के नतीजों का आकलन करें. इन नतीजों से मॉडल को बेहतर बनाने में मदद मिल सकती है. साथ ही, फ़िल्टर और ब्लॉकलिस्ट जैसे मॉडल सुरक्षा उपायों को बताया जा सकता है. रिपोर्ट, हिस्सेदारों और फ़ैसले लेने वालों के साथ बातचीत करने के लिए भी ज़रूरी हैं.

जानकारी पाने के दूसरे तरीके

Google की एआई (AI) टीम: नैतिक रूप से काम करने वाले हैकर, एआई (AI) को सुरक्षित बनाते हैं

भाषा के मॉडल वाले रेड टीमिंग लैंग्वेज मॉडल

मशीन लर्निंग डेवलपर के लिए प्रॉडक्ट फ़ेयरनेस टेस्टिंग (वीडियो):

डेवलपर के लिए प्रॉडक्ट फ़ेयरनेस की जांच (कोडलैब)