ओवरफ़िटिंग: L2 रेगुलराइज़ेशन

L2 रेगुलराइज़ेशन एक लोकप्रिय रेगुलराइज़ेशन मेट्रिक है, जो इस फ़ॉर्मूले का इस्तेमाल करती है:

$$L_2\text{ regularization } = {w_1^2 + w_2^2 + ... + w_n^2}$$

उदाहरण के लिए, नीचे दी गई टेबल में, L2 का कैलकुलेशन दिखाया गया है छह वेट वाले मॉडल के लिए रेगुलराइज़ेशन:

मान वर्गाकार मान
हफ़्ता1 0.2 0.04
हफ़्ता2 -0.5 0.25
हफ़्ता3 5.0 25.0
हफ़्ता4 -1.2 1.44
हफ़्ता5 0.3 0.09
हफ़्ता6 -0.1 0.01
    26.83 = कुल

ध्यान दें कि वैल्यू की शून्य के करीब वैल्यू, L2 रेगुलराइज़ेशन पर असर नहीं डालती है बहुत ज़्यादा वज़न हो सकता है, लेकिन भारी वज़न का भी बड़ा असर पड़ सकता है. उदाहरण के लिए, पिछली कैलकुलेशन:

  • एक वज़न (w3) का योगदान कुल वैल्यू का करीब 93% है मुश्किल है.
  • अन्य पांच वेट मिलकर, कुल कमाई का सिर्फ़ 7% योगदान देते हैं मुश्किल है.

L2 रेगुलराइज़ेशन लागू करने पर, वैल्यू की ओर 0 की ओर बढ़ जाती है, लेकिन वैल्यू 0 की ओर नहीं होती है वज़न को पूरी तरह से शून्य कर देता है.

व्यायाम: अपनी समझ को परखें

अगर किसी मॉडल को ट्रेनिंग देते समय L2 रेगुलराइज़ेशन का इस्तेमाल किया जाता है, तो आम तौर पर, मॉडल की जटिलता की वजह से ऐसा होता है?
ऐसा हो सकता है कि सिस्टम की जटिलता कम हो जाए.
एल2 के रेगुलर एक्सप्रेशन का इस्तेमाल करने पर, वैल्यू को 0 पर सेट किया जाता है. साथ ही, पूरी जटिलता में गिरावट आ जाएगी.
यह मुमकिन है कि मॉडल की जटिलता पर कोई असर कॉन्स्टेंट.
इसकी संभावना बहुत कम है.
इससे, मॉडल की जटिलता बढ़ सकती है.
इसकी संभावना नहीं है. याद रखें कि L2 रेगुलराइज़ेशन 0 के लिए महत्व को प्रोत्साहित करता है.
अगर किसी मॉडल को ट्रेनिंग देते समय L2 रेगुलराइज़ेशन का इस्तेमाल किया जाता है, मॉडल से कुछ सुविधाएं हटा दी जाएंगी.
सही
हालांकि, L2 को रेगुलर एक्सप्रेशन पर लागू करने पर, कुछ वेट काफ़ी हो सकते हैं छोटा है, तो यह कभी भी शून्य तक किसी भी भार को नहीं धकेल देगा. इस वजह से, सभी सुविधाएँ अब भी कुछ ऐसा करने में मदद करेंगी मॉडल.
गलत
L2 रेगुलराइज़ेशन के तहत, कभी भी ट्रैफ़िक को शून्य.

रेगुलराइज़ेशन रेट (लैम्बडा)

जैसा कि बताया गया है, ट्रेनिंग में नुकसान और जटिलता के कुछ कॉम्बिनेशन को कम करने की कोशिश की जाती है:

$$\text{minimize(loss} + \text{ complexity)}$$

मॉडल डेवलपर, मॉडल ट्रेनिंग की जटिलता के पूरे असर को बेहतर बना सकते हैं इसके मान को अदिश से गुणा करके, रेगुलराइज़ेशन रेट. ग्रीक वर्ण लैम्डा, आम तौर पर रेगुलराइज़ेशन रेट का प्रतीक है.

इसका मतलब है कि मॉडल डेवलपर ये काम करना चाहते हैं:

$$\text{minimize(loss} + \lambda \text{ complexity)}$$

रेगुलराइज़ेशन रेट ज़्यादा है:

  • नियमितीकरण के प्रभाव को बढ़ाता है, जिससे यह ओवरफ़िटिंग.
  • इस तरह के मॉडल के वज़न का हिस्टोग्राम तैयार करने में मदद मिलती है विशेषताएं:
    • सामान्य डिस्ट्रिब्यूशन
    • 0 का औसत भार होगा.

रेगुलराइज़ेशन रेट कम है:

  • रेगुलराइज़ेशन के असर को कम करता है, जिससे यह मुमकिन है कि ओवरफ़िटिंग.
  • फ़्लैट डिस्ट्रिब्यूशन के साथ मॉडल वेट का हिस्टोग्राम तैयार करने में मदद करता है.

उदाहरण के लिए, रेगुलराइज़ेशन रेट के ज़्यादा होने के लिए, मॉडल वेट का हिस्टोग्राम जैसा कि इमेज 18 में दिखाया गया है.

इमेज 18. शून्य और माध्य के साथ मॉडल के भार का हिस्टोग्राम
            एक सामान्य डिस्ट्रिब्यूशन.
18वीं इमेज. रेगुलराइज़ेशन रेट के ज़्यादा होने पर, हिस्टोग्राम की ज़रूरत पड़ सकती है. औसत शून्य है. सामान्य डिस्ट्रिब्यूशन.

 

इसके उलट, रेगुलराइज़ेशन दर कम होने की वजह से, हिस्टोग्राम बेहद सपाट दिखता है, जैसे कि इमेज 19 में दिखाई गई है.

इमेज 19. शून्य के माध्य के साथ किसी मॉडल के वज़न का हिस्टोग्राम
            किसी सपाट डिस्ट्रिब्यूशन और सामान्य डिस्ट्रिब्यूशन के बीच में है
            वितरण.
19 इमेज. रेगुलराइज़ेशन की कम दर के लिए, हिस्टोग्राम की वेट लें. औसत शून्य हो भी सकता है और नहीं भी.

 

रेगुलराइज़ेशन रेट चुनना

रेगुलराइज़ेशन रेट से ऐसा मॉडल बनता है जो नया, पहले से न देखा गया डेटा. माफ़ करें, वह वैल्यू डेटा पर निर्भर करती है. इसलिए, आपको कुछ ज़रूरी काम करने होंगे ट्यूनिंग.

शुरुआत में रोकना: जटिलता पर आधारित रेगुलराइज़ेशन का एक विकल्प

रिलीज़ होने से पहले रोकना रेगुलराइज़ेशन का तरीका, जिसमें जटिलता की गिनती नहीं की जाती. इसके बजाय, जल्दी रोकने का मतलब है कि मॉडल से पहले ट्रेनिंग खत्म करना पूरी तरह से एक होता है. उदाहरण के लिए, लॉस कर्व होने पर आपकी ट्रेनिंग खत्म हो जाती है जब पुष्टि करने वाला सेट बढ़ने लगता है, तब स्लोप पॉज़िटिव हो जाता है.

हालांकि, शुरुआत में रोकना आम तौर पर ट्रेनिंग में होने वाली कमी को बढ़ा देता है, लेकिन इससे कम हो सकती है टेस्ट में नुकसान.

रिलीज़ होने से पहले रोकना एक तेज़ प्रक्रिया है. हालांकि, इसे नियमित तौर पर करना बहुत मुश्किल है. इस बात की संभावना बहुत कम है कि यह मॉडल, किसी ट्रेन किए गए मॉडल जितना अच्छा हो अच्छी तरह से कॉन्फ़िगर करें.

सीखने की दर और रेगुलराइज़ेशन रेट के बीच संतुलन का पता लगाना

लर्निंग रेट और रेगुलराइज़ेशन रेट, नियम के मुताबिक वज़न की निर्देश. सीखने की दर ज़्यादा होने पर, अक्सर शून्य से दूर वेट लिया जाता है; अगर रेगुलराइज़ेशन रेट ज़्यादा है, तो वेट शून्य की तरफ़ बढ़ जाता है.

अगर लर्निंग रेट के हिसाब से रेगुलराइज़ेशन रेट ज़्यादा है, कम वज़न वाले मॉडल की वजह से ऐसा मॉडल बनता है जो सटीक अनुमान नहीं लगाता. इसके उलट, अगर रेगुलराइज़ेशन के हिसाब से सीखने की दर ज़्यादा है कीमत तय करते समय, भारी वज़न की वजह से ओवरफ़िट मॉडल तैयार होता है.

आपका लक्ष्य सीखने की दर और रेगुलराइज़ेशन रेट. यह चुनौती भरा हो सकता है. सबसे खराब, एक बार आपको मिलने के बाद उस मुश्किल संतुलन का सामना करने के लिए, आपको अपने लर्निंग रेट में बदलाव करना पड़ सकता है. साथ ही, जब आप सीखने की दर में बदलाव करेंगे, तो आपको फिर से सबसे सही रेगुलराइज़ेशन रेट.