रेगुलराइज़ेशन: लैंब्डा

मॉडल डेवलपर, रेगुलराइज़ेशन की अवधि के कुल असर को लैम्डा (जिसे रेगुलराइज़ेशन रेट भी कहा जाता है) से गुणा करके, इसके वैल्यू को गुणा करके ट्यून करते हैं. इसका मतलब है कि मॉडल डेवलपर, नीचे बताए गए काम करना चाहते हैं:

$$\text{minimize(Loss(Data|Model)} + \lambda \text{ complexity(Model))}$$

L2 को रेगुलराइज़ेशन करने से, मॉडल पर यह असर पड़ता है

  • वज़न की वैल्यू को 0 (लेकिन 0 नहीं) के लिए बढ़ावा देता है
  • सामान्य (घंटी के आकार या गाउसियन) डिस्ट्रिब्यूशन की मदद से, वज़न के माध्य को 0 की ओर बढ़ावा देता है.

लैम्डा की वैल्यू बढ़ाने से रेगुलराइज़ेशन का असर बढ़ जाता है. उदाहरण के लिए, लैम्डा के उच्च मान के वज़न का हिस्टोग्राम, दूसरी इमेज में दिखाया जा सकता है.

शून्य के माध्य और सामान्य वितरण के साथ किसी मॉडल के भार का हिस्टोग्राम.

दूसरा डायग्राम. वज़न का हिस्टोग्राम.

लैम्डा का मान कम करने से एक फ़्लैट हिस्टोग्राम बन जाता है, जैसा तीसरी इमेज में दिखाया गया है.

शून्य के माध्य के साथ किसी मॉडल के भार का हिस्टोग्राम, जो किसी समतल वितरण और सामान्य वितरण के बीच का स्थान है.

तीसरी इमेज. कम लैम्डा वैल्यू से तैयार वज़न का हिस्टोग्राम.

लैम्डा वैल्यू चुनते समय, इसका मकसद आसानी से और ट्रेनिंग-डेटा फ़िट के बीच सही संतुलन बनाना होता है:

  • अगर लैम्डा की वैल्यू बहुत ज़्यादा है, तो आपका मॉडल इस्तेमाल में आसान हो जाएगा. हालांकि, आपके डेटा में ज़रूरत से कम होने का जोखिम होगा. उपयोगी अनुमान लगाने के लिए, आपके मॉडल को ट्रेनिंग डेटा के बारे में ज़्यादा जानकारी नहीं होगी.

  • अगर लैम्डा की वैल्यू बहुत कम है, तो आपका मॉडल ज़्यादा जटिल हो जाएगा. साथ ही, हो सकता है कि आपका डेटा ओवरफ़िट हो जाए. आपका मॉडल, ट्रेनिंग डेटा की विशेषताओं के बारे में बहुत ज़्यादा जानकारी हासिल कर लेगा. साथ ही, वह नए डेटा के लिए सामान्य जानकारी नहीं दे पाएगा.

लैम्डा की आदर्श वैल्यू से एक ऐसा मॉडल तैयार होता है जो नए और पहले न देखे गए डेटा का सामान्य तरीके से इस्तेमाल करता है. माफ़ करें, लैम्डा की सबसे सही वैल्यू डेटा पर निर्भर होती है. इसलिए, आपको मैन्युअल तरीके से या अपने-आप ट्यूनिंग.