लॉजिस्टिक रिग्रेशन: लॉस ऐंड रेग्युलेशन

लॉजिस्टिक रिग्रेशन के लिए लॉस फ़ंक्शन

लीनियर रिग्रेशन के लिए, कैलकुलेशन से होने वाली कमी का फ़ंक्शन है. लॉजिस्टिक रिग्रेशन के लिए लॉस फ़ंक्शन लॉग लीक होता है, जिसके बारे में नीचे बताया गया है:

$$\text{Log Loss} = \sum_{(x,y)\in D} -y\log(y') - (1 - y)\log(1 - y')$$

कहां:

  • \((x,y)\in D\) डेटा सेट में कई लेबल किए गए उदाहरण होते हैं, जो \((x,y)\) पेयर होते हैं.
  • \(y\) लेबल किए गए उदाहरण में लेबल है. यह लॉजिस्टिक रिग्रेशन है. इसलिए, \(y\) की हर वैल्यू 0 या 1 होनी चाहिए.
  • \(y'\) \(x\)में सुविधाओं के सेट के आधार पर, अनुमानित वैल्यू (0 और 1 के बीच की कुछ) है.

लॉजिस्टिक रिग्रेशन में रेगुलराइज़ेशन

नियमित तौर पर लॉजिस्टिक रिग्रेशन मॉडलिंग में बेहद ज़रूरी है. रेगुलराइज़ेशन के बिना, लॉजिस्टिक रिग्रेशन के ऐसिंपटिक नेचर की वजह से ज़्यादा डाइमेंशन में 0 की कमी आती रहेगी. ऐसे में, लॉजिस्टिक रिग्रेशन के ज़्यादातर मॉडल में, मॉडल की जटिलता को कम करने के लिए, इनमें से किसी एक रणनीति का इस्तेमाल किया जाता है:

  • एल2 रेगुलराइज़ेशन.
  • शुरुआत में ही इसे रोकने के लिए कहा जाता है. इससे, ट्रेनिंग के चरणों की संख्या या सीखने की दर में कमी आती है.

(हम #31 में) बाद के मॉड्यूल में, तीसरी रणनीति—1के रेगुलर एक्सप्रेशन के बारे में बात करेंगे.)

मान लें कि आप हर उदाहरण के लिए एक यूनीक आईडी असाइन करते हैं और हर आईडी को उसकी सुविधा के साथ मैप करते हैं. अगर आप रेगुलर एक्सप्रेशन के फ़ंक्शन को तय नहीं करते हैं, तो यह मॉडल पूरी तरह से फ़िट हो जाएगा. इस वजह से, मॉडल हर तरह के उदाहरणों से शून्य होने की कोशिश करेगा और कभी नहीं पहुंचेगा. इसलिए, हर इंडिकेटर सुविधा के लिए वज़न को +इनफ़िनिटी या -इनफ़िनिटी पर बढ़ाएं. यह कुछ खास सुविधाओं वाले क्रॉस डेटा के साथ ज़्यादा डाइमेंशन वाले डेटा में हो सकता है, जहां हर क्रॉस पर सिर्फ़ एक उदाहरण क्रॉस होता है.

अच्छी बात यह है कि 2 या इससे पहले इस सुविधा का इस्तेमाल करने से यह समस्या नहीं आएगी.