नुकसान में कमी: ग्रेडिएंट डिसेंट

बार-बार दिखाए जाने वाले अप्रोच के डायग्राम (इमेज 1) में हरे रंग का हाथ से लहराता हुआ बॉक्स दिया गया है, जिसका टाइटल है "कंप्यूट पैरामीटर अपडेट". हम अब एल्गोरिदमिक फ़ेयरी डस्ट को, बेहतर सुरक्षा सुविधाओं से बदल देंगे.

मान लें कि हमारे पास \(w_1\)की सभी संभावित वैल्यू के लिए, लॉस का हिसाब लगाने का समय और कंप्यूटिंग रिसॉर्स थे. हम जिस तरह की रिग्रेशन समस्याओं की जांच कर रहे हैं, उनके लिए नतीजे नुकसान पहुंचाने वाले कॉन्टेंट और \(w_1\) के नतीजे हमेशा सटीक होंगे. दूसरे शब्दों में, प्लॉट हमेशा कटोरे के आकार का होगा, जो कुछ इस तरह का होगा:

U के आकार के कर्व का एक प्लॉट, जिसमें वर्टिकल ऐक्सिस को 'लॉस' लेबल और हॉरिज़ॉन्टल ऐक्सिस पर वज़न w i का लेबल दिया गया है.

दूसरा डायग्राम. रिग्रेशन सवालों के जवाब में, उत्तल कमी बनाम वज़न के प्लॉट की तुलना करना शामिल है.

 

उत्तल समस्याओं के लिए सिर्फ़ एक कम से कम वैल्यू होती है. इसका मतलब है कि सिर्फ़ एक जगह पर, ढलान का लेवल शून्य है. यह सबसे कम वह होता है जहां लॉस फ़ंक्शन की जानकारी इकट्ठा होती है.

पूरे डेटा सेट के लिए, \(w_1\)की हर वैल्यू के लिए लॉस फ़ंक्शन को कैलकुलेट करना, कन्वर्ज़न के पॉइंट को खोजने का एक गलत तरीका होगा. आइए, एक बेहतर तरीके के बारे में जानते हैं—जो मशीन लर्निंग में काफ़ी लोकप्रिय है—जिसे ग्रेडिएंट डिसेंट कहते हैं.

ग्रेडिएंट डिसेंट का पहला चरण, \(w_1\)के लिए शुरुआती वैल्यू (शुरुआत का पॉइंट) चुनना है. शुरुआत की जगह कुछ खास नहीं है. इसलिए, कई एल्गोरिदम बस \(w_1\) 0 पर सेट कर देते हैं या कोई भी रैंडम वैल्यू चुन लेते हैं. नीचे दिए गए डायग्राम से पता चलता है कि हमने 0 से थोड़ा ज़्यादा शुरुआती पॉइंट चुना है:

U के आकार का वक्र (कर्व) का प्लॉट. कर्व के बाईं ओर से आधा ऊपर की ओर किसी पॉइंट को 'शुरुआती पॉइंट' के तौर पर लेबल किया जाता है.

तीसरी इमेज. यह ग्रेडिएंट के साथ आने की शुरुआत का पॉइंट है.

ग्रेडिएंट डिसेंट एल्गोरिदम, फिर शुरुआती पॉइंट पर लॉस कर्व के ग्रेडिएंट की गणना करता है. यहां इमेज 3 में, नुकसान का ग्रेडिएंट, कर्व के डेरिवेटिव (स्लोप) के बराबर है और आपको बताता है कि कौनसा "ज़्यादा गर्म" है या "ठंडा". जब कई भार होते हैं, तो ग्रेडिएंट, भार के संबंध में आंशिक डेरिवेटिव का वेक्टर होता है.

ध्यान दें कि ग्रेडिएंट एक वेक्टर होता है, इसलिए इसमें ये दोनों एट्रिब्यूट होते हैं:

  • दिशा
  • तीव्रता

ग्रेडिएंट हमेशा लॉस फ़ंक्शन में सबसे ज़्यादा बढ़ोतरी की दिशा में पॉइंट करता है. ग्रेडिएंट डिसेंट एल्गोरिदम, नेगेटिव ग्रेडिएंट की दिशा में काम करता है, ताकि नुकसान को जल्द से जल्द कम किया जा सके.

U के आकार का वक्र (कर्व) का प्लॉट. कर्व के बाईं ओर मौजूद पॉइंट को 'शुरुआती पॉइंट' के तौर पर लेबल किया जाता है. इस पॉइंट से दाईं ओर 'नेगेटिव ग्रेडिएंट' पॉइंट के लेबल वाला ऐरो.

चौथा डायग्राम. ग्रेडिएंट वंशानुक्रम, नेगेटिव ग्रेडिएंट पर निर्भर करता है.

लॉस फ़ंक्शन कर्व के साथ अगला पॉइंट तय करने के लिए, ग्रेडिएंट डिसेंट एल्गोरिदम, शुरुआती पॉइंट में ग्रेडिएंट के माप का कुछ हिस्सा जोड़ता है, जैसा कि नीचे दिए गए डायग्राम में दिखाया गया है:

U के आकार का वक्र (कर्व) का प्लॉट. कर्व के बाईं ओर मौजूद पॉइंट को 'शुरुआती पॉइंट' के तौर पर लेबल किया जाता है. इस पॉइंट से दाईं ओर 'नेगेटिव ग्रेडिएंट' पॉइंट के लेबल वाला ऐरो. एक अन्य ऐरो, जो पहले ऐरो के सिरे से नीचे की ओर, कर्व पर दूसरे पॉइंट की ओर पॉइंट करता है. दूसरे बिंदु पर 'अगला बिंदु' का लेबल होता है.

पांचवीं इमेज. ग्रेडिएंट चरण हमें लॉस कर्व में अगले पॉइंट पर ले जाता है.

इसके बाद, ग्रेडिएंट घटने-बढ़ने की दिशा में इस प्रोसेस को दोहराया जाता है.