इस पेज का अनुवाद Cloud Translation API से किया गया है.

नुकसान में कमी: ग्रेडिएंट डिसेंट

बार-बार दिखाए जाने वाले अप्रोच के डायग्राम (इमेज 1) में हरे रंग का हाथ से लहराता हुआ बॉक्स दिया गया है, जिसका टाइटल है "कंप्यूट पैरामीटर अपडेट". हम अब एल्गोरिदमिक फ़ेयरी डस्ट को, बेहतर सुरक्षा सुविधाओं से बदल देंगे.

मान लें कि हमारे पास $w_1$की सभी संभावित वैल्यू के लिए, लॉस का हिसाब लगाने का समय और कंप्यूटिंग रिसॉर्स थे. हम जिस तरह की रिग्रेशन समस्याओं की जांच कर रहे हैं, उनके लिए नतीजे नुकसान पहुंचाने वाले कॉन्टेंट और $w_1$ के नतीजे हमेशा सटीक होंगे. दूसरे शब्दों में, प्लॉट हमेशा कटोरे के आकार का होगा, जो कुछ इस तरह का होगा:

U के आकार के कर्व का एक प्लॉट, जिसमें वर्टिकल ऐक्सिस को 'लॉस' लेबल और हॉरिज़ॉन्टल ऐक्सिस पर वज़न w i का लेबल दिया गया है.

दूसरा डायग्राम. रिग्रेशन सवालों के जवाब में, उत्तल कमी बनाम वज़न के प्लॉट की तुलना करना शामिल है.

उत्तल समस्याओं के लिए सिर्फ़ एक कम से कम वैल्यू होती है. इसका मतलब है कि सिर्फ़ एक जगह पर, ढलान का लेवल शून्य है. यह सबसे कम वह होता है जहां लॉस फ़ंक्शन की जानकारी इकट्ठा होती है.

पूरे डेटा सेट के लिए, $w_1$की हर वैल्यू के लिए लॉस फ़ंक्शन को कैलकुलेट करना, कन्वर्ज़न के पॉइंट को खोजने का एक गलत तरीका होगा. आइए, एक बेहतर तरीके के बारे में जानते हैं—जो मशीन लर्निंग में काफ़ी लोकप्रिय है—जिसे ग्रेडिएंट डिसेंट कहते हैं.

ग्रेडिएंट डिसेंट का पहला चरण, $w_1$के लिए शुरुआती वैल्यू (शुरुआत का पॉइंट) चुनना है. शुरुआत की जगह कुछ खास नहीं है. इसलिए, कई एल्गोरिदम बस $w_1$ 0 पर सेट कर देते हैं या कोई भी रैंडम वैल्यू चुन लेते हैं. नीचे दिए गए डायग्राम से पता चलता है कि हमने 0 से थोड़ा ज़्यादा शुरुआती पॉइंट चुना है:

U के आकार का वक्र (कर्व) का प्लॉट. कर्व के बाईं ओर से आधा ऊपर की ओर किसी पॉइंट को 'शुरुआती पॉइंट' के तौर पर लेबल किया जाता है.

तीसरी इमेज. यह ग्रेडिएंट के साथ आने की शुरुआत का पॉइंट है.

ग्रेडिएंट डिसेंट एल्गोरिदम, फिर शुरुआती पॉइंट पर लॉस कर्व के ग्रेडिएंट की गणना करता है. यहां इमेज 3 में, नुकसान का ग्रेडिएंट, कर्व के डेरिवेटिव (स्लोप) के बराबर है और आपको बताता है कि कौनसा "ज़्यादा गर्म" है या "ठंडा". जब कई भार होते हैं, तो ग्रेडिएंट, भार के संबंध में आंशिक डेरिवेटिव का वेक्टर होता है.

आंशिक डेरिवेटिव और ग्रेडिएंट के बारे में ज़्यादा जानने के लिए प्लस आइकॉन पर क्लिक करें.

मशीन लर्निंग से जुड़ा गणित बड़ा दिलचस्प है और हमें इस बात की बहुत खुशी है कि आपने ज़्यादा जानने के लिए लिंक पर क्लिक किया. हालांकि, कृपया ध्यान दें कि TensorFlow, आपके लिए सभी ग्रेडिएंट कंप्यूटेशन का इस्तेमाल करता है, इसलिए आपको यहां दिए गए कैलक्युलस को समझने की ज़रूरत नहीं है.

आंशिक डेरिवेटिव

मल्टीवैरिएबल फ़ंक्शन एक से ज़्यादा तर्क वाला फ़ंक्शन होता है, जैसे:

$$f(x,y) = e^{2y}\sin(x)$$

आंशिक डेरिवेटिव $f$ $x$ के संबंध में, इसे इस तरह दिखाया जाता है:

$$ \partial f \over \partial x $$

$f$ का डेरिवेटिव है, जिसे सिर्फ़ $x$ का फ़ंक्शन माना जाता है. यह जानने के लिए:

$$\partial f \over \partial x $$

आपको $y$ कॉन्सटेंट होल्ड करना होगा (इसलिए, $f$ अब यह एक वैरिएबल $x$का फ़ंक्शन है) और $x$के हिसाब से $f$का रेगुलर डेरिवेटिव लें. उदाहरण के लिए, जब $y$ को 1 पर तय किया जाता है, तो पिछला फ़ंक्शन बन जाता है:

$$ f(x) = e^2\sin(x) $$

यह सिर्फ़ एक वैरिएबल $x$का फ़ंक्शन है, जिसका डेरिवेटिव यह है:

$$ e^2\cos(x) $$

आम तौर पर, $y$ को 'समस्या ठीक की गई' के तौर पर मानते हुए, $f$ के साथ $f$ के आंशिक डेरिवेटिव $x$ का हिसाब इस तरह से लगाया जाता है:

$$\frac{\partial f}{\partial x}(x,y) = e^{2y}\cos(x)$$

इसी तरह, अगर हम $x$ तय करते हैं, तो $f$ के साथ $f$ का पार्शियल डेरिवेटिव $y$ यह होता है:

$$ \frac{\partial f}{\partial y}(x,y) = 2e^{2y}\sin(x) $$

आसानी से, पार्शियल डेरिवेटिव से यह पता चलता है कि एक वैरिएबल में बहुत सारे बदलाव करने पर फ़ंक्शन में कितने बदलाव होते हैं. ऊपर दिए गए उदाहरण में:

$$ \frac{\partial f}{\partial x} (0,1) = e^2 \approx 7.4 $$

इसलिए, जब आप $(0,1)$से शुरू करते हैं, तो $y$ एक जैसा रखें और $x$ थोड़ा बदलें. $f$ यह बदलाव आपकी सेट की गई रकम से करीब 7.4 गुना ज़्यादा हो जाता है $x$.

मशीन लर्निंग में, आंशिक डेरिवेटिव का ज़्यादातर इस्तेमाल फ़ंक्शन के ग्रेडिएंट के साथ किया जाता है.

ग्रेडिएंट

किसी फ़ंक्शन का ग्रेडिएंट, इस तरह दिखाया जाता है. यह सभी इंडिपेंडेंट वैरिएबल के हिसाब से, पार्शियल डेरिवेटिव का वेक्टर होता है:

$$ \nabla f $$

उदाहरण के लिए, अगर:

$$ f(x,y) = e^{2y}\sin(x) $$

इसके बाद:

$$\nabla f(x,y) = \left(\frac{\partial f}{\partial x}(x,y), \frac{\partial f}{\partial y}(x,y)\right) = (e^{2y}\cos(x), 2e^{2y}\sin(x))$$

निम्न पर ध्यान दें:

$$\nabla f$$	फ़ंक्शन के सबसे ज़्यादा बढ़ोतरी की दिशा में पॉइंट.
$$ {-\nabla f} $$	फ़ंक्शन के सबसे ज़्यादा कमी की दिशा में पॉइंट.

वेक्टर में डाइमेंशन की संख्या, $f$के फ़ॉर्मूला में मौजूद वैरिएबल की संख्या के बराबर होती है. दूसरे शब्दों में, वेक्टर, फ़ंक्शन के डोमेन स्पेस में होता है. उदाहरण के लिए, इस फ़ंक्शन का ग्राफ़ $f(x,y)$:

$$ f(x,y) = 4 + (x - 2)^2 + 2y^2 $$

जब तीन डाइमेंशन में देखा जाता है, $z = f(x,y)$ कम से कम $(2,0,4)$के साथ घाटी की तरह दिखता है:

$f(x,y)$ का ग्रेडिएंट एक दो-डाइमेंशन वेक्टर है, जो आपको बताता है कि ज़्यादा से ज़्यादा ऊंचाई के लिए किस$(x,y)$ निर्देश में जाना है. इसलिए, ग्रेडिएंट के नेगेटिव होने से, आपकी ऊंचाई में ज़्यादा से ज़्यादा कमी होती है. दूसरे शब्दों में, ग्रेडिएंट सदिश का नेगेटिव घाटी की ओर पॉइंट करता है.

मशीन लर्निंग में, ग्रेडिएंट का इस्तेमाल ग्रेडिएंट डिसेंट में किया जाता है. हमारे पास अक्सर कई वैरिएबल का एक लॉस फ़ंक्शन होता है, जिसे हम कम करने की कोशिश करते हैं. ऐसा करने के लिए, हम फ़ंक्शन के ग्रेडिएंट के नेगेटिव को फ़ॉलो करते हैं.

ध्यान दें कि ग्रेडिएंट एक वेक्टर होता है, इसलिए इसमें ये दोनों एट्रिब्यूट होते हैं:

दिशा
तीव्रता

ग्रेडिएंट हमेशा लॉस फ़ंक्शन में सबसे ज़्यादा बढ़ोतरी की दिशा में पॉइंट करता है. ग्रेडिएंट डिसेंट एल्गोरिदम, नेगेटिव ग्रेडिएंट की दिशा में काम करता है, ताकि नुकसान को जल्द से जल्द कम किया जा सके.

U के आकार का वक्र (कर्व) का प्लॉट. कर्व के बाईं ओर मौजूद पॉइंट को 'शुरुआती पॉइंट' के तौर पर लेबल किया जाता है. इस पॉइंट से दाईं ओर 'नेगेटिव ग्रेडिएंट' पॉइंट के लेबल वाला ऐरो.

चौथा डायग्राम. ग्रेडिएंट वंशानुक्रम, नेगेटिव ग्रेडिएंट पर निर्भर करता है.

लॉस फ़ंक्शन कर्व के साथ अगला पॉइंट तय करने के लिए, ग्रेडिएंट डिसेंट एल्गोरिदम, शुरुआती पॉइंट में ग्रेडिएंट के माप का कुछ हिस्सा जोड़ता है, जैसा कि नीचे दिए गए डायग्राम में दिखाया गया है:

पांचवीं इमेज. ग्रेडिएंट चरण हमें लॉस कर्व में अगले पॉइंट पर ले जाता है.

इसके बाद, ग्रेडिएंट घटने-बढ़ने की दिशा में इस प्रोसेस को दोहराया जाता है.

ध्यान दें: ग्रेडिएंट डिसेंट का इस्तेमाल करते समय, हम ऊपर दी गई प्रोसेस को सामान्य बनाते हैं. इससे सभी मॉडल पैरामीटर को एक साथ ट्यून किया जाता है. उदाहरण के लिए, $w_1$ और बायस $b$, दोनों के सबसे सही वैल्यू का पता लगाने के लिए, हम $w_1$ और $b$, दोनों के लिए ग्रेडिएंट का हिसाब लगाते हैं. इसके बाद, हम $w_1$ और $b$ की वैल्यू में बदलाव करते हैं. ये बदलाव, उन्हें उनके ग्रेडिएंट के आधार पर किए जाते हैं. इसके बाद, हम इन चरणों को तब तक दोहराते रहते हैं, जब तक कि नुकसान की कम से कम सीमा पूरी न हो जाए.