ग्रेडिएंट डिसेंट गणित की ऐसी तकनीक जो बार-बार उन वज़न और पूर्वाग्रह का पता लगाती है जिनसे सबसे कम नुकसान वाला मॉडल. ग्रेडिएंट ढलान को सबसे सही वज़न और पूर्वाग्रह मिलता है नीचे दी गई प्रक्रिया को दोहराकर कई उपयोगकर्ताओं को अपने कारोबार की जानकारी दी जा सकती है.
यह मॉडल शून्य के करीब, किसी भी क्रम में लगाए गए वज़न और पक्षपात के साथ ट्रेनिंग शुरू करता है. और फिर इन चरणों को दोहराता है:
मौजूदा वज़न और पूर्वाग्रह की मदद से नुकसान की गणना करें.
नुकसान को कम करने वाले वज़न और पक्षपात को मूव करने की दिशा तय करें.
वज़न और पूर्वाग्रह के मानों को कम करने वाली दिशा में थोड़ी दूरी पर ले जाएं नुकसान.
पहले चरण पर वापस जाएं और इस प्रोसेस को तब तक दोहराएं, जब तक मॉडल उन्हें और कम कर सकता है.
नीचे दिया गया डायग्राम, बार-बार उस चरण के बारे में बताता है जिसमें ग्रेडिएंट डिसेंट का इस्तेमाल करके, उन वज़न और पूर्वाग्रह की जानकारी है जो सबसे कम नुकसान वाले मॉडल को तैयार करते हैं.
12वीं इमेज. ग्रेडिएंट ढलान एक दोहराने वाली प्रक्रिया है, जिसमें वज़न का पता लगाया जाता है और पूर्वाग्रह की वजह से सबसे कम नुकसान वाला मॉडल तैयार होता है.
ग्रेडिएंट ढलान के पीछे के गणित के बारे में अधिक जानने के लिए प्लस आइकन पर क्लिक करें.
ठोस स्तर पर, हम ग्रेडिएंट ढलान के चरणों से गुज़र सकते हैं एक छोटे डेटासेट का इस्तेमाल करके, कार के पाउंड के हिसाब से सात उदाहरण दिए गए हैं और इसकी मील प्रति गैलन रेटिंग:
1,000 सेकंड में पाउंड (सुविधा) | माइल प्रति गैलन (लेबल) |
---|---|
3.5 | 18 |
3.69 | 15 |
3.44 | 18 |
3.43 | 16 |
4.34 | 15 |
4.42 | 14 |
2.37 | 24 |
- यह मॉडल, वज़न और पक्षपात को शून्य पर सेट करके ट्रेनिंग शुरू करता है:
- मौजूदा मॉडल पैरामीटर की मदद से, एमएसई में होने वाले नुकसान का हिसाब लगाएं:
- हर वज़न पर, घटाव के फलन में स्पर्शरेखा (टैनजंट) के प्रवणता की गणना करें और पूर्वाग्रह:
- पाने के लिए कुछ मात्रा को ऋणात्मक ढाल की दिशा में ले जाएं के आधार पर तय करें. फ़िलहाल, हम स्वेच्छा से "छोटी रकम" 0.01 के रूप में:
ढलान की गणना करने के बारे में जानने के लिए प्लस आइकन पर क्लिक करें.
वज़न की स्पर्शज्याओं (टैनजंट) वाली रेखाओं का स्लोप निकालने के लिए और पूर्वाग्रह, हम हानि फ़ंक्शन के अवकलज को के आधार पर भेदभाव कर सकते हैं, और फिर समीकरण.
अनुमान लगाने के लिए, हम समीकरण को इस तरह लिखेंगे:
$ f_{w,b}(x) = (w*x)+b $.
हम वास्तविक मान को इस रूप में लिखेंगे: $ y $.
हम एमएसई का हिसाब इसका इस्तेमाल करके लगाएंगे:
$ \frac{1}{M} \sum_{i=1}^{M} (f_{w,b}(x_{(i)}) - y_{(i)})^2 $
जहां $i$, $ith$ ट्रेनिंग का उदाहरण दिखाता है और $M$ दिखाता है
डालें.
वज़न के संबंध में हानि फ़ंक्शन का अवकलज इस तरह लिखा जाता है:
$ \frac{\pसेल्स }{\pसेल्स w} \frac{1}{M} \sum_{i=1}^{M} (f_{w,b}(x_{(i)}) - y_{(i)})^2 $
और इस पर आकलन करता है:
$ \frac{1}{M} \sum_{i=1}^{M} (f_{w,b}(x_{(i)}) - y_{(i)}) * 2x_{(i)} $
सबसे पहले हम हर अनुमानित वैल्यू को जोड़कर, असल वैल्यू को घटा देते हैं और फिर इसे सुविधा की वैल्यू के दो गुना से गुणा करें. फिर हम योग को उदाहरणों की संख्या से विभाजित करते हैं. नतीजा, मान की टैंजेंट (tan) लाइन का स्लोप है वज़न का प्रतिशत होता है.
यदि हम इस समीकरण को शून्य, हमें लाइन के स्लोप के लिए -119.7 मिलता है.
बायस डेरिवेटिव
इसके संबंध में हानि फ़ंक्शन का अवकलज
पक्षपात को इस तरह लिखा गया है:
$ \frac{\p रीयल }{\pial b} \frac{1}{M} \sum_{i=1}^{M} (f_{w,b}(x_{(i)}) - y_{(i)})^2 $
और इस पर आकलन करता है:
$ \frac{1}{M} \sum_{i=1}^{M} (f_{w,b}(x_{(i)}) - y_{(i)}) * 2 $
सबसे पहले हम हर अनुमानित वैल्यू को जोड़कर, असल वैल्यू को घटा देते हैं और फिर इसे दो से गुणा करें. फिर हम योग को के उदाहरण हैं. इससे लाइन का स्लोप (ढलान) मिलता है बायस की वैल्यू के टैंजंट से.
यदि हम इस समीकरण को शून्य, हमें लाइन के स्लोप के लिए -34.3 मिलता है.
नुकसान की गणना करने और उसे दोहराने के लिए नए वज़न और पूर्वाग्रह का उपयोग करें. पूरी हो रही है प्रक्रिया को छह बार दोहराना है, तो हमें नीचे दिए गए वेट, पूर्वाग्रह, और और नुकसान:
इटरेशन | वज़न | पक्षपात | नुकसान (MSE) |
---|---|---|---|
1 | 0 | 0 | 303.71 |
2 | 1.2 | 0.34 | 170.67 |
3 | 2.75 | 0.59 | 67.3 |
4 | 3.17 | 0.72 | 50.63 |
5 | 3.47 | 0.82 | 42.1 |
6 | 3.68 | 0.9 | 37.74 |
आप देख सकते हैं कि प्रत्येक अपडेट किए गए वज़न और पूर्वाग्रह के साथ घटता घटता हुआ कम होता है. इस उदाहरण में, हमने छह बार दोहराने के बाद काम करना बंद कर दिया. व्यावहारिक तौर पर, एक मॉडल तक ट्रेन कन्वर्ट. जब कोई मॉडल एक साथ काम करता है, तो बार-बार इस्तेमाल करने से नुकसान कम नहीं होता क्योंकि ग्रेडिएंट ढलान ने उस भार और पूर्वाग्रह को पाया है जो कम करने के लिए किया जा सकता है.
अगर मॉडल पिछले अभिसरण को ट्रेनिंग देना जारी रखता है, तो हानि से क्योंकि मॉडल लगातार अपडेट होता रहता है. इसलिए, छोटी-छोटी चीज़ों में लगातार बदलाव करता रहता है पैरामीटर में कम से कम वैल्यू होनी चाहिए. इससे यह काम करना मुश्किल हो सकता है यह पुष्टि करने के लिए कि मॉडल वास्तव में एक-दूसरे से मिला है. मॉडल की पुष्टि करने के लिए कन्वर्ज़न कर दिया है, तो आपको तब तक ट्रेनिंग जारी रखनी होगी, जब तक कि स्थिर हो गया.
मॉडल अभिसरण और हानि कर्व
मॉडल को ट्रेनिंग देते समय, आपको अक्सर कर्व का इस्तेमाल करके पता लगाया जा सकता है कि मॉडल में कन्वर्ट. लॉस कर्व दिखाता है कि मॉडल के ट्रेनिंग के साथ-साथ होने वाले नुकसान में भी क्या बदलाव होता है. आम तौर पर होने वाले नुकसान में ये चीज़ें शामिल होती हैं कर्व कैसा दिखता है. नुकसान y-ऐक्सिस पर है और x-ऐक्सिस पर दोहराव है:
13वीं इमेज. लॉस कर्व को दिखाता है कि मॉडल 1,000वां दोहराने का निशान.
पहली कुछ बार में यह देखा जा सकता है कि नुकसान में काफ़ी कमी आई है, फिर यह 1,000वें हिस्से के आस-पास बराबर होने से पहले धीरे-धीरे घट जाती है चिह्न. 1,000 बार दोहराने के बाद, हम इस बात पर ज़्यादा भरोसा कर सकते हैं कि मॉडल इकट्ठा हुए.
यहां दिए गए आंकड़ों में, हम ट्रेनिंग के दौरान मॉडल को तीन पॉइंट पर बनाते हैं प्रक्रिया: शुरुआत, बीच, और आखिर. मॉडल की स्थिति को विज़ुअलाइज़ करना के बीच के लिंक को मज़बूत बनाता है. वज़न और पूर्वाग्रह, घटता घटता, और मॉडल अभिसरण.
आंकड़ों में, हम व्युत्पन्न वेट और बायस का इस्तेमाल एक खास दोहराव पर करते हैं मॉडल का प्रतिनिधित्व करते हैं. डेटा पॉइंट और मॉडल स्नैपशॉट वाले ग्राफ़ में, मॉडल से डेटा पॉइंट तक की नीली लाइनों से, नुकसान की मात्रा का पता चलता है. कॉन्टेंट बनाने लंबी रेखाएं बनाने का मतलब है कि उनका नुकसान भी उतना ही ज़्यादा होगा.
नीचे दिए गए डायग्राम में, हम देख सकते हैं कि दूसरी बार कोशिश करने पर, मॉडल ज़्यादा नुकसान की वजह से अनुमान लगाना अच्छा नहीं होगा.
14वीं इमेज. मॉडल की शुरुआत में लॉस कर्व और स्नैपशॉट ट्रेनिंग प्रोसेस पूरी होती है.
400वीं-दोहराव के दौरान, हम देख सकते हैं कि ग्रेडिएंट ढलान ने वज़न और पूर्वाग्रह होता है जो एक बेहतर मॉडल तैयार करता है.
इमेज 15. ट्रेनिंग के दौरान, रास्ते के बीच में मॉडल के बारे में लॉस कर्व और स्नैपशॉट.
और लगभग 1,000वीं-दोहराव के दौरान, हम देख सकते हैं कि मॉडल अब तक एक हो गया है, जिससे सबसे कम नुकसान वाला मॉडल तैयार हो.
इमेज 16. ट्रेनिंग खत्म होने के बाद, मॉडल का लॉस कर्व और स्नैपशॉट प्रोसेस.
व्यायाम: अपनी समझ की जांच करें
अभिसरण और उत्तल फलन
रैखिक मॉडल के लिए हानि फलन हमेशा Convex सरफ़ेस के तौर पर दिखेगा. इस वजह से जब लीनियर रिग्रेशन मॉडल इकट्ठा होता है, तो हमें पता चलता है कि मॉडल सबसे कम नुकसान पहुंचाने वाले वज़न और पूर्वाग्रह को पाया.
अगर हम एक सुविधा वाले मॉडल की लॉस सरफ़ेस को ग्राफ़ पर दिखाते हैं, तो हम देख सकते हैं कि उत्तल आकार. मील प्रति गैलन डेटासेट के नुकसान की सतह नीचे दी गई है का इस्तेमाल पिछले उदाहरणों में किया गया है. वज़न x-ऐक्सिस पर है, बायस y-ऐक्सिस पर है, और नुकसान z-ऐक्सिस पर है:
17वीं इमेज. खो जाने की वह सतह जो अपने उत्तल आकार को दिखाती है.
इस उदाहरण में, -5.44 का वेट और 35.94 का पूर्वाग्रह सबसे कम नुकसान देता है 5.54 बजे:
इमेज 18. वज़न और पूर्वाग्रह की वैल्यू दिखाने वाली, नुकसान की सतह सबसे कम नुकसान होगा.
लीनियर मॉडल तब इकट्ठा होता है, जब उसे कम से कम नुकसान का पता चलता है. इसलिए, अतिरिक्त बार-बार दोहराए जाने से, ग्रेडिएंट ढलान में वज़न और पूर्वाग्रह की वैल्यू सिर्फ़ मूवमेंट के हिसाब से होती हैं न्यूनतम के आस-पास बहुत कम राशि होती है. अगर हमने वेट और बायस पॉइंट को ग्राफ़ पर दिखाया जब पॉइंट नीचे की तरफ़ जाते हैं, तो ऐसा लगता है जैसे कोई बॉल किसी पहाड़ी पर लुढ़कती हुई हो, जहां अब नीचे की ओर कोई और नहीं है.
इमेज 19. लॉस ग्राफ़, जिसमें ग्रेडिएंट डिसेंट पॉइंट को सबसे कम पर रुकते हुए दिखाया गया है ग्राफ़ पर पॉइंट कर सकते हैं.
ध्यान दें कि ब्लैक लॉस पॉइंट, लॉस कर्व का सटीक आकार बनाते हैं: a सबसे ज़्यादा गिरावट से पहले धीरे-धीरे नीचे-नीचे तब तक तेज़ी से कम होना शुरू होगा, जब तक कि वह सबसे कम दर तक नहीं पहुंच जाता नुकसान की सतह पर मौजूद होना चाहिए.
यह ध्यान रखना ज़रूरी है कि यह मॉडल, उस मॉडल से मिलती-जुलती हर वज़न और पूर्वाग्रह के लिए न्यूनतम होता है, लेकिन इसके बजाय इसके काफ़ी करीब का मान ढूंढता है. यह ध्यान रखना भी ज़रूरी है कि महत्व और पूर्वाग्रह के लिए कम से कम शून्य लॉस के लिए इस्तेमाल होती है. सिर्फ़ वह वैल्यू जिसकी वजह से सबसे कम नुकसान होता है पैरामीटर.
वज़न और पूर्वाग्रह के उन मानों का इस्तेमाल करना जिनसे सबसे कम नुकसान होता है—इस मामले में का वज़न -5.44 और बायस 35.94 है—हम मॉडल का ग्राफ़ बनाकर, यह देख सकते हैं कि यह डेटा के हिसाब से सही है:
इमेज 20. मॉडल को बनाने के लिए, वज़न और पूर्वाग्रह के मान का इस्तेमाल करके ग्राफ़ बनाया गया है सबसे कम नुकसान होगा.
यह इस डेटासेट के लिए सबसे अच्छा मॉडल होगा, क्योंकि इसमें कोई अन्य वेट और पूर्वाग्रह नहीं है वैल्यू, कम नुकसान वाला मॉडल तैयार करती हैं.