मशीन लर्निंग ग्लॉसरी: रिइंफ़ोर्समेंट लर्निंग

इस पेज पर, Reinforceation Learning ग्लॉसरी के शब्द शामिल हैं. शब्दावली के सभी शब्दों के लिए, यहां क्लिक करें.

A

किसी खास रूटीन से जुड़ी कार्रवाई

#rl

रिइन्फ़ोर्समेंट लर्निंग, ऐसा तरीका जिसकी मदद से एजेंट परिवेश के राज्यों के बीच ट्रांज़िशन करता है. एजेंट, नीति का इस्तेमाल करके कार्रवाई चुनता है.

एजेंट

#rl

रिइन्फ़ोर्समेंट लर्निंग, वह इकाई जो नीति का इस्तेमाल करके, 10}परिवेश के राज्य के बीच होने वाले सामान लौटाने की अनुमानित संख्या को बढ़ाती है.

B

बेलमैन इक्वेशन

#rl

बेहतर तरीके से सीखने-सिखाने के साथ, इस जानकारी को Q-फ़ंक्शन के मुताबिक बनाया गया है:

\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]

प्रशिक्षण लागू करने के एल्गोरिदम इस पहचान को लागू करते हैं, ताकि अपडेट करने के इस नियम की मदद से क्यू-लर्निंग बनाई जा सके:

\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s’,a’) - Q(s,a) \right] \]

मज़बूती से आगे बढ़ने के अलावा, बेलमैन समीकरण में डाइनैमिक प्रोग्रामिंग के लिए ऐप्लिकेशन का इस्तेमाल किया गया है. बेलमैन इक्वेशन के लिए Wikipedia एंट्री देखें.

C

आलोचक

#rl

डीप क्यू-नेटवर्क का समानार्थी शब्द.

D

डीप क्यू-नेटवर्क (डीक्यूएन)

#rl

क्यू-लर्निंग, डीप न्यूरल नेटवर्क यह अनुमान लगाता है कि क्यू-फ़ंक्शन काम करेंगे.

क्रिटिक डीप डीप-नेटवर्क का एक समानार्थी शब्द है.

डीक्यूएन

#rl

डीप क्यू-नेटवर्क के लिए छोटा नाम.

E

वातावरण

#rl

बेहतर तरीके से सीखने-सिखाने के लिए, एजेंट की सुविधा वाली दुनिया ही एजेंट को उस दुनिया की स्थिति देखने की अनुमति देती है. उदाहरण के लिए, दिखाई गई दुनिया शतरंज, खेल या भूलभुलैया जैसी भौतिक दुनिया की तरह हो सकती है. एजेंट, एनवायरमेंट पर कार्रवाई करने के बाद, इन स्थितियों के बीच एनवायरमेंट ट्रांज़िशन करता है.

एपिसोड

#rl

बेहतर तरीके से सिखाने के लिए, एजेंट की ओर से बार-बार की जाने वाली कोशिशों से परिवेश के बारे में जाना जाता है.

इसिलॉन के लालच से जुड़ी नीति

#rl

बेहतर तरीके से सीखने-सिखाने के लिए, नीति का इस्तेमाल किया गया है. यह नीति या तो रैंडम नीति का पालन करती है, जिसमें इपिसल की संभावना या लालच की नीति का पालन नहीं किया जाता. उदाहरण के लिए, अगर इपिलॉन 0.9 है, तो यह नीति 90% बार और लालच वाली नीति का 10% पालन करती है.

एक के बाद एक चलने वाले एपिसोड में, एल्गोरिदम एपिसिलोन के मान को कम कर देता है. इससे, लालच देने वाली नीति का पालन करने के लिए, किसी भी नीति को अपनाने की ज़रूरत नहीं पड़ती. नीति शिफ़्ट करने पर, एजेंट पहले बिना किसी क्रम के वातावरण का पता लगाता है और अनजाने में, बिना किसी क्रम के एक्सप्लोर करने के नतीजों का फ़ायदा उठाता है.

अनुभव फिर से चलाएं

#rl

बेहतर तरीके से सीखने के लिए, DQN तकनीक का इस्तेमाल किया जाता है. यह तकनीक, ट्रेनिंग डेटा में कुछ समय के लिए होने वाली दिक्कतों को कम करती है. एजेंट, रीप्ले बफ़र में ट्रांज़िशन की स्थिति को सेव करता है. इसके बाद, ट्रेनिंग डेटा बनाने के लिए सैंपल, रीप्ले बफ़र से ट्रांज़िशन करते हैं.

G

लालच नीति

#rl

बेहतर तरीके से सीखने की सुविधा में, एक ऐसी नीति जो हमेशा सबसे ज़्यादा अनुमानित सामान लौटाने की कार्रवाई को चुनती है.

सोम

मार्कोव के फ़ैसले की प्रक्रिया (MDP)

#rl

फ़ैसला लेने वाले मॉडल को दिखाने वाला ग्राफ़, जिसमें यह माना जाता है कि मार्कोव प्रॉपर्टी के अधिकार के तहत, स्थितियों के क्रम को नेविगेट करने के लिए, फ़ैसले (या कार्रवाइयां) ली गई हैं. इन्फ़ोर्समेंट लर्निंग, हर राज्य के बीच होने वाले ये ट्रांज़िशन संख्या में इनाम दिखाते हैं.

मार्कोव प्रॉपर्टी

#rl

कुछ एनवायरमेंट की प्रॉपर्टी, जहां प्रक्रिया के मौजूदा चरण, पूरी तरह से मौजूदा स्थिति और एजेंट की कार्रवाई में दी गई जानकारी से तय होते हैं.

P

policy

#rl

बेहतर तरीके से सीखने-सिखाने के लिए, एजेंट की प्रॉबेबिलिटी मैपिंग की सुविधा, राज्यों से कार्रवाई तक जाती है.

Q

क्यू-फ़ंक्शन

#rl

रिइन्फ़ोर्समेंट लर्निंग: इस फ़ंक्शन की मदद से, रिटर्न का अनुमान लगाया जाता है. इसमें, स्थिति में कार्रवाई करने के बाद, नीति का पालन किया जाता है.

क्यू-फ़ंक्शन को स्टेट-ऐक्शन वैल्यू फ़ंक्शन भी कहा जाता है.

क्यू-लर्निंग

#rl

रिइन्फ़ोर्समेंट लर्निंग, एक ऐसा एल्गोरिदम है जो एक एजेंट की मदद करता है. इससे बेलमैन इक्वेशन लागू करके, मार्कोव के फ़ैसले की प्रक्रिया का सबसे सही Q-फ़ंक्शन सीखा जा सकता है. मार्कोव के फ़ैसले की प्रोसेस में, एक एनवायरमेंट होता है.

आर

रैंडम नीति

#rl

रिइन्फ़ोर्समेंट लर्निंग, एक नीति, जो बिना किसी क्रम के एक कार्रवाई चुनती है.

इंश्योरेंस लर्निंग (आरएल)

#rl

यह एल्गोरिदम की एक फ़ैमिली है जो सबसे अच्छी नीति सीखती है. इसका लक्ष्य परिवेश के साथ इंटरैक्ट करते समय रिटर्न बढ़ाना होता है. उदाहरण के लिए, ज़्यादातर गेम का आखिरी इनाम जीत होता है. गेम को बेहतर बनाने वाले सिस्टम, कॉम्प्लेक्स गेम खेलने में माहिर हो सकते हैं. इसके लिए, वे अपने पिछले गेम को क्रम से लगाते हैं, जो जीत और सीक्वेंस की वजह से हुए, जो हार गए.

ह्यूमन फ़ीडबैक (आरएलएचएफ़) की मदद से, सीखने-सिखाने की प्रक्रिया को बेहतर बनाना

#generativeAI
#rl

मॉडल के जवाबों की क्वालिटी को बेहतर बनाने के लिए, रेटिंग देने वाले लोगों के सुझावों का इस्तेमाल करना. उदाहरण के लिए, आरएलएचएफ़ के तरीके के ज़रिए उपयोगकर्ताओं से मॉडल की प्रतिक्रिया की क्वालिटी या 👍 इमोजी को रेटिंग देने के लिए कहा जा सकता है. इसके बाद, सिस्टम उस फ़ीडबैक के आधार पर अपने आने वाले जवाबों को अडजस्ट कर सकता है.

बफ़र फिर से चलाएं

#rl

डीक्यूएन जैसे एल्गोरिदम में, उस मेमोरी का इस्तेमाल होता है जिसे एजेंट, अनुभव को फिर से चलाने में इस्तेमाल करने के लिए सेव करता है.

रिटर्न

#rl

किसी खास नीति के हिसाब से और किसी खास स्थिति में, सामान लौटाने का मतलब उन सभी इनामों को जोड़ना है जो एजेंट से मिलते हैं. ये सभी आंकड़े स्थिति से, एपिसोड के आखिर तक मिलते हैं. एजेंट, इनाम पाने के लिए ज़रूरी राज्य ट्रांज़िशन के मुताबिक इनामों पर छूट देकर, देर से मिलने वाले इनामों को ध्यान में रखता है.

इसलिए, अगर छूट के फ़ैक्टर \(\gamma\)हैं और \(r_0, \ldots, r_{N}\) इनाम खत्म होने तक इनाम दिखाते हैं, तो आइटम लौटाने का हिसाब इस तरह से लगाया जाएगा:

$$\text{Return} = r_0 + \gamma r_1 + \gamma^2 r_2 + \ldots + \gamma^{N-1} r_{N-1}$$

इनाम

#rl

बेहतर तरीके से सिखाने के लिए, स्थिति में कार्रवाई करने का संख्या पर आधारित नतीजा, जैसा कि परिवेश में बताया गया है.

रवि

राज्य

#rl

बेहतर तरीके से सीखने के लिए, पैरामीटर की वैल्यू में उस एनवायरमेंट के मौजूदा कॉन्फ़िगरेशन के बारे में बताया गया है जिसे एजेंट कार्रवाई चुनने के लिए इस्तेमाल करता है.

स्टेट-ऐक्शन की वैल्यू का फ़ंक्शन

#rl

Q-फ़ंक्शन का समानार्थी शब्द.

गुरु

टेबल वाली क्यू-लर्निंग

#rl

रीइन्फ़ोर्समेंट लर्निंग, राज्य और कार्रवाई के हर कॉम्बिनेशन के लिए, क्यू-फ़ंक्शन को स्टोर करने के लिए, क्यू-लर्निंग को लागू करता है.

टारगेट नेटवर्क

#rl

डिप क्यू-लर्निंग, एक न्यूरल नेटवर्क है, जो मुख्य न्यूरल नेटवर्क से संपर्क में आने का अनुमान है. इसमें मुख्य न्यूरल नेटवर्क, क्यू फ़ंक्शन या नीति को लागू करता है. उसके बाद, आप मुख्य नेटवर्क को टारगेट नेटवर्क के आधार पर अनुमानित Q-वैल्यू पर ट्रेनिंग दे सकते हैं. इसलिए, जब मुख्य नेटवर्क अपने-आप तय किए गए Q-वैल्यू पर ट्रेनिंग लेता है, तब होने वाले फ़ीडबैक लूप को रोका जा सकता है. इस फ़ीडबैक से बचने पर, ट्रेनिंग स्थिरता बढ़ जाती है.

खाता बंद किए जाने की स्थिति

#rl

रिइन्फ़ोर्समेंट लर्निंग के मामले में, यह तय किया जाता है कि एपिसोड की समयसीमा कब खत्म होगी. उदाहरण के लिए, एजेंट के किसी खास स्थिति में पहुंचने या राज्य के ट्रांज़िशन के हिसाब से थ्रेशोल्ड पार होने पर क्या होता है. उदाहरण के लिए, tic-tac-toe (जिसे नॉट और क्रॉस भी कहा जाता है) में, एक एपिसोड तब खत्म होता है, जब कोई खिलाड़ी लगातार तीन बार या सभी स्पेस को मार्क करता है.

ट्रजेक्टरी

#rl

रिइन्फ़ोर्समेंट लर्निंग, ट्यूपल का एक ऐसा क्रम है जो एजेंट के ट्रांज़िशन का क्रम दिखाता है. इसमें ट्यूलट, स्टेट, कार्रवाई, और इनाम से जुड़ा होता है और राज्य का ट्रांज़िशन होता है.