लैंग्वेज मॉडल क्या है?
भाषा का मॉडल टोकन की संभावना का अनुमान लगाता है या टोकन की एक लंबी सूची के अंदर होने वाले टोकन का क्रम. टोकन, एक शब्द, सबवर्ड (किसी शब्द का सबसेट) या एक वर्ण हो सकता है.
नीचे दिए गए वाक्य और उससे जुड़े टोकन देखें:
When I hear rain on my roof, I _______ in my kitchen.
भाषा मॉडल, खाली जगह को भरने के लिए अलग-अलग टोकन या टोकन के क्रम की संभावनाओं का पता लगाता है. उदाहरण के लिए, संभावना वाली इस टेबल में कुछ संभावित टोकन और उनकी संभावनाओं के बारे में बताया गया है:
प्रॉबेबिलिटी | टोकन |
---|---|
9.4% | सूप बनाना |
5.2% | केतली में पानी गर्म करना |
3.6% | कूवर |
2.5% | थोड़ी देर सोना |
2.2% | आराम |
कुछ मामलों में, टोकन का क्रम एक पूरा वाक्य हो सकता है, या पूरा निबंध लिखना.
कोई ऐप्लिकेशन, अनुमान लगाने के लिए संभावना टेबल का इस्तेमाल कर सकता है. अनुमान, सबसे ज़्यादा संभावना (उदाहरण के लिए, "सूप पकाएं") या किसी तय थ्रेशोल्ड से ज़्यादा संभावना वाले टोकन में से किसी एक को रैंडम तौर पर चुनने पर मिल सकता है.
टेक्स्ट क्रम में खाली जगह में क्या भरेगा, इसकी संभावना का अनुमान लगाने की सुविधा को ज़्यादा मुश्किल कामों के लिए भी इस्तेमाल किया जा सकता है. जैसे:
- टेक्स्ट जनरेट किया जा रहा है.
- टेक्स्ट का एक से दूसरी भाषा में अनुवाद करना.
- दस्तावेज़ों की खास जानकारी देना.
टोकन के आंकड़ों के पैटर्न का इस्तेमाल करके, आधुनिक भाषा के मॉडल तैयार किए जाते हैं भाषा का बेहद शक्तिशाली आंतरिक प्रतिनिधित्व करते हैं और इससे ऐसी भाषा चुनें जो सही हो.
एन-ग्राम लैंग्वेज मॉडल
N-ग्राम शब्दों के क्रम वाले क्रम होते हैं इसका इस्तेमाल लैंग्वेज मॉडल बनाने के लिए किया जाता है. इसमें N क्रम में मौजूद शब्दों की संख्या है. उदाहरण के लिए, जब N दो होता है, तो N-ग्राम को 2-ग्राम (या बिग्राम) कहा जाता है. जब N पांच होता है, तो N-ग्राम को 5-ग्राम कहा जाता है. ट्रेनिंग दस्तावेज़ में यह वाक्यांश दिया गया है:
you are very nice
इसके बाद बने दो ग्राम नीचे दिए गए हैं:
- आप हैं
- बहुत
- बहुत अच्छा
जब N की वैल्यू 3 होती है, तो N-ग्राम को 3-ग्राम (या ट्राइग्राम) कहा जाता है. उसी वाक्यांश के लिए, तीन-ग्राम के तौर पर ये नतीजे मिलते हैं:
- तुम बहुत
- बहुत अच्छे हैं
दो शब्दों को इनपुट के रूप में दिए जाने पर, 3-ग्राम की भाषा पर आधारित भाषा मॉडल तीसरे शब्द की संभावना कितनी है. उदाहरण के लिए, नीचे दिए गए दो शब्द:
orange is
भाषा का एक मॉडल, ट्रेनिंग से मिले सभी अलग-अलग 3-ग्राम की जांच करता है
कॉर्पस जो सबसे ज़्यादा संभावना वाला तीसरा शब्द तय करने के लिए orange is
से शुरू होता है.
दो शब्दों orange is
से सैकड़ों 3-ग्राम शुरू हो सकते हैं, लेकिन आप ऐसा कर सकते हैं
निम्नलिखित दो संभावनाओं पर ध्यान देते हैं:
orange is ripe orange is cheerful
पहली संभावना (orange is ripe
) संतरे के बारे में है,
जबकि दूसरी संभावना (orange is cheerful
) रंग के बारे में है
नारंगी.
संदर्भ
लोग लंबे समय तक बातचीत को याद रख सकते हैं. किसी नाटक का सेक्शन 3 देखते समय, आपको ऐक्ट 1 में पेश किए गए किरदारों के बारे में जानकारी बनाए रखने के लिए. इसी तरह, लंबे चुटकुले की पंचलाइन आपको हंसाती है, क्योंकि आपको कॉन्टेक्स्ट याद रहता है वह जो भी काम कर रहा है.
लैंग्वेज मॉडल में, कॉन्टेक्स्ट एक उदाहरण के तौर पर दी गई टारगेट टोकन. संदर्भ से किसी भाषा मॉडल को यह तय करने में मदद मिल सकती है कि क्या "नारंगी" मतलब खट्टे फल या रंग को दिखाता है.
संदर्भ की मदद से, भाषा का बेहतर अनुमान लगाया जा सकता है. हालांकि, ऐसा करने से
क्या आपको तीन ग्राम में काफ़ी जानकारी चाहिए? माफ़ करें, सिर्फ़ 3-ग्राम की और
पहले दो शब्द उपलब्ध हैं. उदाहरण के लिए, दो शब्द orange is
, भाषा मॉडल को तीसरे शब्द का अनुमान लगाने के लिए ज़रूरत के मुताबिक संदर्भ नहीं देते.
कॉन्टेक्स्ट की कमी की वजह से, तीन ग्राम वाले लैंग्वेज मॉडल में कई गलतियां हो सकती हैं.
लंबे एन-ग्राम, छोटे एन-ग्राम की तुलना में ज़्यादा जानकारी देंगे. हालांकि, N के बढ़ने के साथ-साथ, हर इंस्टेंस की तुलनात्मक घटना कम हो जाती है. जब N बहुत बड़ा हो जाता है, तो भाषा मॉडल में आम तौर पर सिर्फ़ एक हर बार N टोकन के बार होने पर, जो इस तरह के मामलों में बहुत मददगार नहीं होता है टारगेट टोकन का अनुमान लगाना.
बार-बार होने वाले न्यूरल नेटवर्क
बार-बार होने वाला न्यूरल नेटवर्क N-ग्राम की तुलना में ज़्यादा कॉन्टेक्स्ट दें. रीकर्सिव न्यूरल नेटवर्क, एक तरह का न्यूरल नेटवर्क है, जो टोकन के क्रम पर ट्रेनिंग करता है. उदाहरण के लिए, किसी वाक्य में मौजूद हर शब्द के चुने गए कॉन्टेक्स्ट को, बार-बार इस्तेमाल होने वाला न्यूरल नेटवर्क धीरे-धीरे सीख सकता है (और अनदेखा करना सीख सकता है). यह ठीक उसी तरह है जैसे किसी व्यक्ति को बोलते हुए सुनने पर, उसके कुछ शब्दों को अनदेखा किया जाता है. बार-बार आने वाला एक बड़ा न्यूरल नेटवर्क, कई चरणों के पारित होने से कॉन्टेक्स्ट हासिल कर सकता है वाक्य इस्तेमाल करें.
हालांकि, बार-बार इस्तेमाल होने वाले न्यूरल नेटवर्क, एन-ग्राम की तुलना में ज़्यादा संदर्भ सीखते हैं, लेकिन बार-बार इस्तेमाल होने वाले न्यूरल नेटवर्क, काम के संदर्भ का अनुमान लगा सकते हैं. बार-बार होने वाले न्यूरल नेटवर्क, जानकारी का आकलन "टोकन से टोकन" करते हैं. इसके उलट, लार्ज लैंग्वेज मॉडल—ऐसे विषय हैं जो अगले सेक्शन में जाकर, पूरे संदर्भ का एक साथ आकलन किया जा सकता है.
ध्यान दें कि लंबे कॉन्टेक्स्ट के लिए बार-बार होने वाले न्यूरल नेटवर्क की ट्रेनिंग सीमित है वैनिशिंग ग्रेडिएंट समस्या.
व्यायाम: अपनी समझ की जांच करें
- छह-ग्राम पर आधारित भाषा मॉडल
- पांच ग्राम के आधार पर बनाया गया भाषा मॉडल