একটি ভাষা মডেল কী?
একটি ভাষা মডেল একটি দীর্ঘ টোকেনের ক্রম অনুসারে একটি টোকেন বা টোকেনের ক্রম সংঘটিত হওয়ার সম্ভাবনা অনুমান করে। একটি টোকেন একটি শব্দ, একটি উপশব্দ (একটি শব্দের একটি উপসেট), এমনকি একটি একক অক্ষরও হতে পারে।
নিম্নলিখিত বাক্যটি এবং এটি সম্পূর্ণ করতে পারে এমন টোকেন(গুলি) বিবেচনা করুন:
When I hear rain on my roof, I _______ in my kitchen.
একটি ভাষা মডেল বিভিন্ন টোকেন বা টোকেনের ক্রম অনুসারে শূন্যস্থান পূরণের সম্ভাব্যতা নির্ধারণ করে। উদাহরণস্বরূপ, নিম্নলিখিত সম্ভাব্যতা সারণীটি কিছু সম্ভাব্য টোকেন এবং তাদের সম্ভাব্যতা সনাক্ত করে:
| সম্ভাবনা | টোকেন(গুলি) |
|---|---|
| ৯.৪% | স্যুপ রান্না করো |
| ৫.২% | কেটলি গরম করো |
| ৩.৬% | ভীত হওয়া |
| ২.৫% | ঘুম |
| ২.২% | শিথিল করা |
কিছু পরিস্থিতিতে, টোকেনের ক্রম একটি সম্পূর্ণ বাক্য, অনুচ্ছেদ, এমনকি একটি সম্পূর্ণ প্রবন্ধও হতে পারে।
একটি অ্যাপ্লিকেশন ভবিষ্যদ্বাণী করার জন্য সম্ভাব্যতা সারণী ব্যবহার করতে পারে। ভবিষ্যদ্বাণীটি সর্বোচ্চ সম্ভাব্যতা (উদাহরণস্বরূপ, "কুক স্যুপ") হতে পারে অথবা একটি নির্দিষ্ট থ্রেশহোল্ডের চেয়ে বেশি সম্ভাব্যতা সম্পন্ন টোকেন থেকে একটি এলোমেলো নির্বাচন হতে পারে।
একটি টেক্সট ক্রমের শূন্যস্থান পূরণের সম্ভাব্যতা অনুমান করা আরও জটিল কাজগুলিতে প্রসারিত করা যেতে পারে, যার মধ্যে রয়েছে:
- টেক্সট তৈরি করা হচ্ছে।
- এক ভাষা থেকে অন্য ভাষায় লেখা অনুবাদ করা।
- নথিপত্রের সারসংক্ষেপ।
টোকেনের পরিসংখ্যানগত ধরণগুলিকে মডেল করার মাধ্যমে, আধুনিক ভাষা মডেলগুলি ভাষার অত্যন্ত শক্তিশালী অভ্যন্তরীণ উপস্থাপনা বিকাশ করে এবং যুক্তিসঙ্গত ভাষা তৈরি করতে পারে।
এন-গ্রাম ভাষার মডেল
N-গ্রাম হল ভাষা মডেল তৈরিতে ব্যবহৃত শব্দের ক্রমানুসারে সাজানো ক্রম, যেখানে N হল ক্রমানুসারে থাকা শব্দের সংখ্যা। উদাহরণস্বরূপ, যখন N 2 হয়, তখন N-গ্রামকে 2-গ্রাম (অথবা একটি বিগ্রাম ) বলা হয়; যখন N 5 হয়, তখন N-গ্রামকে 5-গ্রাম বলা হয়। একটি প্রশিক্ষণ নথিতে নিম্নলিখিত বাক্যাংশটি দেওয়া হল:
you are very nice
ফলস্বরূপ 2-গ্রাম নিম্নরূপ:
- তুমি
- খুব
- খুব সুন্দর
যখন N 3 হয়, তখন N-গ্রামকে 3-গ্রাম (অথবা একটি ট্রিগ্রাম ) বলা হয়। একই বাক্যাংশের ভিত্তিতে, ফলাফল 3-গ্রাম হল:
- তুমি খুব
- খুব সুন্দর
দুটি শব্দ ইনপুট হিসেবে দেওয়া হলে, ৩-গ্রামের উপর ভিত্তি করে একটি ভাষা মডেল তৃতীয় শব্দের সম্ভাবনা ভবিষ্যদ্বাণী করতে পারে। উদাহরণস্বরূপ, নিম্নলিখিত দুটি শব্দের প্রেক্ষিতে:
orange is
একটি ভাষা মডেল তার প্রশিক্ষণ কর্পাস থেকে প্রাপ্ত সমস্ত 3-গ্রাম পরীক্ষা করে যা orange is দিয়ে শুরু হয় orange is সবচেয়ে সম্ভাব্য তৃতীয় শব্দটি নির্ধারণ করার জন্য। শত শত 3-গ্রাম দুটি শব্দ দিয়ে শুরু হতে পারে, তবে আপনি কেবল নিম্নলিখিত দুটি সম্ভাবনার উপর মনোনিবেশ করতে পারেন:
orange is ripe orange is cheerful
প্রথম সম্ভাবনা ( orange is ripe ) হল ফলের কমলা রঙ সম্পর্কে, আর দ্বিতীয় সম্ভাবনা ( orange is cheerful ) হল কমলা রঙ সম্পর্কে।
প্রসঙ্গ
মানুষ তুলনামূলকভাবে দীর্ঘ প্রেক্ষাপট ধরে রাখতে পারে। নাটকের ৩য় নং অ্যাক্ট দেখার সময়, আপনি অ্যাক্ট ১-এ প্রবর্তিত চরিত্রগুলি সম্পর্কে জ্ঞান ধরে রাখেন। একইভাবে, একটি দীর্ঘ কৌতুকের শব্দ আপনাকে হাসাতে বাধ্য করে কারণ আপনি কৌতুকের সেটআপ থেকে প্রেক্ষাপট মনে রাখতে পারেন।
ভাষা মডেলগুলিতে, প্রসঙ্গ হল লক্ষ্য টোকেনের আগে বা পরে সহায়ক তথ্য। প্রসঙ্গ একটি ভাষা মডেলকে নির্ধারণ করতে সাহায্য করতে পারে যে "কমলা" বলতে সাইট্রাস ফল বোঝায় নাকি রঙ বোঝায়।
প্রসঙ্গ একটি ভাষা মডেলকে আরও ভালো ভবিষ্যদ্বাণী করতে সাহায্য করতে পারে, কিন্তু ৩-গ্রাম কি পর্যাপ্ত প্রসঙ্গ প্রদান করে? দুর্ভাগ্যবশত, ৩-গ্রামের প্রসঙ্গই একমাত্র প্রথম দুটি শব্দ প্রদান করে। উদাহরণস্বরূপ, orange is শব্দটি দুটি ভাষা মডেলকে তৃতীয় শব্দটির ভবিষ্যদ্বাণী করার জন্য পর্যাপ্ত প্রসঙ্গ প্রদান করে না। প্রসঙ্গ না থাকার কারণে, ৩-গ্রামের উপর ভিত্তি করে তৈরি ভাষা মডেলগুলি অনেক ভুল করে।
লম্বা N-গ্রাম অবশ্যই ছোট N-গ্রামের তুলনায় বেশি প্রসঙ্গ প্রদান করবে। তবে, N বৃদ্ধির সাথে সাথে প্রতিটি উদাহরণের আপেক্ষিক উপস্থিতি হ্রাস পায়। যখন N খুব বড় হয়ে যায়, তখন ভাষা মডেলে সাধারণত N টোকেনের প্রতিটি ঘটনার একটি মাত্র উদাহরণ থাকে, যা লক্ষ্য টোকেন পূর্বাভাস দেওয়ার ক্ষেত্রে খুব একটা সহায়ক নয়।
পুনরাবৃত্ত নিউরাল নেটওয়ার্ক
পুনরাবৃত্ত নিউরাল নেটওয়ার্কগুলি N-গ্রামের চেয়ে বেশি প্রসঙ্গ প্রদান করে। পুনরাবৃত্ত নিউরাল নেটওয়ার্ক হল এক ধরণের নিউরাল নেটওয়ার্ক যা টোকেনের ক্রম অনুসারে প্রশিক্ষণ দেয়। উদাহরণস্বরূপ, একটি পুনরাবৃত্ত নিউরাল নেটওয়ার্ক ধীরে ধীরে বাক্যের প্রতিটি শব্দ থেকে নির্বাচিত প্রসঙ্গ শিখতে পারে (এবং উপেক্ষা করতে শিখতে পারে), ঠিক যেমন আপনি কারো কথা শোনার সময় করেন। একটি বৃহৎ পুনরাবৃত্ত নিউরাল নেটওয়ার্ক বেশ কয়েকটি বাক্যের অংশ থেকে প্রসঙ্গ পেতে পারে।
যদিও পুনরাবৃত্ত নিউরাল নেটওয়ার্কগুলি N-গ্রামের তুলনায় বেশি প্রসঙ্গ শেখে, তবুও কার্যকর প্রসঙ্গ পুনরাবৃত্ত নিউরাল নেটওয়ার্কগুলি কতটা অন্তর্দৃষ্টি দিতে পারে তা এখনও তুলনামূলকভাবে সীমিত। পুনরাবৃত্ত নিউরাল নেটওয়ার্কগুলি "টোকেন দ্বারা" তথ্য মূল্যায়ন করে। বিপরীতে, বৃহৎ ভাষা মডেলগুলি - পরবর্তী বিভাগের বিষয় - একবারে পুরো প্রসঙ্গ মূল্যায়ন করতে পারে।
মনে রাখবেন যে দীর্ঘ প্রেক্ষাপটের জন্য পুনরাবৃত্ত নিউরাল নেটওয়ার্কগুলিকে প্রশিক্ষণ দেওয়া ভ্যানিশিং গ্রেডিয়েন্ট সমস্যার কারণে সীমাবদ্ধ।
অনুশীলন: আপনার বোধগম্যতা পরীক্ষা করুন
- ৬-গ্রামের উপর ভিত্তি করে একটি ভাষার মডেল
- ৫-গ্রামের উপর ভিত্তি করে একটি ভাষার মডেল