বড় ভাষার মডেলের ভূমিকা

ভাষা মডেল বা বড় ভাষা মডেল নতুন? নীচের সম্পদ দেখুন.

একটি ভাষা মডেল কি?

একটি ভাষা মডেল হল একটি মেশিন লার্নিং মডেল যার লক্ষ্য হল ভবিষ্যদ্বাণী করা এবং যুক্তিযুক্ত ভাষা তৈরি করা। স্বয়ংসম্পূর্ণ হল একটি ভাষা মডেল, উদাহরণস্বরূপ।

এই মডেলগুলি একটি টোকেন বা টোকেনগুলির ক্রম টোকেনের একটি দীর্ঘ অনুক্রমের মধ্যে ঘটানোর সম্ভাবনা অনুমান করে কাজ করে। নিম্নলিখিত বাক্য বিবেচনা করুন:

When I hear rain on my roof, I _______ in my kitchen.

আপনি যদি ধরে নেন যে একটি টোকেন একটি শব্দ, তাহলে একটি ভাষা মডেল সেই আন্ডারস্কোর প্রতিস্থাপন করার জন্য বিভিন্ন শব্দ বা শব্দের ক্রমগুলির সম্ভাব্যতা নির্ধারণ করে। উদাহরণস্বরূপ, একটি ভাষা মডেল নিম্নলিখিত সম্ভাব্যতা নির্ধারণ করতে পারে:

cook soup 9.4%
warm up a kettle 5.2%
cower 3.6%
nap 2.5%
relax 2.2%
...

একটি "টোকেনের ক্রম" একটি সম্পূর্ণ বাক্য বা বাক্যের একটি সিরিজ হতে পারে। অর্থাৎ, একটি ভাষা মডেল বিভিন্ন সম্পূর্ণ বাক্য বা পাঠ্যের ব্লকের সম্ভাবনা গণনা করতে পারে।

একটি ক্রমানুসারে পরবর্তীতে কী আসে তার সম্ভাব্যতা অনুমান করা সমস্ত ধরণের জিনিসের জন্য দরকারী: পাঠ্য তৈরি করা, ভাষা অনুবাদ করা এবং কয়েকটি প্রশ্নের উত্তর দেওয়া।

একটি বড় ভাষা মডেল কি?

স্কেলে মানুষের ভাষা মডেলিং একটি অত্যন্ত জটিল এবং সম্পদ-নিবিড় প্রচেষ্টা। ভাষার মডেল এবং বৃহৎ ভাষার মডেলগুলির বর্তমান ক্ষমতাগুলিতে পৌঁছানোর পথটি কয়েক দশক ধরে বিস্তৃত।

মডেলগুলি বড় এবং বড় হওয়ার সাথে সাথে তাদের জটিলতা এবং কার্যকারিতা বৃদ্ধি পায়। প্রাথমিক ভাষার মডেলগুলি একটি একক শব্দের সম্ভাব্যতা ভবিষ্যদ্বাণী করতে পারে; আধুনিক বৃহৎ ভাষার মডেলগুলি বাক্য, অনুচ্ছেদ বা এমনকি সম্পূর্ণ নথির সম্ভাব্যতার পূর্বাভাস দিতে পারে।

কম্পিউটার মেমরি, ডেটাসেটের আকার এবং প্রক্রিয়াকরণ ক্ষমতা বৃদ্ধির ফলে ভাষা মডেলগুলির আকার এবং ক্ষমতা গত কয়েক বছরে বিস্ফোরিত হয়েছে, এবং দীর্ঘ পাঠ্য অনুক্রমের মডেলিংয়ের জন্য আরও কার্যকর কৌশল তৈরি হয়েছে।

কত বড় বড়?

সংজ্ঞাটি অস্পষ্ট, কিন্তু BERT (110M প্যারামিটার) এর পাশাপাশি PaLM 2 (340B প্যারামিটার পর্যন্ত) বর্ণনা করতে "বড়" ব্যবহার করা হয়েছে।

পরামিতি হল প্রশিক্ষণের সময় মডেলের শেখা ওজন , যা অনুক্রমের পরবর্তী টোকেনের পূর্বাভাস দিতে ব্যবহৃত হয়। "বড়" মডেলের প্যারামিটারের সংখ্যা, বা কখনও কখনও ডেটাসেটে শব্দের সংখ্যা উল্লেখ করতে পারে।

ট্রান্সফরমার

2017 সালে ট্রান্সফরমারের প্রবর্তন ছিল ভাষা মডেলিংয়ের একটি মূল বিকাশ, মনোযোগের ধারণার চারপাশে ডিজাইন করা একটি আর্কিটেকচার। এটি ইনপুটের সবচেয়ে গুরুত্বপূর্ণ অংশের উপর ফোকাস করে, আগের মডেলগুলিতে মেমরির সমস্যাগুলি সমাধান করে দীর্ঘ ক্রম প্রক্রিয়া করা সম্ভব করেছে।

ট্রান্সফরমার হল অত্যাধুনিক স্থাপত্য যা বিভিন্ন ধরনের ভাষার মডেল অ্যাপ্লিকেশন, যেমন অনুবাদক।

যদি ইনপুট হয় "আমি একটি ভাল কুকুর।" , একটি ট্রান্সফরমার-ভিত্তিক অনুবাদক সেই ইনপুটটিকে আউটপুটে রূপান্তরিত করে "Je suis un bon chien." , যা ফরাসি ভাষায় অনুবাদ করা একই বাক্য।

সম্পূর্ণ ট্রান্সফরমার একটি এনকোডার এবং একটি ডিকোডার নিয়ে গঠিত। একটি এনকোডার ইনপুট পাঠকে একটি মধ্যবর্তী উপস্থাপনায় রূপান্তরিত করে এবং একটি ডিকোডার সেই মধ্যবর্তী উপস্থাপনাটিকে দরকারী পাঠ্যে রূপান্তর করে।

স্ব-মনোযোগ

ট্রান্সফরমারগুলি স্ব-মনোযোগ নামক একটি ধারণার উপর ব্যাপকভাবে নির্ভর করে। স্ব-মনোযোগের স্ব-অংশটি একটি কর্পাসের প্রতিটি টোকেনের "অহংকেন্দ্রিক" ফোকাসকে বোঝায়। কার্যকরভাবে, প্রতিটি ইনপুট টোকেনের পক্ষে, স্ব-মনোযোগ জিজ্ঞাসা করে, "ইনপুটের প্রতিটি টোকেন আমার কাছে কতটা গুরুত্বপূর্ণ?" বিষয়গুলিকে সহজ করার জন্য, ধরা যাক যে প্রতিটি টোকেন একটি শব্দ এবং সম্পূর্ণ প্রসঙ্গ একটি একক বাক্য। নিম্নলিখিত বাক্য বিবেচনা করুন:

পশুটি রাস্তা পার হয়নি কারণ এটি খুব ক্লান্ত ছিল।

পূর্ববর্তী বাক্যটিতে 11টি শব্দ রয়েছে, তাই 11টি শব্দের প্রতিটি অন্য দশটির দিকে মনোযোগ দিচ্ছে, এই দশটি শব্দের প্রতিটি তাদের কাছে কতটা গুরুত্বপূর্ণ তা ভাবছে। উদাহরণস্বরূপ, লক্ষ্য করুন যে বাক্যটিতে সর্বনামটি রয়েছে। সর্বনাম প্রায়ই অস্পষ্ট হয়। সর্বনাম এটি সর্বদা একটি সাম্প্রতিক বিশেষ্যকে নির্দেশ করে, কিন্তু উদাহরণ বাক্যে, কোন সাম্প্রতিক বিশেষ্যটি এটি উল্লেখ করে: পশু বা রাস্তা?

স্ব-মনোযোগ প্রক্রিয়া সর্বনামের সাথে প্রতিটি কাছাকাছি শব্দের প্রাসঙ্গিকতা নির্ধারণ করে।

এলএলএম-এর জন্য কিছু ব্যবহারের ক্ষেত্রে কী কী?

এলএলএমগুলি যে কাজের জন্য তৈরি করা হয়েছিল তাতে অত্যন্ত কার্যকর, যা একটি ইনপুটের প্রতিক্রিয়া হিসাবে সবচেয়ে যুক্তিযুক্ত পাঠ্য তৈরি করছে। এমনকি তারা অন্যান্য কাজগুলিতে শক্তিশালী কর্মক্ষমতা দেখাতে শুরু করেছে; উদাহরণস্বরূপ, সংক্ষিপ্তকরণ, প্রশ্নের উত্তর এবং পাঠ্য শ্রেণিবিন্যাস। এগুলোকে ইমারজেন্ট এবিলিটি বলা হয়। এলএলএম এমনকি কিছু গণিত সমস্যার সমাধান করতে পারে এবং কোড লিখতে পারে (যদিও তাদের কাজ পরীক্ষা করার পরামর্শ দেওয়া হয়)।

এলএলএম মানুষের বক্তৃতা প্যাটার্ন অনুকরণে চমৎকার। অন্যান্য জিনিসগুলির মধ্যে, তারা বিভিন্ন শৈলী এবং টোনগুলির সাথে তথ্য একত্রিত করতে দুর্দান্ত।

যাইহোক, এলএলএমগুলি এমন মডেলগুলির উপাদান হতে পারে যা কেবল পাঠ্য তৈরি করার চেয়ে আরও বেশি কিছু করে। সাম্প্রতিক এলএলএমগুলি সেন্টিমেন্ট ডিটেক্টর, টক্সিসিটি ক্লাসিফায়ার এবং ইমেজ ক্যাপশন তৈরি করতে ব্যবহার করা হয়েছে।

এলএলএম বিবেচনা

এই বড় মডেলগুলি তাদের ত্রুটি ছাড়াই নয়।

বৃহত্তম এলএলএমগুলি ব্যয়বহুল। তাদের প্রশিক্ষণের জন্য কয়েক মাস সময় লাগতে পারে এবং ফলস্বরূপ প্রচুর সম্পদ খরচ হয়।

এগুলি সাধারণত অন্যান্য কাজের জন্য পুনরুদ্ধার করা যেতে পারে, একটি মূল্যবান রূপালী আস্তরণ।

একটি ট্রিলিয়ন প্যারামিটারের উপরে প্রশিক্ষণের মডেলগুলি ইঞ্জিনিয়ারিং চ্যালেঞ্জ তৈরি করে। চিপগুলিতে এবং আবার ফিরে যাওয়ার প্রবাহকে সমন্বয় করার জন্য বিশেষ অবকাঠামো এবং প্রোগ্রামিং কৌশল প্রয়োজন।

এই বড় মডেলের খরচ কমানোর উপায় আছে. দুটি পন্থা হল অফলাইন অনুমান এবং পাতন

পক্ষপাত খুব বড় মডেলে একটি সমস্যা হতে পারে এবং প্রশিক্ষণ এবং স্থাপনার ক্ষেত্রে বিবেচনা করা উচিত।

যেহেতু এই মডেলগুলি মানুষের ভাষার উপর প্রশিক্ষিত, এটি ভাষার অপব্যবহার এবং জাতি, লিঙ্গ, ধর্ম এবং আরও অনেক কিছুতে পক্ষপাত সহ অসংখ্য সম্ভাব্য নৈতিক সমস্যাগুলিকে প্রবর্তন করতে পারে৷

এটি পরিষ্কার হওয়া উচিত যে এই মডেলগুলি যেমন বড় হতে থাকে এবং আরও ভাল পারফর্ম করতে থাকে, তেমনি তাদের ত্রুটিগুলি বোঝার এবং প্রশমিত করার বিষয়ে ক্রমাগত পরিশ্রমী হতে হবে। দায়ী এআই- এর প্রতি Google-এর পদ্ধতি সম্পর্কে আরও জানুন।