মেশিন লার্নিং শব্দকোষ: রিইনফোর্সমেন্ট লার্নিং

এই পৃষ্ঠায় রিইনফোর্সমেন্ট লার্নিং শব্দকোষ রয়েছে। সকল শব্দকোষের জন্য এখানে ক্লিক করুন

কর্ম

#আরএল

শক্তিবৃদ্ধি শেখার ক্ষেত্রে, যে প্রক্রিয়ার মাধ্যমে এজেন্ট পরিবেশের অবস্থার মধ্যে স্থানান্তরিত হয়। এজেন্ট একটি নীতি ব্যবহার করে পদক্ষেপ বেছে নেয়।

প্রতিনিধি

#আরএল

শক্তিবৃদ্ধি শেখার ক্ষেত্রে, যে সত্তা পরিবেশের রাজ্যগুলির মধ্যে স্থানান্তর থেকে অর্জিত প্রত্যাশিত রিটার্ন সর্বাধিক করার জন্য একটি নীতি ব্যবহার করে।

বেলম্যান সমীকরণ

#আরএল

শক্তিবৃদ্ধি শেখার ক্ষেত্রে, নিম্নোক্ত পরিচয়টি সর্বোত্তম Q-ফাংশন দ্বারা সন্তুষ্ট:

\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]

রিইনফোর্সমেন্ট লার্নিং অ্যালগরিদমগুলি নিম্নলিখিত আপডেট নিয়মের মাধ্যমে Q-লার্নিং তৈরি করতে এই পরিচয়টি প্রয়োগ করে:

\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s’,a’) - Q(s,a) \right] \]

শক্তিবৃদ্ধি শেখার বাইরে, বেলম্যান সমীকরণে গতিশীল প্রোগ্রামিং-এর অ্যাপ্লিকেশন রয়েছে। বেলম্যান সমীকরণের জন্য উইকিপিডিয়া এন্ট্রি দেখুন।

সমালোচক

#আরএল

ডিপ কিউ-নেটওয়ার্কের প্রতিশব্দ।

ডি

গভীর Q-নেটওয়ার্ক (DQN)

#আরএল

কিউ-লার্নিং- এ, একটি গভীর নিউরাল নেটওয়ার্ক যা কিউ-ফাংশনগুলির পূর্বাভাস দেয়।

সমালোচক ডিপ কিউ-নেটওয়ার্কের প্রতিশব্দ।

ডিকিউএন

#আরএল

ডিপ কিউ-নেটওয়ার্কের সংক্ষিপ্ত রূপ।

পরিবেশ

#আরএল

শক্তিবৃদ্ধি শেখার ক্ষেত্রে, যে বিশ্বে এজেন্ট থাকে এবং এজেন্টকে সেই বিশ্বের অবস্থা পর্যবেক্ষণ করতে দেয়। উদাহরণস্বরূপ, প্রতিনিধিত্ব করা বিশ্ব দাবার মত একটি খেলা, অথবা একটি গোলকধাঁধা মত একটি শারীরিক জগত হতে পারে। যখন এজেন্ট পরিবেশে একটি ক্রিয়া প্রয়োগ করে, তখন পরিবেশ রাজ্যগুলির মধ্যে রূপান্তরিত হয়।

পর্ব

#আরএল

শক্তিবৃদ্ধি শেখার মধ্যে, এজেন্ট দ্বারা বারবার চেষ্টা প্রতিটি একটি পরিবেশ শিখতে.

epsilon লোভী নীতি

#আরএল

শক্তিবৃদ্ধি শেখার ক্ষেত্রে, এমন একটি নীতি যা হয় এপসিলন সম্ভাবনার সাথে একটি এলোমেলো নীতি অনুসরণ করে বা অন্যথায় একটি লোভী নীতি অনুসরণ করে। উদাহরণস্বরূপ, যদি এপিসিলন 0.9 হয়, তাহলে নীতিটি 90% সময় একটি এলোমেলো নীতি এবং 10% সময় একটি লোভী নীতি অনুসরণ করে।

ধারাবাহিক পর্বে, অ্যালগরিদম এপসিলনের মান হ্রাস করে যাতে একটি এলোমেলো নীতি অনুসরণ করা থেকে একটি লোভী নীতি অনুসরণ করে। নীতি পরিবর্তন করে, এজেন্ট প্রথমে এলোমেলোভাবে পরিবেশ অন্বেষণ করে এবং তারপর লোভের সাথে এলোমেলো অনুসন্ধানের ফলাফলগুলিকে কাজে লাগায়।

অভিজ্ঞতা রিপ্লে

#আরএল

শক্তিবৃদ্ধি শেখার ক্ষেত্রে, একটি DQN কৌশল প্রশিক্ষণের ডেটাতে সাময়িক পারস্পরিক সম্পর্ক কমাতে ব্যবহৃত হয়। এজেন্ট একটি রিপ্লে বাফারে স্টেট ট্রানজিশন সঞ্চয় করে, এবং তারপর ট্রেনিং ডেটা তৈরি করতে রিপ্লে বাফার থেকে স্যাম্পল ট্রানজিশন করে।

জি

লোভী নীতি

#আরএল

শক্তিবৃদ্ধি শেখার ক্ষেত্রে, এমন একটি নীতি যা সর্বদা সর্বোচ্চ প্রত্যাশিত রিটার্ন সহ কর্মটি বেছে নেয়।

এম

মার্কভ সিদ্ধান্ত প্রক্রিয়া (MDP)

#আরএল

সিদ্ধান্ত নেওয়ার মডেলের প্রতিনিধিত্বকারী একটি গ্রাফ যেখানে মার্কভ সম্পত্তি ধারণ করে এমন ধারণার অধীনে রাজ্যগুলির একটি ক্রম নেভিগেট করার জন্য সিদ্ধান্ত (বা কর্ম ) নেওয়া হয়। শক্তিবৃদ্ধি শেখার ক্ষেত্রে, রাজ্যগুলির মধ্যে এই রূপান্তরগুলি একটি সংখ্যাসূচক পুরস্কার প্রদান করে।

মার্কভ সম্পত্তি

#আরএল

নির্দিষ্ট পরিবেশের একটি সম্পত্তি, যেখানে রাষ্ট্রীয় রূপান্তর সম্পূর্ণরূপে বর্তমান অবস্থায় অন্তর্নিহিত তথ্য এবং এজেন্টের ক্রিয়া দ্বারা নির্ধারিত হয়।

পৃ

নীতি

#আরএল

শক্তিবৃদ্ধি শেখার ক্ষেত্রে, রাষ্ট্র থেকে ক্রিয়া পর্যন্ত একজন এজেন্টের সম্ভাব্য ম্যাপিং।

প্র

Q- ফাংশন

#আরএল

রিইনফোর্সমেন্ট লার্নিং- এ, যে ফাংশনটি একটি রাজ্যে একটি পদক্ষেপ নেওয়া এবং তারপর একটি প্রদত্ত নীতি অনুসরণ করে প্রত্যাশিত রিটার্নের পূর্বাভাস দেয়।

Q-ফাংশন রাষ্ট্র-ক্রিয়া মান ফাংশন নামেও পরিচিত।

প্রশ্ন-শিক্ষা

#আরএল

শক্তিবৃদ্ধি শেখার ক্ষেত্রে, একটি অ্যালগরিদম যা একজন এজেন্টকে বেলম্যান সমীকরণ প্রয়োগ করে মার্কভ সিদ্ধান্ত প্রক্রিয়ার সর্বোত্তম Q-ফাংশন শিখতে দেয়। মার্কভ সিদ্ধান্ত প্রক্রিয়া একটি পরিবেশকে মডেল করে।

আর

এলোমেলো নীতি

#আরএল

শক্তিবৃদ্ধি শেখার ক্ষেত্রে, একটি নীতি যা এলোমেলোভাবে একটি ক্রিয়া বেছে নেয়।

শক্তিবৃদ্ধি শিক্ষা (RL)

#আরএল

অ্যালগরিদমের একটি পরিবার যা একটি সর্বোত্তম নীতি শিখে, যার লক্ষ্য হল একটি পরিবেশের সাথে ইন্টারঅ্যাক্ট করার সময় সর্বোচ্চ রিটার্ন করা। উদাহরণস্বরূপ, বেশিরভাগ গেমের চূড়ান্ত পুরস্কার হল বিজয়। রিইনফোর্সমেন্ট লার্নিং সিস্টেমগুলি পূর্ববর্তী গেমের চালগুলির সিকোয়েন্সগুলি মূল্যায়ন করে জটিল গেম খেলতে পারদর্শী হয়ে উঠতে পারে যা শেষ পর্যন্ত জয়ের দিকে পরিচালিত করে এবং শেষ পর্যন্ত হারের দিকে পরিচালিত করে।

হিউম্যান ফিডব্যাক থেকে রিইনফোর্সমেন্ট লার্নিং (RLHF)

#generativeAI
#আরএল

একটি মডেলের প্রতিক্রিয়ার গুণমান উন্নত করতে মানব রেটারদের প্রতিক্রিয়া ব্যবহার করা। উদাহরণস্বরূপ, একটি RLHF মেকানিজম ব্যবহারকারীদেরকে একটি মডেলের প্রতিক্রিয়ার গুণমানকে 👍 বা 👎 ইমোজি দিয়ে রেট দিতে বলতে পারে। সিস্টেম তারপর সেই প্রতিক্রিয়ার উপর ভিত্তি করে তার ভবিষ্যত প্রতিক্রিয়া সামঞ্জস্য করতে পারে।

রিপ্লে বাফার

#আরএল

DQN- এর মতো অ্যালগরিদমে, অভিজ্ঞতা রিপ্লেতে ব্যবহারের জন্য স্টেট ট্রানজিশন সংরক্ষণ করতে এজেন্ট দ্বারা ব্যবহৃত মেমরি।

ফিরে

#আরএল

রিইনফোর্সমেন্ট শেখার ক্ষেত্রে, একটি নির্দিষ্ট নীতি এবং একটি নির্দিষ্ট অবস্থার প্রেক্ষিতে, রিটার্ন হল সমস্ত পুরস্কারের সমষ্টি যা এজেন্ট রাষ্ট্র থেকে পর্বের শেষ পর্যন্ত নীতি অনুসরণ করার সময় পাওয়ার আশা করে। পুরষ্কার পাওয়ার জন্য প্রয়োজনীয় রাষ্ট্রীয় পরিবর্তন অনুসারে পুরস্কারে ছাড় দিয়ে প্রত্যাশিত পুরস্কারের বিলম্বিত প্রকৃতির জন্য এজেন্ট অ্যাকাউন্ট করে।

তাই, যদি ডিসকাউন্ট ফ্যাক্টর হয় \(\gamma\), এবং \(r_0, \ldots, r_{N}\)পর্বের শেষ না হওয়া পর্যন্ত পুরষ্কারগুলি বোঝায়, তাহলে রিটার্নের হিসাব নিম্নরূপ:

$$\text{Return} = r_0 + \gamma r_1 + \gamma^2 r_2 + \ldots + \gamma^{N-1} r_{N-1}$$

পুরস্কার

#আরএল

শক্তিবৃদ্ধি শেখার ক্ষেত্রে, পরিবেশ দ্বারা সংজ্ঞায়িত একটি রাষ্ট্রে একটি পদক্ষেপ নেওয়ার সংখ্যাসূচক ফলাফল।

এস

অবস্থা

#আরএল

শক্তিবৃদ্ধি শেখার ক্ষেত্রে, প্যারামিটার মানগুলি পরিবেশের বর্তমান কনফিগারেশন বর্ণনা করে, যা এজেন্ট একটি ক্রিয়া চয়ন করতে ব্যবহার করে।

রাষ্ট্র-ক্রিয়া মান ফাংশন

#আরএল

Q- ফাংশনের প্রতিশব্দ।

টি

সারণী Q-শিক্ষা

#আরএল

রিইনফোর্সমেন্ট লার্নিং -এ , স্টেট এবং অ্যাকশনের প্রতিটি সংমিশ্রণের জন্য Q-ফাংশন সংরক্ষণ করার জন্য একটি টেবিল ব্যবহার করে Q-লার্নিং বাস্তবায়ন করা।

লক্ষ্য নেটওয়ার্ক

#আরএল

ডিপ কিউ-লার্নিং -এ, একটি নিউরাল নেটওয়ার্ক যা প্রধান নিউরাল নেটওয়ার্কের একটি স্থিতিশীল অনুমান, যেখানে প্রধান নিউরাল নেটওয়ার্ক হয় একটি Q-ফাংশন বা একটি নীতি প্রয়োগ করে। তারপর, আপনি লক্ষ্য নেটওয়ার্ক দ্বারা পূর্বাভাসিত Q-মানগুলিতে প্রধান নেটওয়ার্ককে প্রশিক্ষণ দিতে পারেন। অতএব, আপনি ফিডব্যাক লুপকে আটকান যেটি ঘটে যখন প্রধান নেটওয়ার্ক Q-মানগুলি নিজেই পূর্বাভাস দেয়। এই প্রতিক্রিয়া এড়ানোর মাধ্যমে, প্রশিক্ষণের স্থিতিশীলতা বৃদ্ধি পায়।

সমাপ্তির শর্ত

#আরএল

রিইনফোর্সমেন্ট লার্নিং- এ, যে শর্তগুলি নির্ধারণ করে কখন একটি পর্ব শেষ হয়, যেমন যখন এজেন্ট একটি নির্দিষ্ট অবস্থায় পৌঁছায় বা স্টেট ট্রানজিশনের থ্রেশহোল্ড সংখ্যা অতিক্রম করে। উদাহরণস্বরূপ, টিক-ট্যাক-টো-এ (নটস অ্যান্ড ক্রস নামেও পরিচিত), একটি পর্ব শেষ হয় যখন একজন খেলোয়াড় পরপর তিনটি স্পেস চিহ্নিত করে বা যখন সমস্ত স্পেস চিহ্নিত করা হয়।

গতিপথ

#আরএল

রিইনফোর্সমেন্ট লার্নিংয়ে , টিপলের একটি ক্রম যা এজেন্টের রাষ্ট্রীয় রূপান্তরের একটি ক্রমকে প্রতিনিধিত্ব করে, যেখানে প্রতিটি টিপল একটি প্রদত্ত রাষ্ট্র পরিবর্তনের জন্য রাষ্ট্র, কর্ম , পুরস্কার এবং পরবর্তী অবস্থার সাথে মিলে যায়।