ক্ষতি হ্রাস: স্টোকাস্টিক গ্রেডিয়েন্ট ডিসেন্ট

গ্রেডিয়েন্ট ডিসেন্টে, একটি ব্যাচ হল উদাহরণগুলির সেট যা আপনি একটি একক প্রশিক্ষণ পুনরাবৃত্তিতে গ্রেডিয়েন্ট গণনা করতে ব্যবহার করেন। এখন পর্যন্ত, আমরা ধরে নিয়েছি যে ব্যাচটি সম্পূর্ণ ডেটা সেট হয়েছে। Google স্কেলে কাজ করার সময়, ডেটা সেটগুলিতে প্রায়শই বিলিয়ন বা এমনকি শত বিলিয়ন উদাহরণ থাকে। তদ্ব্যতীত, Google ডেটা সেটগুলিতে প্রায়শই বিপুল সংখ্যক বৈশিষ্ট্য থাকে। ফলস্বরূপ, একটি ব্যাচ বিশাল হতে পারে। একটি খুব বড় ব্যাচ এমনকি একটি একক পুনরাবৃত্তি গণনা করতে খুব দীর্ঘ সময় নিতে পারে।

এলোমেলোভাবে নমুনা উদাহরণ সহ একটি বড় ডেটা সেটে সম্ভবত অপ্রয়োজনীয় ডেটা রয়েছে। প্রকৃতপক্ষে, ব্যাচের আকার বাড়ার সাথে সাথে অপ্রয়োজনীয়তার সম্ভাবনা বেশি হয়। কিছু অপ্রয়োজনীয়তা কোলাহলপূর্ণ গ্রেডিয়েন্টগুলিকে মসৃণ করতে কার্যকর হতে পারে, তবে বিশাল ব্যাচগুলি বড় ব্যাচগুলির তুলনায় অনেক বেশি ভবিষ্যদ্বাণীমূলক মান বহন করে না।

যদি আমরা অনেক কম গণনার জন্য গড় সঠিক গ্রেডিয়েন্ট পেতে পারি? আমাদের ডেটা সেট থেকে এলোমেলো উদাহরণগুলি বেছে নিয়ে, আমরা অনেক ছোট থেকে একটি বড় গড় অনুমান করতে পারি (যদিও, শোরগোল করে)। স্টোকাস্টিক গ্রেডিয়েন্ট ডিসেন্ট ( SGD ) এই ধারণাটিকে চরম পর্যায়ে নিয়ে যায়--এটি পুনরাবৃত্তির জন্য শুধুমাত্র একটি একক উদাহরণ (একটি ব্যাচের আকার 1) ব্যবহার করে৷ পর্যাপ্ত পুনরাবৃত্তি দেওয়া, SGD কাজ করে কিন্তু খুব কোলাহলপূর্ণ। "স্টোকাস্টিক" শব্দটি নির্দেশ করে যে প্রতিটি ব্যাচ সমন্বিত একটি উদাহরণ এলোমেলোভাবে বেছে নেওয়া হয়েছে।

মিনি-ব্যাচ স্টোকাস্টিক গ্রেডিয়েন্ট ডিসেন্ট ( মিনি-ব্যাচ SGD ) হল ফুল-ব্যাচ পুনরাবৃত্তি এবং SGD-এর মধ্যে একটি সমঝোতা। একটি মিনি-ব্যাচ সাধারণত 10 থেকে 1,000টি উদাহরণের মধ্যে থাকে, যা এলোমেলোভাবে বেছে নেওয়া হয়। মিনি-ব্যাচ SGD SGD-তে শব্দের পরিমাণ কমায় কিন্তু এখনও পূর্ণ-ব্যাচের চেয়ে বেশি দক্ষ।

ব্যাখ্যাটি সহজ করার জন্য, আমরা একটি একক বৈশিষ্ট্যের জন্য গ্রেডিয়েন্ট ডিসেন্টের উপর ফোকাস করেছি। নিশ্চিন্ত থাকুন যে গ্রেডিয়েন্ট ডিসেন্ট বৈশিষ্ট্য সেটগুলিতেও কাজ করে যাতে একাধিক বৈশিষ্ট্য রয়েছে।