ব্যাকপ্রোপ্যাগেশন হল নিউরাল নেটওয়ার্কের জন্য সবচেয়ে সাধারণ প্রশিক্ষণ অ্যালগরিদম। এটি মাল্টি-লেয়ার নিউরাল নেটওয়ার্কের জন্য গ্রেডিয়েন্ট ডিসেন্টকে সম্ভব করে তোলে। অনেক মেশিন লার্নিং কোড লাইব্রেরি (যেমন কেরাস ) স্বয়ংক্রিয়ভাবে ব্যাকপ্রোপ্যাগেশন পরিচালনা করে, তাই আপনাকে নিজেরাই কোনও অন্তর্নিহিত গণনা করতে হবে না। ব্যাকপ্রোপ্যাগেশন কীভাবে কাজ করে তার ধারণাগত সারসংক্ষেপের জন্য নিম্নলিখিত ভিডিওটি দেখুন:
নিউরাল নেটওয়ার্ক প্রশিক্ষণের জন্য সেরা অনুশীলন
এই বিভাগে ব্যাকপ্রোপ্যাগেশনের ব্যর্থতার ঘটনা এবং নিউরাল নেটওয়ার্ক নিয়মিত করার সবচেয়ে সাধারণ উপায় ব্যাখ্যা করা হয়েছে।
অদৃশ্য গ্রেডিয়েন্ট
নিম্ন নিউরাল নেটওয়ার্ক স্তরগুলির (যারা ইনপুট স্তরের কাছাকাছি) গ্রেডিয়েন্টগুলি খুব ছোট হয়ে যেতে পারে। গভীর নেটওয়ার্কগুলিতে (একাধিক লুকানো স্তর সহ নেটওয়ার্ক), এই গ্রেডিয়েন্টগুলি গণনা করার জন্য অনেক ছোট পদের গুণফল নেওয়া জড়িত।
যখন নিম্ন স্তরের গ্রেডিয়েন্ট মান 0 এর কাছাকাছি পৌঁছায়, তখন গ্রেডিয়েন্টগুলিকে "অদৃশ্য" বলা হয়। অদৃশ্য গ্রেডিয়েন্ট সহ স্তরগুলি খুব ধীরে ধীরে প্রশিক্ষণ দেয়, অথবা একেবারেই নয়।
ReLU অ্যাক্টিভেশন ফাংশন গ্রেডিয়েন্টের অদৃশ্য হওয়া রোধ করতে সাহায্য করতে পারে।
বিস্ফোরিত গ্রেডিয়েন্ট
যদি কোনও নেটওয়ার্কের ওজন খুব বড় হয়, তাহলে নীচের স্তরের গ্রেডিয়েন্টগুলিতে অনেক বড় পদের পণ্য জড়িত থাকে। এই ক্ষেত্রে আপনার বিস্ফোরক গ্রেডিয়েন্ট থাকতে পারে: গ্রেডিয়েন্ট যা একত্রিত হওয়ার জন্য খুব বড় হয়ে যায়।
ব্যাচ নরমালাইজেশন বিস্ফোরিত গ্রেডিয়েন্ট প্রতিরোধ করতে সাহায্য করতে পারে, যেমন শেখার হার কমাতে পারে।
মৃত ReLU ইউনিট
একবার ReLU ইউনিটের ওয়াটেড যোগফল ০ এর নিচে নেমে গেলে, ReLU ইউনিট আটকে যেতে পারে। এটি ০ আউটপুট দেয়, নেটওয়ার্কের আউটপুটে কোনও অবদান রাখে না, এবং ব্যাকপ্রোপ্যাগেশনের সময় গ্রেডিয়েন্টগুলি আর এর মধ্য দিয়ে প্রবাহিত হতে পারে না। গ্রেডিয়েন্টের উৎস কেটে ফেলা হলে, ReLU-তে ইনপুট কখনও যথেষ্ট পরিবর্তন নাও হতে পারে যা ওয়াটেড যোগফলকে ০ এর উপরে ফিরিয়ে আনবে।
শেখার হার কমিয়ে আনলে ReLU ইউনিটগুলি মারা যাওয়া থেকে রক্ষা পেতে পারে।
ঝরে পড়া নিয়মিতকরণ
নিয়মিতকরণের আরেকটি রূপ, যাকে ড্রপআউট নিয়মিতকরণ বলা হয়, নিউরাল নেটওয়ার্কের জন্য কার্যকর। এটি একক গ্রেডিয়েন্ট ধাপের জন্য একটি নেটওয়ার্কে ইউনিট অ্যাক্টিভেশনগুলিকে এলোমেলোভাবে "ড্রপ আউট" করে কাজ করে। আপনি যত বেশি ড্রপ আউট করবেন, নিয়মিতকরণ তত শক্তিশালী হবে:
- ০.০ = ঝরে পড়া শিক্ষার্থীদের নিয়মিতকরণ নেই।
- ১.০ = সকল নোড বাদ দিন। মডেলটি কিছুই শেখে না।
- ০.০ এবং ১.০ এর মধ্যে মান = আরও কার্যকর।