ধাপ 5: হাইপারপ্যারামিটার টিউন করুন

মডেল সংজ্ঞায়িত এবং প্রশিক্ষণের জন্য আমাদের বেশ কয়েকটি হাইপারপ্যারামিটার বেছে নিতে হয়েছিল। আমরা অন্তর্দৃষ্টি, উদাহরণ এবং সর্বোত্তম অনুশীলনের সুপারিশের উপর নির্ভর করেছি। হাইপারপ্যারামিটার মানগুলির আমাদের প্রথম পছন্দ, যাইহোক, সেরা ফলাফল নাও দিতে পারে। এটি শুধুমাত্র আমাদের প্রশিক্ষণের জন্য একটি ভাল সূচনা পয়েন্ট দেয়। প্রতিটি সমস্যা আলাদা এবং এই হাইপারপ্যারামিটারগুলিকে টিউন করা আমাদের মডেলকে পরিমার্জিত করতে সাহায্য করবে যাতে সমস্যাটির বৈশিষ্ট্যগুলিকে আরও ভালভাবে উপস্থাপন করা যায়। আসুন আমরা কিছু হাইপারপ্যারামিটার ব্যবহার করেছি এবং সেগুলি টিউন করার অর্থ কী তা দেখে নেওয়া যাক:

  • মডেলে স্তরের সংখ্যা : একটি নিউরাল নেটওয়ার্কে স্তরের সংখ্যা তার জটিলতার একটি সূচক। এই মান নির্বাচন করার ক্ষেত্রে আমাদের সতর্ক হতে হবে। অনেকগুলি স্তর মডেলটিকে প্রশিক্ষণের ডেটা সম্পর্কে খুব বেশি তথ্য শিখতে দেয়, যার ফলে অতিরিক্ত ফিটিং হয়। খুব কম স্তর মডেলের শেখার ক্ষমতাকে সীমিত করতে পারে, যার ফলে আন্ডারফিটিং হয়। পাঠ্য শ্রেণীবিভাগের ডেটাসেটের জন্য, আমরা এক, দুই, এবং তিন-স্তর MLPs নিয়ে পরীক্ষা করেছি। দুটি স্তর সহ মডেলগুলি ভাল পারফর্ম করেছে এবং কিছু ক্ষেত্রে তিন-স্তর মডেলের চেয়ে ভাল। একইভাবে, আমরা চার এবং ছয় স্তর সহ sepCNN চেষ্টা করেছি, এবং চার-স্তর মডেলগুলি ভাল পারফর্ম করেছে।

  • প্রতি স্তরে ইউনিটের সংখ্যা : একটি স্তরের ইউনিটগুলিকে একটি স্তর সঞ্চালিত রূপান্তরের জন্য তথ্য ধারণ করতে হবে। প্রথম স্তরের জন্য, এটি বৈশিষ্ট্যের সংখ্যা দ্বারা চালিত হয়। পরবর্তী স্তরগুলিতে, ইউনিটের সংখ্যা পূর্ববর্তী স্তর থেকে উপস্থাপনা সম্প্রসারণ বা সংকুচিত করার পছন্দের উপর নির্ভর করে। স্তরগুলির মধ্যে তথ্য ক্ষতি কমানোর চেষ্টা করুন। আমরা পরিসরে ইউনিট মান চেষ্টা করেছি [8, 16, 32, 64] , এবং 32/64 ইউনিট ভাল কাজ করেছে।

  • ড্রপআউট রেট : নিয়মিতকরণের জন্য মডেলটিতে ড্রপআউট স্তরগুলি ব্যবহার করা হয়। ওভারফিটিংয়ের জন্য সতর্কতা হিসাবে তারা ড্রপ করার জন্য ইনপুটের ভগ্নাংশকে সংজ্ঞায়িত করে। প্রস্তাবিত পরিসর: 0.2-0.5।

  • শেখার হার : এটি সেই হার যেখানে নিউরাল নেটওয়ার্কের ওজন পুনরাবৃত্তির মধ্যে পরিবর্তিত হয়। একটি বড় শেখার হার ওজনে বড় পরিবর্তন ঘটাতে পারে এবং আমরা কখনই তাদের সর্বোত্তম মান খুঁজে পেতে পারি না। একটি কম শেখার হার ভাল, কিন্তু মডেলটি একত্রিত হতে আরও পুনরাবৃত্তি লাগবে। কম শুরু করা একটি ভাল ধারণা, বলুন 1e-4 এ। প্রশিক্ষণ খুব ধীর হলে, এই মান বৃদ্ধি করুন. যদি আপনার মডেল শেখা না হয়, শেখার হার হ্রাস করার চেষ্টা করুন।

আমরা টিউন করেছি এমন কয়েকটি অতিরিক্ত হাইপারপ্যারামিটার রয়েছে যা আমাদের sepCNN মডেলের জন্য নির্দিষ্ট:

  1. কার্নেলের আকার : কনভল্যুশন উইন্ডোর আকার। প্রস্তাবিত মান: 3 বা 5।

  2. এমবেডিং ডাইমেনশন : শব্দ এমবেডিং-কে উপস্থাপন করতে আমরা যে মাত্রাগুলি ব্যবহার করতে চাই—অর্থাৎ, প্রতিটি শব্দ ভেক্টরের আকার। প্রস্তাবিত মান: 50-300। আমাদের পরীক্ষায়, আমরা একটি প্রাক-প্রশিক্ষিত এম্বেডিং স্তর সহ 200টি মাত্রা সহ GloVe এম্বেডিং ব্যবহার করেছি।

এই হাইপারপ্যারামিটারগুলির সাথে খেলুন এবং দেখুন কী সবচেয়ে ভাল কাজ করে। একবার আপনি আপনার ব্যবহারের ক্ষেত্রে সেরা-পারফর্মিং হাইপারপ্যারামিটারগুলি বেছে নিলে, আপনার মডেল স্থাপনের জন্য প্রস্তুত।