একটি নতুন প্রকল্প শুরু করার জন্য নির্দেশিকা

এই বিভাগটি ব্যাখ্যা করে যে কিভাবে একটি ML প্রকল্পের শুরুতে নিম্নলিখিতগুলি বেছে নিতে হয়:

  • মডেল আর্কিটেকচার
  • অপ্টিমাইজার
  • ব্যাচ আকার
  • প্রাথমিক কনফিগারেশন

অনুমান

এই বিভাগে পরামর্শ নিম্নলিখিত অনুমান:

  • আপনি ইতিমধ্যে সমস্যাটি তৈরি করেছেন , এবং আপনার প্রশিক্ষণের ডেটা কিছু পরিমাণে প্রস্তুত করেছেন।
  • আপনি ইতিমধ্যে একটি প্রশিক্ষণ এবং পরীক্ষার পাইপলাইন সেট আপ করেছেন৷
  • আপনি ইতিমধ্যেই মেট্রিকগুলি নির্বাচন করেছেন এবং প্রয়োগ করেছেন যেগুলি মোতায়েন করা পরিবেশে আপনি যা পরিমাপ করার পরিকল্পনা করছেন তার যতটা সম্ভব প্রতিনিধি।

ধরে নিচ্ছি যে আপনি পূর্ববর্তী সমস্ত পূর্বশর্তগুলি পূরণ করেছেন, আপনি এখন মডেল আর্কিটেকচার এবং প্রশিক্ষণ কনফিগারেশনে সময় দিতে প্রস্তুত।

মডেল আর্কিটেকচার চয়ন করুন

আসুন নিম্নলিখিত সংজ্ঞা দিয়ে শুরু করা যাক:

  • একটি মডেল আর্কিটেকচার হল ভবিষ্যদ্বাণী তৈরি করার জন্য একটি সিস্টেম । একটি মডেল আর্কিটেকচারে ইনপুট ডেটাকে ভবিষ্যদ্বাণীতে রূপান্তর করার জন্য কাঠামো থাকে, কিন্তু প্যারামিটার মান থাকে না। উদাহরণস্বরূপ, যথাক্রমে 10 নোড, 5 নোড এবং 3 নোডের তিনটি লুকানো স্তর সহ একটি নিউরাল নেটওয়ার্ক একটি মডেল আর্কিটেকচার।
  • একটি মডেল হল একটি মডেল আর্কিটেকচার এবং সমস্ত প্যারামিটারের জন্য নির্দিষ্ট মান । উদাহরণস্বরূপ, একটি মডেল মডেল আর্কিটেকচারের সংজ্ঞায় বর্ণিত নিউরাল নেটওয়ার্ক নিয়ে গঠিত, এছাড়াও প্রতিটি নোডের ওজন এবং পক্ষপাতের জন্য নির্দিষ্ট মান।
  • একটি মডেল পরিবার হল হাইপারপ্যারামিটারের একটি সেট দেওয়া একটি মডেল আর্কিটেকচার তৈরি করার জন্য একটি টেমপ্লেট

মডেল আর্কিটেকচার নির্বাচন করার অর্থ হল বিভিন্ন মডেলের একটি সেট নির্বাচন করা (মডেলের হাইপারপ্যারামিটারের প্রতিটি সেটিংয়ের জন্য একটি)।

যখন সম্ভব, একটি নথিভুক্ত কোডবেস খুঁজে বের করার চেষ্টা করুন যা বর্তমান সমস্যার যতটা সম্ভব কাছাকাছি কিছু সম্বোধন করে। তারপরে, সেই মডেলটিকে একটি সূচনা পয়েন্ট হিসাবে পুনরুত্পাদন করুন।

অপ্টিমাইজার নির্বাচন করুন

সমস্ত ধরণের মেশিন লার্নিং সমস্যা এবং মডেল আর্কিটেকচারে কোনও অপ্টিমাইজারই "সেরা" নয়৷ এমনকি শুধুমাত্র অপ্টিমাইজারদের কর্মক্ষমতা তুলনা করা কঠিন। 🤖আমরা সু-প্রতিষ্ঠিত, জনপ্রিয় অপ্টিমাইজার ব্যবহার করার পরামর্শ দিই, বিশেষ করে যখন একটি নতুন প্রকল্প শুরু করা হয়।

আপনি যে ধরনের সমস্যা নিয়ে কাজ করছেন তার জন্য আমরা সবচেয়ে জনপ্রিয় অপ্টিমাইজার বেছে নেওয়ার পরামর্শ দিই। আমরা নিম্নলিখিত সু-প্রতিষ্ঠিত অপ্টিমাইজারদের সুপারিশ করি:

নির্বাচিত অপ্টিমাইজারের সমস্ত আর্গুমেন্টে মনোযোগ দিন। আরও হাইপারপ্যারামিটার সহ অপ্টিমাইজারদের সাধারণত আরও টিউনিং প্রচেষ্টার প্রয়োজন হয়। এটি একটি প্রকল্পের প্রাথমিক পর্যায়ে বিশেষভাবে বেদনাদায়ক যখন আপনি অপ্টিমাইজার আর্গুমেন্টকে উপদ্রব হিসাবে বিবেচনা করার সময় অন্যান্য হাইপারপ্যারামিটারের (উদাহরণস্বরূপ, শেখার হার) সেরা মানগুলি খুঁজে বের করার চেষ্টা করছেন। অতএব, আমরা নিম্নলিখিত পদ্ধতির সুপারিশ:

  1. প্রকল্পের শুরুতে, অনেকগুলি টিউনযোগ্য হাইপারপ্যারামিটার ছাড়াই একটি অপ্টিমাইজার বেছে নিন। এখানে দুটি উদাহরণ আছে:
    • নির্দিষ্ট ভরবেগ সঙ্গে SGD.
    • স্থির Epsilon, Beta1, এবং Beta2 সহ অ্যাডাম।
  2. প্রকল্পের পরবর্তী পর্যায়ে, একটি আরও সাধারণ অপ্টিমাইজারে স্যুইচ করুন যা ডিফল্ট মানগুলিতে ঠিক করার পরিবর্তে আরও হাইপারপ্যারামিটারকে সুর করে।

ব্যাচ আকার চয়ন করুন

সারাংশ: ব্যাচের আকার প্রশিক্ষণের গতিকে নিয়ন্ত্রণ করে; বৈধতা সেট কর্মক্ষমতা সরাসরি টিউন করতে ব্যাচ আকার ব্যবহার করবেন না।

ব্যাচের আকার ব্যাপকভাবে প্রশিক্ষণের সময় এবং কম্পিউটিং সম্পদ খরচ নির্ধারণ করে। ব্যাচের আকার বাড়ানো প্রায়ই প্রশিক্ষণের সময় হ্রাস করে, যা:

  • আপনাকে একটি নির্দিষ্ট সময়ের ব্যবধানে হাইপারপ্যারামিটারগুলিকে আরও পুঙ্খানুপুঙ্খভাবে সুর করতে দেয়, সম্ভাব্যভাবে একটি ভাল চূড়ান্ত মডেল তৈরি করে৷
  • উন্নয়ন চক্রের বিলম্বতা হ্রাস করে, নতুন ধারণাগুলিকে আরও ঘন ঘন পরীক্ষা করার অনুমতি দেয়।

ব্যাচের আকার বৃদ্ধি রিসোর্স খরচ কমাতে বা বাড়াতে পারে, বা রিসোর্স খরচ অপরিবর্তিত রাখতে পারে।

বৈধতা সেট কর্মক্ষমতা জন্য একটি টিউনযোগ্য হাইপারপ্যারামিটার হিসাবে ব্যাচ আকার বিবেচনা করবেন না। যদি নিম্নলিখিত সমস্ত শর্ত পূরণ করা হয়, মডেলের কর্মক্ষমতা ব্যাচের আকারের উপর নির্ভর করবে না:

  • সমস্ত অপ্টিমাইজার হাইপারপ্যারামিটারগুলি ভালভাবে সুরক্ষিত।
  • নিয়মিতকরণ যথেষ্ট এবং ভালভাবে সুরক্ষিত।
  • প্রশিক্ষণের ধাপের সংখ্যা যথেষ্ট।

একই চূড়ান্ত কর্মক্ষমতা যেকোনো ব্যাচের আকার ব্যবহার করে অর্জনযোগ্য হওয়া উচিত (দেখুন Shallue et al. 2018 এবং কেন সরাসরি বৈধতা সেট কর্মক্ষমতা উন্নত করতে ব্যাচের আকার টিউন করা উচিত নয়? .

সম্ভাব্য ব্যাচের আকার নির্ধারণ করুন এবং প্রশিক্ষণ থ্রুপুট অনুমান করুন

একটি প্রদত্ত মডেল এবং অপ্টিমাইজারের জন্য, উপলব্ধ হার্ডওয়্যার সাধারণত ব্যাচ আকারের একটি পরিসীমা সমর্থন করে। সীমিত ফ্যাক্টর সাধারণত এক্সিলারেটর মেমরি হয়. দুর্ভাগ্যবশত, কোন ব্যাচের মাপ মেমরিতে না চললে বা অন্তত কম্পাইল না করে সম্পূর্ণ ট্রেনিং প্রোগ্রামে ফিট হবে তা গণনা করা কঠিন হতে পারে। সবচেয়ে সহজ সমাধান হল বিভিন্ন ব্যাচ আকারে প্রশিক্ষণের কাজ চালানো (উদাহরণস্বরূপ, 2 এর ক্ষমতা বৃদ্ধি) অল্প সংখ্যক পদক্ষেপের জন্য যতক্ষণ না কোনও একটি কাজের উপলব্ধ মেমরি অতিক্রম করে। প্রতিটি ব্যাচের আকারের জন্য, প্রশিক্ষণ থ্রুপুটের একটি নির্ভরযোগ্য অনুমান পেতে যথেষ্ট দীর্ঘ ট্রেন করুন:

প্রশিক্ষণ থ্রুপুট = প্রতি সেকেন্ডে প্রক্রিয়াকৃত উদাহরণের সংখ্যা

বা, সমানভাবে, প্রতি ধাপে সময় :

প্রতি ধাপে সময় = ব্যাচের আকার / প্রশিক্ষণ থ্রুপুট

যখন এক্সিলারেটরগুলি এখনও স্যাচুরেটেড না হয়, যদি ব্যাচের আকার দ্বিগুণ হয়, প্রশিক্ষণের থ্রুপুটও দ্বিগুণ হওয়া উচিত (বা কমপক্ষে প্রায় দ্বিগুণ)। সমানভাবে, ব্যাচের আকার বৃদ্ধির সাথে সাথে প্রতি ধাপে সময় ধ্রুবক (বা কমপক্ষে প্রায় ধ্রুবক) হওয়া উচিত। যদি এটি না হয়, তাহলে প্রশিক্ষণ পাইপলাইনে একটি বাধা রয়েছে, যেমন I/O বা কম্পিউট নোডগুলির মধ্যে সিঙ্ক্রোনাইজেশন। এগিয়ে যাওয়ার আগে বাধা নির্ণয় এবং সংশোধন বিবেচনা করুন।

যদি প্রশিক্ষণ থ্রুপুট শুধুমাত্র কিছু সর্বোচ্চ ব্যাচের আকার পর্যন্ত বৃদ্ধি পায়, তাহলে শুধুমাত্র সেই সর্বোচ্চ ব্যাচের আকার পর্যন্ত ব্যাচের আকার বিবেচনা করুন, এমনকি হার্ডওয়্যারটি একটি বড় ব্যাচের আকারকে সমর্থন করলেও। একটি বৃহত্তর ব্যাচের আকার ব্যবহার করার সমস্ত সুবিধা অনুমান করে যে প্রশিক্ষণ থ্রুপুট বৃদ্ধি পায়। যদি এটি না হয়, বাধাটি ঠিক করুন বা ছোট ব্যাচের আকার ব্যবহার করুন।

গ্রেডিয়েন্ট সঞ্চয় হার্ডওয়্যার সমর্থন করতে পারে তার চেয়ে একটি বড় ব্যাচের আকার অনুকরণ করে এবং তাই কোনো থ্রুপুট সুবিধা প্রদান করে না। আপনার সাধারণত প্রয়োগকৃত কাজে গ্রেডিয়েন্ট জমা হওয়া এড়ানো উচিত।

আপনি প্রতিবার মডেল বা অপ্টিমাইজার পরিবর্তন করার সময় আপনাকে এই পদক্ষেপগুলি পুনরাবৃত্তি করতে হতে পারে৷ উদাহরণস্বরূপ, একটি ভিন্ন মডেলের আর্কিটেকচার একটি বড় ব্যাচের আকার মেমরিতে ফিট করার অনুমতি দিতে পারে।

প্রশিক্ষণের সময় কমাতে ব্যাচের আকার চয়ন করুন

এখানে প্রশিক্ষণ সময় আমাদের সংজ্ঞা:

  • প্রশিক্ষণের সময় = (প্রতি ধাপে সময়) x (মোট ধাপের সংখ্যা)

আপনি প্রায়ই সমস্ত সম্ভাব্য ব্যাচ আকারের জন্য প্রতি ধাপে সময়কে আনুমানিক ধ্রুবক হিসাবে বিবেচনা করতে পারেন। এটি সত্য যখন:

  • সমান্তরাল গণনা থেকে কোন ওভারহেড নেই।
  • সমস্ত প্রশিক্ষণের বাধা নির্ণয় এবং সংশোধন করা হয়েছে। (প্রশিক্ষণের প্রতিবন্ধকতাগুলি কীভাবে শনাক্ত করতে হয় তার জন্য পূর্ববর্তী বিভাগটি দেখুন। অনুশীলনে, ব্যাচের আকার বাড়ানোর জন্য সাধারণত কিছু ওভারহেড থাকে।

ব্যাচের আকার বাড়ার সাথে সাথে, একটি নির্দিষ্ট কর্মক্ষমতা লক্ষ্যে পৌঁছানোর জন্য প্রয়োজনীয় মোট পদক্ষেপের সংখ্যা সাধারণত কমে যায়, যদি আপনি ব্যাচের আকার পরিবর্তন করার সময় সমস্ত প্রাসঙ্গিক হাইপারপ্যারামিটারগুলিকে পুনরুদ্ধার করেন। (দেখুন Shallue et al. 2018 .) উদাহরণস্বরূপ, ব্যাচের আকার দ্বিগুণ করলে মোট প্রয়োজনীয় ধাপের সংখ্যা অর্ধেক হতে পারে। এই সম্পর্কটিকে নিখুঁত স্কেলিং বলা হয় এবং একটি সমালোচনামূলক ব্যাচ আকার পর্যন্ত সমস্ত ব্যাচের আকারের জন্য রাখা উচিত।

সমালোচনামূলক ব্যাচের আকারের বাইরে, ব্যাচের আকার বৃদ্ধি হ্রাসকারী রিটার্ন তৈরি করে। অর্থাৎ, ব্যাচের আকার বাড়ানো শেষ পর্যন্ত আর প্রশিক্ষণের ধাপের সংখ্যা কমায় না কিন্তু তা বাড়ায় না। অতএব, ব্যাচের আকার যা প্রশিক্ষণের সময়কে কম করে তা সাধারণত সবচেয়ে বড় ব্যাচের আকার যা এখনও প্রশিক্ষণের প্রয়োজনীয় পদক্ষেপের সংখ্যা হ্রাস করে। এই ব্যাচের আকার ডেটাসেট, মডেল এবং অপ্টিমাইজারের উপর নির্ভর করে এবং প্রতিটি নতুন সমস্যার জন্য পরীক্ষামূলকভাবে এটি খুঁজে বের করা ছাড়া এটি কীভাবে গণনা করা যায় তা একটি খোলা সমস্যা। 🤖

ব্যাচের আকার তুলনা করার সময়, নিম্নলিখিতগুলির মধ্যে পার্থক্য সম্পর্কে সতর্ক থাকুন:

  • একটি উদাহরণ বাজেট বা যুগের বাজেট —প্রশিক্ষণের উদাহরণ উপস্থাপনের সংখ্যা ঠিক করার সময় সমস্ত পরীক্ষা-নিরীক্ষা চালানো।
  • একটি ধাপের বাজেট—একটি নির্দিষ্ট সংখ্যক প্রশিক্ষণের ধাপ সহ সমস্ত পরীক্ষা চালানো।

একটি যুগের বাজেটের সাথে ব্যাচের আকারের তুলনা করা শুধুমাত্র নিখুঁত স্কেলিং শাসনের অনুসন্ধান করে, এমনকি যখন বড় ব্যাচের আকারগুলি প্রয়োজনীয় প্রশিক্ষণের ধাপগুলির সংখ্যা হ্রাস করে একটি অর্থপূর্ণ গতি প্রদান করতে পারে। প্রায়শই, উপলব্ধ হার্ডওয়্যার দ্বারা সমর্থিত বৃহত্তম ব্যাচের আকার সমালোচনামূলক ব্যাচের আকারের চেয়ে ছোট। অতএব, একটি ভাল নিয়ম হল (কোন পরীক্ষা-নিরীক্ষা ছাড়াই) সম্ভাব্য সবচেয়ে বড় ব্যাচের আকার ব্যবহার করা। প্রশিক্ষণের সময় বাড়ানো শেষ হলে বড় ব্যাচের আকার ব্যবহার করার কোন মানে নেই।

সম্পদ খরচ কমাতে ব্যাচ আকার চয়ন করুন

ব্যাচের আকার বাড়ানোর সাথে যুক্ত দুটি ধরণের সংস্থান ব্যয় রয়েছে:

  • আগাম খরচ . উদাহরণস্বরূপ, নতুন হার্ডওয়্যার কেনা বা মাল্টি-জিপিইউ/ মাল্টি-টিপিইউ প্রশিক্ষণ বাস্তবায়নের জন্য প্রশিক্ষণ পাইপলাইন পুনর্লিখন করা।
  • ব্যবহারের খরচ । উদাহরণস্বরূপ, দলের সম্পদের বাজেটের বিপরীতে বিলিং, ক্লাউড প্রদানকারীর কাছ থেকে বিলিং, বিদ্যুৎ/রক্ষণাবেক্ষণের খরচ।

যদি ব্যাচের আকার বাড়ানোর জন্য উল্লেখযোগ্য অগ্রিম খরচ থাকে, তবে প্রকল্পটি পরিপক্ক না হওয়া পর্যন্ত ব্যাচের আকার বাড়ানো পিছিয়ে দেওয়া ভাল হতে পারে এবং খরচ-সুবিধা ট্রেডঅফ মূল্যায়ন করা সহজ হয়। মাল্টি-হোস্ট সমান্তরাল প্রশিক্ষণ প্রোগ্রাম বাস্তবায়ন করা বাগ এবং সূক্ষ্ম সমস্যাগুলি উপস্থাপন করতে পারে তাই যেভাবেই হোক একটি সহজ পাইপলাইন দিয়ে শুরু করা সম্ভবত ভাল। অন্যদিকে, যখন প্রচুর টিউনিং পরীক্ষা-নিরীক্ষার প্রয়োজন হয় তখন প্রক্রিয়ার শুরুতে প্রশিক্ষণের সময় একটি বড় গতি খুব উপকারী হতে পারে।

আমরা সম্পদ খরচ হিসাবে মোট ব্যবহার খরচ (যার মধ্যে একাধিক বিভিন্ন ধরণের খরচ অন্তর্ভুক্ত থাকতে পারে) উল্লেখ করি, নিম্নরূপ গণনা করা হয়:

সম্পদ খরচ = প্রতি ধাপে সম্পদ খরচ x ধাপের মোট সংখ্যা

ব্যাচের আকার বৃদ্ধি সাধারণত ধাপের মোট সংখ্যা হ্রাস করে। রিসোর্স খরচ বাড়বে বা কমবে তা নির্ভর করে প্রতি ধাপে খরচ কীভাবে পরিবর্তিত হয় তার উপর, যা ব্যাচের আকারের উপর নির্ভর করে:

  • ব্যাচের আকার বাড়ানো সম্পদ খরচ কমাতে পারে। উদাহরণ স্বরূপ, যদি বড় ব্যাচের আকারের প্রতিটি ধাপ ছোট ব্যাচের আকারের মতো একই হার্ডওয়্যারে চালানো যায় (প্রতি ধাপে সময়ের সামান্য বৃদ্ধির সাথে), তাহলে প্রতি ধাপে সম্পদ খরচের যে কোনো বৃদ্ধি হ্রাসের দ্বারা ছাড়িয়ে যেতে পারে। ধাপ সংখ্যায়।
  • ব্যাচ আকার বৃদ্ধি সম্পদ খরচ পরিবর্তন নাও হতে পারে. উদাহরণস্বরূপ, ব্যাচের আকার দ্বিগুণ করলে প্রয়োজনীয় ধাপের সংখ্যা অর্ধেক হয়ে যায় এবং ব্যবহৃত GPU-এর সংখ্যা দ্বিগুণ হয়, মোট খরচ (GPU-ঘন্টার পরিপ্রেক্ষিতে) পরিবর্তন হয় না।
  • ব্যাচের আকার বাড়ানো সম্পদ খরচ বাড়াতে পারে। উদাহরণস্বরূপ, যদি ব্যাচের আকার বাড়ানোর জন্য আপগ্রেড করা হার্ডওয়্যারের প্রয়োজন হয়, তাহলে প্রতি ধাপে খরচ বৃদ্ধি ধাপের সংখ্যা হ্রাসকে ছাড়িয়ে যেতে পারে।

ব্যাচের আকার পরিবর্তন করার জন্য বেশিরভাগ হাইপারপ্যারামিটার পুনরায় টিউন করা প্রয়োজন

বেশিরভাগ হাইপারপ্যারামিটারের সর্বোত্তম মানগুলি ব্যাচের আকারের জন্য সংবেদনশীল। অতএব, ব্যাচের আকার পরিবর্তন করার জন্য সাধারণত টিউনিং প্রক্রিয়াটি আবার শুরু করা প্রয়োজন। যে হাইপারপ্যারামিটারগুলি ব্যাচের আকারের সাথে সবচেয়ে দৃঢ়ভাবে যোগাযোগ করে এবং তাই প্রতিটি ব্যাচের আকারের জন্য আলাদাভাবে টিউন করা সবচেয়ে গুরুত্বপূর্ণ, নিম্নরূপ:

  • অপ্টিমাইজার হাইপারপ্যারামিটার (উদাহরণস্বরূপ, শেখার হার এবং ভরবেগ)
  • নিয়মিতকরণের হাইপারপ্যারামিটার

একটি প্রকল্পের শুরুতে ব্যাচের আকার নির্বাচন করার সময় এটি নোট করুন। আপনি যদি পরে একটি ভিন্ন ব্যাচের আকারে স্যুইচ করতে চান, তাহলে নতুন ব্যাচের আকারের জন্য অন্যান্য হাইপারপ্যারামিটারগুলি পুনরুদ্ধার করা কঠিন, সময়সাপেক্ষ এবং ব্যয়বহুল হতে পারে।

ব্যাচের আদর্শ কিভাবে ব্যাচ আকারের সাথে ইন্টারঅ্যাক্ট করে

ব্যাচের আদর্শ জটিল এবং সাধারণভাবে, পরিসংখ্যান গণনা করার জন্য গ্রেডিয়েন্ট গণনার চেয়ে ভিন্ন ব্যাচের আকার ব্যবহার করা উচিত। বিস্তারিত আলোচনার জন্য ব্যাচ স্বাভাবিককরণ বাস্তবায়নের বিবরণ দেখুন।

প্রাথমিক কনফিগারেশন নির্বাচন করুন

হাইপারপ্যারামিটার টিউনিংয়ের প্রথম পর্যায়ে নিম্নলিখিতগুলির জন্য শুরুর পয়েন্টগুলি নির্ধারণ করা হয়:

  • মডেল কনফিগারেশন (যেমন স্তর সংখ্যা)
  • অপ্টিমাইজার হাইপারপ্যারামিটার (যেমন শেখার হার)
  • প্রশিক্ষণের ধাপের সংখ্যা

এই প্রাথমিক কনফিগারেশন নির্ধারণের জন্য কিছু ম্যানুয়ালি কনফিগার করা ট্রেনিং রান এবং ট্রায়াল-এন্ড-এরর প্রয়োজন।

আমাদের গাইড নীতি নিম্নরূপ:

একটি সহজ , তুলনামূলকভাবে দ্রুত, অপেক্ষাকৃত কম-সম্পদ-ব্যবহারের কনফিগারেশন খুঁজুন যা একটি যুক্তিসঙ্গত কর্মক্ষমতা অর্জন করে।

কোথায়:

  • সহজ মানে অপ্রয়োজনীয় পাইপলাইন বৈশিষ্ট্যগুলি এড়ানো, যেমন বিশেষ নিয়মিতকরণ বা স্থাপত্য কৌশল। উদাহরণস্বরূপ, ড্রপআউট নিয়মিতকরণ ছাড়া একটি পাইপলাইন (বা ড্রপআউট নিয়মিতকরণ অক্ষম সহ) ড্রপআউট নিয়মিতকরণের চেয়ে সহজ।
  • যুক্তিসঙ্গত কর্মক্ষমতা সমস্যার উপর নির্ভর করে, কিন্তু সর্বনিম্নভাবে, একটি যুক্তিসঙ্গত প্রশিক্ষিত মডেল বৈধকরণ সেটে এলোমেলো সুযোগের চেয়ে অনেক ভালো পারফর্ম করে।

একটি প্রাথমিক কনফিগারেশন নির্বাচন করা যা দ্রুত এবং ন্যূনতম সংস্থানগুলি ব্যবহার করে হাইপারপ্যারামিটার টিউনিংকে অনেক বেশি দক্ষ করে তোলে। উদাহরণস্বরূপ, একটি ছোট মডেল দিয়ে শুরু করুন।

প্রশিক্ষণের ধাপগুলির সংখ্যা বেছে নেওয়ার মধ্যে নিম্নলিখিত উত্তেজনাগুলির ভারসাম্য জড়িত:

  • আরও পদক্ষেপের জন্য প্রশিক্ষণ কর্মক্ষমতা উন্নত করতে পারে এবং হাইপারপ্যারামিটার টিউনিংকে সরল করতে পারে। (আরো বিস্তারিত জানার জন্য, Shallue et al. 2018 দেখুন)।
  • বিপরীতভাবে, কম ধাপে প্রশিক্ষণের অর্থ হল প্রতিটি প্রশিক্ষণ দ্রুত চালানো হয় এবং কম সংস্থান ব্যবহার করে, চক্রের মধ্যে সময় কমিয়ে টিউনিং দক্ষতা বৃদ্ধি করে এবং আপনাকে সমান্তরালভাবে আরও পরীক্ষা চালানোর অনুমতি দেয়। তদুপরি, আপনি যদি প্রকল্পের শুরুতে একটি অপ্রয়োজনীয়ভাবে বড় ধাপের বাজেট বেছে নেন, তাহলে প্রকল্পের পরে এটি পরিবর্তন করা কঠিন হতে পারে; উদাহরণস্বরূপ, একবার আপনি এই ধাপগুলির সংখ্যার জন্য শেখার হারের সময়সূচী টিউন করেছেন।