এলোমেলোকরণ

ব্যবহারিক সিদ্ধান্ত

আপনার ডেটা জেনারেশন পাইপলাইন পুনরুত্পাদনযোগ্য করুন। বলুন আপনি একটি বৈশিষ্ট্য যোগ করতে চান যে এটি মডেলের গুণমানকে কীভাবে প্রভাবিত করে। একটি ন্যায্য পরীক্ষার জন্য, এই নতুন বৈশিষ্ট্য ব্যতীত আপনার ডেটাসেটগুলি অভিন্ন হওয়া উচিত৷ আপনার ডেটা জেনারেশন রান পুনরুত্পাদনযোগ্য না হলে, আপনি এই ডেটাসেটগুলি তৈরি করতে পারবেন না।

সেই চেতনায়, নিশ্চিত করুন যে ডেটা জেনারেশনের যেকোন র্যান্ডমাইজেশনকে নির্ধারক করা যেতে পারে:

  • আপনার র্যান্ডম সংখ্যা জেনারেটর (RNGs) বীজ . সিডিং নিশ্চিত করে যে RNG আপনি যখনই এটি চালান তখন আপনার ডেটাসেট পুনরায় তৈরি করে একই ক্রমে একই মান আউটপুট করে।
  • অপরিবর্তনীয় হ্যাশ কী ব্যবহার করুন। হ্যাশিং ডেটা বিভক্ত বা নমুনা করার একটি সাধারণ উপায়। আপনি প্রতিটি উদাহরণ হ্যাশ করতে পারেন, এবং উদাহরণটি কোন বিভাজনে স্থাপন করবেন তা সিদ্ধান্ত নিতে ফলাফল পূর্ণসংখ্যা ব্যবহার করতে পারেন। আপনার হ্যাশ ফাংশনের ইনপুটগুলি প্রতিবার যখন আপনি ডেটা জেনারেশন প্রোগ্রাম চালাবেন তখন পরিবর্তন করা উচিত নয়। আপনার হ্যাশে বর্তমান সময় বা র্যান্ডম সংখ্যা ব্যবহার করবেন না, উদাহরণস্বরূপ, যদি আপনি চাহিদা অনুযায়ী আপনার হ্যাশগুলি পুনরায় তৈরি করতে চান।

পূর্ববর্তী পদ্ধতিগুলি আপনার ডেটা নমুনা এবং বিভাজন উভয় ক্ষেত্রেই প্রযোজ্য।

হ্যাশিং জন্য বিবেচনা

আবার কল্পনা করুন যে আপনি অনুসন্ধান প্রশ্নগুলি সংগ্রহ করছেন এবং প্রশ্নগুলি অন্তর্ভুক্ত বা বাদ দিতে হ্যাশিং ব্যবহার করছেন৷ যদি হ্যাশ কী শুধুমাত্র ক্যোয়ারী ব্যবহার করে, তাহলে একাধিক দিনের ডেটা জুড়ে, আপনি হয় সর্বদা সেই ক্যোয়ারীটি অন্তর্ভুক্ত করবেন বা সর্বদা এটি বাদ দেবেন। সর্বদা একটি প্রশ্ন অন্তর্ভুক্ত বা সর্বদা বাদ দেওয়া খারাপ কারণ:

  • আপনার প্রশিক্ষণ সেটটি কম বৈচিত্র্যময় প্রশ্নের সেট দেখতে পাবে।
  • আপনার মূল্যায়ন সেটগুলি কৃত্রিমভাবে কঠিন হবে, কারণ সেগুলি আপনার প্রশিক্ষণের ডেটার সাথে ওভারল্যাপ করবে না। বাস্তবে, পরিবেশন করার সময়, আপনি আপনার প্রশিক্ষণের ডেটাতে কিছু লাইভ ট্র্যাফিক দেখতে পাবেন, তাই আপনার মূল্যায়নে তা প্রতিফলিত হওয়া উচিত।

পরিবর্তে আপনি ক্যোয়ারী + তারিখে হ্যাশ করতে পারেন, যার ফলে প্রতিদিন একটি ভিন্ন হ্যাশিং হবে।

অ্যানিমেটেড ভিজ্যুয়ালাইজেশন দেখায় যে কীভাবে শুধুমাত্র ক্যোয়ারীতে হ্যাশ করার ফলে ডেটা প্রতিদিন একই বালতিতে যায়, কিন্তু ক্যোয়ারীতে হ্যাশিং এবং ক্যোয়ারী টাইম প্রতিদিন বিভিন্ন বালতিতে ডেটা যায়। তিনটি বালতি হল প্রশিক্ষণ, মূল্যায়ন এবং উপেক্ষা করা।