নমুনা এবং বিভাজন: আপনার বোঝার পরীক্ষা করুন

নিম্নলিখিত প্রশ্নের জন্য, আপনার উত্তর চেক করতে পছন্দসই তীরটিতে ক্লিক করুন:

কল্পনা করুন যে আপনার কাছে 1:1000 ইতিবাচক-নেতিবাচক অনুপাত সহ একটি ডেটাসেট আছে। দুর্ভাগ্যবশত, আপনার মডেল সবসময় সংখ্যাগরিষ্ঠ শ্রেণীর ভবিষ্যদ্বাণী করে। কোন কৌশল আপনাকে এই সমস্যাটি মোকাবেলা করতে সাহায্য করবে? মনে রাখবেন যে আপনি মডেলটি একটি ক্যালিব্রেটেড সম্ভাব্যতা রিপোর্ট করতে চান।
শুধু নেতিবাচক উদাহরণ downsample.
এটি একটি ভাল শুরু, কিন্তু আপনি মডেলের বেস রেট পরিবর্তন করবেন, তাই এটি আর ক্যালিব্রেট করা হয় না।
নেতিবাচক উদাহরণগুলি ডাউনস্যাম্পল করুন (অধিকাংশ শ্রেণী)। তারপর একই ফ্যাক্টর দ্বারা ডাউনস্যাম্পল ক্লাসের ওজন বাড়িয়ে দিন।
এটি ভারসাম্যহীন ডেটা মোকাবেলা করার একটি কার্যকর উপায় এবং এখনও লেবেলের প্রকৃত বিতরণ পেতে। নোট করুন যে মডেলটি একটি ক্যালিব্রেটেড সম্ভাব্যতা রিপোর্ট করে কিনা তা আপনি যত্নশীল কিনা তা গুরুত্বপূর্ণ। যদি এটি ক্যালিব্রেট করার প্রয়োজন না হয়, তাহলে আপনাকে বেস রেট পরিবর্তন করার বিষয়ে চিন্তা করতে হবে না।
কোন কৌশলগুলি ডেটাসেটের লেজ থেকে ডেটা হারায়? সকল আবেদন যাচাই কর.
PII ফিল্টারিং
আপনার ডেটা থেকে PII ফিল্টার করা আপনার বিতরণকে skewing, পুচ্ছ তথ্য মুছে ফেলতে পারে।
ওজন করা
উদাহরণ ওজন বিভিন্ন উদাহরণের গুরুত্ব পরিবর্তন করে, কিন্তু এটি তথ্য হারায় না। প্রকৃতপক্ষে, লেজের উদাহরণগুলিতে ওজন যোগ করা আপনার মডেলকে লেজ সম্পর্কে আচরণ শিখতে সাহায্য করতে পারে।
ডাউনস্যাম্পলিং
বৈশিষ্ট্য বিতরণের লেজ ডাউনস্যাম্পলিংয়ে তথ্য হারাবে। যাইহোক, যেহেতু আমরা সাধারণত সংখ্যাগরিষ্ঠ শ্রেণীর নমুনা কম করি, এই ক্ষতি সাধারণত একটি বড় সমস্যা নয়।
স্বাভাবিককরণ
স্বাভাবিককরণ পৃথক উদাহরণের উপর কাজ করে, তাই এটি নমুনা নেওয়ার পক্ষপাত ঘটায় না।
আপনি একটি শ্রেণীবিন্যাস সমস্যা নিয়ে কাজ করছেন, এবং আপনি এলোমেলোভাবে প্রশিক্ষণ, মূল্যায়ন এবং পরীক্ষার সেটে ডেটা বিভক্ত করেছেন। আপনার ক্লাসিফায়ার দেখে মনে হচ্ছে এটি পুরোপুরি কাজ করছে! কিন্তু উৎপাদনে, শ্রেণীবিভাগ সম্পূর্ণ ব্যর্থতা। আপনি পরে আবিষ্কার করেন যে সমস্যাটি এলোমেলো বিভাজনের কারণে হয়েছিল। কি ধরনের তথ্য এই সমস্যার জন্য সংবেদনশীল?
টাইম সিরিজ ডেটা
র‍্যান্ডম স্প্লিটিং পরীক্ষা/ট্রেন স্প্লিট জুড়ে প্রতিটি ক্লাস্টারকে বিভক্ত করে, মডেলটিকে একটি "ছিনিয়ে প্রিভিউ" প্রদান করে যা উৎপাদনে উপলব্ধ হবে না।
ডেটা যা সময়ের সাথে খুব বেশি পরিবর্তিত হয় না
যদি আপনার ডেটা সময়ের সাথে খুব বেশি পরিবর্তিত না হয়, তাহলে আপনার কাছে এলোমেলোভাবে বিভক্ত হওয়ার আরও ভাল সুযোগ থাকবে। উদাহরণস্বরূপ, আপনি ফটোতে কুকুরের জাত শনাক্ত করতে চাইতে পারেন বা বায়োমেট্রিক্সের অতীত ডেটার উপর ভিত্তি করে হার্টের ত্রুটির ঝুঁকিতে থাকা রোগীদের ভবিষ্যদ্বাণী করতে পারেন। উভয় ক্ষেত্রেই, ডেটা সাধারণত সময়ের সাথে পরিবর্তিত হয় না, তাই এলোমেলো বিভাজন কোনো সমস্যা সৃষ্টি করবে না।
ডেটা গ্রুপিং
পরীক্ষার সেটটি সর্বদা প্রশিক্ষণ সেটের সাথে খুব সাদৃশ্যপূর্ণ হবে কারণ একই ডেটার ক্লাস্টার উভয় সেটেই রয়েছে। মডেলটির চেয়ে ভাল ভবিষ্যদ্বাণী করার শক্তি রয়েছে বলে মনে হবে।
বিস্ফোরণ সহ ডেটা (একটি অবিচ্ছিন্ন প্রবাহের বিপরীতে মাঝে মাঝে বিস্ফোরণে আগত ডেটা)
অনুরূপ ডেটার ক্লাস্টার (বিস্ফোরণ) প্রশিক্ষণ এবং পরীক্ষা উভয় ক্ষেত্রেই প্রদর্শিত হবে। মডেলটি নতুন ডেটার চেয়ে পরীক্ষায় আরও ভাল ভবিষ্যদ্বাণী করবে।