নমুনা এবং বিভাজন ডেটা

স্যাম্পলিং এর ভূমিকা

একটি মেশিন লার্নিং প্রকল্পের জন্য পর্যাপ্ত ডেটা সংগ্রহ করা প্রায়শই একটি সংগ্রাম। কখনও কখনও, তবে, খুব বেশি ডেটা থাকে এবং আপনাকে প্রশিক্ষণের জন্য উদাহরণগুলির একটি উপসেট নির্বাচন করতে হবে।

কিভাবে আপনি যে উপসেট নির্বাচন করবেন? একটি উদাহরণ হিসাবে, Google অনুসন্ধান বিবেচনা করুন. কোন কণিকাতে আপনি এর বিপুল পরিমাণ ডেটা নমুনা করবেন? আপনি র্যান্ডম প্রশ্ন ব্যবহার করবেন? র্যান্ডম সেশন? এলোমেলো ব্যবহারকারী?

শেষ পর্যন্ত, উত্তরটি সমস্যার উপর নির্ভর করে: আমরা কী ভবিষ্যদ্বাণী করতে চাই এবং আমরা কী বৈশিষ্ট্যগুলি চাই?

  • বৈশিষ্ট্য পূর্ববর্তী ক্যোয়ারী ব্যবহার করার জন্য, আপনাকে সেশন স্তরে নমুনা করতে হবে, কারণ সেশনে প্রশ্নগুলির একটি ক্রম থাকে।
  • আগের দিনের বৈশিষ্ট্য ব্যবহারকারীর আচরণ ব্যবহার করতে, আপনাকে ব্যবহারকারীর স্তরে নমুনা করতে হবে।

PII এর জন্য ফিল্টারিং (ব্যক্তিগতভাবে শনাক্তযোগ্য তথ্য)

যদি আপনার ডেটাতে PII (ব্যক্তিগতভাবে শনাক্তযোগ্য তথ্য) থাকে, তাহলে আপনাকে আপনার ডেটা থেকে ফিল্টার করতে হতে পারে। একটি নীতির জন্য আপনাকে বিরল বৈশিষ্ট্যগুলি সরানোর প্রয়োজন হতে পারে, উদাহরণস্বরূপ।

এই ফিল্টারিং আপনার বিতরণ তির্যক হবে. আপনি লেজে তথ্য হারাবেন (অত্যন্ত কম মান সহ বিতরণের অংশ, গড় থেকে অনেক দূরে)।

এই ফিল্টারিং সহায়ক কারণ খুব বিরল বৈশিষ্ট্যগুলি শেখা কঠিন৷ কিন্তু এটা বোঝা গুরুত্বপূর্ণ যে আপনার ডেটাসেট হেড কোয়েরির দিকে পক্ষপাতমূলক হবে। পরিবেশন করার সময়, আপনি টেল থেকে উদাহরণ পরিবেশন করার ক্ষেত্রে আরও খারাপ করার আশা করতে পারেন, যেহেতু এই উদাহরণগুলি আপনার প্রশিক্ষণের ডেটা থেকে ফিল্টার করা হয়েছিল। যদিও এই তির্যকটি এড়ানো যায় না, আপনার বিশ্লেষণের সময় এটি সম্পর্কে সচেতন হন।