ডেটা এবং বৈশিষ্ট্য ডিবাগিং

নিম্ন-মানের ডেটা উল্লেখযোগ্যভাবে আপনার মডেলের কর্মক্ষমতা প্রভাবিত করবে। আপনার মডেল খারাপভাবে ভবিষ্যদ্বাণী করার পরে এটির অস্তিত্ব অনুমান করার পরিবর্তে ইনপুটে নিম্ন-মানের ডেটা সনাক্ত করা অনেক সহজ। এই বিভাগে পরামর্শ অনুসরণ করে আপনার ডেটা নিরীক্ষণ করুন।

একটি ডেটা স্কিমা ব্যবহার করে ইনপুট ডেটা যাচাই করুন

আপনার ডেটা নিরীক্ষণ করার জন্য, আপনাকে প্রত্যাশিত পরিসংখ্যানগত মানগুলির বিরুদ্ধে আপনার ডেটা ক্রমাগত পরীক্ষা করতে হবে এমন নিয়মগুলি লিখে যা ডেটা অবশ্যই পূরণ করবে। নিয়মের এই সংগ্রহকে ডেটা স্কিমা বলা হয়। এই পদক্ষেপগুলি অনুসরণ করে একটি ডেটা স্কিমা সংজ্ঞায়িত করুন:

  1. আপনার বৈশিষ্ট্য ডেটার জন্য, পরিসর এবং বিতরণ বুঝুন। শ্রেণীবদ্ধ বৈশিষ্ট্যের জন্য, সম্ভাব্য মানগুলির সেটটি বুঝুন।
  2. স্কিমায় সংজ্ঞায়িত নিয়মে আপনার বোঝার এনকোড করুন। নিয়মের উদাহরণ হল:

    • নিশ্চিত করুন যে ব্যবহারকারীর জমা দেওয়া রেটিং সর্বদা 1 থেকে 5 এর মধ্যে থাকে।
    • পরীক্ষা করুন যে "the" প্রায়শই ঘটে (একটি ইংরেজি পাঠ্য বৈশিষ্ট্যের জন্য)।
    • শ্রেণীগত বৈশিষ্ট্য একটি নির্দিষ্ট সেট থেকে মান আছে পরীক্ষা করুন.
  3. ডেটা স্কিমার বিরুদ্ধে আপনার ডেটা পরীক্ষা করুন। আপনার স্কিমাতে ডেটা ত্রুটি ধরা উচিত যেমন:

    • অসঙ্গতি
    • শ্রেণীগত ভেরিয়েবলের অপ্রত্যাশিত মান
    • অপ্রত্যাশিত তথ্য বিতরণ

নিশ্চিত করুন যে স্প্লিটগুলি ভাল মানের

আপনার পরীক্ষা এবং প্রশিক্ষণ বিভাজন আপনার ইনপুট ডেটার সমানভাবে প্রতিনিধিত্ব করতে হবে। যদি পরীক্ষা এবং প্রশিক্ষণের বিভাজন পরিসংখ্যানগতভাবে ভিন্ন হয়, তাহলে প্রশিক্ষণের ডেটা পরীক্ষার ডেটা ভবিষ্যদ্বাণী করতে সাহায্য করবে না। কীভাবে ডেটা নমুনা এবং বিভক্ত করা যায় তা শিখতে, এমএল কোর্সে ডেটা প্রিপারেশন এবং ফিচার ইঞ্জিনিয়ারিং-এর স্যাম্পলিং এবং স্প্লিটিং ডেটা বিভাগটি দেখুন।

আপনার বিভাজনের পরিসংখ্যানগত বৈশিষ্ট্য নিরীক্ষণ করুন। বৈশিষ্ট্য ভিন্ন হলে, একটি পতাকা বাড়ান. আরও, পরীক্ষা করুন যে প্রতিটি বিভাজনে উদাহরণের অনুপাত স্থির থাকে। উদাহরণস্বরূপ, যদি আপনার ডেটা 80:20 বিভক্ত হয় তবে সেই অনুপাতটি পরিবর্তন করা উচিত নয়।

ইঞ্জিনিয়ারড ডেটা পরীক্ষা করুন

যদিও আপনার কাঁচা ডেটা বৈধ হতে পারে, আপনার মডেল শুধুমাত্র ইঞ্জিনিয়ারড বৈশিষ্ট্য ডেটা দেখে। কারণ ইঞ্জিনিয়ারড ডেটা কাঁচা ইনপুট ডেটা থেকে খুব আলাদা দেখায়, আপনাকে আলাদাভাবে ইঞ্জিনিয়ারড ডেটা পরীক্ষা করতে হবে। আপনার ইঞ্জিনিয়ারড ডেটা সম্পর্কে আপনার বোঝার উপর ভিত্তি করে, ইউনিট পরীক্ষা লিখুন। উদাহরণস্বরূপ, আপনি নিম্নলিখিত শর্তগুলি পরীক্ষা করতে ইউনিট পরীক্ষা লিখতে পারেন:

  • সমস্ত সাংখ্যিক বৈশিষ্ট্য স্কেল করা হয়, উদাহরণস্বরূপ, 0 এবং 1 এর মধ্যে৷
  • এক-হট এনকোডেড ভেক্টরে শুধুমাত্র একটি একক 1 এবং N-1 শূন্য থাকে।
  • অনুপস্থিত ডেটা গড় বা ডিফল্ট মান দ্বারা প্রতিস্থাপিত হয়।
  • রূপান্তরের পরে ডেটা বিতরণ প্রত্যাশার সাথে সঙ্গতিপূর্ণ। উদাহরণস্বরূপ, যদি আপনি z-স্কোর ব্যবহার করে স্বাভাবিক করে থাকেন, তাহলে z-স্কোরের গড় হল 0।
  • Outliers পরিচালনা করা হয়, যেমন স্কেলিং বা ক্লিপিং দ্বারা।