ডেটা প্রস্তুত করুন

যদিও মেশিন লার্নিং কোর্সের জন্য ডেটা প্রিপারেশন এবং ফিচার ইঞ্জিনিয়ারিং সাধারণ ডেটা প্রস্তুতি কভার করে, এই কোর্সটি ক্লাস্টারিংয়ের জন্য নির্দিষ্ট প্রস্তুতির দিকে নজর দেয়।

ক্লাস্টারিং-এ, আপনি একটি সংখ্যাসূচক মানের মধ্যে সেই উদাহরণগুলির জন্য সমস্ত বৈশিষ্ট্য ডেটা একত্রিত করে দুটি উদাহরণের মধ্যে সাদৃশ্য গণনা করেন। বৈশিষ্ট্য ডেটা একত্রিত করার জন্য ডেটার একই স্কেল থাকা প্রয়োজন। এই বিভাগটি কোয়ান্টাইলগুলিকে স্বাভাবিককরণ, রূপান্তর এবং তৈরির দিকে নজর দেয় এবং আলোচনা করে যে কেন কোয়ান্টাইলগুলি কোনও ডেটা বিতরণকে রূপান্তর করার জন্য সেরা ডিফল্ট পছন্দ। একটি ডিফল্ট পছন্দ থাকা আপনাকে ডেটার বিতরণ পরিদর্শন না করেই আপনার ডেটা রূপান্তর করতে দেয়৷

ডেটা স্বাভাবিককরণ

আপনি ডেটা স্বাভাবিক করে একই স্কেলে একাধিক বৈশিষ্ট্যের জন্য ডেটা রূপান্তর করতে পারেন। বিশেষ করে, সাধারণীকরণ সবচেয়ে সাধারণ ডেটা বন্টন, গাউসিয়ান ডিস্ট্রিবিউশন প্রক্রিয়াকরণের জন্য উপযুক্ত। কোয়ান্টাইলের তুলনায়, স্বাভাবিককরণের জন্য গণনা করার জন্য উল্লেখযোগ্যভাবে কম ডেটা প্রয়োজন। নিম্নরূপ তার z-স্কোর গণনা করে ডেটা স্বাভাবিক করুন:

\[x'=(x-\mu)/\sigma\\ \begin{align*} \text{where:}\quad \mu &= \text{mean}\\ \sigma &= \text{standard deviation}\\ \end{align*} \]

আসুন স্বাভাবিককরণ সহ এবং ছাড়া উদাহরণগুলির মধ্যে মিল দেখি। চিত্র 1-এ, আপনি দেখতে পাচ্ছেন যে লাল হলুদের চেয়ে নীলের সাথে বেশি মিল রয়েছে। যাইহোক, x- এবং y-অক্ষের বৈশিষ্ট্যগুলির একই স্কেল নেই। অতএব, পর্যবেক্ষিত সাদৃশ্যটি আনস্কেল করা ডেটার একটি নিদর্শন হতে পারে। জেড-স্কোর ব্যবহার করে স্বাভাবিককরণের পরে, সমস্ত বৈশিষ্ট্য একই স্কেল আছে। এখন, আপনি দেখতে পাচ্ছেন যে লাল আসলে হলুদের সাথে আরও বেশি মিল। এইভাবে, ডেটা স্বাভাবিক করার পরে, আপনি আরও সঠিকভাবে সাদৃশ্য গণনা করতে পারেন।

স্বাভাবিককরণের আগে এবং পরে বৈশিষ্ট্য ডেটা তুলনা করে দুটি গ্রাফ
চিত্র 1: স্বাভাবিককরণের আগে এবং পরে বৈশিষ্ট্য ডেটার তুলনা।

সংক্ষেপে, নিম্নোক্ত যেকোনো একটি সত্য হলে স্বাভাবিককরণ প্রয়োগ করুন:

  • আপনার ডেটার একটি গাউসিয়ান ডিস্ট্রিবিউশন আছে।
  • কোয়ান্টাইল তৈরি করার জন্য আপনার ডেটা সেটে যথেষ্ট ডেটা নেই।

লগ ট্রান্সফর্ম ব্যবহার করে

কখনও কখনও, একটি ডেটা সেট একটি পাওয়ার আইন বন্টনের সাথে সামঞ্জস্য করে যা নিম্ন প্রান্তে ডেটা জমা করে। চিত্র 2-এ, লাল নীলের চেয়ে হলুদের কাছাকাছি।

কম প্রান্তে বেশিরভাগ ডেটা সহ একটি বারচার্ট
চিত্র 2: একটি ক্ষমতা আইন বন্টন.

একটি লগ ট্রান্সফর্ম ব্যবহার করে একটি পাওয়ার-আইন বিতরণ প্রক্রিয়া করুন। চিত্র 3-এ, লগ ট্রান্সফর্ম একটি মসৃণ বিতরণ তৈরি করে এবং লাল হলুদের চেয়ে নীলের কাছাকাছি।

একটি গ্রাফ একটি স্বাভাবিক (গাউসিয়ান) বন্টন দেখাচ্ছে
চিত্র 3: একটি স্বাভাবিক (গাউসিয়ান) বিতরণ।

কোয়ান্টাইল ব্যবহার করে

সাধারণীকরণ এবং লগ রূপান্তর ঠিকানা নির্দিষ্ট তথ্য বিতরণ. ডাটা যদি গাউসিয়ান বা পাওয়ার-আইন ডিস্ট্রিবিউশনের সাথে সঙ্গতিপূর্ণ না হয়? কোন তথ্য বিতরণে প্রযোজ্য একটি সাধারণ পদ্ধতি আছে?

চলুন এই বন্টন প্রিপ্রসেস করার চেষ্টা করি।

কোনো প্রিপ্রসেসিংয়ের আগে ডেটা বিতরণ দেখানো একটি গ্রাফ
চিত্র 4: কোনো প্রিপ্রসেসিংয়ের আগে একটি অশ্রেণীবদ্ধ বিতরণ।

স্বজ্ঞাতভাবে, যদি দুটি উদাহরণের মধ্যে শুধুমাত্র কয়েকটি উদাহরণ থাকে, তাহলে এই দুটি উদাহরণ তাদের মান নির্বিশেষে একই রকম। বিপরীতভাবে, যদি দুটি উদাহরণের মধ্যে অনেকগুলি উদাহরণ থাকে, তবে দুটি উদাহরণ কম মিল। সুতরাং, দুটি উদাহরণের মধ্যে সাদৃশ্য কমে যায় কারণ তাদের মধ্যে উদাহরণের সংখ্যা বাড়তে থাকে।

ডেটাকে সাধারণীকরণ করা কেবল ডেটা বিতরণকে পুনরুত্পাদন করে কারণ স্বাভাবিককরণ একটি রৈখিক রূপান্তর। লগ ট্রান্সফর্ম প্রয়োগ করা আপনার অন্তর্দৃষ্টিকে প্রতিফলিত করে না যে কীভাবে সাদৃশ্য কাজ করে, যেমনটি নীচের চিত্র 5 এ দেখানো হয়েছে।

লগ ট্রান্সফর্মের পরে ডেটা বিতরণ দেখানো একটি গ্রাফ
চিত্র 5: একটি লগ রূপান্তর অনুসরণ করে বিতরণ।

পরিবর্তে, ডেটাকে ব্যবধানে ভাগ করুন যেখানে প্রতিটি ব্যবধানে সমান সংখ্যক উদাহরণ রয়েছে। এই ব্যবধানের সীমানাকে কোয়ান্টাইল বলা হয়।

নিম্নলিখিত পদক্ষেপগুলি সম্পাদন করে আপনার ডেটা কোয়ান্টাইলে রূপান্তর করুন:

  1. ব্যবধানের সংখ্যা নির্ধারণ করুন।
  2. ব্যবধান সংজ্ঞায়িত করুন যাতে প্রতিটি ব্যবধানে সমান সংখ্যক উদাহরণ থাকে।
  3. প্রতিটি উদাহরণের ব্যবধানের সূচী দ্বারা প্রতিস্থাপন করুন।
  4. ইনডেক্সের মানগুলিকে [0,1] এ স্কেল করে অন্যান্য বৈশিষ্ট্য ডেটার মতো একই পরিসরে আনুন।
কোয়ান্টাইলে রূপান্তরের পরে ডেটা দেখানো একটি গ্রাফ। লাইনটি 20টি ব্যবধান উপস্থাপন করে।]
চিত্র 6: কোয়ান্টাইলে রূপান্তরের পর বন্টন।

ডেটাকে কোয়ান্টাইলে রূপান্তর করার পরে, দুটি উদাহরণের মধ্যে মিল সেই দুটি উদাহরণের মধ্যে উদাহরণের সংখ্যার বিপরীতভাবে সমানুপাতিক। অথবা, গাণিতিকভাবে, যেখানে "x" ডেটাসেটের যেকোনো উদাহরণ:

  • \(sim(A,B) \approx 1 − | \text{prob}[x > A] − \text{prob}[x > B] |\)
  • \(sim(A,B) \approx 1 − | \text{quantile}(A) − \text{quantile}(B) |\)

কোয়ান্টাইলগুলি ডেটা রূপান্তর করার জন্য আপনার সেরা ডিফল্ট পছন্দ। যাইহোক, কোয়ান্টাইল তৈরি করতে যা অন্তর্নিহিত ডেটা বিতরণের নির্ভরযোগ্য সূচক, আপনার প্রচুর ডেটা প্রয়োজন। একটি নিয়ম হিসাবে, \(n\) কোয়ান্টাইল তৈরি করতে, আপনার কমপক্ষে \(10n\) উদাহরণ থাকতে হবে। আপনার কাছে পর্যাপ্ত ডেটা না থাকলে, স্বাভাবিককরণে লেগে থাকুন।

আপনার বোঝার পরীক্ষা করুন

নিম্নলিখিত প্রশ্নগুলির জন্য, ধরে নিন আপনার কাছে কোয়ান্টাইল তৈরি করার জন্য যথেষ্ট ডেটা আছে।

প্রশ্ন এক

একটি প্লট যা তিনটি ডেটা বিতরণ প্রদর্শন করে
আপনি কিভাবে এই ডেটা বিতরণ প্রক্রিয়া করবেন?
কোয়ান্টাইল তৈরি করুন।
সঠিক। ডিস্ট্রিবিউশন একটি স্ট্যান্ডার্ড ডেটা ডিস্ট্রিবিউশনের সাথে মেলে না, তাই আপনার কোয়ান্টাইল তৈরিতে ফিরে আসা উচিত।
স্বাভাবিক করা।
আপনি সাধারণত ডেটা স্বাভাবিক করেন যদি:
  • ডেটা বিতরণ গাউসিয়ান।
  • ডেটা কী প্রতিনিধিত্ব করে সে সম্পর্কে আপনার অন্তর্দৃষ্টি রয়েছে, যা আপনাকে বলে যে ডেটা অরৈখিকভাবে রূপান্তরিত করা উচিত নয়। ফলস্বরূপ, আপনি কোয়ান্টাইল এড়িয়ে যান এবং পরিবর্তে স্বাভাবিককরণ বেছে নিন।
কোন ক্ষেত্রেই এখানে প্রযোজ্য নয়। ডেটা বিতরণ গাউসিয়ান নয় কারণ এটি প্রতিসম নয়। এবং বাস্তব জগতে এই মানগুলি কী প্রতিনিধিত্ব করে সে সম্পর্কে আপনার অন্তর্দৃষ্টি নেই।
লগ রূপান্তর.
সেরা পছন্দ নয় কারণ এটি একটি নিখুঁত পাওয়ার-আইন বিতরণ নয়।

প্রশ্ন দুই

একটি প্লট যা তিনটি ডেটা বিতরণ প্রদর্শন করে
আপনি কিভাবে এই ডেটা বিতরণ প্রক্রিয়া করবেন?
স্বাভাবিক করা।
সঠিক। এটি একটি গাউসিয়ান বিতরণ।
কোয়ান্টাইল তৈরি করুন।
ত্রুটিপূর্ণ. যেহেতু এটি একটি গাউসিয়ান ডিস্ট্রিবিউশন, তাই পছন্দের রূপান্তর হল স্বাভাবিকীকরণ।
লগ রূপান্তর.
ত্রুটিপূর্ণ. পাওয়ার-ল ডিস্ট্রিবিউশনে শুধুমাত্র লগ ট্রান্সফর্ম প্রয়োগ করুন।

অনুপস্থিত তথ্য

যদি আপনার ডেটাসেটে একটি নির্দিষ্ট বৈশিষ্ট্যের জন্য অনুপস্থিত মান সহ উদাহরণ থাকে কিন্তু এই ধরনের উদাহরণ খুব কমই ঘটে, তাহলে আপনি এই উদাহরণগুলি সরিয়ে দিতে পারেন। যদি এই ধরনের উদাহরণগুলি প্রায়শই ঘটে থাকে, তাহলে আমাদের কাছে এই বৈশিষ্ট্যটি সম্পূর্ণভাবে মুছে ফেলার বিকল্প রয়েছে, অথবা একটি মেশিন লার্নিং মডেল ব্যবহার করে অন্যান্য উদাহরণ থেকে অনুপস্থিত মানগুলির পূর্বাভাস দেওয়ার বিকল্প রয়েছে৷ উদাহরণস্বরূপ, আপনি বিদ্যমান বৈশিষ্ট্য ডেটাতে প্রশিক্ষিত একটি রিগ্রেশন মডেল ব্যবহার করে অনুপস্থিত সংখ্যাসূচক ডেটা অনুমান করতে পারেন।