ট্রান্সফর্মিং ডেটার ভূমিকা

বৈশিষ্ট্য প্রকৌশল হল একটি মডেল প্রশিক্ষণের জন্য কোন বৈশিষ্ট্যগুলি উপযোগী হতে পারে তা নির্ধারণ করার প্রক্রিয়া, এবং তারপর লগ ফাইল এবং অন্যান্য উত্সগুলিতে পাওয়া কাঁচা ডেটা রূপান্তর করে সেই বৈশিষ্ট্যগুলি তৈরি করে৷ এই বিভাগে, আমরা কখন এবং কীভাবে সাংখ্যিক এবং শ্রেণীবদ্ধ ডেটা এবং বিভিন্ন পদ্ধতির ট্রেডঅফগুলিকে রূপান্তর করতে হবে তার উপর ফোকাস করি।

ডেটা ট্রান্সফরমেশনের কারণ

আমরা প্রাথমিকভাবে নিম্নলিখিত কারণগুলির জন্য বৈশিষ্ট্যগুলিকে রূপান্তর করি:

  1. ডেটা সামঞ্জস্যের জন্য বাধ্যতামূলক রূপান্তর । উদাহরণ অন্তর্ভুক্ত:

    • অ-সংখ্যাসূচক বৈশিষ্ট্যগুলিকে সংখ্যায় রূপান্তর করা হচ্ছে। আপনি একটি স্ট্রিং এ ম্যাট্রিক্স গুণন করতে পারবেন না, তাই আমাদের অবশ্যই স্ট্রিংটিকে কিছু সংখ্যাসূচক উপস্থাপনায় রূপান্তর করতে হবে।
    • একটি নির্দিষ্ট আকার ইনপুট পুনরায় আকার. রৈখিক মডেল এবং ফিড-ফরোয়ার্ড নিউরাল নেটওয়ার্কগুলিতে একটি নির্দিষ্ট সংখ্যক ইনপুট নোড থাকে, তাই আপনার ইনপুট ডেটার সর্বদা একই আকার থাকতে হবে। উদাহরণস্বরূপ, ইমেজ মডেলগুলিকে তাদের ডেটাসেটের ছবিগুলিকে একটি নির্দিষ্ট আকারে পুনরায় আকার দিতে হবে।
  2. ঐচ্ছিক মানের রূপান্তর যা মডেলটিকে আরও ভাল পারফর্ম করতে সাহায্য করতে পারে৷ উদাহরণ অন্তর্ভুক্ত:

    • টেক্সট বৈশিষ্ট্যের টোকেনাইজেশন বা লোয়ার-কেসিং।
    • সাধারনকৃত সাংখ্যিক বৈশিষ্ট্য (বেশিরভাগ মডেল পরে আরও ভাল পারফর্ম করে)।
    • লিনিয়ার মডেলগুলিকে ফিচার স্পেসে অ-রৈখিকতা প্রবর্তন করার অনুমতি দেওয়া হচ্ছে।

কঠোরভাবে বলতে গেলে, গুণগত রূপান্তরগুলি প্রয়োজনীয় নয়--আপনার মডেল এখনও তাদের ছাড়া চলতে পারে। কিন্তু এই কৌশলগুলি ব্যবহার করে মডেলটিকে আরও ভাল ফলাফল দিতে সক্ষম হতে পারে।

কোথায় রূপান্তর?

আপনি ডিস্কে ডেটা তৈরি করার সময় বা মডেলের মধ্যে রূপান্তর প্রয়োগ করতে পারেন।

প্রশিক্ষণের আগে রূপান্তর করা

এই পদ্ধতিতে, আমরা প্রশিক্ষণের আগে রূপান্তর সম্পাদন করি।এই কোডটি আপনার মেশিন লার্নিং মডেল থেকে আলাদা থাকে।

পেশাদার

  • গণনা শুধুমাত্র একবার সঞ্চালিত হয়.
  • গণনা রূপান্তর নির্ধারণ করতে সমগ্র ডেটাসেট দেখতে পারে।

কনস

  • ভবিষ্যদ্বাণীর সময়ে রূপান্তরগুলি পুনরুত্পাদন করা দরকার। তির্যক থেকে সাবধান!
  • যেকোন রূপান্তর পরিবর্তনের জন্য ডেটা জেনারেশন পুনরায় চালু করা প্রয়োজন, যা ধীর পুনরাবৃত্তির দিকে পরিচালিত করে।

অনলাইন পরিবেশন জড়িত ক্ষেত্রে Skew আরো বিপজ্জনক. অফলাইন পরিবেশনে, আপনি সেই কোডটি পুনরায় ব্যবহার করতে সক্ষম হতে পারেন যা আপনার প্রশিক্ষণের ডেটা তৈরি করে। অনলাইন পরিবেশনে, যে কোডটি আপনার ডেটাসেট তৈরি করে এবং লাইভ ট্র্যাফিক পরিচালনার জন্য ব্যবহৃত কোডটি প্রায় অগত্যা ভিন্ন, যা তির্যক প্রবর্তন করা সহজ করে তোলে।

মডেল মধ্যে রূপান্তর

এই পদ্ধতিতে, রূপান্তরটি মডেল কোডের অংশ। মডেলটি ইনপুট হিসাবে অপরিবর্তিত ডেটা গ্রহণ করে এবং এটি মডেলের মধ্যে রূপান্তরিত করবে।

পেশাদার

  • সহজ পুনরাবৃত্তি. আপনি যদি রূপান্তর পরিবর্তন করেন, আপনি এখনও একই ডেটা ফাইল ব্যবহার করতে পারেন।
  • আপনি প্রশিক্ষণ এবং ভবিষ্যদ্বাণীর সময়ে একই রূপান্তরের নিশ্চয়তা পাচ্ছেন।

কনস

  • ব্যয়বহুল রূপান্তর মডেল লেটেন্সি বৃদ্ধি করতে পারে.
  • রূপান্তর ব্যাচ প্রতি হয়.

প্রতি ব্যাচে রূপান্তরের জন্য অনেক বিবেচনা আছে। ধরুন আপনি একটি বৈশিষ্ট্যকে তার গড় মান দ্বারা স্বাভাবিক করতে চান--অর্থাৎ, আপনি বৈশিষ্ট্যের মান পরিবর্তন করতে চান মানে 0 এবং আদর্শ বিচ্যুতি 1 । মডেলের অভ্যন্তরে রূপান্তরিত করার সময়, এই স্বাভাবিককরণের শুধুমাত্র এক ব্যাচের ডেটাতে অ্যাক্সেস থাকবে, সম্পূর্ণ ডেটাসেটে নয়। আপনি হয় একটি ব্যাচের মধ্যে গড় মান দ্বারা স্বাভাবিক করতে পারেন (ব্যাচগুলি উচ্চ বৈকল্পিক হলে বিপজ্জনক), অথবা গড়টি প্রাক গণনা করে মডেলটিতে একটি ধ্রুবক হিসাবে ঠিক করতে পারেন। আমরা পরবর্তী বিভাগে স্বাভাবিককরণ অন্বেষণ করব।

আপনার ডেটা অন্বেষণ করুন, পরিষ্কার করুন এবং কল্পনা করুন

আপনার ডেটা অন্বেষণ করুন এবং এটিতে কোনও রূপান্তর সম্পাদন করার আগে পরিষ্কার করুন৷ আপনার ডেটাসেট সংগ্রহ ও নির্মাণ করার সময় আপনি হয়ত নিম্নলিখিত কিছু কাজ করেছেন:

  • ডেটার কয়েকটি সারি পরীক্ষা করুন।
  • মৌলিক পরিসংখ্যান পরীক্ষা করুন.
  • অনুপস্থিত সংখ্যাসূচক এন্ট্রি ঠিক করুন।

ঘন ঘন আপনার তথ্য কল্পনা করুন. গ্রাফগুলি সংখ্যাগত পরিসংখ্যান থেকে স্পষ্ট নয় এমন অসামঞ্জস্য বা নিদর্শনগুলি খুঁজে পেতে সহায়তা করতে পারে। অতএব, বিশ্লেষণে অনেক দূর যাওয়ার আগে, স্ক্র্যাটার প্লট বা হিস্টোগ্রামের মাধ্যমে আপনার ডেটা গ্রাফিকভাবে দেখুন। শুধুমাত্র পাইপলাইনের শুরুতে নয়, রূপান্তর জুড়ে গ্রাফগুলি দেখুন। ভিজ্যুয়ালাইজেশন আপনাকে ক্রমাগত আপনার অনুমানগুলি পরীক্ষা করতে এবং কোনও বড় পরিবর্তনের প্রভাবগুলি দেখতে সহায়তা করবে।