নিম্নলিখিত প্রশ্নের জন্য, আপনার উত্তর চেক করতে পছন্দসই তীরটিতে ক্লিক করুন:
আপনি একটি রিগ্রেশন মডেলের জন্য ডেটা প্রিপ্রসেস করছেন। কি রূপান্তর বাধ্যতামূলক? সকল আবেদন যাচাই কর.
সমস্ত অ-সংখ্যাসূচক বৈশিষ্ট্যকে সংখ্যাসূচক বৈশিষ্ট্যগুলিতে রূপান্তর করা হচ্ছে।
সঠিক। এটি একটি বাধ্যতামূলক রূপান্তর। আপনাকে অবশ্যই স্ট্রিংগুলিকে কিছু সাংখ্যিক উপস্থাপনায় রূপান্তর করতে হবে কারণ আপনি একটি স্ট্রিং-এ ম্যাট্রিক্স গুণন করতে পারবেন না।
সাংখ্যিক তথ্য স্বাভাবিক করুন।
সাংখ্যিক ডেটা স্বাভাবিককরণ সাহায্য করতে পারে, কিন্তু এটি একটি ঐচ্ছিক মানের রূপান্তর।
নিচের চার্টটি বিবেচনা করুন। কোন ডেটা ট্রান্সফরমেশন কৌশলটি সম্ভবত সবচেয়ে বেশি ফলপ্রসূ হবে এবং কেন? অনুমান করুন আপনার লক্ষ্য হল ঘরের ব্যক্তি এবং বাড়ির দামের মধ্যে একটি রৈখিক সম্পর্ক খুঁজে বের করা।
জেড-স্কোর
আউটলায়ার চরম না হলে Z-স্কোর একটি ভাল পছন্দ। তবে, বহিরাগতরা এখানে চরম।
ক্লিপিং
ক্লিপিং এখানে একটি ভাল পছন্দ কারণ ডেটা সেটে চরম আউটলায়ার রয়েছে। অন্যান্য স্বাভাবিককরণ প্রয়োগ করার আগে আপনার চরম আউটলিয়ার ঠিক করা উচিত।
লগ স্কেলিং
লগ স্কেলিং একটি ভাল পছন্দ যদি আপনার ডেটা পাওয়ার আইন বন্টন নিশ্চিত করে। যাইহোক, এই ডেটা পাওয়ার আইন বন্টনের পরিবর্তে একটি স্বাভাবিক বন্টনের সাথে সামঞ্জস্যপূর্ণ।
কোয়ান্টাইল সীমানা সহ বাকেটিং (বিনিং)
তির্যক ডেটার জন্য কোয়ান্টাইল বাকেটিং একটি ভাল পদ্ধতি হতে পারে, তবে এই ক্ষেত্রে, এই তির্যকটি কিছু চরম আউটলারের কারণে হয়। এছাড়াও, আপনি মডেল একটি রৈখিক সম্পর্ক শিখতে চান. অতএব, আপনার রুম পারপারসনকে ক্যাটাগরিতে রূপান্তরিত করার পরিবর্তে সংখ্যাসূচক রাখা উচিত, যা বকেটিং করে। পরিবর্তে, একটি স্বাভাবিককরণ কৌশল চেষ্টা করুন।
নিচের চার্টটি বিবেচনা করুন। কোন ডেটা ট্রান্সফরমেশন কৌশলটি সম্ভবত সবচেয়ে বেশি ফলপ্রসূ হবে এবং কেন?
জেড-স্কোর
Z-স্কোর একটি ভাল পছন্দ যদি আউটলায়ারগুলি এতটা চরম না হয় যে আপনার ক্লিপিং প্রয়োজন। এখানে ব্যাপারটা তেমন নয়। ডেটা যেভাবে তির্যক করা হয় তা একটি ইঙ্গিত হওয়া উচিত।
ক্লিপিং
ক্লিপিং একটি ভাল পছন্দ যখন চরম outliers আছে. এই চার্টটি, তবে, একটি পাওয়ার আইন বন্টন দেখাচ্ছে, এবং এটি মোকাবেলার জন্য আরও একটি স্বাভাবিককরণ কৌশল রয়েছে।
লগ স্কেলিং
লগ স্কেলিং এখানে একটি ভাল পছন্দ কারণ ডেটা পাওয়ার আইন বন্টনের সাথে সামঞ্জস্যপূর্ণ।
কোয়ান্টাইল সীমানা সহ বাকেটিং (বিনিং)
তির্যক ডেটার জন্য কোয়ান্টাইল বাকেটিং একটি ভাল পদ্ধতি হতে পারে। যাইহোক, আপনি একটি রৈখিক সম্পর্ক শিখতে মডেল খুঁজছেন. অতএব, আপনার ডেটা সংখ্যাসূচক রাখা উচিত এবং এটিকে বালতিতে রাখা এড়ানো উচিত। পরিবর্তে একটি স্বাভাবিককরণ কৌশল চেষ্টা করুন.
নিচের চার্টটি বিবেচনা করুন। একটি রৈখিক মডেল কি কম্প্রেশন-অনুপাত এবং সিটি-এমপিজি-এর মধ্যে সম্পর্ক সম্পর্কে একটি ভাল ভবিষ্যদ্বাণী করবে? যদি তা না হয়, তাহলে মডেলটিকে আরও ভালোভাবে প্রশিক্ষণ দেওয়ার জন্য আপনি কীভাবে ডেটা রূপান্তর করতে পারেন?
হ্যাঁ, মডেলটি সম্ভবত একটি রৈখিক সম্পর্ক খুঁজে পাবে এবং বেশ সঠিক ভবিষ্যদ্বাণী করবে।
যদিও মডেলটি একটি রৈখিক সম্পর্ক খুঁজে পাবে, মডেলটি খুব সঠিক ভবিষ্যদ্বাণী করবে না। কেন ভালোভাবে বোঝার জন্য আপনি ডেটা মডেলিং অনুশীলনে এই ডেটা সেটটি প্রশিক্ষণের চেষ্টা করতে পারেন।
না। স্কেলিং করার পরে মডেলটি সম্ভবত আরও নির্ভুল হবে।
আপনি রৈখিক স্কেলিং প্রয়োগ করতে পারেন, কিন্তু কম্প্রেশন-অনুপাত এবং সিটি-এমপিজি-এর মধ্যে সম্পর্কের ঢাল একই দেখাবে। যা আপনাকে আরও সাহায্য করবে তা হল দুটি পৃথক ঢাল দেখা - একটি নিম্ন কম্প্রেশন-অনুপাতের পয়েন্টের ক্লাস্টারের জন্য এবং অন্যটি উচ্চতর জন্য।
না। দুটি ভিন্ন আচরণ ঘটছে বলে মনে হচ্ছে। মাঝখানে একটি থ্রেশহোল্ড সেট করা এবং একটি বাকেটাইজড বৈশিষ্ট্য ব্যবহার করা আপনাকে এই দুটি ক্ষেত্রে কী ঘটছে তা আরও ভালভাবে বুঝতে সহায়তা করতে পারে।
সঠিক। কেন এবং কীভাবে আপনি সীমানা নির্ধারণ করছেন সে সম্পর্কে পরিষ্কার হওয়া গুরুত্বপূর্ণ। ডেটা মডেলিং অনুশীলনে , আপনি ঠিক কীভাবে এই পদ্ধতিটি আপনাকে আরও ভাল মডেল তৈরি করতে সাহায্য করতে পারে সে সম্পর্কে আরও শিখবেন।
একটি পিয়ার টিম তাদের এমএল প্রকল্পে তারা যে অগ্রগতি করেছে সে সম্পর্কে আপনাকে বলছে। তারা একটি শব্দভান্ডার গণনা করেছে এবং অফলাইনে একটি মডেলকে প্রশিক্ষণ দিয়েছে। তবে তারা অচলতার সমস্যাগুলি এড়াতে চায়, তাই তারা এখন অনলাইনে একটি ভিন্ন মডেলকে প্রশিক্ষণ দিতে চলেছে৷ এরপর কি হতে পারে?
নতুন ডেটা আসার সাথে সাথে মডেলটি আপ টু ডেট থাকবে। অন্য দলকে ক্রমাগত ইনপুট ডেটা পর্যবেক্ষণ করতে হবে।
যদিও মডেলের অচলতা এড়ানো গতিশীল প্রশিক্ষণের প্রধান সুবিধা, অফলাইনে প্রশিক্ষিত মডেলের সাথে একটি শব্দভান্ডার ব্যবহার করলে সমস্যা দেখা দেবে।
তারা দেখতে পারে যে তারা যে সূচকগুলি ব্যবহার করছে তা ভোকাবের সাথে সঙ্গতিপূর্ণ নয়।
সঠিক। আপনার সহকর্মীদের প্রশিক্ষণ/পরিষেবা স্কুয়ের বিপদ সম্পর্কে সতর্ক করুন, এবং তারপরে তারা আরও জানার জন্য ML-এর জন্য ডেটা প্রস্তুতি এবং বৈশিষ্ট্য প্রকৌশল বিষয়ে Google-এর কোর্স গ্রহণ করার সুপারিশ করুন৷