আপনার ডেটা রূপান্তর: আপনার বোঝার পরীক্ষা করুন

নিম্নলিখিত প্রশ্নের জন্য, আপনার উত্তর চেক করতে পছন্দসই তীরটিতে ক্লিক করুন:

আপনি একটি রিগ্রেশন মডেলের জন্য ডেটা প্রিপ্রসেস করছেন। কি রূপান্তর বাধ্যতামূলক? সকল আবেদন যাচাই কর.
সমস্ত অ-সংখ্যাসূচক বৈশিষ্ট্যকে সংখ্যাসূচক বৈশিষ্ট্যগুলিতে রূপান্তর করা হচ্ছে।
সঠিক। এটি একটি বাধ্যতামূলক রূপান্তর। আপনাকে অবশ্যই স্ট্রিংগুলিকে কিছু সাংখ্যিক উপস্থাপনায় রূপান্তর করতে হবে কারণ আপনি একটি স্ট্রিং-এ ম্যাট্রিক্স গুণন করতে পারবেন না।
সাংখ্যিক তথ্য স্বাভাবিক করুন।
সাংখ্যিক ডেটা স্বাভাবিককরণ সাহায্য করতে পারে, কিন্তু এটি একটি ঐচ্ছিক মানের রূপান্তর।

নিচের চার্টটি বিবেচনা করুন। কোন ডেটা ট্রান্সফরমেশন কৌশলটি সম্ভবত সবচেয়ে বেশি ফলপ্রসূ হবে এবং কেন? অনুমান করুন আপনার লক্ষ্য হল ঘরের ব্যক্তি এবং বাড়ির দামের মধ্যে একটি রৈখিক সম্পর্ক খুঁজে বের করা।
জেড-স্কোর
আউটলায়ার চরম না হলে Z-স্কোর একটি ভাল পছন্দ। তবে, বহিরাগতরা এখানে চরম।
ক্লিপিং
ক্লিপিং এখানে একটি ভাল পছন্দ কারণ ডেটা সেটে চরম আউটলায়ার রয়েছে। অন্যান্য স্বাভাবিককরণ প্রয়োগ করার আগে আপনার চরম আউটলিয়ার ঠিক করা উচিত।
লগ স্কেলিং
লগ স্কেলিং একটি ভাল পছন্দ যদি আপনার ডেটা পাওয়ার আইন বন্টন নিশ্চিত করে। যাইহোক, এই ডেটা পাওয়ার আইন বন্টনের পরিবর্তে একটি স্বাভাবিক বন্টনের সাথে সামঞ্জস্যপূর্ণ।
কোয়ান্টাইল সীমানা সহ বাকেটিং (বিনিং)
তির্যক ডেটার জন্য কোয়ান্টাইল বাকেটিং একটি ভাল পদ্ধতি হতে পারে, তবে এই ক্ষেত্রে, এই তির্যকটি কিছু চরম আউটলারের কারণে হয়। এছাড়াও, আপনি মডেল একটি রৈখিক সম্পর্ক শিখতে চান. অতএব, আপনার রুম পারপারসনকে ক্যাটাগরিতে রূপান্তরিত করার পরিবর্তে সংখ্যাসূচক রাখা উচিত, যা বকেটিং করে। পরিবর্তে, একটি স্বাভাবিককরণ কৌশল চেষ্টা করুন।

একটি চার্ট যেটি বিভিন্ন RoomsPerPerson-এর আপেক্ষিক ফ্রিকোয়েন্সি দেখায়, যেখানে RoomsPerPerson হল একটি বাসভবনের কক্ষের সংখ্যা যা সেই আবাসনের লোকজনের সংখ্যা দ্বারা ভাগ করা হয়। বেশিরভাগ ডেটা 5 থেকে 55 পর্যন্ত বিন্দু বিক্ষিপ্ত করে 0 থেকে 5 এর মধ্যে বিতরণ করা হয়।

নিচের চার্টটি বিবেচনা করুন। কোন ডেটা ট্রান্সফরমেশন কৌশলটি সম্ভবত সবচেয়ে বেশি ফলপ্রসূ হবে এবং কেন?
জেড-স্কোর
Z-স্কোর একটি ভাল পছন্দ যদি আউটলায়ারগুলি এতটা চরম না হয় যে আপনার ক্লিপিং প্রয়োজন। এখানে ব্যাপারটা তেমন নয়। ডেটা যেভাবে তির্যক করা হয় তা একটি ইঙ্গিত হওয়া উচিত।
ক্লিপিং
ক্লিপিং একটি ভাল পছন্দ যখন চরম outliers আছে. এই চার্টটি, তবে, একটি পাওয়ার আইন বন্টন দেখাচ্ছে, এবং এটি মোকাবেলার জন্য আরও একটি স্বাভাবিককরণ কৌশল রয়েছে।
লগ স্কেলিং
লগ স্কেলিং এখানে একটি ভাল পছন্দ কারণ ডেটা পাওয়ার আইন বন্টনের সাথে সামঞ্জস্যপূর্ণ।
কোয়ান্টাইল সীমানা সহ বাকেটিং (বিনিং)
তির্যক ডেটার জন্য কোয়ান্টাইল বাকেটিং একটি ভাল পদ্ধতি হতে পারে। যাইহোক, আপনি একটি রৈখিক সম্পর্ক শিখতে মডেল খুঁজছেন. অতএব, আপনার ডেটা সংখ্যাসূচক রাখা উচিত এবং এটিকে বালতিতে রাখা এড়ানো উচিত। পরিবর্তে একটি স্বাভাবিককরণ কৌশল চেষ্টা করুন.

একটি বার গ্রাফ যার বারগুলি নিম্ন প্রান্তে খুব বেশি ঘনীভূত। প্রথম বারটির মাত্রা 1,200, দ্বিতীয় বারটির মাত্রা 460, তৃতীয় বারটির মাত্রা 300৷ 15 তম বারের মধ্যে, মাত্রাটি প্রায় 30-এ নেমে এসেছে৷ একটি খুব দীর্ঘ লেজটি আরও 90 বার পর্যন্ত চলতে থাকে লম্বা লেজের মাত্রা কখনই 10 এর উপরে উঠছে না।

নিচের চার্টটি বিবেচনা করুন। একটি রৈখিক মডেল কি কম্প্রেশন-অনুপাত এবং সিটি-এমপিজি-এর মধ্যে সম্পর্ক সম্পর্কে একটি ভাল ভবিষ্যদ্বাণী করবে? যদি তা না হয়, তাহলে মডেলটিকে আরও ভালোভাবে প্রশিক্ষণ দেওয়ার জন্য আপনি কীভাবে ডেটা রূপান্তর করতে পারেন?
হ্যাঁ, মডেলটি সম্ভবত একটি রৈখিক সম্পর্ক খুঁজে পাবে এবং বেশ সঠিক ভবিষ্যদ্বাণী করবে।
যদিও মডেলটি একটি রৈখিক সম্পর্ক খুঁজে পাবে, মডেলটি খুব সঠিক ভবিষ্যদ্বাণী করবে না। কেন ভালোভাবে বোঝার জন্য আপনি ডেটা মডেলিং অনুশীলনে এই ডেটা সেটটি প্রশিক্ষণের চেষ্টা করতে পারেন।
না। স্কেলিং করার পরে মডেলটি সম্ভবত আরও নির্ভুল হবে।
আপনি রৈখিক স্কেলিং প্রয়োগ করতে পারেন, কিন্তু কম্প্রেশন-অনুপাত এবং সিটি-এমপিজি-এর মধ্যে সম্পর্কের ঢাল একই দেখাবে। যা আপনাকে আরও সাহায্য করবে তা হল দুটি পৃথক ঢাল দেখা - একটি নিম্ন কম্প্রেশন-অনুপাতের পয়েন্টের ক্লাস্টারের জন্য এবং অন্যটি উচ্চতর জন্য।
না। দুটি ভিন্ন আচরণ ঘটছে বলে মনে হচ্ছে। মাঝখানে একটি থ্রেশহোল্ড সেট করা এবং একটি বাকেটাইজড বৈশিষ্ট্য ব্যবহার করা আপনাকে এই দুটি ক্ষেত্রে কী ঘটছে তা আরও ভালভাবে বুঝতে সহায়তা করতে পারে।
সঠিক। কেন এবং কীভাবে আপনি সীমানা নির্ধারণ করছেন সে সম্পর্কে পরিষ্কার হওয়া গুরুত্বপূর্ণ। ডেটা মডেলিং অনুশীলনে , আপনি ঠিক কীভাবে এই পদ্ধতিটি আপনাকে আরও ভাল মডেল তৈরি করতে সাহায্য করতে পারে সে সম্পর্কে আরও শিখবেন।

কম্প্রেশন-অনুপাতের বিপরীতে হাইওয়ে-এমপিজি দেখানো একটি স্ক্যাটারপ্লট। ডেটার দুটি স্বতন্ত্র ক্লাম্প, একটি ক্লম্প অন্যটির চেয়ে অনেক বড়, কম্প্রেশন-অনুপাত অক্ষের বিপরীত প্রান্তে উপস্থিত হয়। বড় ক্লাম্প কম্প্রেশন-অনুপাত পরিসীমা 7-12 কভার করে; ছোট ক্লাম্প 21-23 কম্প্রেশন-অনুপাত পরিসীমা কভার করে। হাইওয়ে-এমপিজি সাধারণত ছোট ক্লাম্পের তুলনায় বড় ক্লাম্পে একটু কম থাকে।

একটি পিয়ার টিম তাদের এমএল প্রকল্পে তারা যে অগ্রগতি করেছে সে সম্পর্কে আপনাকে বলছে। তারা একটি শব্দভান্ডার গণনা করেছে এবং অফলাইনে একটি মডেলকে প্রশিক্ষণ দিয়েছে। তবে তারা অচলতার সমস্যাগুলি এড়াতে চায়, তাই তারা এখন অনলাইনে একটি ভিন্ন মডেলকে প্রশিক্ষণ দিতে চলেছে৷ এরপর কি হতে পারে?
নতুন ডেটা আসার সাথে সাথে মডেলটি আপ টু ডেট থাকবে। অন্য দলকে ক্রমাগত ইনপুট ডেটা পর্যবেক্ষণ করতে হবে।
যদিও মডেলের অচলতা এড়ানো গতিশীল প্রশিক্ষণের প্রধান সুবিধা, অফলাইনে প্রশিক্ষিত মডেলের সাথে একটি শব্দভান্ডার ব্যবহার করলে সমস্যা দেখা দেবে।
তারা দেখতে পারে যে তারা যে সূচকগুলি ব্যবহার করছে তা ভোকাবের সাথে সঙ্গতিপূর্ণ নয়।
সঠিক। আপনার সহকর্মীদের প্রশিক্ষণ/পরিষেবা স্কুয়ের বিপদ সম্পর্কে সতর্ক করুন, এবং তারপরে তারা আরও জানার জন্য ML-এর জন্য ডেটা প্রস্তুতি এবং বৈশিষ্ট্য প্রকৌশল বিষয়ে Google-এর কোর্স গ্রহণ করার সুপারিশ করুন৷