সেভ করা পৃষ্ঠা গুছিয়ে রাখতে 'সংগ্রহ' ব্যবহার করুন
আপনার পছন্দ অনুযায়ী কন্টেন্ট সেভ করুন ও সঠিক বিভাগে রাখুন।
আপেল গাছ দারুণ ফল এবং কৃমি মেসের মিশ্রণ তৈরি করে। তবুও হাই-এন্ড মুদি দোকানে আপেল 100% নিখুঁত ফল প্রদর্শন করে। বাগান এবং মুদিখানার মধ্যে, কেউ খারাপ আপেল অপসারণ করতে বা উদ্ধারযোগ্য আপেলগুলিতে সামান্য মোম স্প্রে করতে উল্লেখযোগ্য সময় ব্যয় করে। একজন এমএল প্রকৌশলী হিসাবে, আপনি খারাপ উদাহরণগুলি ফেলে দিতে এবং উদ্ধারযোগ্যগুলি পরিষ্কার করতে আপনার প্রচুর সময় ব্যয় করবেন। এমনকি কয়েকটি খারাপ আপেল একটি বড় ডেটাসেট নষ্ট করতে পারে।
নিম্নলিখিত এক বা একাধিক সমস্যার কারণে ডেটাসেটের অনেক উদাহরণ অবিশ্বস্ত:
সমস্যা বিভাগ
উদাহরণ
বাদ দেওয়া মান
একজন জনগণনা গ্রহণকারী একজন বাসিন্দার বয়স রেকর্ড করতে ব্যর্থ হন।
নকল উদাহরণ
একটি সার্ভার একই লগ দুইবার আপলোড করে।
সীমার বাইরের বৈশিষ্ট্যের মান।
একজন মানুষ ঘটনাক্রমে একটি অতিরিক্ত অঙ্ক টাইপ করে।
খারাপ লেবেল
একজন মানব মূল্যায়নকারী একটি ওক গাছের ছবিকে ম্যাপেল হিসেবে ভুল লেবেল করে।
নিচের যেকোনো সমস্যা সনাক্ত করতে আপনি একটি প্রোগ্রাম বা স্ক্রিপ্ট লিখতে পারেন:
বাদ দেওয়া মান
নকল উদাহরণ
সীমার বাইরের বৈশিষ্ট্যের মান
উদাহরণস্বরূপ, নিম্নলিখিত ডেটাসেটে ছয়টি পুনরাবৃত্তি মান রয়েছে:
চিত্র 15. প্রথম ছয়টি মান পুনরাবৃত্তি হয়।
অন্য একটি উদাহরণ হিসাবে, ধরুন একটি নির্দিষ্ট বৈশিষ্ট্যের জন্য তাপমাত্রা পরিসীমা 10 থেকে 30 ডিগ্রির মধ্যে হতে হবে, অন্তর্ভুক্ত। কিন্তু দুর্ঘটনা ঘটে—সম্ভবত একটি থার্মোমিটার সাময়িকভাবে সূর্যের সংস্পর্শে আসে যা একটি খারাপ আউটলারের কারণ হয়। আপনার প্রোগ্রাম বা স্ক্রিপ্টকে অবশ্যই 10 এর কম বা 30 এর বেশি তাপমাত্রার মান সনাক্ত করতে হবে:
চিত্র 16. একটি সীমার বাইরের মান।
যখন একাধিক ব্যক্তি দ্বারা লেবেল তৈরি করা হয়, তখন আমরা পরিসংখ্যানগতভাবে নির্ধারণ করার সুপারিশ করি যে প্রতিটি রেটার লেবেলের সমতুল্য সেট তৈরি করেছে কিনা। সম্ভবত একটি রেটার অন্য রেটারদের চেয়ে কঠোর গ্রেডার ছিল বা গ্রেডিংয়ের মানদণ্ডের একটি ভিন্ন সেট ব্যবহার করেছিল?
একবার শনাক্ত হয়ে গেলে, আপনি সাধারণত খারাপ বৈশিষ্ট্য বা খারাপ লেবেলগুলিকে ডেটাসেট থেকে সরিয়ে দিয়ে বা তাদের মানগুলিকে অভিযুক্ত করে "ঠিক" করেন৷ বিশদ বিবরণের জন্য, ডেটাসেট, সাধারণীকরণ এবং ওভারফিটিং মডিউলের ডেটা বৈশিষ্ট্য বিভাগটি দেখুন।
[[["সহজে বোঝা যায়","easyToUnderstand","thumb-up"],["আমার সমস্যার সমাধান হয়েছে","solvedMyProblem","thumb-up"],["অন্যান্য","otherUp","thumb-up"]],[["এতে আমার প্রয়োজনীয় তথ্য নেই","missingTheInformationINeed","thumb-down"],["খুব জটিল / অনেক ধাপ","tooComplicatedTooManySteps","thumb-down"],["পুরনো","outOfDate","thumb-down"],["অনুবাদ সংক্রান্ত সমস্যা","translationIssue","thumb-down"],["নমুনা / কোড সংক্রান্ত সমস্যা","samplesCodeIssue","thumb-down"],["অন্যান্য","otherDown","thumb-down"]],["2024-11-07 UTC-তে শেষবার আপডেট করা হয়েছে।"],[[["Like sorting good apples from bad, ML engineers spend significant time cleaning data by removing or fixing bad examples to improve dataset quality."],["Common data problems include omitted values, duplicate examples, out-of-range values, and incorrect labels, which can negatively impact model performance."],["You can use programs or scripts to identify and handle data issues such as omitted values, duplicates, and out-of-range feature values by removing or correcting them."],["When multiple individuals label data, it's important to check for consistency and identify potential biases to ensure label quality."],["Addressing data quality issues before training a model leads to better model accuracy and overall performance."]]],[]]