একটি ডেটা সেটের আকার এবং গুণমান

"আবর্জনা আবর্জনা"

পূর্ববর্তী প্রবাদটি মেশিন লার্নিং এর ক্ষেত্রে প্রযোজ্য। সব পরে, আপনার মডেল শুধুমাত্র আপনার ডেটা হিসাবে ভাল. কিন্তু আপনি কীভাবে আপনার ডেটা সেটের গুণমান পরিমাপ করবেন এবং এটিকে উন্নত করবেন? এবং দরকারী ফলাফল পেতে আপনার কত ডেটা দরকার? উত্তরগুলি আপনি যে ধরণের সমস্যার সমাধান করছেন তার উপর নির্ভর করে।

একটি ডেটা সেটের আকার

থাম্বের একটি রুক্ষ নিয়ম হিসাবে, আপনার মডেলকে প্রশিক্ষণযোগ্য প্যারামিটারের চেয়ে কমপক্ষে একটি ক্রম মাত্রার আরও উদাহরণে প্রশিক্ষণ দেওয়া উচিত। বড় ডেটা সেটের সাধারণ মডেলগুলি সাধারণত ছোট ডেটা সেটগুলিতে অভিনব মডেলগুলিকে হারায়। বৃহৎ ডেটা সেটে সরল রৈখিক রিগ্রেশন মডেলের প্রশিক্ষণে Google দারুণ সাফল্য পেয়েছে।

ডেটার "অনেক" হিসাবে কী গণনা করা হয়? এটা প্রকল্পের উপর নির্ভর করে। এই ডেটা সেটগুলির আপেক্ষিক আকার বিবেচনা করুন:

ডেটা সেট আকার (উদাহরণ সংখ্যা)
আইরিস ফুলের ডেটা সেট 150 (মোট সেট)
মুভিলেন্স (20M ডেটা সেট) 20,000,263 (মোট সেট)
গুগল জিমেইল স্মার্ট রিপ্লাই 238,000,000 (প্রশিক্ষণ সেট)
গুগল বুকস এনগ্রাম 468,000,000,000 (মোট সেট)
গুগল অনুবাদ ট্রিলিয়ন

আপনি দেখতে পাচ্ছেন, ডেটা সেটগুলি বিভিন্ন আকারে আসে।

একটি ডেটা সেটের গুণমান

ডাটা খারাপ হলে অনেক ডাটা নিয়ে লাভ নেই; গুণমানও গুরুত্বপূর্ণ। কিন্তু কি "গুণ" হিসাবে গণ্য? এটি একটি অস্পষ্ট শব্দ. একটি অভিজ্ঞতামূলক পদ্ধতি গ্রহণ এবং সেরা ফলাফল উত্পাদন করে এমন বিকল্প বাছাই করার কথা বিবেচনা করুন। সেই মানসিকতার সাথে, একটি মানসম্পন্ন ডেটা সেট যা আপনাকে আপনার যত্নশীল ব্যবসায়িক সমস্যার সমাধান করতে দেয়। অন্য কথায়, ডেটা ভাল যদি এটি তার উদ্দেশ্যমূলক কাজটি সম্পন্ন করে।

যাইহোক, ডেটা সংগ্রহ করার সময়, গুণমানের আরও সুনির্দিষ্ট সংজ্ঞা থাকা সহায়ক। মানের কিছু দিক ভাল-পারফর্মিং মডেলের সাথে সঙ্গতিপূর্ণ:

  • নির্ভরযোগ্যতা
  • বৈশিষ্ট্য উপস্থাপনা
  • তির্যক ছোট করা

নির্ভরযোগ্যতা

নির্ভরযোগ্যতা সেই ডিগ্রিকে বোঝায় যেখানে আপনি আপনার ডেটা বিশ্বাস করতে পারেন। একটি নির্ভরযোগ্য ডেটা সেটে প্রশিক্ষিত একটি মডেল অনির্ভরযোগ্য ডেটাতে প্রশিক্ষিত একটি মডেলের তুলনায় দরকারী ভবিষ্যদ্বাণী প্রদানের সম্ভাবনা বেশি। নির্ভরযোগ্যতা পরিমাপের ক্ষেত্রে, আপনাকে অবশ্যই নির্ধারণ করতে হবে:

  • লেবেল ত্রুটি কতটা সাধারণ? উদাহরণস্বরূপ, যদি আপনার ডেটা মানুষের দ্বারা লেবেল করা হয়, কখনও কখনও মানুষ ভুল করে।
  • আপনার বৈশিষ্ট্য গোলমাল? উদাহরণস্বরূপ, জিপিএস পরিমাপ ওঠানামা করে। কিছু গোলমাল ঠিক আছে. আপনি কখনই আপনার ডেটা সেট সমস্ত গোলমাল থেকে পরিষ্কার করবেন না। আপনি আরও উদাহরণ সংগ্রহ করতে পারেন।
  • আপনার সমস্যার জন্য ডেটা কি সঠিকভাবে ফিল্টার করা হয়েছে? উদাহরণস্বরূপ, আপনার ডেটা সেটে কি বট থেকে অনুসন্ধানের প্রশ্নগুলি অন্তর্ভুক্ত করা উচিত? আপনি যদি একটি স্প্যাম-শনাক্তকরণ সিস্টেম তৈরি করেন, তাহলে সম্ভবত উত্তরটি হ্যাঁ, কিন্তু আপনি যদি মানুষের জন্য অনুসন্ধান ফলাফল উন্নত করার চেষ্টা করছেন, তাহলে না।

কি তথ্য অবিশ্বস্ত করে তোলে? মেশিন লার্নিং ক্র্যাশ কোর্স থেকে স্মরণ করুন যে ডেটা সেটের অনেক উদাহরণ নিম্নলিখিত এক বা একাধিক কারণে অবিশ্বস্ত:

  • বাদ দেওয়া মান। উদাহরণস্বরূপ, একজন ব্যক্তি বাড়ির বয়সের জন্য একটি মান লিখতে ভুলে গেছেন।
  • নকল উদাহরণ. উদাহরণস্বরূপ, একটি সার্ভার ভুলবশত একই লগ দুইবার আপলোড করেছে।
  • খারাপ লেবেল। উদাহরণস্বরূপ, একজন ব্যক্তি একটি ওক গাছের ছবিকে ম্যাপেল হিসাবে ভুল লেবেল করেছেন।
  • খারাপ বৈশিষ্ট্য মান. উদাহরণস্বরূপ, কেউ একটি অতিরিক্ত অঙ্ক টাইপ করেছে, বা একটি থার্মোমিটার রোদে ফেলে রাখা হয়েছে।

Google অনুবাদ তার ডেটার "সেরা উপসেট" বাছাই করার জন্য নির্ভরযোগ্যতার উপর দৃষ্টি নিবদ্ধ করে; অর্থাৎ, কিছু ডেটার অন্যান্য অংশের তুলনায় উচ্চ মানের লেবেল ছিল।

বৈশিষ্ট্য প্রতিনিধিত্ব

মেশিন লার্নিং ক্র্যাশ কোর্স থেকে স্মরণ করুন যে প্রতিনিধিত্ব হল উপযোগী বৈশিষ্ট্যগুলিতে ডেটার ম্যাপিং। আপনি নিম্নলিখিত প্রশ্নগুলি বিবেচনা করতে চাইবেন:

  • মডেলে ডেটা কীভাবে দেখানো হয়?
  • আপনি সংখ্যাসূচক মান স্বাভাবিক করা উচিত?
  • আপনি কিভাবে বহিরাগত হ্যান্ডেল করা উচিত?

এই কোর্সের ট্রান্সফর্ম ইওর ডেটা বিভাগটি বৈশিষ্ট্য উপস্থাপনের উপর ফোকাস করবে।

প্রশিক্ষণ বনাম ভবিষ্যদ্বাণী

ধরা যাক আপনি অফলাইনে দুর্দান্ত ফলাফল পান। তারপরে আপনার লাইভ পরীক্ষায়, সেই ফলাফলগুলি ধরে রাখা যায় না। কি ঘটতে পারে?

এই সমস্যাটি প্রশিক্ষণ/সার্ভিং স্ক্যু-এর পরামর্শ দেয়—অর্থাৎ, প্রশিক্ষণের সময় বনাম পরিবেশনের সময় আপনার মেট্রিক্সের জন্য বিভিন্ন ফলাফল গণনা করা হয়। তিরস্কারের কারণগুলি সূক্ষ্ম হতে পারে কিন্তু আপনার ফলাফলের উপর মারাত্মক প্রভাব ফেলতে পারে। ভবিষ্যদ্বাণীর সময় আপনার মডেলের কাছে কী ডেটা পাওয়া যায় তা সর্বদা বিবেচনা করুন। প্রশিক্ষণের সময়, শুধুমাত্র সেই বৈশিষ্ট্যগুলি ব্যবহার করুন যা আপনার পরিবেশন করার জন্য উপলব্ধ থাকবে এবং নিশ্চিত করুন যে আপনার প্রশিক্ষণ সেটটি আপনার পরিবেশনকারী ট্রাফিকের প্রতিনিধি।