শ্রেণীবিভাগ: যথার্থতা এবং স্মরণ

যথার্থতা

নির্ভুলতা নিম্নলিখিত প্রশ্নের উত্তর দেওয়ার চেষ্টা করে:

ইতিবাচক সনাক্তকরণের কোন অনুপাত আসলে সঠিক ছিল?

নির্ভুলতা নিম্নরূপ সংজ্ঞায়িত করা হয়:

$$\text{Precision} = \frac{TP}{TP+FP}$$

টিউমার বিশ্লেষণ করে পূর্ববর্তী বিভাগ থেকে আমাদের ML মডেলের নির্ভুলতা গণনা করা যাক:

ট্রু পজিটিভ (টিপি): 1 মিথ্যা ইতিবাচক (FPs): 1
মিথ্যা নেতিবাচক (FNs): 8 সত্য নেতিবাচক (TNs): 90
$$\text{Precision} = \frac{TP}{TP+FP} = \frac{1}{1+1} = 0.5$$

আমাদের মডেলের নির্ভুলতা 0.5—অন্য কথায়, যখন এটি ভবিষ্যদ্বাণী করে যে একটি টিউমার ম্যালিগন্যান্ট, এটি 50% সময়ে সঠিক।

স্মরণ করুন

নিম্নলিখিত প্রশ্নের উত্তর দেওয়ার চেষ্টাগুলি স্মরণ করুন:

প্রকৃত ইতিবাচকের কোন অনুপাত সঠিকভাবে চিহ্নিত করা হয়েছে?

গাণিতিকভাবে, প্রত্যাহার নিম্নরূপ সংজ্ঞায়িত করা হয়:

$$\text{Recall} = \frac{TP}{TP+FN}$$

আমাদের টিউমার ক্লাসিফায়ারের জন্য প্রত্যাহার গণনা করা যাক:

ট্রু পজিটিভ (টিপি): 1 মিথ্যা ইতিবাচক (FPs): 1
মিথ্যা নেতিবাচক (FNs): 8 সত্য নেতিবাচক (TNs): 90
$$\text{Recall} = \frac{TP}{TP+FN} = \frac{1}{1+8} = 0.11$$

আমাদের মডেলটিতে 0.11 এর প্রত্যাহার রয়েছে—অন্য কথায়, এটি সমস্ত ম্যালিগন্যান্ট টিউমারের 11% সঠিকভাবে সনাক্ত করে।

যথার্থতা এবং প্রত্যাহার: যুদ্ধের একটি টাগ

একটি মডেলের কার্যকারিতা সম্পূর্ণরূপে মূল্যায়ন করতে, আপনাকে অবশ্যই নির্ভুলতা এবং প্রত্যাহার উভয়ই পরীক্ষা করতে হবে। দুর্ভাগ্যবশত, নির্ভুলতা এবং প্রত্যাহার প্রায়ই উত্তেজনার মধ্যে থাকে। অর্থাৎ, নির্ভুলতা উন্নত করা সাধারণত প্রত্যাহার হ্রাস করে এবং এর বিপরীতে। নিম্নলিখিত চিত্রটি দেখে এই ধারণাটি অন্বেষণ করুন, যা একটি ইমেল শ্রেণীবিভাগ মডেল দ্বারা করা 30টি ভবিষ্যদ্বাণী দেখায়। শ্রেণীবিন্যাস থ্রেশহোল্ডের ডানদিকে "স্প্যাম" হিসাবে শ্রেণীবদ্ধ করা হয়, যখন বামদিকে "স্প্যাম নয়" হিসাবে শ্রেণীবদ্ধ করা হয়।

0 থেকে 1.0 পর্যন্ত একটি সংখ্যা রেখা যার উপর 30টি উদাহরণ স্থাপন করা হয়েছে।

চিত্র 1. ইমেল বার্তা স্প্যাম বা স্প্যাম হিসাবে শ্রেণীবদ্ধ করা।

চলুন চিত্র 1-এ দেখানো ফলাফলের উপর ভিত্তি করে নির্ভুলতা গণনা করি এবং স্মরণ করি:

ট্রু পজিটিভ (টিপি): 8 মিথ্যা ইতিবাচক (FP): 2
মিথ্যা নেতিবাচক (FN): 3 সত্য নেতিবাচক (TN): 17

নির্ভুলতা পরিমাপ করে স্প্যাম হিসাবে পতাকাঙ্কিত ইমেলগুলির শতাংশ যা সঠিকভাবে শ্রেণীবদ্ধ করা হয়েছিল—অর্থাৎ, থ্রেশহোল্ড লাইনের ডানদিকে বিন্দুগুলির শতাংশ যা চিত্র 1-এ সবুজ রয়েছে:

$$\text{Precision} = \frac{TP}{TP + FP} = \frac{8}{8+2} = 0.8$$

রিকল প্রকৃত স্প্যাম ইমেলগুলির শতাংশ পরিমাপ করে যেগুলি সঠিকভাবে শ্রেণীবদ্ধ করা হয়েছিল—অর্থাৎ, চিত্র 1-এ থ্রেশহোল্ড লাইনের ডানদিকে থাকা সবুজ বিন্দুগুলির শতাংশ:

$$\text{Recall} = \frac{TP}{TP + FN} = \frac{8}{8 + 3} = 0.73$$

চিত্র 2 শ্রেণিবিন্যাসের থ্রেশহোল্ড বাড়ানোর প্রভাবকে চিত্রিত করে।

উদাহরণের একই সেট, কিন্তু শ্রেণীবিন্যাস থ্রেশহোল্ড সামান্য বৃদ্ধি সঙ্গে. 30টি উদাহরণের মধ্যে 2টি পুনরায় শ্রেণীবদ্ধ করা হয়েছে।

চিত্র 2. শ্রেণিবিন্যাস প্রান্তিক বৃদ্ধি।

মিথ্যা ইতিবাচক সংখ্যা হ্রাস পায়, কিন্তু মিথ্যা নেতিবাচক সংখ্যা বৃদ্ধি পায়। ফলস্বরূপ, নির্ভুলতা বৃদ্ধি পায়, যখন স্মরণ হ্রাস পায়:

ট্রু পজিটিভ (TP): 7 ফলস পজিটিভ (FP): 1
মিথ্যা নেতিবাচক (FN): 4 সত্য নেতিবাচক (TN): 18
$$\text{Precision} = \frac{TP}{TP + FP} = \frac{7}{7+1} = 0.88$$$$\text{Recall} = \frac{TP}{TP + FN} = \frac{7}{7 + 4} = 0.64$$

বিপরীতভাবে, চিত্র 3 শ্রেণিবিন্যাসের থ্রেশহোল্ড হ্রাস করার প্রভাবকে চিত্রিত করে (চিত্র 1 এর আসল অবস্থান থেকে)।

উদাহরণ একই সেট, কিন্তু শ্রেণীবিভাগ থ্রেশহোল্ড হ্রাস সঙ্গে.

চিত্র 3. শ্রেণিবিন্যাস থ্রেশহোল্ড হ্রাস।

মিথ্যা ইতিবাচক বৃদ্ধি, এবং মিথ্যা নেতিবাচক হ্রাস. ফলস্বরূপ, এই সময়, নির্ভুলতা হ্রাস পায় এবং স্মরণ বৃদ্ধি পায়:

ট্রু পজিটিভ (টিপি): 9 মিথ্যা ইতিবাচক (FP): 3
মিথ্যা নেতিবাচক (FN): 2 সত্য নেতিবাচক (TN): 16
$$\text{Precision} = \frac{TP}{TP + FP} = \frac{9}{9+3} = 0.75$$$$\text{Recall} = \frac{TP}{TP + FN} = \frac{9}{9 + 2} = 0.82$$

বিভিন্ন মেট্রিক্স তৈরি করা হয়েছে যা নির্ভুলতা এবং স্মরণ উভয়ের উপর নির্ভর করে। উদাহরণস্বরূপ, F1 স্কোর দেখুন।