ন্যায্যতা: আপনার বোঝার পরীক্ষা করুন

পক্ষপাতের প্রকারভেদ

নীচের বিকল্পগুলি অন্বেষণ করুন.

নিচের কোন মডেলের ভবিষ্যদ্বাণী নির্বাচনের পক্ষপাত দ্বারা প্রভাবিত হয়েছে?
একটি জার্মান হস্তাক্ষর স্বীকৃতি স্মার্টফোন অ্যাপ এমন একটি মডেল ব্যবহার করে যা প্রায়শই ভুলভাবে ß (Eszett) অক্ষরকে B অক্ষর হিসাবে শ্রেণীবদ্ধ করে, কারণ এটি আমেরিকান হস্তাক্ষর নমুনার একটি কর্পাসের উপর প্রশিক্ষিত ছিল, বেশিরভাগই ইংরেজিতে লেখা।
এই মডেলটি কভারেজ বায়াস নামে এক ধরণের নির্বাচন পক্ষপাত দ্বারা প্রভাবিত হয়েছিল: প্রশিক্ষণের ডেটা (আমেরিকান ইংরেজি হস্তাক্ষর) মডেলের লক্ষ্য দর্শকদের (জার্মান হস্তাক্ষর) দ্বারা প্রদত্ত ডেটার প্রকারের প্রতিনিধি ছিল না।
প্রকৌশলীরা তাদের দৈনন্দিন খাদ্য গ্রহণের উপর ভিত্তি করে একজন ব্যক্তির ডায়াবেটিস হওয়ার সম্ভাবনার পূর্বাভাস দেওয়ার জন্য একটি মডেল তৈরি করেছেন। মডেলটিকে 10,000টি "খাদ্য ডায়েরি" এর উপর প্রশিক্ষণ দেওয়া হয়েছিল যা বিশ্বব্যাপী বিভিন্ন বয়সের গোষ্ঠী, জাতিগত পটভূমি এবং লিঙ্গের প্রতিনিধিত্বকারী একটি এলোমেলোভাবে নির্বাচিত গোষ্ঠীর কাছ থেকে সংগ্রহ করা হয়েছিল। যাইহোক, যখন মডেলটি মোতায়েন করা হয়েছিল, তখন এটির খুব দুর্বল নির্ভুলতা ছিল। প্রকৌশলীরা পরবর্তীকালে আবিষ্কার করেন যে খাদ্যের ডায়েরিতে অংশগ্রহণকারীরা তাদের খাওয়া অস্বাস্থ্যকর খাবারের প্রকৃত পরিমাণ স্বীকার করতে নারাজ, এবং কম স্বাস্থ্যকর খাবারের চেয়ে পুষ্টিকর খাবার গ্রহণের নথিভুক্ত করার সম্ভাবনা বেশি ছিল।
এই মডেলে কোন নির্বাচন পক্ষপাত নেই; প্রশিক্ষণের তথ্য প্রদানকারী অংশগ্রহণকারীরা ব্যবহারকারীদের প্রতিনিধিত্বমূলক নমুনা এবং এলোমেলোভাবে নির্বাচিত হয়েছিল। পরিবর্তে, এই মডেলটি রিপোর্টিং পক্ষপাত দ্বারা প্রভাবিত হয়েছিল। অস্বাস্থ্যকর খাবার গ্রহণের ঘটনাটি সত্যিকারের বাস্তব বিশ্বের ঘটনার তুলনায় অনেক কম ফ্রিকোয়েন্সিতে রিপোর্ট করা হয়েছে।
একটি কোম্পানির প্রকৌশলীরা সমস্ত কর্মচারীদের কাছে পাঠানো একটি সমীক্ষা থেকে সংগৃহীত তথ্যের উপর ভিত্তি করে স্টাফ টার্নওভারের হার (প্রতি বছর তাদের চাকরি ছেড়ে দেওয়ার শতকরা হার) ভবিষ্যদ্বাণী করার জন্য একটি মডেল তৈরি করেছেন। বেশ কয়েক বছর ব্যবহারের পরে, প্রকৌশলীরা নির্ধারণ করেছেন যে মডেলটি 20% এরও বেশি টার্নওভারকে অবমূল্যায়ন করেছে। কোম্পানি ছেড়ে চলে যাওয়া কর্মীদের সাথে প্রস্থান সাক্ষাত্কার পরিচালনা করার সময়, তারা শিখেছে যে 80% এরও বেশি লোক যারা তাদের চাকরিতে অসন্তুষ্ট ছিল তারা জরিপটি সম্পূর্ণ না করা বেছে নিয়েছে, কোম্পানি-ব্যাপী অপ্ট-আউট হার 15% এর তুলনায়।
এই মডেলটি অ-প্রতিক্রিয়া পক্ষপাত নামে এক ধরনের নির্বাচন পক্ষপাত দ্বারা প্রভাবিত হয়েছিল। যারা তাদের চাকরিতে অসন্তুষ্ট ছিল তাদের প্রশিক্ষণ ডেটা সেটে কম উপস্থাপন করা হয়েছে কারণ তারা সমগ্র কর্মচারী জনসংখ্যার তুলনায় অনেক বেশি হারে কোম্পানি-ব্যাপী সমীক্ষা থেকে বেরিয়ে এসেছে।
একটি চলচ্চিত্র-সুপারিশ ব্যবস্থার বিকাশকারী প্রকৌশলীরা অনুমান করেছিলেন যে যারা হরর মুভি পছন্দ করেন তারাও বিজ্ঞান-কল্পকাহিনী চলচ্চিত্র পছন্দ করবেন। যখন তারা 50,000 ব্যবহারকারীর ওয়াচলিস্টে একটি মডেলকে প্রশিক্ষিত করেছিল, তবে, এটি হরর এবং সাই-ফাই-এর জন্য পছন্দগুলির মধ্যে এমন কোনও সম্পর্ক দেখায়নি; পরিবর্তে এটি হরর এবং ডকুমেন্টারিগুলির জন্য পছন্দগুলির মধ্যে একটি শক্তিশালী সম্পর্ক দেখিয়েছে। এটি তাদের কাছে অদ্ভুত বলে মনে হয়েছিল, তাই তারা বিভিন্ন হাইপারপ্যারামিটার ব্যবহার করে আরও পাঁচবার মডেলটিকে পুনরায় প্রশিক্ষণ দিয়েছে। তাদের চূড়ান্ত প্রশিক্ষিত মডেল হরর এবং সাই-ফাই-এর জন্য পছন্দগুলির মধ্যে 70% পারস্পরিক সম্পর্ক দেখিয়েছে, তাই তারা আত্মবিশ্বাসের সাথে এটিকে উৎপাদনে প্রকাশ করেছে।
নির্বাচনের পক্ষপাতিত্বের কোনো প্রমাণ নেই, কিন্তু এই মডেলটি হয়তো পরীক্ষকের পক্ষপাত দ্বারা প্রভাবিত হয়েছে, কারণ প্রকৌশলীরা তাদের মডেলের উপর পুনরাবৃত্তি করতে থাকেন যতক্ষণ না এটি তাদের পূর্ব বিদ্যমান অনুমান নিশ্চিত করে।

বায়াস জন্য মূল্যায়ন

80,000 টেক্সট মেসেজের উপর একটি কটাক্ষ -শনাক্তকরণ মডেলকে প্রশিক্ষিত করা হয়েছিল: 40,000টি বার্তা প্রাপ্তবয়স্কদের (18 বছর বা তার বেশি) এবং 40,000টি অপ্রাপ্তবয়স্কদের পাঠানো (18 বছরের কম বয়সী)। মডেলটি তখন 20,000টি বার্তার একটি পরীক্ষামূলক সেটে মূল্যায়ন করা হয়েছিল: 10,000টি প্রাপ্তবয়স্কদের থেকে এবং 10,000টি অপ্রাপ্তবয়স্কদের থেকে। নিম্নলিখিত বিভ্রান্তি ম্যাট্রিক্স প্রতিটি গ্রুপের জন্য ফলাফল দেখায় (একটি ইতিবাচক ভবিষ্যদ্বাণী "ব্যঙ্গাত্মক" এর শ্রেণীবিভাগকে নির্দেশ করে; একটি নেতিবাচক ভবিষ্যদ্বাণী "ব্যঙ্গাত্মক নয়" এর শ্রেণীবিভাগকে নির্দেশ করে):

প্রাপ্তবয়স্কদের

ট্রু পজিটিভ (টিপি): 512 মিথ্যা ইতিবাচক (FPs): 51
মিথ্যা নেতিবাচক (FNs): 36 সত্য নেতিবাচক (TNs): 9401
$$\text{Precision} = \frac{TP}{TP+FP} = 0.909$$
$$\text{Recall} = \frac{TP}{TP+FN} = 0.934$$

নাবালক

ট্রু পজিটিভ (টিপি): 2147 মিথ্যা ইতিবাচক (FPs): 96
মিথ্যা নেতিবাচক (FNs): 2177 সত্য নেতিবাচক (TNs): 5580
$$\text{Precision} = \frac{TP}{TP+FP} = 0.957$$
$$\text{Recall} = \frac{TP}{TP+FN} = 0.497$$

নীচের বিকল্পগুলি অন্বেষণ করুন.

মডেলের টেস্ট-সেট কর্মক্ষমতা সম্পর্কে নিচের কোন বিবৃতিটি সত্য?
সামগ্রিকভাবে, মডেলটি অপ্রাপ্তবয়স্কদের উদাহরণগুলির চেয়ে প্রাপ্তবয়স্কদের উদাহরণগুলিতে আরও ভাল পারফর্ম করে৷

প্রাপ্তবয়স্কদের কাছ থেকে টেক্সট বার্তাগুলিতে ব্যঙ্গ শনাক্ত করার সময় মডেলটি 90% এর বেশি নির্ভুলতা এবং প্রত্যাহার হার উভয়ই অর্জন করে।

যদিও মডেলটি প্রাপ্তবয়স্কদের তুলনায় অপ্রাপ্তবয়স্কদের জন্য কিছুটা উচ্চ নির্ভুলতার হার অর্জন করে, তবে নাবালকদের জন্য প্রত্যাহার হার উল্লেখযোগ্যভাবে কম, যার ফলে এই গোষ্ঠীর জন্য কম নির্ভরযোগ্য ভবিষ্যদ্বাণী হয়।

মডেলটি অপ্রাপ্তবয়স্কদের ব্যঙ্গাত্মক বার্তাগুলির প্রায় 50%কে "ব্যঙ্গাত্মক" হিসাবে শ্রেণীবদ্ধ করতে ব্যর্থ হয়।
অপ্রাপ্তবয়স্কদের জন্য 0.497 এর প্রত্যাহার হার নির্দেশ করে যে মডেলটি প্রায় 50% অপ্রাপ্তবয়স্কদের ব্যঙ্গাত্মক পাঠ্যের জন্য "ব্যঙ্গাত্মক নয়" ভবিষ্যদ্বাণী করে।
অপ্রাপ্তবয়স্কদের পাঠানো প্রায় 50% বার্তাগুলিকে ভুলভাবে "ব্যঙ্গাত্মক" হিসাবে শ্রেণীবদ্ধ করা হয়।
0.957 এর নির্ভুল হার ইঙ্গিত করে যে "ব্যঙ্গাত্মক" হিসাবে শ্রেণীবদ্ধ অপ্রাপ্তবয়স্কদের 95% বার্তাগুলি আসলে ব্যঙ্গাত্মক।
প্রাপ্তবয়স্কদের দ্বারা প্রেরিত 10,000 বার্তা একটি শ্রেণি-ভারসাম্যহীন ডেটাসেট।
যদি আমরা প্রাপ্তবয়স্কদের থেকে আসা বার্তাগুলির সংখ্যার তুলনা করি যেগুলি আসলে ব্যঙ্গাত্মক (TP+FN = 548) বার্তাগুলির সংখ্যার সাথে যেগুলি আসলে ব্যঙ্গাত্মক নয় (TN + FP = 9452), আমরা দেখতে পাই যে "ব্যঙ্গাত্মক নয়" লেবেলের সংখ্যা "ব্যঙ্গাত্মক" থেকে বেশি। আনুমানিক 17:1 অনুপাত দ্বারা লেবেল।
অপ্রাপ্তবয়স্কদের পাঠানো 10,000 বার্তাগুলি একটি শ্রেণি-ভারসাম্যহীন ডেটাসেট।
যদি আমরা অপ্রাপ্তবয়স্কদের থেকে আসা বার্তার সংখ্যার তুলনা করি যেগুলি আসলে ব্যঙ্গাত্মক (TP+FN = 4324) বার্তাগুলির সংখ্যার সাথে যেগুলি আসলে ব্যঙ্গাত্মক নয় (TN + FP = 5676), আমরা দেখতে পাই যে "এর একটি 1.3:1 অনুপাত রয়েছে "ব্যঙ্গাত্মক" লেবেল থেকে "ব্যঙ্গাত্মক" লেবেল নয়। দুটি শ্রেণীর মধ্যে লেবেলের বন্টন 50/50 এর কাছাকাছি, এটি একটি শ্রেণী-ভারসাম্যহীন ডেটাসেট নয়।

নীচের বিকল্পগুলি অন্বেষণ করুন.

প্রকৌশলীরা বয়স জনসংখ্যা জুড়ে ব্যঙ্গাত্মক-সনাক্তকরণের নির্ভুলতার অসঙ্গতিগুলি মোকাবেলা করার জন্য এই মডেলটিকে পুনরায় প্রশিক্ষণ দেওয়ার জন্য কাজ করছেন, তবে মডেলটি ইতিমধ্যে উত্পাদনে প্রকাশ করা হয়েছে। নিচের কোন স্টপগ্যাপ কৌশলটি মডেলের ভবিষ্যদ্বাণীতে ত্রুটি কমাতে সাহায্য করবে?
প্রাপ্তবয়স্কদের দ্বারা পাঠানো পাঠ্য বার্তাগুলিতে মডেলের ব্যবহার সীমাবদ্ধ করুন৷

মডেলটি প্রাপ্তবয়স্কদের কাছ থেকে আসা টেক্সট বার্তাগুলিতে ভাল পারফর্ম করে (নির্ভুলতা এবং রিকল রেট উভয়ই 90% এর উপরে), তাই এই গ্রুপে এর ব্যবহার সীমাবদ্ধ করা নাবালকদের পাঠ্য বার্তাগুলিকে শ্রেণিবদ্ধ করার পদ্ধতিগত ত্রুটিগুলিকে এড়িয়ে যাবে৷

যখন মডেলটি অপ্রাপ্তবয়স্কদের পাঠানো টেক্সট বার্তাগুলির জন্য "ব্যঙ্গাত্মক নয়" ভবিষ্যদ্বাণী করে, তখন আউটপুট সামঞ্জস্য করুন যাতে মডেলটি পরিবর্তে "অনিশ্চিত" একটি মান প্রদান করে৷

অপ্রাপ্তবয়স্কদের পাঠানো টেক্সট বার্তাগুলির জন্য নির্ভুলতার হার বেশি, যার মানে হল যখন মডেলটি এই গ্রুপের জন্য "ব্যঙ্গাত্মক" ভবিষ্যদ্বাণী করে, এটি প্রায় সবসময়ই সঠিক।

সমস্যা হল অপ্রাপ্তবয়স্কদের জন্য স্মরণ খুব কম; মডেলটি প্রায় 50% উদাহরণে কটাক্ষ সনাক্ত করতে ব্যর্থ হয়। প্রদত্ত যে নাবালকদের জন্য মডেলের নেতিবাচক ভবিষ্যদ্বাণীগুলি এলোমেলো অনুমানের চেয়ে ভাল নয়, আমরা এই ক্ষেত্রে একটি ভবিষ্যদ্বাণী না দিয়ে এই ত্রুটিগুলি এড়াতে পারি৷

অপ্রাপ্তবয়স্কদের পাঠানো পাঠ্য বার্তাগুলিতে মডেলের ব্যবহার সীমাবদ্ধ করুন৷

এই মডেলের পদ্ধতিগত ত্রুটিগুলি অপ্রাপ্তবয়স্কদের পাঠানো পাঠ্য বার্তাগুলির জন্য নির্দিষ্ট৷ ত্রুটির জন্য বেশি সংবেদনশীল গ্রুপে মডেলের ব্যবহার সীমাবদ্ধ করা সাহায্য করবে না।

মডেল আউটপুট সামঞ্জস্য করুন যাতে এটি অপ্রাপ্তবয়স্কদের দ্বারা পাঠানো সমস্ত পাঠ্য বার্তাগুলির জন্য "ব্যঙ্গাত্মক" ফেরত দেয়, মডেলটি মূলত যা পূর্বাভাস দিয়েছে তা নির্বিশেষে৷

অপ্রাপ্তবয়স্কদের পাঠ্য বার্তাগুলির জন্য সর্বদা "ব্যঙ্গাত্মক" ভবিষ্যদ্বাণী করা 0.497 থেকে 1.0 এ প্রত্যাহার হার বাড়িয়ে দেবে, কারণ মডেলটি আর কোনো বার্তাকে ব্যঙ্গাত্মক হিসাবে চিহ্নিত করতে ব্যর্থ হবে না। যাইহোক, প্রত্যাহার এই বৃদ্ধি নির্ভুলতার খরচে আসবে। সমস্ত সত্য নেতিবাচক মিথ্যা ইতিবাচক পরিবর্তন করা হবে:

ট্রু পজিটিভ (টিপি): 4324 মিথ্যা ইতিবাচক (FPs): 5676
মিথ্যা নেতিবাচক (FNs): 0 সত্য নেতিবাচক (TNs): 0

যা 0.957 থেকে 0.432 এ নির্ভুলতার হার হ্রাস করবে। সুতরাং, এই ক্রমাঙ্কন যোগ করলে ত্রুটির ধরন পরিবর্তন হবে কিন্তু ত্রুটির মাত্রা কমবে না।