ML-এ অবতরণ: প্রশিক্ষণ এবং ক্ষতি

একটি মডেলকে প্রশিক্ষণ দেওয়ার অর্থ হল লেবেলযুক্ত উদাহরণগুলি থেকে সমস্ত ওজন এবং পক্ষপাতের জন্য ভাল মান শেখা (নির্ধারণ করা)। তত্ত্বাবধানে শেখার ক্ষেত্রে, একটি মেশিন লার্নিং অ্যালগরিদম অনেক উদাহরণ পরীক্ষা করে একটি মডেল তৈরি করে এবং এমন একটি মডেল খুঁজে বের করার চেষ্টা করে যা ক্ষতি কম করে; এই প্রক্রিয়াটিকে পরীক্ষামূলক ঝুঁকি ন্যূনতমকরণ বলা হয়।

ক্ষতি হল একটি খারাপ ভবিষ্যদ্বাণীর শাস্তি। অর্থাৎ, ক্ষতি হল একটি সংখ্যা যা নির্দেশ করে যে মডেলের ভবিষ্যদ্বাণী একটি একক উদাহরণে কতটা খারাপ ছিল। মডেলের ভবিষ্যদ্বাণী নিখুঁত হলে, ক্ষতি শূন্য হয়; অন্যথায়, ক্ষতি আরও বেশি। একটি মডেলকে প্রশিক্ষণের লক্ষ্য হল ওজন এবং পক্ষপাতের একটি সেট খুঁজে বের করা যার কম ক্ষতি, গড়ে, সমস্ত উদাহরণ জুড়ে। উদাহরণস্বরূপ, চিত্র 3 বাম দিকে একটি উচ্চ ক্ষতির মডেল এবং ডানদিকে একটি কম ক্ষতির মডেল দেখায়৷ চিত্র সম্পর্কে নিম্নলিখিত নোট করুন:

  • তীরগুলি ক্ষতির প্রতিনিধিত্ব করে।
  • নীল রেখা ভবিষ্যদ্বাণী প্রতিনিধিত্ব করে.

দুটি কার্টেসিয়ান প্লট, প্রতিটি একটি লাইন এবং কিছু ডেটা পয়েন্ট দেখাচ্ছে। প্রথম প্লটে, লাইনটি ডেটার জন্য ভয়ানক ফিট, তাই ক্ষতি বেশি। দ্বিতীয় প্লটে, লাইনটি ডেটার জন্য উপযুক্ত, তাই ক্ষতি কম।

চিত্র 3. বাম মডেলের উচ্চ ক্ষতি; সঠিক মডেলে কম ক্ষতি।

লক্ষ্য করুন যে বাম প্লটে তীরগুলি ডান প্লটে তাদের সমকক্ষগুলির চেয়ে অনেক বেশি লম্বা৷ স্পষ্টতই, ডান প্লটের লাইনটি বাম প্লটের লাইনের চেয়ে অনেক ভাল ভবিষ্যদ্বাণীমূলক মডেল।

আপনি হয়তো ভাবছেন যে আপনি একটি গাণিতিক ফাংশন তৈরি করতে পারেন - একটি ক্ষতি ফাংশন - যা একটি অর্থপূর্ণ ফ্যাশনে পৃথক ক্ষতিকে একত্রিত করবে।

আমরা এখানে যে রৈখিক রিগ্রেশন মডেলগুলি পরীক্ষা করব তা বর্গ লস ( L 2 loss নামেও পরিচিত) নামে একটি ক্ষতি ফাংশন ব্যবহার করে। একটি একক উদাহরণের জন্য বর্গক্ষেত্র ক্ষতি নিম্নরূপ:

  = the square of the difference between the label and the prediction
  = (observation - prediction(x))2
  = (y - y')2

গড় বর্গ ত্রুটি ( MSE ) হল সমগ্র ডেটাসেটের উপর উদাহরণ প্রতি গড় বর্গক্ষেত্র ক্ষতি৷ MSE গণনা করতে, পৃথক উদাহরণের জন্য সমস্ত বর্গক্ষেত্র ক্ষতির যোগ করুন এবং তারপর উদাহরণগুলির সংখ্যা দ্বারা ভাগ করুন:

$$ MSE = \frac{1}{N} \sum_{(x,y)\in D} (y - prediction(x))^2 $$

কোথায়:

  • \((x, y)\) একটি উদাহরণ যার মধ্যে
    • \(x\) হল বৈশিষ্ট্যের সেট (উদাহরণস্বরূপ, চিপস/মিনিট, বয়স, লিঙ্গ) যা মডেল ভবিষ্যদ্বাণী করতে ব্যবহার করে।
    • \(y\) হল উদাহরণের লেবেল (উদাহরণস্বরূপ, তাপমাত্রা)।
  • \(prediction(x)\) হল l10n- \(x\)বৈশিষ্ট্যগুলির সেটের সাথে সমন্বয়ে ওজন এবং পক্ষপাতের একটি ফাংশন।
  • \(D\) হল একটি ডেটা সেট যেখানে অনেকগুলি লেবেলযুক্ত উদাহরণ রয়েছে, যেগুলি হল \((x, y)\) জোড়া৷
  • \(N\) হল \(D\)-placeholder10-এর উদাহরণের সংখ্যা।

যদিও MSE সাধারণত মেশিন লার্নিং-এ ব্যবহৃত হয়, তবে এটি একমাত্র ব্যবহারিক লস ফাংশন বা সর্বোত্তম লস ফাংশন নয় সমস্ত পরিস্থিতিতে।