প্রার্থী প্রজন্মের ওভারভিউ

প্রার্থী প্রজন্ম সুপারিশের প্রথম পর্যায়। একটি প্রশ্ন দেওয়া হলে, সিস্টেম প্রাসঙ্গিক প্রার্থীদের একটি সেট তৈরি করে। নিম্নলিখিত সারণী দুটি সাধারণ প্রার্থী প্রজন্মের পন্থা দেখায়:

টাইপ সংজ্ঞা উদাহরণ
বিষয়বস্তু-ভিত্তিক ফিল্টারিং ব্যবহারকারীর পছন্দের অনুরূপ আইটেম সুপারিশ করতে আইটেমগুলির মধ্যে সাদৃশ্য ব্যবহার করে। ব্যবহারকারী A যদি দুটি সুন্দর বিড়ালের ভিডিও দেখে, তাহলে সিস্টেমটি সেই ব্যবহারকারীকে সুন্দর প্রাণীর ভিডিও সুপারিশ করতে পারে।
সহযোগীতামূলক বিশোধন সুপারিশ প্রদানের জন্য একই সাথে ক্যোয়ারী এবং আইটেমের মধ্যে মিল ব্যবহার করে। যদি ব্যবহারকারী A ব্যবহারকারী B এর মত হয় এবং ব্যবহারকারী B ভিডিও 1 পছন্দ করে, তাহলে সিস্টেম A ব্যবহারকারীকে ভিডিও 1 সুপারিশ করতে পারে (এমনকি যদি ব্যবহারকারী A ভিডিও 1 এর মতো কোনো ভিডিও না দেখে থাকে)।

স্থান এমবেডিং

উভয় বিষয়বস্তু-ভিত্তিক এবং সহযোগিতামূলক ফিল্টারিং প্রতিটি আইটেম এবং প্রতিটি কোয়েরি (বা প্রসঙ্গ) একটি সাধারণ এমবেডিং স্থান\(E = \mathbb R^d\)এ এমবেডিং ভেক্টরে ম্যাপ করে। সাধারণত, এম্বেড করার স্থানটি নিম্ন-মাত্রিক (অর্থাৎ, \(d\) কর্পাসের আকারের চেয়ে অনেক ছোট), এবং আইটেম বা ক্যোয়ারী সেটের কিছু সুপ্ত কাঠামো ক্যাপচার করে। অনুরূপ আইটেম, যেমন ইউটিউব ভিডিও যা সাধারণত একই ব্যবহারকারী দ্বারা দেখা হয়, এমবেডিং স্পেসে একসাথে শেষ হয়৷ "ঘনিষ্ঠতা" ধারণাটি একটি সাদৃশ্য পরিমাপ দ্বারা সংজ্ঞায়িত করা হয়।

সাদৃশ্য ব্যবস্থা

একটি সাদৃশ্য পরিমাপ হল একটি ফাংশন \(s : E \times E \to \mathbb R\) যা একজোড়া এম্বেডিং নেয় এবং তাদের মিল পরিমাপ করে একটি স্কেলার প্রদান করে। এমবেডিংগুলি প্রার্থী তৈরির জন্য নিম্নরূপ ব্যবহার করা যেতে পারে: \(q \in E\)এম্বেড করার একটি ক্যোয়ারী দেওয়া হলে, সিস্টেমটি l10n-placeholder5 আইটেম এমবেডিংগুলির সন্ধান করে যা \(q\)\(x \in E\) এর কাছাকাছি, অর্থাৎ উচ্চ মিলের সাথে এমবেডিং \(s(q, x)\)।

সাদৃশ্যের মাত্রা নির্ধারণ করতে, বেশিরভাগ সুপারিশ সিস্টেম নিম্নলিখিতগুলির একটি বা একাধিক উপর নির্ভর করে:

  • কোসাইন
  • বিন্দু পণ্য
  • ইউক্লিডীয় দূরত্ব

কোসাইন

এটি কেবল দুটি ভেক্টরের মধ্যে কোণের কোসাইন, \(s(q, x) = \cos(q, x)\)

বিন্দু পণ্য

দুটি ভেক্টরের ডট গুণফল হল\(s(q, x) = \langle q, x \rangle = \sum_{i = 1}^d q_i x_i\)। এটি \(s(q, x) = \|x\| \|q\| \cos(q, x)\) (আদর্শের গুণফল দ্বারা গুণিত কোণের কোসাইন) দ্বারাও দেওয়া হয়। এইভাবে, যদি এমবেডিংগুলি স্বাভাবিক করা হয়, তাহলে ডট-পণ্য এবং কোসাইন মিলে যায়।

ইউক্লিডীয় দূরত্ব

এটি ইউক্লিডীয় স্থানের স্বাভাবিক দূরত্ব, \(s(q, x) = \|q - x\| = \left[ \sum_{i = 1}^d (q_i - x_i)^2\right]^{\frac{1}{2}}\)। একটি ছোট দূরত্ব মানে উচ্চ মিল। মনে রাখবেন যে যখন এম্বেডিংগুলি স্বাভাবিক করা হয়, তখন বর্গাকার ইউক্লিডীয় দূরত্ব একটি ধ্রুবক পর্যন্ত ডট-পণ্য (এবং কোসাইন) এর সাথে মিলে যায়, যেহেতু সেই ক্ষেত্রে \(\frac{1}{2}\|q - x\|^2 = 1 - \langle q, x \rangle\)।

একটি দ্বি-মাত্রিক এম্বেডিং স্পেস দেখানো চিত্র, যাতে একটি কোয়েরি এম্বেডিং এবং তিনটি প্রার্থী আইটেম রয়েছে৷

সাদৃশ্য পরিমাপ তুলনা

ডানদিকের চিত্রে উদাহরণটি বিবেচনা করুন। কালো ভেক্টর ক্যোয়ারী এমবেডিং চিত্রিত করে। অন্য তিনটি এমবেডিং ভেক্টর (আইটেম এ, আইটেম বি, আইটেম সি) প্রার্থী আইটেম প্রতিনিধিত্ব করে। ব্যবহৃত সাদৃশ্য পরিমাপের উপর নির্ভর করে, আইটেমগুলির র‌্যাঙ্কিং ভিন্ন হতে পারে।

চিত্রটি ব্যবহার করে, তিনটি সাদৃশ্য পরিমাপ ব্যবহার করে আইটেম র‌্যাঙ্কিং নির্ধারণ করার চেষ্টা করুন: কোসাইন, ডট পণ্য এবং ইউক্লিডীয় দূরত্ব।

কোন সাদৃশ্য পরিমাপ চয়ন করতে?

কোসাইনের তুলনায়, ডট পণ্যের সাদৃশ্য এমবেডিংয়ের আদর্শের প্রতি সংবেদনশীল। অর্থাৎ, একটি এম্বেডিংয়ের আদর্শ যত বড় হবে, তত বেশি মিল (একটি তীব্র কোণ সহ আইটেমগুলির জন্য) এবং আইটেমটির সুপারিশ করার সম্ভাবনা তত বেশি। এটি নিম্নরূপ সুপারিশগুলিকে প্রভাবিত করতে পারে:

  • যে আইটেমগুলি প্রশিক্ষণ সেটে খুব ঘন ঘন প্রদর্শিত হয় (উদাহরণস্বরূপ, জনপ্রিয় ইউটিউব ভিডিওগুলি) সেগুলিতে বড় নিয়মের সাথে এম্বেডিং থাকে৷ যদি জনপ্রিয়তার তথ্য ক্যাপচার করা বাঞ্ছনীয় হয়, তাহলে আপনার ডট পণ্য পছন্দ করা উচিত। যাইহোক, আপনি সতর্ক না হলে, জনপ্রিয় আইটেমগুলি সুপারিশের উপর আধিপত্য বিস্তার করতে পারে। অনুশীলনে, আপনি সাদৃশ্য পরিমাপের অন্যান্য রূপগুলি ব্যবহার করতে পারেন যা আইটেমের আদর্শের উপর কম জোর দেয়। উদাহরণস্বরূপ, কিছু \(\alpha \in (0, 1)\)placeholder14 এর জন্য\(s(q, x) = \|q\|^\alpha \|x\|^\alpha \cos(q, x)\) সংজ্ঞায়িত করুন।

  • খুব কমই দেখা যায় এমন আইটেমগুলি প্রশিক্ষণের সময় ঘন ঘন আপডেট নাও হতে পারে। ফলস্বরূপ, যদি সেগুলি একটি বড় আদর্শের সাথে শুরু করা হয়, তবে সিস্টেমটি আরও প্রাসঙ্গিক আইটেমগুলির চেয়ে বিরল আইটেমগুলির সুপারিশ করতে পারে৷ এই সমস্যা এড়াতে, এমবেডিং ইনিশিয়ালাইজেশন সম্পর্কে সতর্ক থাকুন, এবং যথাযথ নিয়মিতকরণ ব্যবহার করুন। আমরা প্রথম অনুশীলনে এই সমস্যাটি বিস্তারিত করব।