এমবেডিং: এমবেডিং প্রাপ্ত করা

Google-এ তৈরি একটি অত্যাধুনিক অ্যালগরিদম সহ একটি এম্বেডিং পাওয়ার অনেকগুলি উপায় রয়েছে৷

স্ট্যান্ডার্ড ডাইমেনশনালিটি রিডাকশন টেকনিক

নিম্ন মাত্রিক স্থানের উচ্চ-মাত্রিক স্থানের গুরুত্বপূর্ণ কাঠামো ক্যাপচার করার জন্য অনেকগুলি বিদ্যমান গাণিতিক কৌশল রয়েছে। তত্ত্বগতভাবে, এই কৌশলগুলির যেকোনো একটি মেশিন লার্নিং সিস্টেমের জন্য একটি এমবেডিং তৈরি করতে ব্যবহার করা যেতে পারে।

উদাহরণস্বরূপ, প্রধান উপাদান বিশ্লেষণ (PCA) শব্দ এমবেডিং তৈরি করতে ব্যবহার করা হয়েছে। শব্দ ভেক্টরের ব্যাগের মতো উদাহরণগুলির একটি সেট দেওয়া, PCA অত্যন্ত পারস্পরিক সম্পর্কযুক্ত মাত্রাগুলি খুঁজে বের করার চেষ্টা করে যা একটি একক মাত্রায় ভেঙে যেতে পারে।

Word2vec

Word2vec হল একটি অ্যালগরিদম যা Google-এ ওয়ার্ড এমবেডিং প্রশিক্ষণের জন্য উদ্ভাবিত হয়েছে। Word2vec জ্যামিতিকভাবে বন্ধ এমবেডিং ভেক্টরের সাথে শব্দার্থগতভাবে অনুরূপ শব্দ ম্যাপ করতে বিতরণমূলক অনুমানের উপর নির্ভর করে।

ডিস্ট্রিবিউশনাল হাইপোথিসিস বলে যে শব্দগুলির প্রায়শই একই প্রতিবেশী শব্দ থাকে শব্দার্থগতভাবে একই রকম হয়। "কুকুর" এবং "বিড়াল" উভয়ই প্রায়শই "পশুচিকিৎসক" শব্দের কাছাকাছি উপস্থিত হয় এবং এই সত্যটি তাদের শব্দার্থগত মিল প্রতিফলিত করে। ভাষাবিদ জন ফার্থ যেমন 1957 সালে বলেছিলেন, "আপনি যে কোম্পানীটি রাখেন তার একটি শব্দ জানেন"।

Word2Vec এলোমেলোভাবে গোষ্ঠীবদ্ধ শব্দগুলি থেকে প্রকৃতপক্ষে সহ-ঘটনার গোষ্ঠীগুলিকে আলাদা করার জন্য একটি নিউরাল নেট প্রশিক্ষণের মাধ্যমে প্রাসঙ্গিক তথ্যকে কাজে লাগায়। ইনপুট স্তর এক বা একাধিক প্রসঙ্গ শব্দের সাথে একটি লক্ষ্য শব্দের একটি বিরল উপস্থাপনা নেয়। এই ইনপুটটি একটি একক, ছোট লুকানো স্তরের সাথে সংযোগ করে৷

অ্যালগরিদমের একটি সংস্করণে, সিস্টেম টার্গেট শব্দের জন্য একটি এলোমেলো শব্দ শব্দ প্রতিস্থাপন করে একটি নেতিবাচক উদাহরণ তৈরি করে। "দ্য প্লেন ফ্লাইস" এর ইতিবাচক উদাহরণ দেওয়া হলে, সিস্টেমটি "জগিং" এ অদলবদল করে বিপরীত নেতিবাচক উদাহরণ "দ্য জগিং ফ্লাইস" তৈরি করতে পারে।

অ্যালগরিদমের অন্য সংস্করণটি এলোমেলোভাবে নির্বাচিত প্রসঙ্গ শব্দগুলির সাথে সত্যিকারের লক্ষ্য শব্দটিকে যুক্ত করে নেতিবাচক উদাহরণ তৈরি করে। সুতরাং এটি ইতিবাচক উদাহরণ (দ্য, প্লেন), (ফ্লাইস, প্লেন) এবং নেতিবাচক উদাহরণগুলি (সংকলিত, সমতল), (কে, সমতল) নিতে পারে এবং পাঠ্যে আসলে কোন জোড়াগুলি একসাথে উপস্থিত হয়েছে তা সনাক্ত করতে শিখতে পারে।

ক্লাসিফায়ার সিস্টেমের উভয় সংস্করণের জন্য আসল লক্ষ্য নয়। মডেল প্রশিক্ষিত হওয়ার পরে, আপনার একটি এম্বেডিং আছে। আপনি ছোট ভেক্টরের সাথে শব্দের বিক্ষিপ্ত উপস্থাপনা ম্যাপ করতে ইনপুট স্তরটিকে লুকানো স্তরের সাথে সংযুক্ত করে ওজন ব্যবহার করতে পারেন। এই এমবেডিং অন্যান্য ক্লাসিফায়ারে পুনরায় ব্যবহার করা যেতে পারে।

word2vec সম্পর্কে আরও তথ্যের জন্য, tensorflow.org-এর টিউটোরিয়ালটি দেখুন

একটি বড় মডেলের অংশ হিসাবে একটি এমবেডিং প্রশিক্ষণ

আপনি আপনার টার্গেট টাস্কের জন্য নিউরাল নেটওয়ার্কের অংশ হিসাবে একটি এমবেডিং শিখতে পারেন। এই পদ্ধতিটি আপনাকে আপনার নির্দিষ্ট সিস্টেমের জন্য ভালভাবে কাস্টমাইজ করা একটি এমবেডিং পায়, তবে আলাদাভাবে এমবেডিং প্রশিক্ষণের চেয়ে বেশি সময় নিতে পারে।

সাধারণভাবে, যখন আপনার কাছে স্পার্স ডেটা থাকে (অথবা ঘন ডেটা যা আপনি এম্বেড করতে চান), আপনি একটি এমবেডিং ইউনিট তৈরি করতে পারেন যা d আকারের একটি বিশেষ ধরনের লুকানো ইউনিট। এই এমবেডিং স্তরটি অন্য কোনো বৈশিষ্ট্য এবং লুকানো স্তরগুলির সাথে মিলিত হতে পারে। যেকোনো ডিএনএন-এর মতো, চূড়ান্ত স্তরটি হবে ক্ষতি যা অপ্টিমাইজ করা হচ্ছে। উদাহরণ স্বরূপ, ধরা যাক আমরা সহযোগী ফিল্টারিং করছি, যেখানে লক্ষ্য হল অন্য ব্যবহারকারীদের আগ্রহ থেকে ব্যবহারকারীর আগ্রহের পূর্বাভাস দেওয়া। আমরা এটিকে একটি তত্ত্বাবধানে শেখার সমস্যা হিসাবে মডেল করতে পারি যা ব্যবহারকারী ইতিবাচক লেবেল হিসাবে দেখেছেন এমন একটি ছোট সংখ্যক চলচ্চিত্রকে এলোমেলোভাবে একপাশে রেখে (বা ধরে রেখে) এবং তারপরে একটি সফটম্যাক্স ক্ষতি অপ্টিমাইজ করতে পারি।

চিত্র 5. সহযোগী ফিল্টারিং ডেটা থেকে মুভি এমবেডিং শেখার জন্য একটি নমুনা DNN আর্কিটেকচার।

অন্য একটি উদাহরণ হিসেবে আপনি যদি DNN-এর অংশ হিসাবে আবাসন মূল্যের পূর্বাভাস দেওয়ার জন্য একটি রিয়েল-এস্টেট বিজ্ঞাপনে শব্দগুলির জন্য একটি এমবেডিং স্তর তৈরি করতে চান তবে আপনি আপনার প্রশিক্ষণ ডেটাতে বাড়ির পরিচিত বিক্রয় মূল্য ব্যবহার করে একটি L 2 ক্ষতি অপ্টিমাইজ করবেন লেবেল.

একটি d -মাত্রিক এম্বেডিং শেখার সময় প্রতিটি আইটেম একটি d -মাত্রিক স্থানের একটি বিন্দুতে ম্যাপ করা হয় যাতে অনুরূপ আইটেমগুলি এই স্থানের কাছাকাছি থাকে। চিত্র 6 এম্বেডিং স্তরে শেখা ওজন এবং জ্যামিতিক দৃশ্যের মধ্যে সম্পর্ক চিত্রিত করতে সাহায্য করে। একটি ইনপুট নোড এবং d- ডাইমেনশনাল এম্বেডিং স্তরের নোডগুলির মধ্যে প্রান্তের ওজনগুলি প্রতিটি d অক্ষের জন্য স্থানাঙ্কের মানগুলির সাথে মিলে যায়৷

এমবেডিং স্তরের ওজন এবং এমবেডিংয়ের জ্যামিতিক দৃশ্যের মধ্যে সম্পর্ককে চিত্রিত করে একটি চিত্র৷

চিত্র 6. এম্বেডিং স্তরের ওজনের একটি জ্যামিতিক দৃশ্য।