Google ফটোতে সার্চ পাওয়ার জন্য Google কীভাবে অত্যাধুনিক চিত্র শ্রেণীবিভাগ মডেল তৈরি করেছে তা জানুন। কনভোল্যুশনাল নিউরাল নেটওয়ার্কে একটি ক্র্যাশ কোর্স পান, এবং তারপর কুকুরের ফটো থেকে বিড়ালের ছবি আলাদা করতে আপনার নিজস্ব ইমেজ ক্লাসিফায়ার তৈরি করুন।
পূর্বশর্ত
মেশিন লার্নিং ক্র্যাশ কোর্সবা ML মৌলিক বিষয়গুলির সমতুল্য অভিজ্ঞতা
প্রোগ্রামিং বেসিকগুলিতে দক্ষতা এবং পাইথনে কোডিং করার কিছু অভিজ্ঞতা
ভূমিকা
2013 সালের মে মাসে, Google ব্যক্তিগত ফটোগুলির জন্য অনুসন্ধান প্রকাশ করে, ব্যবহারকারীদের ছবিগুলিতে উপস্থিত বস্তুর উপর ভিত্তি করে তাদের লাইব্রেরিতে ফটোগুলি পুনরুদ্ধার করার ক্ষমতা দেয়৷
চিত্র 1. সিয়ামিজ বিড়ালদের জন্য Google ফটো অনুসন্ধান পণ্য সরবরাহ করে!
বৈশিষ্ট্যটি, পরে 2015 সালে Google Photos- এ অন্তর্ভুক্ত করা হয়েছিল, ব্যাপকভাবে একটি গেম-চেঞ্জার হিসাবে বিবেচিত হয়েছিল, এটি ধারণার একটি প্রমাণ যে কম্পিউটার ভিশন সফ্টওয়্যার ছবিগুলিকে মানবিক মান অনুযায়ী শ্রেণীবদ্ধ করতে পারে, বিভিন্ন উপায়ে মান যোগ করে:
- ব্যবহারকারীদের আর ছবির বিষয়বস্তুকে শ্রেণীবদ্ধ করতে "সৈকত" এর মতো লেবেল দিয়ে ফটো ট্যাগ করার দরকার নেই, একটি ম্যানুয়াল টাস্ক দূর করে যা শত শত বা হাজার হাজার ছবির সেট পরিচালনা করার সময় বেশ ক্লান্তিকর হয়ে উঠতে পারে।
- ব্যবহারকারীরা তাদের ফটো সংগ্রহ নতুন উপায়ে অন্বেষণ করতে পারে, অনুসন্ধান পদ ব্যবহার করে এমন বস্তুগুলির সাথে ফটোগুলি সনাক্ত করতে যা তারা হয়তো কখনও ট্যাগ করেনি৷ উদাহরণস্বরূপ, পটভূমিতে খেজুর গাছ রয়েছে এমন সমস্ত অবকাশের ফটোগুলিকে পৃষ্ঠের জন্য তারা "পাম গাছ" অনুসন্ধান করতে পারে৷
- সফ্টওয়্যার সম্ভাব্যভাবে ট্যাক্সোনমিকাল পার্থক্যগুলি "দেখতে" পারে যা শেষ ব্যবহারকারীরা নিজেরাই উপলব্ধি করতে সক্ষম নাও হতে পারে (যেমন, সিয়ামিজ এবং অ্যাবিসিনিয়ান বিড়ালদের মধ্যে পার্থক্য), কার্যকরভাবে ব্যবহারকারীদের ডোমেন জ্ঞান বৃদ্ধি করে৷
কিভাবে চিত্র শ্রেণীবিভাগ কাজ করে
চিত্র শ্রেণীবিভাগ একটি তত্ত্বাবধানে শিক্ষার সমস্যা: লক্ষ্য শ্রেণীর একটি সেট সংজ্ঞায়িত করুন (ছবিতে সনাক্ত করার জন্য বস্তু), এবং লেবেলযুক্ত উদাহরণ ফটোগুলি ব্যবহার করে তাদের চিনতে একটি মডেলকে প্রশিক্ষণ দিন। প্রাথমিক কম্পিউটার ভিশন মডেলগুলি মডেলের ইনপুট হিসাবে কাঁচা পিক্সেল ডেটার উপর নির্ভর করত। যাইহোক, চিত্র 2-এ দেখানো হিসাবে, শুধুমাত্র কাঁচা পিক্সেল ডেটা একটি ইমেজে ক্যাপচার করা বস্তুর অগণিত বৈচিত্রগুলিকে অন্তর্ভুক্ত করার জন্য যথেষ্ট স্থিতিশীল উপস্থাপনা প্রদান করে না। বস্তুর অবস্থান, বস্তুর পিছনের পটভূমি, পরিবেষ্টিত আলো, ক্যামেরার কোণ এবং ক্যামেরার ফোকাস সবই কাঁচা পিক্সেল ডেটাতে ওঠানামা করতে পারে; এই পার্থক্যগুলি যথেষ্ট তাৎপর্যপূর্ণ যে পিক্সেল RGB মানগুলির ওজনযুক্ত গড় গ্রহণ করে এগুলি সংশোধন করা যায় না।
চিত্র 2. বাম : বিড়ালগুলি বিভিন্ন ব্যাকড্রপ এবং আলোর অবস্থা সহ বিভিন্ন ভঙ্গিতে একটি ফটোতে ক্যাপচার করা যেতে পারে। ডান : এই বৈচিত্র্যের জন্য অ্যাকাউন্টে পিক্সেল ডেটার গড় কোনো অর্থপূর্ণ তথ্য তৈরি করে না।
বস্তুগুলিকে আরও নমনীয়ভাবে মডেল করার জন্য, ক্লাসিক কম্পিউটার ভিশন মডেলগুলি পিক্সেল ডেটা থেকে প্রাপ্ত নতুন বৈশিষ্ট্যগুলি যুক্ত করেছে, যেমন রঙের হিস্টোগ্রাম , টেক্সচার এবং আকারগুলি। এই পদ্ধতির নেতিবাচক দিকটি ছিল যে বৈশিষ্ট্য ইঞ্জিনিয়ারিং একটি বাস্তব বোঝা হয়ে উঠেছে, কারণ সেখানে অনেকগুলি ইনপুট টুইক করা হয়েছিল। একটি বিড়াল শ্রেণীবিভাগের জন্য, কোন রং সবচেয়ে প্রাসঙ্গিক ছিল? আকৃতির সংজ্ঞা কতটা নমনীয় হওয়া উচিত? কারণ বৈশিষ্ট্যগুলিকে এত সুনির্দিষ্টভাবে টিউন করা দরকার ছিল, শক্তিশালী মডেলগুলি তৈরি করা বেশ চ্যালেঞ্জিং ছিল এবং নির্ভুলতা ক্ষতিগ্রস্থ হয়েছিল৷