ML प्रैक्टिस: इमेज की कैटगरी

जानें कि Google ने आधुनिक फ़ोटो कैटगरी बनाने का आधुनिक तरीका Google Photos में कैसे काम किया. कॉन्वोलेशनल न्यूरल नेटवर्क से जुड़ा क्रैश कोर्स खोजें. इसके बाद, कुत्ते की फ़ोटो से बिल्ली की फ़ोटो को अलग-अलग करने के लिए, इमेज की कैटगरी तय करें.

ज़रूरी शर्तें

  • मशीन लर्निंग क्रैश कोर्स या एमएल बुनियादी सुविधाओं के साथ काम करने का जैसा अनुभव

  • प्रोग्रामिंग की बुनियादी बातें और Python में कुछ अनुभव कोडिंग

शुरुआती जानकारी

मई 2013 में, Google ने निजी फ़ोटो खोजने की सुविधा रिलीज़ की उपयोगकर्ताओं को उनकी लाइब्रेरी में मौजूद फ़ोटो के आधार पर फ़ोटो वापस पाने की सुविधा दी.

सायमीज़ बिल्लियों की खोज करने वाला Google Photos का स्क्रीनशॉट पहली इमेज. Google Photos में Siamees cats सामान की डिलीवरी करता है!

बाद में 2015 में Google Photos में शामिल की गई इस सुविधा को बड़े बदलाव के तौर पर देखा गया. यह इस बात का सबूत है कि कंप्यूटर विज़न सॉफ़्टवेयर की मदद से, इमेज को लोगों के लिए अलग-अलग मानकों के हिसाब से बांटा जा सकता है.

  • इमेज के कॉन्टेंट को कैटगरी में बांटने और इमेज के कॉन्टेंट को कैटगरी में बांटने के लिए, अब उपयोगकर्ताओं को फ़ोटो को टैग करने की ज़रूरत नहीं होगी. ऐसा करने के लिए, ऐसे मैन्युअल ऐक्शन को हटाना होगा जो सैकड़ों या हज़ारों इमेज के सेट को मैनेज करता हो.
  • उपयोगकर्ता नए-नए तरीकों से अपनी फ़ोटो के संग्रह को एक्सप्लोर कर सकते हैं. ऐसे में, खोज के लिए इस्तेमाल किए गए शब्दों की मदद से, वे ऐसे फ़ोटो ढूंढने के लिए कर सकते हैं जिन्हें उन्होंने कभी टैग नहीं किया है. उदाहरण के लिए, वे ताड़ के पेड़ और कोट के खोज करके अपनी छुट्टियां बिताने के लिए ली गई वे सभी फ़ोटो खोज सकते हैं जिनके बैकग्राउंड में ताड़ के पेड़ हैं.
  • सॉफ़्टवेयर की मदद से, संभावित तौर पर उपयोगकर्ताओं को अलग-अलग कैटगरी में बांटा जा सकता है.उन्हें अलग-अलग कैटगरी में बांटा जा सकता है. उदाहरण के लिए, सायमीज़ और ऐबिसिनियन बिल्लियों में अंतर करना, और उन्हें डोमेन के बारे में जानकारी देना.

इमेज की कैटगरी तय करने का तरीका

इमेज की कैटगरी तय करना, निगरानी में रखी गई समस्याओं की जानकारी है: टारगेट क्लास का सेट (इमेज में पहचानने के लिए ऑब्जेक्ट) और किसी मॉडल को लेबल करके, उदाहरण के तौर पर दी गई फ़ोटो का इस्तेमाल करके ट्रेनिंग दें. शुरुआती कंप्यूटर विज़न मॉडल, रॉ पिक्सल डेटा पर मॉडल के इनपुट के तौर पर निर्भर करते थे. हालांकि, जैसा कि इमेज 2 में दिखाया गया है, रॉ पिक्सल डेटा में किसी ऑब्जेक्ट को अलग-अलग तरीके से दिखाने की ज़रूरत नहीं होती. ऑब्जेक्ट के पीछे की स्थिति, ऑब्जेक्ट के पीछे के बैकग्राउंड, आस-पास की रोशनी, कैमरे के ऐंगल, और कैमरे के फ़ोकस की वजह से, रॉ पिक्सल डेटा में उतार-चढ़ाव हो सकता है. ये अंतर इतने अहम हैं कि उन्हें पिक्सल आरजीबी वैल्यू के औसत के हिसाब से ठीक नहीं किया जा सकता.

अलग-अलग बैकग्राउंड और रोशनी के माहौल के साथ, बिल्लियों को दिखाने वाली फ़ोटो का कोलाज, जिसमें अलग-अलग बैकग्राउंड और रोशनी हैं. साथ ही, उन इमेज से मिला औसत पिक्सल डेटा भी शामिल है दूसरी इमेज. बाएं: अलग-अलग बैकग्राउंड और रोशनी वाली स्थितियों में बिल्लियों को अलग-अलग मुद्राओं में कैप्चर किया जा सकता है. दायां: इस तरह के पिक्सल के लिए, औसत डेटा का औसत निकालने से कोई सही जानकारी नहीं मिलती.

ऑब्जेक्ट को ज़्यादा सुविधाजनक तरीके से मॉडल करने के लिए, क्लासिक कंप्यूटर विज़न मॉडल ने पिक्सल डेटा से मिली नई सुविधाएं जोड़ी हैं, जैसे कि रंग हिस्टॉग्राम, बनावट, और आकार. इस तरीके का एक खामियाज़ा यह था कि फ़ीचर इंजीनियरिंग वाकई में एक गंभीर बोझ बन गई, क्योंकि बहुत सारे इनपुट के साथ बदलाव करना ज़रूरी था. बिल्ली की कैटगरी तय करने के लिए, कौन से रंग सबसे ज़्यादा काम के हैं? शेप का मतलब कितना सुविधाजनक है? इन सुविधाओं को बेहतर तरीके से मैनेज करने की ज़रूरत इसलिए पड़ी, क्योंकि मज़बूत मॉडल बनाना काफ़ी मुश्किल था और इसके सटीक होने की वजह से काफ़ी परेशानी हुई.