आस-पास की जगहों का पता लगाना

ML किट पॉज़ पहचान एपीआई, ऐप्लिकेशन डेवलपर के लिए हल्का-फुल्का बहुउपयोगी समाधान है. इसकी मदद से किसी वीडियो या स्टैटिक इमेज से रीयल टाइम में, किसी व्यक्ति के शरीर की स्थिति का पता लगाया जा सकता है. एक पोज़ में, कंकाल की पहचान के हिसाब से, एक बिंदु पर शरीर की स्थिति के बारे में बताया जाता है. लैंडमार्क, शरीर के अलग-अलग अंगों के हिसाब से होते हैं. जैसे, कंधे और कूल्हे. एक जगह से दूसरी पोज़ को अलग करने के लिए लैंडमार्क की रिलेटिव पोज़िशन का इस्तेमाल किया जा सकता है.

iOS Android

ML किट पोज़ डिटेक्शन से पूरे शरीर में 33 पॉइंट वाला कंकाल मिलता है, जिसमें चेहरे, आंखों, मुंह, नाक, और हाथों और पैरों पर निशान होते हैं. नीचे पहली इमेज में, कैमरे में उपयोगकर्ता को देखते हुए लैंडमार्क को दिखाया गया है. इसलिए, यह डुप्लीकेट इमेज है. उपयोगकर्ता का दायां भाग, इमेज के बाईं ओर दिखता है:

पहली इमेज. लैंडमार्क

बेहतर नतीजे पाने के लिए, एमएल किट की पहचान करने के लिए खास उपकरण या एमएल विशेषज्ञता की ज़रूरत नहीं होती है. इस टेक्नोलॉजी की मदद से डेवलपर, अपने उपयोगकर्ताओं के लिए ऐसे कोड बना सकते हैं जो कुछ ही कोड का इस्तेमाल करता हो.

किसी पोज़ का पता लगाने के लिए उपयोगकर्ता का चेहरा मौजूद होना चाहिए. आस-पास की चीज़ों की पहचान करने की सुविधा सबसे अच्छे तरीके से तब काम करती है, जब फ़ोटो लेने वाले व्यक्ति के पूरे शरीर पर कुछ दिखता हो, लेकिन उससे शरीर की कुछ पोज़िशन का पता चलता हो. इस मामले में, जिन लैंडमार्क की पहचान नहीं हो पाई है उन्हें इमेज के बाहर निर्देशांक दिए जाते हैं.

मुख्य सुविधाएं

  • क्रॉस-प्लैटफ़ॉर्म सहायता Android और iOS, दोनों पर एक जैसा अनुभव पाएं.
  • पूरा शरीर ट्रैक करना मॉडल में 33 मुख्य कंकाल मिलते हैं, जिनमें हाथों और पैरों की स्थिति शामिल है.
  • InFrameLikelihood कामकाज का स्कोर. हर लैंडमार्क के लिए, एक माप जिससे पता चलता है कि लैंडमार्क, इमेज फ़्रेम में है. स्कोर की सीमा 0.0 से 1.0 के बीच होती है, जिसमें 1.0 ज़्यादा आत्मविश्वास का संकेत देता है.
  • दो ऑप्टिमाइज़ किए गए SDK टूल बेस SDK टूल, Pixel 4 और iPhone X जैसे आधुनिक फ़ोन पर रीयल टाइम में काम करता है. यह करीब ~30 और ~45 FPS (फ़्रेम प्रति सेकंड) की दर से नतीजे दिखाता है. हालांकि, लैंडमार्क निर्देशांक के सटीक होने में अंतर हो सकता है. सटीक SDK टूल धीमी फ़्रेम दर पर नतीजे दिखाता है, लेकिन ज़्यादा सटीक निर्देश मान देता है.
  • गहराई से विश्लेषण के लिए Z कोऑर्डिनेट यह मान यह तय करने में मदद कर सकता है कि उपयोगकर्ता के मुख्य हिस्से, आगे या पीछे जा सकते हैं. ज़्यादा जानकारी के लिए, नीचे Z निर्देशांक सेक्शन देखें.

आस-पास की पहचान का एपीआई, फ़ेशियल रिकग्निशन एपीआई से मिलता-जुलता है. इसमें, लैंडमार्क का सेट और उनकी जगह की जानकारी मिलती है. हालांकि, चेहरे की पहचान करने की सुविधा, मुस्कुराते हुए मुंह या खुली आंखों जैसी सुविधाओं को पहचानने की कोशिश करती है. हालांकि, पोज़ का पता लगाने की सुविधा में, पोज़ या पोज़ में आस-पास की चीज़ों को दिखाने का कोई मतलब नहीं होता. किसी पोज़ को समझने के लिए आप अपने एल्गोरिदम बना सकते हैं. कुछ उदाहरणों के लिए, पॉज़ की कैटगरी तय करने से जुड़ी सलाह देखें.

फ़ोटो की पहचान करने की सुविधा, किसी इमेज में सिर्फ़ एक व्यक्ति को दिखा सकती है. अगर इमेज में दो लोग हैं, तो मॉडल उस व्यक्ति को लैंडमार्क असाइन करेगा जिसके पास सबसे ज़्यादा आत्मविश्वास है.

Z निर्देशांक

Z निर्देशांक एक प्रायोगिक मान है, जिसकी गणना हर लैंडमार्क के लिए की जाती है. इसे "इमेज पिक्सल" में मापा जाता है, जैसे कि X और Y कोऑर्डिनेट. हालांकि, यह सही 3D वैल्यू नहीं है. Z ऐक्सिस कैमरे के लंबवत होता है और किसी व्यक्ति के कूल्हों के बीच से गुज़रता है. Z ऐक्सिस की शुरुआत, कूल्हे (बाएं/दाएं और आगे/पीछे) के बीच की खास जगह से होती है. नेगेटिव Z वैल्यू कैमरे की ओर होती हैं और पॉज़िटिव वैल्यू कैमरे से दूर होती हैं. Z निर्देशांक की ऊपरी या निचली सीमा नहीं है.

नतीजों के उदाहरण

नीचे दी गई टेबल, दाईं ओर की पोज़ में कुछ मार्कअप के लिए कोऑर्डिनेट और InFrameLikelihood दिखाती है. ध्यान दें कि उपयोगकर्ता के बाएं हाथ के लिए Z निर्देशांक नकारात्मक हैं, क्योंकि वे सब्जेक्ट के कूल्हे के केंद्र के सामने और कैमरे की ओर हैं.

लैंडमार्कटाइपजगहiFrame की पसंद
11LEFT_SHOULDER(734.9671, 550.7924, -118.11934)0.9999038
12 दायां (391.27032, 583.2485, -321.15836) 0.9999894
13 LEFT_ELBOW (903.83704, 754.676, -219.67009) 0.9836427
14 दायां (322.18152, 842.5973, -179.28519) 0.99970156
15 LEFT_WRIST (1073.8956, 654.9725, -820.93463) 0.9737737
16 दायां (218.27956, 1015.70435, -683.6567) 0.995568
17 LEFT_PINKY (1146.1635, 609.6432, -956.9976) 0.95273364
18 दायां_पिनकी (176.17755, 1065.838, -776.5006) 0.9785348

हुड के तहत

इस एपीआई के एमएल मॉडल के बारे में ज़्यादा जानकारी के लिए, हमारी Google एआई (AI) ब्लॉग पोस्ट देखें.

मशीन लर्निंग की निष्पक्षता के हमारे तरीकों और मॉडल को ट्रेनिंग देने के तरीकों के बारे में ज़्यादा जानने के लिए, हमारा मॉडल कार्ड देखें