
ML किट पॉज़ पहचान एपीआई, ऐप्लिकेशन डेवलपर के लिए हल्का-फुल्का बहुउपयोगी समाधान है. इसकी मदद से किसी वीडियो या स्टैटिक इमेज से रीयल टाइम में, किसी व्यक्ति के शरीर की स्थिति का पता लगाया जा सकता है. एक पोज़ में, कंकाल की पहचान के हिसाब से, एक बिंदु पर शरीर की स्थिति के बारे में बताया जाता है. लैंडमार्क, शरीर के अलग-अलग अंगों के हिसाब से होते हैं. जैसे, कंधे और कूल्हे. एक जगह से दूसरी पोज़ को अलग करने के लिए लैंडमार्क की रिलेटिव पोज़िशन का इस्तेमाल किया जा सकता है.
ML किट पोज़ डिटेक्शन से पूरे शरीर में 33 पॉइंट वाला कंकाल मिलता है, जिसमें चेहरे, आंखों, मुंह, नाक, और हाथों और पैरों पर निशान होते हैं. नीचे पहली इमेज में, कैमरे में उपयोगकर्ता को देखते हुए लैंडमार्क को दिखाया गया है. इसलिए, यह डुप्लीकेट इमेज है. उपयोगकर्ता का दायां भाग, इमेज के बाईं ओर दिखता है:

बेहतर नतीजे पाने के लिए, एमएल किट की पहचान करने के लिए खास उपकरण या एमएल विशेषज्ञता की ज़रूरत नहीं होती है. इस टेक्नोलॉजी की मदद से डेवलपर, अपने उपयोगकर्ताओं के लिए ऐसे कोड बना सकते हैं जो कुछ ही कोड का इस्तेमाल करता हो.
किसी पोज़ का पता लगाने के लिए उपयोगकर्ता का चेहरा मौजूद होना चाहिए. आस-पास की चीज़ों की पहचान करने की सुविधा सबसे अच्छे तरीके से तब काम करती है, जब फ़ोटो लेने वाले व्यक्ति के पूरे शरीर पर कुछ दिखता हो, लेकिन उससे शरीर की कुछ पोज़िशन का पता चलता हो. इस मामले में, जिन लैंडमार्क की पहचान नहीं हो पाई है उन्हें इमेज के बाहर निर्देशांक दिए जाते हैं.
मुख्य सुविधाएं
- क्रॉस-प्लैटफ़ॉर्म सहायता Android और iOS, दोनों पर एक जैसा अनुभव पाएं.
- पूरा शरीर ट्रैक करना मॉडल में 33 मुख्य कंकाल मिलते हैं, जिनमें हाथों और पैरों की स्थिति शामिल है.
- InFrameLikelihood कामकाज का स्कोर. हर लैंडमार्क के लिए, एक माप जिससे पता चलता है कि लैंडमार्क, इमेज फ़्रेम में है. स्कोर की सीमा 0.0 से 1.0 के बीच होती है, जिसमें 1.0 ज़्यादा आत्मविश्वास का संकेत देता है.
- दो ऑप्टिमाइज़ किए गए SDK टूल बेस SDK टूल, Pixel 4 और iPhone X जैसे आधुनिक फ़ोन पर रीयल टाइम में काम करता है. यह करीब ~30 और ~45 FPS (फ़्रेम प्रति सेकंड) की दर से नतीजे दिखाता है. हालांकि, लैंडमार्क निर्देशांक के सटीक होने में अंतर हो सकता है. सटीक SDK टूल धीमी फ़्रेम दर पर नतीजे दिखाता है, लेकिन ज़्यादा सटीक निर्देश मान देता है.
- गहराई से विश्लेषण के लिए Z कोऑर्डिनेट यह मान यह तय करने में मदद कर सकता है कि उपयोगकर्ता के मुख्य हिस्से, आगे या पीछे जा सकते हैं. ज़्यादा जानकारी के लिए, नीचे Z निर्देशांक सेक्शन देखें.
आस-पास की पहचान का एपीआई, फ़ेशियल रिकग्निशन एपीआई से मिलता-जुलता है. इसमें, लैंडमार्क का सेट और उनकी जगह की जानकारी मिलती है. हालांकि, चेहरे की पहचान करने की सुविधा, मुस्कुराते हुए मुंह या खुली आंखों जैसी सुविधाओं को पहचानने की कोशिश करती है. हालांकि, पोज़ का पता लगाने की सुविधा में, पोज़ या पोज़ में आस-पास की चीज़ों को दिखाने का कोई मतलब नहीं होता. किसी पोज़ को समझने के लिए आप अपने एल्गोरिदम बना सकते हैं. कुछ उदाहरणों के लिए, पॉज़ की कैटगरी तय करने से जुड़ी सलाह देखें.
फ़ोटो की पहचान करने की सुविधा, किसी इमेज में सिर्फ़ एक व्यक्ति को दिखा सकती है. अगर इमेज में दो लोग हैं, तो मॉडल उस व्यक्ति को लैंडमार्क असाइन करेगा जिसके पास सबसे ज़्यादा आत्मविश्वास है.
Z निर्देशांक
Z निर्देशांक एक प्रायोगिक मान है, जिसकी गणना हर लैंडमार्क के लिए की जाती है. इसे "इमेज पिक्सल" में मापा जाता है, जैसे कि X और Y कोऑर्डिनेट. हालांकि, यह सही 3D वैल्यू नहीं है. Z ऐक्सिस कैमरे के लंबवत होता है और किसी व्यक्ति के कूल्हों के बीच से गुज़रता है. Z ऐक्सिस की शुरुआत, कूल्हे (बाएं/दाएं और आगे/पीछे) के बीच की खास जगह से होती है. नेगेटिव Z वैल्यू कैमरे की ओर होती हैं और पॉज़िटिव वैल्यू कैमरे से दूर होती हैं. Z निर्देशांक की ऊपरी या निचली सीमा नहीं है.
नतीजों के उदाहरण
नीचे दी गई टेबल, दाईं ओर की पोज़ में कुछ मार्कअप के लिए कोऑर्डिनेट और InFrameLikelihood दिखाती है. ध्यान दें कि उपयोगकर्ता के बाएं हाथ के लिए Z निर्देशांक नकारात्मक हैं, क्योंकि वे सब्जेक्ट के कूल्हे के केंद्र के सामने और कैमरे की ओर हैं.

लैंडमार्क | टाइप | जगह | iFrame की पसंद |
---|---|---|---|
11 | LEFT_SHOULDER | (734.9671, 550.7924, -118.11934) | 0.9999038 |
12 | दायां | (391.27032, 583.2485, -321.15836) | 0.9999894 |
13 | LEFT_ELBOW | (903.83704, 754.676, -219.67009) | 0.9836427 |
14 | दायां | (322.18152, 842.5973, -179.28519) | 0.99970156 |
15 | LEFT_WRIST | (1073.8956, 654.9725, -820.93463) | 0.9737737 |
16 | दायां | (218.27956, 1015.70435, -683.6567) | 0.995568 |
17 | LEFT_PINKY | (1146.1635, 609.6432, -956.9976) | 0.95273364 |
18 | दायां_पिनकी | (176.17755, 1065.838, -776.5006) | 0.9785348 |
हुड के तहत
इस एपीआई के एमएल मॉडल के बारे में ज़्यादा जानकारी के लिए, हमारी Google एआई (AI) ब्लॉग पोस्ट देखें.
मशीन लर्निंग की निष्पक्षता के हमारे तरीकों और मॉडल को ट्रेनिंग देने के तरीकों के बारे में ज़्यादा जानने के लिए, हमारा मॉडल कार्ड देखें