आस-पास की हलचल का पता लगाने की सुविधा

एमएल किट पोज़ डिटेक्शन एपीआई एक ऐसी सुविधा है जो ऐप्लिकेशन डेवलपर के लिए एक आसान टूल है. इसकी मदद से, एक लगातार वीडियो या स्टैटिक इमेज की मदद से, किसी व्यक्ति के शरीर की स्थिति का रीयल टाइम में पता लगाया जा सकता है. पोज़, कंकाल के लैंडमार्क के सेट के ज़रिए किसी समय पर शरीर की स्थिति के बारे में बताती है. ये लैंडमार्क शरीर के अलग-अलग हिस्सों, जैसे कि कंधों और कूल्हों से जुड़े होते हैं. किसी पोज़ को दूसरे से अलग करने के लिए, लैंडमार्क की स्थितियों की मिलते-जुलते पोज़िशन का इस्तेमाल किया जा सकता है.

iOS Android

एमएल किट पोज़ डिटेक्शन की मदद से, पूरे शरीर के लिए 33 पॉइंट वाला कंकाल मिलता है. इसमें चेहरे, आंखें, मुंह, और नाक जैसे चेहरे और हाथ-पैरों के पॉइंट शामिल होते हैं. नीचे की पहली इमेज में लैंडमार्क दिखाया गया है, जिसमें कैमरे में से उपयोगकर्ता की तरफ़ देखते हुए दिखाया गया है. इसलिए, यह मिरर इमेज है. उपयोगकर्ता की दाईं ओर, इमेज के बाईं ओर दिखता है:

पहली इमेज. लैंडमार्क

एमएल किट पोज़ डिटेक्शन के लिए किसी खास उपकरण या मशीन लर्निंग की विशेषज्ञता की ज़रूरत नहीं होती. इससे बेहतरीन नतीजे मिलते हैं. इस टेक्नोलॉजी से डेवलपर, कुछ लाइनों के कोड से अपने उपयोगकर्ताओं के लिए खास तरह का अनुभव बना सकते हैं.

पोज़ की पहचान करने के लिए उपयोगकर्ता का चेहरा मौजूद होना ज़रूरी है. पोज़ डिटेक्शन की सुविधा तब बेहतर तरीके से काम करती है, जब फ़्रेम में किसी व्यक्ति का पूरा शरीर दिख रहा हो, लेकिन शरीर के कुछ पोज़ की भी पहचान हो जाती है. इस स्थिति में, जिन लैंडमार्क की पहचान नहीं की जा सकती उन्हें इमेज के बाहर निर्देशांक असाइन किए जाते हैं.

मुख्य सुविधाएं

क्रॉस-प्लैटफ़ॉर्म सपोर्ट: Android और iOS, दोनों पर एक जैसा अनुभव पाएं.
पूरे शरीर की ट्रैकिंग यह मॉडल 33 मुख्य कंकाल लैंडमार्क पॉइंट दिखाता है, जिनमें हाथ और पैरों की पोज़िशन भी शामिल हैं.
InFrame संभावना के साथ स्कोर हर लैंडमार्क के लिए, एक माप जो इस बात की संभावना को दिखाता है कि लैंडमार्क, इमेज फ़्रेम में है. स्कोर की रेंज 0.0 से 1.0 तक है, जिसमें 1.0 का मतलब है कि ज़्यादा आत्मविश्वास है.
ऑप्टिमाइज़ किए गए दो SDK टूल Pixel 4 और iPhone X जैसे आधुनिक फ़ोन पर, बेस SDK टूल रीयल टाइम में काम करता है. यह ~30 और ~45 FPS (फ़्रेम प्रति सेकंड) की दर पर नतीजे दिखाता है. हालांकि, लैंडमार्क निर्देशांक अलग-अलग तरह से सटीक हो सकते हैं. सटीक SDK टूल, धीमे फ़्रेमरेट पर नतीजे देता है. हालांकि, यह ज़्यादा सटीक कोऑर्डिनेट वैल्यू जनरेट करता है.
गहराई के विश्लेषण के लिए Z कोऑर्डिनेट यह वैल्यू यह तय करने में मदद कर सकती है कि उपयोगकर्ता के शरीर के कुछ हिस्से उपयोगकर्ताओं के कूल्हों के सामने हैं या पीछे. ज़्यादा जानकारी के लिए, नीचे Z कोऑर्डिनेट सेक्शन देखें.

पोज़ डिटेक्शन एपीआई, चेहरे की पहचान करने वाला एपीआई जैसा ही है. यह लैंडमार्क का सेट और उनकी जगह की जानकारी दिखाता है. हालांकि, चेहरे की पहचान करने वाली सुविधा, मुस्कुराते हुए मुंह या खुली आंखें जैसी सुविधाओं को भी पहचानने की कोशिश करती है. हालांकि, पोज़ डिटेक्शन सुविधा में, पोज़ या पोज़ में दिख रहे लैंडमार्क का कोई मतलब नहीं होता. पोज़ को समझने के लिए अपने एल्गोरिदम बनाए जा सकते हैं. कुछ उदाहरणों के लिए, पोज़ क्लासिफ़िकेशन के बारे में सलाह देखें.

आस-पास की हलचल की पहचान करने वाली सुविधा, किसी इमेज में मौजूद सिर्फ़ एक व्यक्ति की पहचान कर सकती है. अगर इमेज में दो लोग हैं, तो मॉडल सबसे ज़्यादा भरोसे वाले व्यक्ति को लैंडमार्क असाइन करेगा.

Z कोऑर्डिनेट

Z कोऑर्डिनेट एक एक्सपेरिमेंटल वैल्यू है, जिसका हिसाब हर लैंडमार्क के लिए लगाया जाता है. इसे X और Y निर्देशांकों की तरह "इमेज पिक्सल" में मापा जाता है, लेकिन यह सही 3D वैल्यू नहीं है. Z ऐक्सिस, कैमरे के लंबवत होता है और किसी व्यक्ति के कूल्हों के बीच से गुज़रता है. Z ऐक्सिस से कूल्हों के बीच की शुरुआत, करीब बीच के बिंदु से होती है (कैमरे के मुकाबले बाएं/दाएं और आगे/पीछे). नेगेटिव Z वैल्यू, कैमरे की तरफ़ होती हैं. पॉज़िटिव वैल्यू इससे दूर होती हैं. Z निर्देशांक में ऊपरी या निचली सीमा नहीं होती है.

सैंपल नतीजे

नीचे दी गई टेबल में, दाईं ओर के पोज़ में कुछ लैंडमार्क के लिए निर्देशांक और इनफ़्रेम की संभावना दिखती है. ध्यान दें कि उपयोगकर्ता के बाएं हाथ के लिए Z निर्देशांक नेगेटिव हैं, क्योंकि वे सब्जेक्ट के कूल्हे के बीच में और कैमरे की ओर होते हैं.

लैंडमार्क	Type	रैंक	InFrameLikelihood
11	LEFT_SHOULDER	(734.9671, 550.7924, -118.11934)	0.9999038
12	RIGHT_SHOULDER	(391.27032, 583.2485, -321.15836)	0.9999894
13	LEFT_ELBOW	(903.83704, 754.676, -219.67009)	0.9836427
14	RIGHT_ELBOW	(322.18152, 842.5973, -179.28519)	0.99970156
15	LEFT_WRIST	(1073.8956, 654.9725, -820.93463)	0.9737737
16	RIGHT_WRIST	(218.27956, 1015.70435, -683.6567)	0.995568
17	LEFT_PINKY	(1146.1635, 609.6432, -956.9976)	0.95273364
18	RIGHT_PINKY	(176.17755, 1065.838, -776.5006)	0.9785348

हुड के नीचे

इस एपीआई के बुनियादी एमएल मॉडल को लागू करने के बारे में ज़्यादा जानकारी के लिए, हमारा Google AI ब्लॉग पोस्ट देखें.

मशीन लर्निंग की निष्पक्षता के बारे में ज़्यादा जानने और मॉडल को ट्रेनिंग देने के तरीके के बारे में ज़्यादा जानने के लिए, हमारा मॉडल कार्ड देखें