आस-पास की जगहों का पता लगाना

संग्रह की मदद से व्यवस्थित रहें अपनी प्राथमिकताओं के आधार पर, कॉन्टेंट को सेव करें और कैटगरी में बांटें.

एमएल किट पोज़ डिटेक्शन एपीआई, ऐप्लिकेशन डेवलपर के लिए लाइट टाइप की सुविधा देता है. इसकी मदद से, किसी लगातार वीडियो या स्टैटिक इमेज से, रीयल टाइम में व्यक्ति के शरीर की बनावट का पता लगाया जा सकता है. आस-पास की मुद्रा में शरीर और उसकी स्थिति को, एक ही समय में कंकाल की मशहूर जगहों के सेट के हिसाब से दिखाया जाता है. ये लैंडमार्क, शरीर के अलग-अलग अंगों, जैसे कि कंधे और कमर के हिसाब से होते हैं. लैंडमार्क की रिलेटिव पोज़िशन का इस्तेमाल, एक पोज़ को दूसरे से अलग दिखाने के लिए किया जा सकता है.

iOS Android

एमएल किट पोज़ का पता लगाने के लिए, पूरे शरीर में 33 पॉइंट वाले कंकाल का मिलान किया जाता है. इसमें, चेहरे, कान, मुंह, नाक, और चेहरे (जैसे कि हाथ और पैरों) से जुड़े पॉइंट शामिल होते हैं. नीचे दी गई पहली इमेज में उन लैंडमार्क को दिखाया गया है जो उपयोगकर्ता को कैमरे में दिखते हैं. इसलिए, इसे मिरर इमेज कहा जाता है. इमेज के बाईं ओर, उपयोगकर्ता का दायां हिस्सा दिखता है:

पहली इमेज. लैंडमार्क

एमएल किट पोज़ का पता लगाने की सुविधा के लिए खास उपकरणों या एमएल की विशेषज्ञता की ज़रूरत नहीं होती है. इस टेक्नोलॉजी की मदद से, डेवलपर अपने उपयोगकर्ताओं के लिए अलग-अलग तरह के अनुभव बना सकते हैं. इसके लिए, उन्हें बस कोड की कुछ लाइनें बनानी होती हैं.

किसी पोज़ को पहचानने के लिए, उपयोगकर्ता का चेहरा मौजूद होना चाहिए. पोज़ की पहचान करने की सुविधा तब सबसे अच्छी तरह काम करती है, जब सब्जेक्ट का पूरा शरीर, फ़्रेम पर दिखता है, लेकिन वह आंशिक पोज़ के बारे में भी बताता है. ऐसी स्थिति में, जिन लैंडमार्क की पहचान नहीं की गई है उन्हें इमेज के बाहर निर्देशांक असाइन किए जाते हैं.

मुख्य क्षमताएं

  • क्रॉस-प्लैटफ़ॉर्म सहायता Android और iOS दोनों पर एक जैसे अनुभव पाएं.
  • बॉडी ट्रैकिंग की पूरी सुविधा यह मॉडल, 33 मुख्य कंकाल के निशान दिखाता है. इसमें आपके हाथ और पैरों की पोज़िशन भी शामिल होती हैं.
  • InFrameलाइकलाइड स्कोर हर लैंडमार्क के लिए, यह मेज़र करता है कि इमेज फ़्रेम में लैंडमार्क की क्या संभावना है. स्कोर 0.0 से 1.0 तक होता है, जहां 1.0 आत्मविश्वास दिखाता है.
  • दो ऑप्टिमाइज़ किए गए SDK टूल बेस SDK, Pixel 4 और iPhone X जैसे आधुनिक फ़ोन पर रीयल टाइम में काम करता है. यह करीब 30 से 45 FPS (फ़्रेम प्रति सेकंड) की दर से नतीजे दिखाता है. हालांकि, लैंडमार्क निर्देशांक के सटीक होने में अंतर हो सकता है. सटीक SDK टूल, रेंडर होने में ज़्यादा समय लेने वाले फ़्रेम दर पर नतीजे देता है. हालांकि, यह सटीक वैल्यू देता है.
  • डेप्थ विश्लेषण के लिए Z निर्देशांक यह मान यह तय करने में मदद कर सकता है कि उपयोगकर्ताओं के मुख्य भाग उपयोगकर्ताओं के सामने हैं या पीछे 39; हिप. ज़्यादा जानकारी के लिए, नीचे दिया गया Z निर्देशांक सेक्शन देखें.

पोज़ डिटेक्शन एपीआई, फ़ेशियल आइडेंटिफ़ायर एपीआई की तरह ही है, जिसमें लैंडमार्क और उनकी जगह की जानकारी का एक सेट मिलता है. हालांकि, चेहरे की पहचान करने की सुविधा मुस्कुराते हुए या खुली आंखों जैसी सुविधाएं इस्तेमाल करने की कोशिश करती है. फिर भी, आस-पास की जगहों की पहचान करने से, इन स्थितियों में पोज़ या पोज़ (स्थिति) में कोई फ़र्क़ नहीं पड़ता. आप किसी पोज़ को समझने के लिए खुद का एल्गोरिदम बना सकते हैं. कुछ उदाहरणों के लिए, पोज़ की कैटगरी तय करने से जुड़ी सलाह देखें.

आस-पास मौजूद फ़ोटो की पहचान करने की सुविधा से, इमेज में सिर्फ़ एक व्यक्ति की पहचान की जा सकती है. अगर इमेज में दो लोग शामिल हैं, तो मॉडल उस व्यक्ति को लैंडमार्क असाइन करेगा जिसके बारे में सबसे ज़्यादा भरोसा है.

Z निर्देशांक

Z कोऑर्डिनेट एक प्रयोग के तौर पर दी गई वैल्यू है, जिसका हिसाब हर लैंडमार्क के लिए लगाया जाता है. इसे Xa & Y निर्देशांकों की तरह मापा जाता है, लेकिन यह असल 3D मान नहीं है. Z ऐक्सिस, कैमरे के पर्पेंडिकुलर है और विषय और कूल्हे के बीच की दूरी से गुज़रता है. Z अक्ष का ऑरिजिन मूल तौर पर, कूल्हे (बाएं/दाएं, और सामने/पीछे वाले) के बीच के केंद्र बिंदु होता है. नेगेटिव Z वैल्यू, कैमरे की ओर होती हैं; पॉज़िटिव वैल्यू उन ऐप्लिकेशन से दूर होती हैं. Z निर्देशांक की ऊपरी या निचली सीमा नहीं है.

नतीजों के उदाहरण

नीचे दी गई टेबल, दाईं ओर की पोज़ में कुछ लैंडमार्क के लिए निर्देशांक और InFrame पढ़ें. ध्यान दें कि उपयोगकर्ता के बाएं हाथ के लिए Z का निर्देशांक नेगेटिव होता है, क्योंकि यह सब्जेक्ट के सामने होता है (' कूल्हे और #39; बीच में और कैमरे की ओर होता है).

लैंडमार्कटाइपपोज़िशनइनफ़्रेमलाइकलाइड
11LEFT_SHHOLDER(734.9671, 550.7924, -118.11934)09.999038
12 राइट_शोल्डर (391.27032, 583.2485, -321.15836) 0.9999894
13 LEFT_ELBOW (903.83704, 754.676, -219.67009) 0.9836427
14 CANNOT TRANSLATE (322.18152, 842.5973, -179.28519) 0.99970156
15 बाकी बाबू (1073.8956, 654.9725, -820.93463) 0.9737737
16 राइट_राइट (218.27956, 1015.70435, -683.6567) 0.995568
17 LEFT_PINKY (1146.1635, 609.6432, -956.9976) 0.95273364
18 राइट_पिनकी (176.17755, 1065.838, -776.5006) 0.9785348

बारीकियों के बारे में जानें

इस एपीआई के लिए दिए गए एमएल मॉडल के बारे में ज़्यादा जानने के लिए, हमारी Google एआई (AI) ब्लॉग पोस्ट देखें.

एमएल की फ़ेयरनेस से जुड़ी हमारी प्रक्रियाओं और मॉडल को ट्रेनिंग देने के तरीकों के बारे में ज़्यादा जानने के लिए, हमारा मॉडल कार्ड देखें