
ML Kit Pose Detection API เป็นโซลูชันอเนกประสงค์ที่ใช้งานง่ายสําหรับนักพัฒนาแอปในการตรวจหาท่าทางของวัตถุแบบเรียลไทม์จากวิดีโอแบบต่อเนื่องหรือภาพนิ่ง ท่าทางจะอธิบายตําแหน่งของร่างกายขณะหนึ่งในช่วงเวลาต่างๆ ด้วยชุดจุดโครงกระดูก จุดสังเกตต่างๆ สอดคล้องกับส่วนต่างๆ ของร่างกาย เช่น ไหล่และสะโพก คุณใช้ตําแหน่งสัมพัทธ์ของจุดสังเกตเพื่อแยกตําแหน่งหนึ่งไปยังอีกตําแหน่งหนึ่งได้
การตรวจจับ ML Kit Pose Detection ทําให้เห็นรูปร่างโครงกระดูก 33 จุดทั้งตัวที่ประกอบไปด้วยจุดสังเกตบนใบหน้า (หู ตา ปาก และจมูก) รวมถึงจุดบนมือและเท้า รูปที่ 1 ด้านล่างแสดงจุดสังเกตที่มองผ่านกล้องของผู้ใช้ จึงเป็นรูปมิเรอร์ ด้านขวาของผู้ใช้จะปรากฏที่ด้านซ้ายของรูปภาพ ดังนี้

การตรวจจับ ML Kit ไม่จําเป็นต้องใช้อุปกรณ์พิเศษหรือความเชี่ยวชาญด้าน ML เพื่อให้ได้ผลลัพธ์ที่ยอดเยี่ยม เทคโนโลยีนี้ช่วยให้นักพัฒนาแอป สร้างประสบการณ์ที่ดีที่สุดให้แก่ผู้ใช้ด้วยโค้ดเพียงไม่กี่บรรทัด
ต้องแสดงใบหน้าของผู้ใช้เพื่อตรวจหาท่าทาง การตรวจจับท่าทางจะทํางานได้ดีที่สุดเมื่อเนื้อหาทั้งตัวปรากฏในเฟรม แต่ตรวจพบท่าทางบางส่วน ในกรณีนี้ จุดสังเกตที่ไม่รู้จัก จะได้รับการกําหนดพิกัดนอกรูปภาพ
ความสามารถหลัก
- การรองรับข้ามแพลตฟอร์ม คุณจะใช้งานได้ทั้งใน Android และ iOS
- การติดตามร่างกายแบบเต็ม โมเดลนี้แสดงจุดสําคัญในโครงกระดูก 33 จุด รวมทั้งตําแหน่งของมือและเท้า
- คะแนน InFrameLikelihood สําหรับจุดสังเกตแต่ละรายการ การวัดที่บ่งชี้ถึงความเป็นไปได้ที่จุดสังเกตจะอยู่ภายในเฟรมรูปภาพ คะแนนมีช่วงตั้งแต่ 0.0 ถึง 1.0 โดย 1.0 แสดงถึงความมั่นใจสูง
- SDK ที่ได้รับการเพิ่มประสิทธิภาพ 2 รายการ SDK พื้นฐานทํางานแบบเรียลไทม์ในโทรศัพท์รุ่นใหม่ เช่น Pixel 4 และ iPhone X โดยจะแสดงผลที่อัตราประมาณ 30 และ 45 FPS แต่ความแม่นยําของพิกัดจุดสังเกตอาจแตกต่างกันไป SDK ที่ถูกต้องแสดงผลลัพธ์ในอัตราเฟรมที่ช้า แต่สร้างค่าพิกัดที่แม่นยํายิ่งขึ้น
- พิกัดของ Z สําหรับการวิเคราะห์ความลึก ค่านี้ช่วยระบุได้ว่าส่วนใดของร่างกายของผู้ใช้อยู่ตรงหน้าหรือหลังสะโพกของผู้ใช้ ดูข้อมูลเพิ่มเติมได้ในส่วนพิกัด Z ด้านล่าง
Pose Detection API คล้ายกับ Facial Recognition API ซึ่งแสดงชุดจุดสังเกตและตําแหน่ง อย่างไรก็ตาม แม้ว่าการตรวจจับใบหน้าจะพยายามจดจําฟีเจอร์ต่างๆ ด้วย เช่น การยิ้มปากหรือหลับตา แต่การตรวจจับ Pose ไม่ได้แนบความหมายใดๆ กับเครื่องหมายตําแหน่งหรือท่าทาง คุณจะสร้างอัลกอริทึมของตัวเองเพื่อตีความท่าทางได้ ดูตัวอย่างในเคล็ดลับการแยกประเภทรูป
การตรวจหาโพลสามารถตรวจพบบุคคลในรูปภาพได้เพียงคนเดียว หากคน 2 คนอยู่ในรูปภาพ โมเดลจะกําหนดจุดสังเกตให้กับบุคคลที่ตรวจพบด้วยความมั่นใจสูงสุด
พิกัด Z
พิกัด Z เป็นค่าทดสอบที่คํานวณสําหรับจุดสังเกตทั้งหมด มีการวัดเป็น "พิกเซลรูปภาพ" เช่น พิกัด X และ Y แต่ไม่ใช่ค่า 3 มิติจริง แกน Z ตั้งฉากกับกล้องและเคลื่อนผ่านระหว่างสะโพกของวัตถุ จุดเริ่มต้นของแกน Z คือจุดกึ่งกลางโดยประมาณระหว่างสะโพก (ซ้าย/ขวา และหน้า/หลังเมื่อเทียบกับกล้อง) ค่า Z ที่ลบจะหันไปทางกล้อง ส่วนค่าบวกอยู่ห่างออกไป พิกัด Z ไม่มีขอบเขตบนหรือล่าง
ผลลัพธ์ตัวอย่าง
ตารางต่อไปนี้แสดงพิกัดและ InFrameLikelihood สําหรับจุดสังเกต 2-3 จุดทางด้านขวา โปรดทราบว่าพิกัด Z สําหรับมือซ้ายของผู้ใช้เป็นค่าลบ เนื่องจากอยู่ตรงกึ่งกลางของสะโพกของตัวผู้และกล้อง

สถานที่สำคัญ | ประเภท | สถานการณ์ | เฟรมที่คล้ายกัน |
---|---|---|---|
11 | ที่เหลืออยู่ | (734.9671, 550.7924, -118.11934) | 0.9999038 |
12 | ขวา | (391.27032, 583.2485, -321.15836) | 0.9999894 |
13 | ซ้าย_ELBOW | (903.83704, 754.676, -219.67009) | 0.9836427 |
14 | ขวาขวา | (322.18152, 842.5973, -179.28519) | 0.99970156 |
15 | ซ้าย | (1073.8956, 654.9725, -820.93463) | 0.9737737 |
16 | ขวา | (218.27956, 1015.70435, -683.6567) | 0.995568 |
17 | ซ้าย_PINKY | (1146.1635, 609.6432, -956.9976) | 0.95273364 |
18 | ขวา_ปักหมุด | (176.17755, 1065.838, -776.5006) | 0.9785348 |
กลไกการทํางาน
ดูรายละเอียดเพิ่มเติมเกี่ยวกับโมเดล ML ที่สําคัญสําหรับ API นี้ได้ที่บล็อกโพสต์ Google AI
ดูข้อมูลเพิ่มเติมเกี่ยวกับแนวทางปฏิบัติด้านความเป็นธรรมของ ML และวิธีฝึกโมเดลได้ที่การ์ดโมเดลของเรา