การตรวจจับท่า

ML Kit Pose Detection API เป็นโซลูชันอเนกประสงค์ที่ใช้งานง่ายสําหรับนักพัฒนาแอปในการตรวจหาท่าทางของวัตถุแบบเรียลไทม์จากวิดีโอแบบต่อเนื่องหรือภาพนิ่ง ท่าทางจะอธิบายตําแหน่งของร่างกายขณะหนึ่งในช่วงเวลาต่างๆ ด้วยชุดจุดโครงกระดูก จุดสังเกตต่างๆ สอดคล้องกับส่วนต่างๆ ของร่างกาย เช่น ไหล่และสะโพก คุณใช้ตําแหน่งสัมพัทธ์ของจุดสังเกตเพื่อแยกตําแหน่งหนึ่งไปยังอีกตําแหน่งหนึ่งได้

iOS Android

การตรวจจับ ML Kit Pose Detection ทําให้เห็นรูปร่างโครงกระดูก 33 จุดทั้งตัวที่ประกอบไปด้วยจุดสังเกตบนใบหน้า (หู ตา ปาก และจมูก) รวมถึงจุดบนมือและเท้า รูปที่ 1 ด้านล่างแสดงจุดสังเกตที่มองผ่านกล้องของผู้ใช้ จึงเป็นรูปมิเรอร์ ด้านขวาของผู้ใช้จะปรากฏที่ด้านซ้ายของรูปภาพ ดังนี้

รูปที่ 1 จุดสังเกต

การตรวจจับ ML Kit ไม่จําเป็นต้องใช้อุปกรณ์พิเศษหรือความเชี่ยวชาญด้าน ML เพื่อให้ได้ผลลัพธ์ที่ยอดเยี่ยม เทคโนโลยีนี้ช่วยให้นักพัฒนาแอป สร้างประสบการณ์ที่ดีที่สุดให้แก่ผู้ใช้ด้วยโค้ดเพียงไม่กี่บรรทัด

ต้องแสดงใบหน้าของผู้ใช้เพื่อตรวจหาท่าทาง การตรวจจับท่าทางจะทํางานได้ดีที่สุดเมื่อเนื้อหาทั้งตัวปรากฏในเฟรม แต่ตรวจพบท่าทางบางส่วน ในกรณีนี้ จุดสังเกตที่ไม่รู้จัก จะได้รับการกําหนดพิกัดนอกรูปภาพ

ความสามารถหลัก

  • การรองรับข้ามแพลตฟอร์ม คุณจะใช้งานได้ทั้งใน Android และ iOS
  • การติดตามร่างกายแบบเต็ม โมเดลนี้แสดงจุดสําคัญในโครงกระดูก 33 จุด รวมทั้งตําแหน่งของมือและเท้า
  • คะแนน InFrameLikelihood สําหรับจุดสังเกตแต่ละรายการ การวัดที่บ่งชี้ถึงความเป็นไปได้ที่จุดสังเกตจะอยู่ภายในเฟรมรูปภาพ คะแนนมีช่วงตั้งแต่ 0.0 ถึง 1.0 โดย 1.0 แสดงถึงความมั่นใจสูง
  • SDK ที่ได้รับการเพิ่มประสิทธิภาพ 2 รายการ SDK พื้นฐานทํางานแบบเรียลไทม์ในโทรศัพท์รุ่นใหม่ เช่น Pixel 4 และ iPhone X โดยจะแสดงผลที่อัตราประมาณ 30 และ 45 FPS แต่ความแม่นยําของพิกัดจุดสังเกตอาจแตกต่างกันไป SDK ที่ถูกต้องแสดงผลลัพธ์ในอัตราเฟรมที่ช้า แต่สร้างค่าพิกัดที่แม่นยํายิ่งขึ้น
  • พิกัดของ Z สําหรับการวิเคราะห์ความลึก ค่านี้ช่วยระบุได้ว่าส่วนใดของร่างกายของผู้ใช้อยู่ตรงหน้าหรือหลังสะโพกของผู้ใช้ ดูข้อมูลเพิ่มเติมได้ในส่วนพิกัด Z ด้านล่าง

Pose Detection API คล้ายกับ Facial Recognition API ซึ่งแสดงชุดจุดสังเกตและตําแหน่ง อย่างไรก็ตาม แม้ว่าการตรวจจับใบหน้าจะพยายามจดจําฟีเจอร์ต่างๆ ด้วย เช่น การยิ้มปากหรือหลับตา แต่การตรวจจับ Pose ไม่ได้แนบความหมายใดๆ กับเครื่องหมายตําแหน่งหรือท่าทาง คุณจะสร้างอัลกอริทึมของตัวเองเพื่อตีความท่าทางได้ ดูตัวอย่างในเคล็ดลับการแยกประเภทรูป

การตรวจหาโพลสามารถตรวจพบบุคคลในรูปภาพได้เพียงคนเดียว หากคน 2 คนอยู่ในรูปภาพ โมเดลจะกําหนดจุดสังเกตให้กับบุคคลที่ตรวจพบด้วยความมั่นใจสูงสุด

พิกัด Z

พิกัด Z เป็นค่าทดสอบที่คํานวณสําหรับจุดสังเกตทั้งหมด มีการวัดเป็น "พิกเซลรูปภาพ" เช่น พิกัด X และ Y แต่ไม่ใช่ค่า 3 มิติจริง แกน Z ตั้งฉากกับกล้องและเคลื่อนผ่านระหว่างสะโพกของวัตถุ จุดเริ่มต้นของแกน Z คือจุดกึ่งกลางโดยประมาณระหว่างสะโพก (ซ้าย/ขวา และหน้า/หลังเมื่อเทียบกับกล้อง) ค่า Z ที่ลบจะหันไปทางกล้อง ส่วนค่าบวกอยู่ห่างออกไป พิกัด Z ไม่มีขอบเขตบนหรือล่าง

ผลลัพธ์ตัวอย่าง

ตารางต่อไปนี้แสดงพิกัดและ InFrameLikelihood สําหรับจุดสังเกต 2-3 จุดทางด้านขวา โปรดทราบว่าพิกัด Z สําหรับมือซ้ายของผู้ใช้เป็นค่าลบ เนื่องจากอยู่ตรงกึ่งกลางของสะโพกของตัวผู้และกล้อง

สถานที่สำคัญประเภทสถานการณ์เฟรมที่คล้ายกัน
11ที่เหลืออยู่(734.9671, 550.7924, -118.11934)0.9999038
12 ขวา (391.27032, 583.2485, -321.15836) 0.9999894
13 ซ้าย_ELBOW (903.83704, 754.676, -219.67009) 0.9836427
14 ขวาขวา (322.18152, 842.5973, -179.28519) 0.99970156
15 ซ้าย (1073.8956, 654.9725, -820.93463) 0.9737737
16 ขวา (218.27956, 1015.70435, -683.6567) 0.995568
17 ซ้าย_PINKY (1146.1635, 609.6432, -956.9976) 0.95273364
18 ขวา_ปักหมุด (176.17755, 1065.838, -776.5006) 0.9785348

กลไกการทํางาน

ดูรายละเอียดเพิ่มเติมเกี่ยวกับโมเดล ML ที่สําคัญสําหรับ API นี้ได้ที่บล็อกโพสต์ Google AI

ดูข้อมูลเพิ่มเติมเกี่ยวกับแนวทางปฏิบัติด้านความเป็นธรรมของ ML และวิธีฝึกโมเดลได้ที่การ์ดโมเดลของเรา