การตรวจจับท่า

จัดทุกอย่างให้เป็นระเบียบอยู่เสมอด้วยคอลเล็กชัน บันทึกและจัดหมวดหมู่เนื้อหาตามค่ากำหนดของคุณ

ML Kit Pose Detection API เป็นโซลูชันอเนกประสงค์ที่คล่องตัวสําหรับนักพัฒนาแอปในการตรวจหาท่าทางของวัตถุแบบเรียลไทม์ เช่น จากภาพนิ่งหรือวิดีโอคงที่ ท่าทางอธิบายตําแหน่งร่างกาย ณ เวลาหนึ่งที่มีช่วงสําคัญของโครงกระดูกชิ้นหนึ่ง จุดสังเกตสอดคล้องกับส่วนต่างๆ ของร่างกาย เช่น ไหล่และสะโพก ตําแหน่งสัมพัทธ์ของจุดสังเกตสามารถใช้เพื่อแยกท่าทางหนึ่งออกจากอีกตําแหน่งได้

iOS Android

ML Kit Pose Detection สร้างโครงกระดูกเต็มตัว 33 จุดที่มีทั้งจุดสังเกตบนใบหน้า (หู ตา ปาก และจมูก) รวมถึงจุดบนมือและเท้า รูปที่ 1 ด้านล่างนี้แสดงจุดสังเกตที่มองผ่านกล้องต่อผู้ใช้ ดังนั้นนี่จึงเป็นรูปภาพมิเรอร์ ด้านขวาของผู้ใช้จะปรากฏทางด้านซ้ายของรูปภาพ

ภาพที่ 1 จุดสังเกต

การตรวจสอบการวาง ML Kit ไม่จําเป็นต้องใช้อุปกรณ์พิเศษหรือความเชี่ยวชาญด้าน ML เพื่อให้ได้ผลลัพธ์ที่ยอดเยี่ยม เทคโนโลยีนี้นักพัฒนาซอฟต์แวร์สามารถสร้าง ประสบการณ์การใช้งานรูปแบบหนึ่งให้กับผู้ใช้ด้วยโค้ดเพียงไม่กี่บรรทัด

จะต้องมีใบหน้าของผู้ใช้เพื่อตรวจจับท่าทาง การโพสท่าทางจะทํางานได้ดีที่สุดเมื่อเนื้อหาทั้งตัวของวัตถุปรากฏในเฟรม แต่ก็ตรวจพบท่าที่ร่างกายบางส่วนด้วย ในกรณีนี้ จุดสังเกตที่ระบบไม่รู้จักจะกําหนดพิกัดไว้นอกรูปภาพ

ความสามารถหลัก

  • การรองรับข้ามแพลตฟอร์ม คุณจะได้รับประสบการณ์เดียวกันทั้งใน Android และ iOS
  • การติดตามร่างกายเต็มรูปแบบ โมเดลนี้แสดงจุดสําคัญของโครงกระดูก 33 จุด รวมถึงตําแหน่งของมือและเท้า
  • คะแนน InFrameLikelihood สําหรับจุดสังเกตแต่ละแห่ง การวัดที่บ่งชี้ถึงความเป็นไปได้ที่จุดสังเกตนั้นๆ อยู่ภายในเฟรมรูปภาพ คะแนนมีช่วงตั้งแต่ 0.0 ถึง 1.0 ซึ่ง 1.0 หมายถึงความมั่นใจสูง
  • SDK ที่เพิ่มประสิทธิภาพ 2 รายการ SDK พื้นฐานจะทํางานแบบเรียลไทม์ในโทรศัพท์รุ่นใหม่ เช่น Pixel 4 และ iPhone X โดยจะแสดงผลการค้นหาที่อัตราประมาณ ~30 และ ~45 FPS ตามลําดับ อย่างไรก็ตาม ความแม่นยําของพิกัดจุดสังเกตอาจแตกต่างกันไป SDK ที่แม่นยําจะแสดงผลผลลัพธ์ที่อัตราเฟรมช้าลง แต่สร้างพิกัดได้แม่นยํามากขึ้น
  • พิกัด Z สําหรับการวิเคราะห์เชิงลึก ค่านี้ช่วยพิจารณาว่าเนื้อหาส่วนของผู้ใช้อยู่ด้านหน้าหรือด้านหลังผู้ใช้&#39 สะโพก ดูข้อมูลเพิ่มเติมได้ที่ส่วน Z Coordinate ด้านล่าง

Pose Detection API คล้ายกับ Facial Recognition API ที่แสดงผลชุดจุดสังเกตและตําแหน่ง อย่างไรก็ตาม ในขณะที่การตรวจจับใบหน้ายังพยายามจดจําฟีเจอร์ต่างๆ เช่น ปากที่ยิ้มหรือตาเปิด การตรวจจับท่าทางจะไม่แนบองค์ประกอบใดๆ กับจุดสังเกตในท่าทางหรือท่าทาง คุณสามารถสร้างอัลกอริทึมของคุณเองเพื่อตีความท่าทางได้ ดูเคล็ดลับการแยกประเภทท่าทางเพื่อดูตัวอย่าง

การตรวจหาบุคคลในบ้านจะตรวจจับบุคคลในรูปภาพได้เพียง 1 คนเท่านั้น หากมีคนอยู่ในรูปภาพ 2 คน โมเดลจะกําหนดจุดสังเกตให้บุคคลที่ตรวจพบด้วยความเชื่อมั่นสูงสุด

พิกัด Z

พิกัด Z เป็นค่าการทดลองที่คํานวณสําหรับจุดสังเกตทั้งหมด มีการวัดเป็น "พิกเซลภาพ&เครื่องหมายคําพูด เหมือนกับพิกัด X และ Y แต่ไม่ใช่ค่า 3 มิติจริง แกน Z ตั้งฉากกับกล้องแล้วเคลื่อนที่ระหว่างสะโพก จุดเริ่มต้นของแกน Z เป็นจุดศูนย์กลางระหว่างสะโพก (ซ้าย/ขวา และด้านหน้า/หลังที่เกี่ยวข้องกับกล้อง) ค่า Z เชิงลบเป็นค่าที่ตรงกับกล้อง ค่าบวกจะอยู่นอกกล้อง พิกัด Z ไม่มีขอบเขตบนหรือล่าง

ผลลัพธ์ตัวอย่าง

ตารางต่อไปนี้แสดงพิกัดและ InFrameLikelihood สําหรับจุดสังเกตบางส่วนในด้านขวา โปรดทราบว่าพิกัด Z สําหรับรูปซ้ายมือของผู้ใช้เป็นค่าลบ เนื่องจากอยู่ด้านหน้าของตัวต่อรูป ##99 และตรงกลางของกล้องถ่ายรูป

สถานที่สำคัญประเภทสถานการณ์ความเป็นไปได้ในเฟรม
11ผู้ที่ออกจากเซสชัน(734.9671, 550.7924, -118.11934)0.9999038
12 ขวา (391.27032, 583.2485, -321.15836) 0.9999894
13 ซ้าย_เอลโบว์ (903.83704, 754.676, -219.67009) 0.9836427
14 ขวาล่าง (322.18152, 842.5973, -179.28519) 0.99970156
15 ซ้าย (1073.8956, 654.9725, -820.93463) 0.9737737
16 ผู้เขียนที่ถูกต้อง (218.27956, 1015.70435, -683.6567) 0.995568
17 ฝั่งซ้าย (1146.1635, 609.6432, -956.9976) 0.95273364
18 ตรึงไว้ (176.17755, 1065.838, -776.5006) 0.9785348

ขั้นสูง

ดูรายละเอียดเพิ่มเติมเกี่ยวกับโมเดล ML ที่สําคัญสําหรับ API นี้ได้ที่บล็อกโพสต์ Google AI

ดูข้อมูลเพิ่มเติมเกี่ยวกับแนวทางปฏิบัติด้านความเป็นธรรมของ ML และวิธีฝึกโมเดลได้ที่การ์ดโมเดล