
ML Kit Pose Detection API adalah solusi serbaguna yang ringan bagi developer aplikasi untuk mendeteksi pose isi subjek secara real time dari video statis atau gambar statis. Pose menjelaskan posisi tubuh pada satu waktu dengan serangkaian titik kerangka terkenal. Tempat terkenal sesuai dengan berbagai bagian tubuh seperti bahu dan pinggul. Posisi relatif penanda dapat digunakan untuk membedakan satu pose dari yang lain.
ML Kit Pose Detection menghasilkan pencocokan kerangka 33 titik seluruh tubuh yang mencakup bangunan terkenal wajah (telinga, mata, mulut, dan hidung) dan titik di tangan dan kaki. Gambar 1 di bawah menunjukkan bangunan terkenal yang melihat melalui kamera pada pengguna, jadi ini adalah gambar cermin. Sisi kanan pengguna muncul di sebelah kiri gambar:

Deteksi Pose ML Kit tidak memerlukan peralatan khusus atau keahlian ML untuk mencapai hasil yang luar biasa. Dengan teknologi ini, developer dapat membuat pengalaman unik untuk penggunanya hanya dengan beberapa baris kode.
Wajah pengguna harus ada untuk mendeteksi pose. Deteksi pose berfungsi terbaik saat seluruh tubuh subjek terlihat dalam frame, tetapi juga mendeteksi pose tubuh yang parsial. Dalam hal ini, tempat terkenal yang tidak dikenali akan diberi koordinat di luar gambar.
Kemampuan utama
- Dukungan lintas platform Nikmati pengalaman yang sama di Android dan iOS.
- Pelacakan seluruh tubuh Model menampilkan 33 titik kerangka penting, termasuk posisi tangan dan kaki.
- Skor InFrameLikelihood Untuk setiap tempat terkenal, ukuran yang menunjukkan probabilitas bahwa tempat terkenal tersebut berada dalam bingkai gambar. Skor ini memiliki rentang 0,0 hingga 1,0, dengan 1,0 menunjukkan keyakinan tinggi.
- Dua SDK yang dioptimalkan SDK dasar berjalan secara real time di ponsel modern seperti Pixel 4 dan iPhone X. Alat ini menampilkan hasil dengan kecepatan masing-masing ~30 dan ~45 fps. Namun, presisi koordinat tempat terkenal dapat bervariasi. SDK yang akurat akan menampilkan hasil pada kecepatan frame yang lebih lambat, tetapi menghasilkan nilai koordinat yang lebih akurat.
- Koordinat Z untuk analisis kedalaman Nilai ini dapat membantu menentukan apakah bagian tubuh pengguna berada di depan atau di belakang pinggul pengguna. Untuk informasi selengkapnya, lihat bagian Koordinat Z di bawah.
Pose Detection API mirip dengan Facial Recognition API karena menampilkan kumpulan tempat terkenal dan lokasinya. Namun, meskipun Deteksi Wajah juga mencoba mengenali fitur seperti mulut yang tersenyum atau mata terbuka, Deteksi Pose tidak menyertakan makna apa pun dalam bangunan terkenal dalam pose atau pose itu sendiri. Anda dapat membuat algoritme sendiri untuk menafsirkan pose. Lihat Tips Klasifikasi Pose untuk beberapa contoh.
Deteksi pose hanya dapat mendeteksi satu orang dalam satu gambar. Jika dua orang berada dalam gambar, model akan menetapkan bangunan terkenal untuk orang yang terdeteksi dengan keyakinan tertinggi.
Koordinat Z
Koordinat Z adalah nilai eksperimental yang dihitung untuk setiap tempat terkenal. Ini diukur dalam "piksel gambar" seperti koordinat X dan Y, tetapi bukan nilai 3D yang sebenarnya. Sumbu Z tegak lurus dengan kamera dan melewati pinggul subjek. Asal sumbu Z adalah perkiraan titik tengah antara pinggul (kiri/kanan dan depan/belakang relatif terhadap kamera). Nilai Z negatif mengarah ke kamera; nilai positif jauh dari nilai tersebut. Koordinat Z tidak memiliki batas atas atau bawah.
Hasil sampel
Tabel berikut menampilkan koordinat dan InFrameLikelihood untuk beberapa bangunan terkenal dalam pose di sebelah kanan. Perhatikan bahwa koordinat Z untuk tangan kiri pengguna adalah negatif, karena mereka berada di depan pinggul subjek dan ke arah kamera.

Tempat terkenal | Jenis | Posisi | InFrameLikelihood |
---|---|---|---|
11 | LEFT_SHOULDER | (734,9671, 550,7924, -118,11934) | 0,9999038 |
12 | RIGHT_SHOULDER | (391,27032, 583,2485, -321,15836) | 0,9999894 |
13 | KIRI_ELBOW | (903,83704, 754,676, -219,67009) | 0,9836427 |
14 | Kanan_ELBOW | (322,18152, 842,5973, -179,28519) | 0,99970156 |
15 | KIRI_PERGELANGAN KIRI | (1073,8956, 654,9725, -820,93463) | 0,9737737 |
16 | meliputi pergelangan tangan kanan | (218,27956, 1015,70435, -683,6567) | 0,995568 |
17 | LEFT_PINKY | (1146,1635, 609,6432, -956,9976) | 0,95273364 |
18 | Kanan_PINKY | (176,17755, 1065,838, -776,5006) | 0,9785348 |
Di balik layar
Untuk mengetahui detail implementasi selengkapnya tentang model ML yang mendasarinya untuk API ini, lihat postingan blog Google AI kami.
Untuk mempelajari lebih lanjut praktik keadilan ML dan cara melatih model, lihat Kartu Model kami