
API Phát hiện tư thế của Bộ công cụ máy học là một giải pháp linh hoạt gọn nhẹ dành cho nhà phát triển ứng dụng để phát hiện tư thế của cơ thể đối tượng theo thời gian thực qua một video liên tục hoặc hình ảnh tĩnh. Một tư thế mô tả vị trí của cơ thể tại một thời điểm với một tập hợp các điểm mốc xương. Các địa danh tương ứng với các bộ phận khác nhau trên cơ thể như vai và hông. Bạn có thể sử dụng vị trí tương đối của các địa danh để phân biệt một tư thế với một tư thế khác.
Công cụ phát hiện tư thế tạo bằng bộ công cụ máy học tạo ra một bộ xương 33 điểm toàn thân, bao gồm các mốc trên khuôn mặt (tai, mắt, miệng và mũi) và các điểm trên bàn tay và bàn chân. Hình 1 bên dưới cho thấy các địa danh nhìn qua máy ảnh của người dùng, vì vậy đó là hình ảnh phản chiếu. Phía bên phải của người dùng xuất hiện ở bên trái hình ảnh:

Tính năng Phát hiện tư thế của Bộ công cụ máy học không yêu cầu thiết bị chuyên dụng hoặc chuyên môn máy học để đạt được kết quả tuyệt vời. Với công nghệ này, nhà phát triển có thể tạo ra một trải nghiệm độc nhất cho người dùng chỉ bằng vài dòng mã.
Phải có khuôn mặt của người dùng để phát hiện tư thế. Tính năng phát hiện tư thế sẽ hoạt động tốt nhất khi toàn bộ cơ thể của đối tượng được hiển thị trong khung, nhưng cũng phát hiện được một phần tư thế của cơ thể. Trong trường hợp đó, các mốc không được nhận dạng được gán toạ độ bên ngoài hình ảnh.
Các chức năng chính
- Hỗ trợ nhiều nền tảng Có cùng trải nghiệm trên cả Android và iOS.
- Theo dõi toàn bộ cơ thể Mô hình trả về 33 điểm mốc chính của khung xương, bao gồm cả vị trí của bàn tay và bàn chân.
- Điểm InFrameLikelihood Đối với mỗi mốc, một số đo cho biết xác suất mà mốc đó nằm trong khung hình. Điểm số có phạm vi từ 0.0 đến 1.0, trong đó 1.0 cho biết độ tin cậy cao.
- Hai SDK được tối ưu hoá SDK cơ sở chạy theo thời gian thực trên các điện thoại hiện đại như Pixel 4 và iPhone X. Video này sẽ trả về kết quả ở tốc độ ~30 và ~45 khung hình/giây tương ứng. Tuy nhiên, độ chính xác của các toạ độ điểm mốc có thể khác nhau. SDK chính xác sẽ trả về kết quả ở tốc độ khung hình chậm hơn, nhưng tạo ra các giá trị toạ độ chính xác hơn.
- Z Toạ độ để phân tích chuyên sâu Giá trị này có thể giúp xác định liệu các phần của nội dung người dùng đứng trước hay sau hông người dùng. Để biết thêm thông tin, hãy xem mục Z Toạ độ Z bên dưới.
API Phát hiện Pose tương tự như API Nhận dạng khuôn mặt, ở chỗ API này trả về một tập hợp các địa danh và vị trí của các địa danh đó. Tuy nhiên, mặc dù tính năng Phát hiện khuôn mặt cũng cố gắng nhận ra các đặc điểm như miệng cười hoặc mắt mở, nhưng tính năng Phát hiện tư thế không tạo ra bất kỳ ý nghĩa nào đối với các dấu ấn trong một tư thế hoặc chính tư thế đó. Bạn có thể tạo thuật toán của riêng mình để diễn giải một tư thế. Hãy xem phần Mẹo phân loại theo Pose (Ví dụ) để biết một số ví dụ.
Tính năng phát hiện tư thế chỉ có thể phát hiện thấy một người trong hình ảnh. Nếu hai người có mặt trong hình ảnh, mô hình sẽ chỉ định địa danh cho người được phát hiện có độ tin cậy cao nhất.
Z Tọa độ
Toạ độ Z là một giá trị thử nghiệm được tính toán cho mọi mốc. Giá trị này được đo bằng "pixel hình ảnh" như toạ độ X và Y, nhưng không phải là giá trị 3D thực sự. Trục Z vuông góc với máy ảnh và đi qua giữa hông đối tượng. Điểm gốc của trục Z là điểm trung tâm giữa hông (bên trái/phải và trước/sau so với máy ảnh). Giá trị Z âm đối với máy ảnh; các giá trị dương đi xa máy ảnh. Toạ độ Z không có giới hạn trên hoặc giới hạn dưới.
Kết quả mẫu
Bảng sau đây cho thấy các toạ độ và InFrameLikelihood cho một số dấu vị trí ở tư thế bên phải. Lưu ý rằng toạ độ Z đối với tay trái của người dùng là số âm, vì toạ độ ở trước hông đối tượng và về phía máy ảnh.

Địa danh | Loại | Vị trí | InFrameLikelihood |
---|---|---|---|
11 | TRÁI | (734.9671, 550.7924, -118.11934) | 0,9999038 |
12 | PHẢI | (391.27032, 583.2485, -321.15836) | 0,9999894 |
13 | TRÁI_NHẤT | (903.83704, 754.676, -219.67009) | 0,9836427 |
14 | PHẢI_ELBOW | (322.18152, 842.5973, -179.28519) | 0,99970156 |
15 | TRÁI_WRIST | (1073.8956, 654.9725, -820.93463) | 0,9737737 |
16 | PHẢI_WRIST | (218.27956, 1015.70435, -683.6567) | 0,995568 |
17 | TRÁI TRÁI | (1146.1635, 609.6432, -956.9976) | 0,95273364 |
18 | PHẢI | (176.17755, 1065.838, -776.5006) | 0,9785348 |
Tìm hiểu chuyên sâu
Để biết thêm thông tin chi tiết về cách triển khai các mô hình máy học cơ bản cho API này, hãy xem bài đăng trên blog của Google AI.
Để tìm hiểu thêm về các nguyên tắc công bằng máy học và cách đào tạo các mô hình, hãy xem Thẻ mô hình của chúng tôi