ML Kit는 자세 감지에 최적화된 두 가지 SDK를 제공합니다.
SDK 이름 | 자세 감지 | 자세 감지 정확성 |
---|---|---|
구현 | 코드와 애셋은 빌드 시간에 앱에 정적으로 연결됩니다. | 코드와 애셋은 빌드 시간에 앱에 정적으로 연결됩니다. |
앱 크기 영향 (코드 및 애셋 포함) | 약 10.1MB | 약 13.3MB |
성능 | Pixel 3XL: 최대 30FPS | Pixel 3XL: 최대 23FPS, CPU: 30FPS, GPU: 30FPS |
사용해 보기
- 샘플 앱을 살펴보고 이 API의 사용 예시를 확인하세요.
시작하기 전에
- 프로젝트 수준
build.gradle
파일의buildscript
및allprojects
섹션에 Google의 Maven 저장소가 포함되어야 합니다. 모듈의 앱 수준 Gradle 파일(일반적으로
app/build.gradle
)에 ML Kit Android 라이브러리의 종속 항목을 추가합니다.dependencies { // If you want to use the base sdk implementation 'com.google.mlkit:pose-detection:18.0.0-beta3' // If you want to use the accurate sdk implementation 'com.google.mlkit:pose-detection-accurate:18.0.0-beta3' }
1. PoseDetector
인스턴스 만들기
옵션 PoseDetector
개
이미지 속 자세를 감지하려면 먼저 PoseDetector
의 인스턴스를 만들고 필요에 따라 감지기 설정을 지정합니다.
감지 모드
PoseDetector
는 두 가지 감지 모드로 작동합니다. 사용 사례에 맞는 것을 선택해야 합니다.
STREAM_MODE
(기본)- 포즈 감지기는 먼저 이미지에서 가장 중요한 사람을 감지한 다음 포즈 감지를 실행합니다. 후속 프레임에서는 사람이 흐릿하게 나오거나 높은 신뢰도로 더 이상 감지되지 않는 한 사람이 감지되지 않습니다. 포즈 감지기는 가장 가시도가 높은 사람을 추적하여 각 추론에서 자세를 반환합니다. 이렇게 하면 지연 시간을 줄이고 감지를 원활하게 처리할 수 있습니다. 동영상 스트림에서 포즈를 감지하려면 이 모드를 사용하세요.
SINGLE_IMAGE_MODE
- 포즈 감지기는 사람을 감지한 다음 포즈 감지를 실행합니다. 사람 감지 단계는 모든 이미지에 대해 실행되므로 지연 시간이 길어지고 사람 추적이 사용되지 않습니다. 정적 이미지에 포즈 감지를 사용하거나 추적을 원하지 않는 경우에 이 모드를 사용하세요.
하드웨어 구성
PoseDetector
는 성능 최적화를 위해 여러 하드웨어 구성을 지원합니다.
CPU
: CPU만 사용하여 감지기를 실행합니다.CPU_GPU
: CPU와 GPU를 모두 사용하여 감지기를 실행합니다.
감지기 옵션을 빌드할 때 API setPreferredHardwareConfigs
를 사용하여 하드웨어 선택을 제어할 수 있습니다. 기본적으로 모든 하드웨어 구성은 선호로 설정됩니다.
ML Kit는 각 구성의 가용성, 안정성, 정확성, 지연 시간을 고려하여 기본 구성에서 가장 적합한 구성을 선택합니다. 선호하는 구성이 없는 경우 CPU
구성이 자동으로 대체로 사용됩니다. ML Kit는 가속을 사용 설정하기 전에 이러한 검사 및 관련 준비를 비차단 방식으로 수행하므로 사용자가 처음 감지기를 실행할 때 CPU
를 사용할 가능성이 가장 높습니다. 모든 준비가 완료되면 다음 실행에 가장 적합한 구성이 사용됩니다.
setPreferredHardwareConfigs
의 사용 예:
- ML Kit가 최적의 구성을 선택하도록 하려면 이 API를 호출하지 마세요.
- 가속을 사용 설정하지 않으려면
CPU
만 전달합니다. - GPU가 더 느리더라도 GPU를 사용하여 CPU를 오프로드하려면
CPU_GPU
만 전달하면 됩니다.
포즈 감지기 옵션을 지정합니다.
Kotlin
// Base pose detector with streaming frames, when depending on the pose-detection sdk val options = PoseDetectorOptions.Builder() .setDetectorMode(PoseDetectorOptions.STREAM_MODE) .build() // Accurate pose detector on static images, when depending on the pose-detection-accurate sdk val options = AccuratePoseDetectorOptions.Builder() .setDetectorMode(AccuratePoseDetectorOptions.SINGLE_IMAGE_MODE) .build()
자바
// Base pose detector with streaming frames, when depending on the pose-detection sdk PoseDetectorOptions options = new PoseDetectorOptions.Builder() .setDetectorMode(PoseDetectorOptions.STREAM_MODE) .build(); // Accurate pose detector on static images, when depending on the pose-detection-accurate sdk AccuratePoseDetectorOptions options = new AccuratePoseDetectorOptions.Builder() .setDetectorMode(AccuratePoseDetectorOptions.SINGLE_IMAGE_MODE) .build();
마지막으로 PoseDetector
의 인스턴스를 만듭니다. 지정한 옵션을 전달합니다.
Kotlin
val poseDetector = PoseDetection.getClient(options)
자바
PoseDetector poseDetector = PoseDetection.getClient(options);
2. 입력 이미지 준비
이미지의 포즈를 감지하려면 Bitmap
, media.Image
, ByteBuffer
, 바이트 배열 또는 기기의 파일에서 InputImage
객체를 만듭니다. 그런 다음 InputImage
객체를 PoseDetector
에 전달합니다.
자세 감지의 경우 크기가 480x360픽셀 이상인 이미지를 사용해야 합니다. 포즈를 실시간으로 감지하는 경우 이 최소 해상도로 프레임을 캡처하면 지연 시간을 줄이는 데 도움이 될 수 있습니다.
다양한 소스에서 InputImage
객체를 만들 수 있습니다. 각 소스는 아래에 설명되어 있습니다.
media.Image
사용
기기의 카메라에서 이미지를 캡처할 때와 같이 media.Image
객체에서 InputImage
객체를 만들려면 media.Image
객체 및 이미지 회전을 InputImage.fromMediaImage()
에 전달합니다.
CameraX 라이브러리를 사용하는 경우 OnImageCapturedListener
및 ImageAnalysis.Analyzer
클래스가 회전 값을 자동으로 계산합니다.
Kotlin
private class YourImageAnalyzer : ImageAnalysis.Analyzer { override fun analyze(imageProxy: ImageProxy) { val mediaImage = imageProxy.image if (mediaImage != null) { val image = InputImage.fromMediaImage(mediaImage, imageProxy.imageInfo.rotationDegrees) // Pass image to an ML Kit Vision API // ... } } }
자바
private class YourAnalyzer implements ImageAnalysis.Analyzer { @Override public void analyze(ImageProxy imageProxy) { Image mediaImage = imageProxy.getImage(); if (mediaImage != null) { InputImage image = InputImage.fromMediaImage(mediaImage, imageProxy.getImageInfo().getRotationDegrees()); // Pass image to an ML Kit Vision API // ... } } }
이미지의 회전 각도를 제공하는 카메라 라이브러리를 사용하지 않는 경우 기기의 카메라 센서 방향 및 기기 회전 각도에서 이미지 회전 각도를 계산할 수 있습니다.
Kotlin
private val ORIENTATIONS = SparseIntArray() init { ORIENTATIONS.append(Surface.ROTATION_0, 0) ORIENTATIONS.append(Surface.ROTATION_90, 90) ORIENTATIONS.append(Surface.ROTATION_180, 180) ORIENTATIONS.append(Surface.ROTATION_270, 270) } /** * Get the angle by which an image must be rotated given the device's current * orientation. */ @RequiresApi(api = Build.VERSION_CODES.LOLLIPOP) @Throws(CameraAccessException::class) private fun getRotationCompensation(cameraId: String, activity: Activity, isFrontFacing: Boolean): Int { // Get the device's current rotation relative to its "native" orientation. // Then, from the ORIENTATIONS table, look up the angle the image must be // rotated to compensate for the device's rotation. val deviceRotation = activity.windowManager.defaultDisplay.rotation var rotationCompensation = ORIENTATIONS.get(deviceRotation) // Get the device's sensor orientation. val cameraManager = activity.getSystemService(CAMERA_SERVICE) as CameraManager val sensorOrientation = cameraManager .getCameraCharacteristics(cameraId) .get(CameraCharacteristics.SENSOR_ORIENTATION)!! if (isFrontFacing) { rotationCompensation = (sensorOrientation + rotationCompensation) % 360 } else { // back-facing rotationCompensation = (sensorOrientation - rotationCompensation + 360) % 360 } return rotationCompensation }
자바
private static final SparseIntArray ORIENTATIONS = new SparseIntArray(); static { ORIENTATIONS.append(Surface.ROTATION_0, 0); ORIENTATIONS.append(Surface.ROTATION_90, 90); ORIENTATIONS.append(Surface.ROTATION_180, 180); ORIENTATIONS.append(Surface.ROTATION_270, 270); } /** * Get the angle by which an image must be rotated given the device's current * orientation. */ @RequiresApi(api = Build.VERSION_CODES.LOLLIPOP) private int getRotationCompensation(String cameraId, Activity activity, boolean isFrontFacing) throws CameraAccessException { // Get the device's current rotation relative to its "native" orientation. // Then, from the ORIENTATIONS table, look up the angle the image must be // rotated to compensate for the device's rotation. int deviceRotation = activity.getWindowManager().getDefaultDisplay().getRotation(); int rotationCompensation = ORIENTATIONS.get(deviceRotation); // Get the device's sensor orientation. CameraManager cameraManager = (CameraManager) activity.getSystemService(CAMERA_SERVICE); int sensorOrientation = cameraManager .getCameraCharacteristics(cameraId) .get(CameraCharacteristics.SENSOR_ORIENTATION); if (isFrontFacing) { rotationCompensation = (sensorOrientation + rotationCompensation) % 360; } else { // back-facing rotationCompensation = (sensorOrientation - rotationCompensation + 360) % 360; } return rotationCompensation; }
그런 다음 media.Image
객체 및 회전 각도 값을 InputImage.fromMediaImage()
에 전달합니다.
Kotlin
val image = InputImage.fromMediaImage(mediaImage, rotation)
Java
InputImage image = InputImage.fromMediaImage(mediaImage, rotation);
파일 URI 사용
파일 URI에서 InputImage
객체를 만들려면 앱 컨텍스트 및 파일 URI를 InputImage.fromFilePath()
에 전달합니다. 이 기능은 ACTION_GET_CONTENT
인텐트를 사용하여 사용자에게 갤러리 앱에서 이미지를 선택하라는 메시지를 표시할 때 유용합니다.
Kotlin
val image: InputImage try { image = InputImage.fromFilePath(context, uri) } catch (e: IOException) { e.printStackTrace() }
Java
InputImage image; try { image = InputImage.fromFilePath(context, uri); } catch (IOException e) { e.printStackTrace(); }
ByteBuffer
또는 ByteArray
사용
ByteBuffer
또는 ByteArray
에서 InputImage
객체를 만들려면 먼저 media.Image
입력에 대해 설명한 대로 이미지 회전 각도를 계산합니다.
그런 다음 이미지의 높이, 너비, 색상 인코딩 형식, 회전 각도와 함께 버퍼나 배열을 사용하여 InputImage
객체를 만듭니다.
Kotlin
val image = InputImage.fromByteBuffer( byteBuffer, /* image width */ 480, /* image height */ 360, rotationDegrees, InputImage.IMAGE_FORMAT_NV21 // or IMAGE_FORMAT_YV12 ) // Or: val image = InputImage.fromByteArray( byteArray, /* image width */ 480, /* image height */ 360, rotationDegrees, InputImage.IMAGE_FORMAT_NV21 // or IMAGE_FORMAT_YV12 )
자바
InputImage image = InputImage.fromByteBuffer(byteBuffer, /* image width */ 480, /* image height */ 360, rotationDegrees, InputImage.IMAGE_FORMAT_NV21 // or IMAGE_FORMAT_YV12 ); // Or: InputImage image = InputImage.fromByteArray( byteArray, /* image width */480, /* image height */360, rotation, InputImage.IMAGE_FORMAT_NV21 // or IMAGE_FORMAT_YV12 );
Bitmap
사용
Bitmap
객체에서 InputImage
객체를 만들려면 다음과 같이 선언합니다.
Kotlin
val image = InputImage.fromBitmap(bitmap, 0)
Java
InputImage image = InputImage.fromBitmap(bitmap, rotationDegree);
이미지는 회전 각도와 함께 Bitmap
객체로 표시됩니다.
3. 이미지 처리
준비된 InputImage
객체를 PoseDetector
의 process
메서드에 전달합니다.
Kotlin
Task<Pose> result = poseDetector.process(image) .addOnSuccessListener { results -> // Task completed successfully // ... } .addOnFailureListener { e -> // Task failed with an exception // ... }
자바
Task<Pose> result = poseDetector.process(image) .addOnSuccessListener( new OnSuccessListener<Pose>() { @Override public void onSuccess(Pose pose) { // Task completed successfully // ... } }) .addOnFailureListener( new OnFailureListener() { @Override public void onFailure(@NonNull Exception e) { // Task failed with an exception // ... } });
4. 감지된 자세에 관한 정보 가져오기
이미지에서 사람이 감지되면 포즈 감지 API가 PoseLandmark
33개가 포함된 Pose
객체를 반환합니다.
사람이 이미지 내부에 완전히 포함되어 있지 않은 경우 모델은 누락된 랜드마크 좌표를 프레임 외부에 할당하고 InFrameConfidence 값을 낮춥니다.
프레임에서 감지된 사용자가 없는 경우 Pose
객체에 PoseLandmark
이 포함되지 않습니다.
Kotlin
// Get all PoseLandmarks. If no person was detected, the list will be empty val allPoseLandmarks = pose.getAllPoseLandmarks() // Or get specific PoseLandmarks individually. These will all be null if no person // was detected val leftShoulder = pose.getPoseLandmark(PoseLandmark.LEFT_SHOULDER) val rightShoulder = pose.getPoseLandmark(PoseLandmark.RIGHT_SHOULDER) val leftElbow = pose.getPoseLandmark(PoseLandmark.LEFT_ELBOW) val rightElbow = pose.getPoseLandmark(PoseLandmark.RIGHT_ELBOW) val leftWrist = pose.getPoseLandmark(PoseLandmark.LEFT_WRIST) val rightWrist = pose.getPoseLandmark(PoseLandmark.RIGHT_WRIST) val leftHip = pose.getPoseLandmark(PoseLandmark.LEFT_HIP) val rightHip = pose.getPoseLandmark(PoseLandmark.RIGHT_HIP) val leftKnee = pose.getPoseLandmark(PoseLandmark.LEFT_KNEE) val rightKnee = pose.getPoseLandmark(PoseLandmark.RIGHT_KNEE) val leftAnkle = pose.getPoseLandmark(PoseLandmark.LEFT_ANKLE) val rightAnkle = pose.getPoseLandmark(PoseLandmark.RIGHT_ANKLE) val leftPinky = pose.getPoseLandmark(PoseLandmark.LEFT_PINKY) val rightPinky = pose.getPoseLandmark(PoseLandmark.RIGHT_PINKY) val leftIndex = pose.getPoseLandmark(PoseLandmark.LEFT_INDEX) val rightIndex = pose.getPoseLandmark(PoseLandmark.RIGHT_INDEX) val leftThumb = pose.getPoseLandmark(PoseLandmark.LEFT_THUMB) val rightThumb = pose.getPoseLandmark(PoseLandmark.RIGHT_THUMB) val leftHeel = pose.getPoseLandmark(PoseLandmark.LEFT_HEEL) val rightHeel = pose.getPoseLandmark(PoseLandmark.RIGHT_HEEL) val leftFootIndex = pose.getPoseLandmark(PoseLandmark.LEFT_FOOT_INDEX) val rightFootIndex = pose.getPoseLandmark(PoseLandmark.RIGHT_FOOT_INDEX) val nose = pose.getPoseLandmark(PoseLandmark.NOSE) val leftEyeInner = pose.getPoseLandmark(PoseLandmark.LEFT_EYE_INNER) val leftEye = pose.getPoseLandmark(PoseLandmark.LEFT_EYE) val leftEyeOuter = pose.getPoseLandmark(PoseLandmark.LEFT_EYE_OUTER) val rightEyeInner = pose.getPoseLandmark(PoseLandmark.RIGHT_EYE_INNER) val rightEye = pose.getPoseLandmark(PoseLandmark.RIGHT_EYE) val rightEyeOuter = pose.getPoseLandmark(PoseLandmark.RIGHT_EYE_OUTER) val leftEar = pose.getPoseLandmark(PoseLandmark.LEFT_EAR) val rightEar = pose.getPoseLandmark(PoseLandmark.RIGHT_EAR) val leftMouth = pose.getPoseLandmark(PoseLandmark.LEFT_MOUTH) val rightMouth = pose.getPoseLandmark(PoseLandmark.RIGHT_MOUTH)
자바
// Get all PoseLandmarks. If no person was detected, the list will be empty List<PoseLandmark> allPoseLandmarks = pose.getAllPoseLandmarks(); // Or get specific PoseLandmarks individually. These will all be null if no person // was detected PoseLandmark leftShoulder = pose.getPoseLandmark(PoseLandmark.LEFT_SHOULDER); PoseLandmark rightShoulder = pose.getPoseLandmark(PoseLandmark.RIGHT_SHOULDER); PoseLandmark leftElbow = pose.getPoseLandmark(PoseLandmark.LEFT_ELBOW); PoseLandmark rightElbow = pose.getPoseLandmark(PoseLandmark.RIGHT_ELBOW); PoseLandmark leftWrist = pose.getPoseLandmark(PoseLandmark.LEFT_WRIST); PoseLandmark rightWrist = pose.getPoseLandmark(PoseLandmark.RIGHT_WRIST); PoseLandmark leftHip = pose.getPoseLandmark(PoseLandmark.LEFT_HIP); PoseLandmark rightHip = pose.getPoseLandmark(PoseLandmark.RIGHT_HIP); PoseLandmark leftKnee = pose.getPoseLandmark(PoseLandmark.LEFT_KNEE); PoseLandmark rightKnee = pose.getPoseLandmark(PoseLandmark.RIGHT_KNEE); PoseLandmark leftAnkle = pose.getPoseLandmark(PoseLandmark.LEFT_ANKLE); PoseLandmark rightAnkle = pose.getPoseLandmark(PoseLandmark.RIGHT_ANKLE); PoseLandmark leftPinky = pose.getPoseLandmark(PoseLandmark.LEFT_PINKY); PoseLandmark rightPinky = pose.getPoseLandmark(PoseLandmark.RIGHT_PINKY); PoseLandmark leftIndex = pose.getPoseLandmark(PoseLandmark.LEFT_INDEX); PoseLandmark rightIndex = pose.getPoseLandmark(PoseLandmark.RIGHT_INDEX); PoseLandmark leftThumb = pose.getPoseLandmark(PoseLandmark.LEFT_THUMB); PoseLandmark rightThumb = pose.getPoseLandmark(PoseLandmark.RIGHT_THUMB); PoseLandmark leftHeel = pose.getPoseLandmark(PoseLandmark.LEFT_HEEL); PoseLandmark rightHeel = pose.getPoseLandmark(PoseLandmark.RIGHT_HEEL); PoseLandmark leftFootIndex = pose.getPoseLandmark(PoseLandmark.LEFT_FOOT_INDEX); PoseLandmark rightFootIndex = pose.getPoseLandmark(PoseLandmark.RIGHT_FOOT_INDEX); PoseLandmark nose = pose.getPoseLandmark(PoseLandmark.NOSE); PoseLandmark leftEyeInner = pose.getPoseLandmark(PoseLandmark.LEFT_EYE_INNER); PoseLandmark leftEye = pose.getPoseLandmark(PoseLandmark.LEFT_EYE); PoseLandmark leftEyeOuter = pose.getPoseLandmark(PoseLandmark.LEFT_EYE_OUTER); PoseLandmark rightEyeInner = pose.getPoseLandmark(PoseLandmark.RIGHT_EYE_INNER); PoseLandmark rightEye = pose.getPoseLandmark(PoseLandmark.RIGHT_EYE); PoseLandmark rightEyeOuter = pose.getPoseLandmark(PoseLandmark.RIGHT_EYE_OUTER); PoseLandmark leftEar = pose.getPoseLandmark(PoseLandmark.LEFT_EAR); PoseLandmark rightEar = pose.getPoseLandmark(PoseLandmark.RIGHT_EAR); PoseLandmark leftMouth = pose.getPoseLandmark(PoseLandmark.LEFT_MOUTH); PoseLandmark rightMouth = pose.getPoseLandmark(PoseLandmark.RIGHT_MOUTH);
실적 개선을 위한 도움말
결과의 품질은 입력 이미지의 품질에 따라 다릅니다.
- ML Kit에서 자세를 정확하게 인식하려면 이미지에 있는 사람이 충분한 픽셀 데이터로 표현되어야 합니다. 최상의 성능을 얻으려면 대상이 256x256픽셀 이상이어야 합니다.
- 실시간 애플리케이션에서 포즈를 감지하면 입력 이미지의 전체 크기를 고려해야 할 수도 있습니다. 더 작은 이미지를 더 빠르게 처리할 수 있으므로 지연 시간을 줄이려면 더 낮은 해상도로 이미지를 캡처하되 위의 해상도 요구사항을 염두에 두고 피사체가 이미지를 가능한 한 많이 차지하도록 합니다.
- 이미지 초점이 잘 맞지 않으면 정확도에 영향을 줄 수 있습니다. 허용 가능한 결과를 얻지 못하는 경우 사용자에게 이미지를 다시 캡처하도록 요청합니다.
실시간 애플리케이션에서 포즈 감지를 사용하려면 최상의 프레임 속도를 얻기 위해 다음 가이드라인을 따르세요.
- 기본 포즈 감지 SDK와
STREAM_MODE
를 사용합니다. - 더 낮은 해상도로 이미지를 캡처해 보세요. 그러나 이 API의 이미지 크기 요구사항도 유의해야 합니다.
Camera
또는camera2
API를 사용하는 경우 감지기 호출을 제한합니다. 인식기가 실행 중일 때 새 동영상 프레임이 제공되는 경우 프레임을 낮춥니다. 관련 예시는 빠른 시작 샘플 앱에서VisionProcessorBase
클래스를 참조하세요.CameraX
API를 사용하는 경우 백프레셔 전략이 기본값인ImageAnalysis.STRATEGY_KEEP_ONLY_LATEST
로 설정되어 있는지 확인합니다. 이렇게 하면 분석을 위해 한 번에 이미지 1개만 전송됩니다. 분석기가 사용 중일 때 더 많은 이미지가 생성되면 이미지가 자동으로 삭제되고 전송 대기열에 추가되지 않습니다. ImageProxy.close()를 호출하여 분석 중인 이미지를 닫으면 다음 최신 이미지가 전달됩니다.- 인식기 출력을 사용하여 입력 이미지에서 그래픽을 오버레이하는 경우 먼저 ML Kit에서 결과를 가져온 후 이미지를 렌더링하고 단일 단계로 오버레이합니다. 이 동작은 각 입력 프레임에 대해 한 번만 디스플레이 노출 영역에 렌더링됩니다. 관련 예시는 빠른 시작 샘플 앱에서
CameraSourcePreview
및GraphicOverlay
클래스를 참조하세요. - Camera2 API를 사용할 경우
ImageFormat.YUV_420_888
형식으로 이미지를 캡처합니다. 이전 Camera API를 사용하는 경우ImageFormat.NV21
형식으로 이미지를 캡처합니다.
다음 단계
- 포즈 명소를 사용하여 포즈를 분류하는 방법을 알아보려면 포즈 분류 팁을 참고하세요.