Эта страница переведена с помощью Cloud Translation API.

Обнаружение поз с помощью ML Kit на Android

ML Kit предоставляет два оптимизированных SDK для определения поз.

Имя SDK	определение позы	точное определение позы
Выполнение	Код и ресурсы статически привязываются к вашему приложению во время сборки.	Код и ресурсы статически привязываются к вашему приложению во время сборки.
Влияние на размер приложения (включая код и ресурсы)	~10,1 МБ	~13,3 МБ
Производительность	Pixel 3XL: ~30 кадров в секунду	Pixel 3XL: ~23 кадра в секунду с ЦП, ~30 кадров в секунду с ГП

Попробуйте это

Поэкспериментируйте с образцом приложения , чтобы увидеть пример использования этого API.

Прежде чем начать

Для этого API требуется Android API уровня 21 или выше. Убедитесь, что в файле сборки вашего приложения используется значение minSdkVersion 21 или выше.

В файле build.gradle уровня проекта обязательно включите репозиторий Maven от Google в разделы buildscript и allprojects .

Добавьте зависимости для библиотек ML Kit Android в файл Gradle уровня приложения вашего модуля, который обычно называется app/build.gradle :

dependencies {
  // If you want to use the base sdk
  implementation 'com.google.mlkit:pose-detection:18.0.0-beta5'
  // If you want to use the accurate sdk
  implementation 'com.google.mlkit:pose-detection-accurate:18.0.0-beta5'
}

1. Создайте экземпляр `PoseDetector`

Параметры `PoseDetector`

Чтобы определить позу на изображении, сначала создайте экземпляр PoseDetector и при необходимости укажите настройки детектора.

Режим обнаружения

PoseDetector работает в двух режимах обнаружения. Выберите тот, который соответствует вашему сценарию использования.

STREAM_MODE (по умолчанию): Детектор поз сначала определит наиболее заметного человека на изображении, а затем выполнит определение позы. В последующих кадрах этап определения человека не будет выполняться, если только человек не окажется скрытым или не будет распознан с высокой степенью уверенности. Детектор поз будет пытаться отслеживать наиболее заметного человека и возвращать его позу при каждом выводе. Это уменьшает задержку и упрощает обнаружение. Используйте этот режим, если вам нужно определить позу в видеопотоке.
SINGLE_IMAGE_MODE: Детектор поз обнаружит человека и запустит его. Этап обнаружения человека будет выполняться для каждого изображения, поэтому задержка увеличится, а отслеживание человека не будет выполняться. Используйте этот режим, если определение поз используется на статических изображениях или если отслеживание нежелательно.

Конфигурация оборудования

PoseDetector поддерживает несколько конфигураций оборудования для оптимизации производительности:

CPU : запустите детектор, используя только ЦП.
CPU_GPU : запустить детектор, используя как CPU, так и GPU

При настройке параметров детектора вы можете использовать API setPreferredHardwareConfigs для управления выбором оборудования. По умолчанию все конфигурации оборудования установлены как предпочтительные.

ML Kit учитывает доступность, стабильность, корректность и задержку каждой конфигурации и выбирает оптимальную из предпочтительных. Если ни одна из предпочтительных конфигураций не подходит, конфигурация CPU будет автоматически использована в качестве резервной. ML Kit выполняет эти проверки и сопутствующую подготовку без блокировки, прежде чем включить ускорение, поэтому, скорее всего, при первом запуске детектора пользователем он будет использовать CPU . После завершения подготовки в последующих запусках будет использоваться оптимальная конфигурация.

Примеры использования setPreferredHardwareConfigs :

Чтобы позволить ML Kit выбрать наилучшую конфигурацию, не вызывайте этот API.
Если вы не хотите включать ускорение, передайте только CPU .
Если вы хотите использовать графический процессор для разгрузки центрального процессора, даже если графический процессор может быть медленнее, передайте только CPU_GPU .

Укажите параметры детектора позы:

Котлин

// Base pose detector with streaming frames, when depending on the pose-detection sdk
val options = PoseDetectorOptions.Builder()
    .setDetectorMode(PoseDetectorOptions.STREAM_MODE)
    .build()

// Accurate pose detector on static images, when depending on the pose-detection-accurate sdk
val options = AccuratePoseDetectorOptions.Builder()
    .setDetectorMode(AccuratePoseDetectorOptions.SINGLE_IMAGE_MODE)
    .build()

Ява

// Base pose detector with streaming frames, when depending on the pose-detection sdk
PoseDetectorOptions options =
   new PoseDetectorOptions.Builder()
       .setDetectorMode(PoseDetectorOptions.STREAM_MODE)
       .build();

// Accurate pose detector on static images, when depending on the pose-detection-accurate sdk
AccuratePoseDetectorOptions options =
   new AccuratePoseDetectorOptions.Builder()
       .setDetectorMode(AccuratePoseDetectorOptions.SINGLE_IMAGE_MODE)
       .build();

Наконец, создайте экземпляр PoseDetector . Передайте ему указанные вами параметры:

Котлин

val poseDetector = PoseDetection.getClient(options)

Ява

PoseDetector poseDetector = PoseDetection.getClient(options);

2. Подготовьте входное изображение.

Чтобы определить позы на изображении, создайте объект InputImage из Bitmap , media.Image , ByteBuffer , байтового массива или файла на устройстве. Затем передайте объект InputImage методу PoseDetector .

Для определения поз необходимо использовать изображение размером не менее 480x360 пикселей. При определении поз в реальном времени захват кадров с таким минимальным разрешением поможет сократить задержку.

Вы можете создать объект InputImage из разных источников, каждый из которых описан ниже.

Использование `media.Image`

Чтобы создать объект InputImage из объекта media.Image , например, при захвате изображения с камеры устройства, передайте объект media.Image и поворот изображения в InputImage.fromMediaImage() .

Если вы используете библиотеку CameraX , классы OnImageCapturedListener и ImageAnalysis.Analyzer рассчитывают значение поворота автоматически.

Котлин

private class YourImageAnalyzer : ImageAnalysis.Analyzer {

    override fun analyze(imageProxy: ImageProxy) {
        val mediaImage = imageProxy.image
        if (mediaImage != null) {
            val image = InputImage.fromMediaImage(mediaImage, imageProxy.imageInfo.rotationDegrees)
            // Pass image to an ML Kit Vision API
            // ...
        }
    }
}

Ява

private class YourAnalyzer implements ImageAnalysis.Analyzer {

    @Override
    public void analyze(ImageProxy imageProxy) {
        Image mediaImage = imageProxy.getImage();
        if (mediaImage != null) {
          InputImage image =
                InputImage.fromMediaImage(mediaImage, imageProxy.getImageInfo().getRotationDegrees());
          // Pass image to an ML Kit Vision API
          // ...
        }
    }
}

Если вы не используете библиотеку камеры, которая вычисляет угол поворота изображения, вы можете рассчитать его на основе угла поворота устройства и ориентации датчика камеры в устройстве:

Котлин

private val ORIENTATIONS = SparseIntArray()

init {
    ORIENTATIONS.append(Surface.ROTATION_0, 0)
    ORIENTATIONS.append(Surface.ROTATION_90, 90)
    ORIENTATIONS.append(Surface.ROTATION_180, 180)
    ORIENTATIONS.append(Surface.ROTATION_270, 270)
}

/**
 * Get the angle by which an image must be rotated given the device's current
 * orientation.
 */
@RequiresApi(api = Build.VERSION_CODES.LOLLIPOP)
@Throws(CameraAccessException::class)
private fun getRotationCompensation(cameraId: String, activity: Activity, isFrontFacing: Boolean): Int {
    // Get the device's current rotation relative to its "native" orientation.
    // Then, from the ORIENTATIONS table, look up the angle the image must be
    // rotated to compensate for the device's rotation.
    val deviceRotation = activity.windowManager.defaultDisplay.rotation
    var rotationCompensation = ORIENTATIONS.get(deviceRotation)

    // Get the device's sensor orientation.
    val cameraManager = activity.getSystemService(CAMERA_SERVICE) as CameraManager
    val sensorOrientation = cameraManager
            .getCameraCharacteristics(cameraId)
            .get(CameraCharacteristics.SENSOR_ORIENTATION)!!

    if (isFrontFacing) {
        rotationCompensation = (sensorOrientation + rotationCompensation) % 360
    } else { // back-facing
        rotationCompensation = (sensorOrientation - rotationCompensation + 360) % 360
    }
    return rotationCompensation
}MLKitVisionImage.kt

Ява

private static final SparseIntArray ORIENTATIONS = new SparseIntArray();
static {
    ORIENTATIONS.append(Surface.ROTATION_0, 0);
    ORIENTATIONS.append(Surface.ROTATION_90, 90);
    ORIENTATIONS.append(Surface.ROTATION_180, 180);
    ORIENTATIONS.append(Surface.ROTATION_270, 270);
}

/**
 * Get the angle by which an image must be rotated given the device's current
 * orientation.
 */
@RequiresApi(api = Build.VERSION_CODES.LOLLIPOP)
private int getRotationCompensation(String cameraId, Activity activity, boolean isFrontFacing)
        throws CameraAccessException {
    // Get the device's current rotation relative to its "native" orientation.
    // Then, from the ORIENTATIONS table, look up the angle the image must be
    // rotated to compensate for the device's rotation.
    int deviceRotation = activity.getWindowManager().getDefaultDisplay().getRotation();
    int rotationCompensation = ORIENTATIONS.get(deviceRotation);

    // Get the device's sensor orientation.
    CameraManager cameraManager = (CameraManager) activity.getSystemService(CAMERA_SERVICE);
    int sensorOrientation = cameraManager
            .getCameraCharacteristics(cameraId)
            .get(CameraCharacteristics.SENSOR_ORIENTATION);

    if (isFrontFacing) {
        rotationCompensation = (sensorOrientation + rotationCompensation) % 360;
    } else { // back-facing
        rotationCompensation = (sensorOrientation - rotationCompensation + 360) % 360;
    }
    return rotationCompensation;
}

Затем передайте объект media.Image и значение угла поворота в InputImage.fromMediaImage() :

Котлин

val image = InputImage.fromMediaImage(mediaImage, rotation)MLKitVisionImage.kt

Java

InputImage image = InputImage.fromMediaImage(mediaImage, rotation);

Использование URI файла

Чтобы создать объект InputImage из URI файла, передайте контекст приложения и URI файла методу InputImage.fromFilePath() . Это полезно при использовании намерения ACTION_GET_CONTENT , чтобы предложить пользователю выбрать изображение из приложения-галереи.

Котлин

val image: InputImage
try {
    image = InputImage.fromFilePath(context, uri)
} catch (e: IOException) {
    e.printStackTrace()
}MLKitVisionImage.kt

Java

InputImage image;
try {
    image = InputImage.fromFilePath(context, uri);
} catch (IOException e) {
    e.printStackTrace();
}

Использование `ByteBuffer` или `ByteArray`

Чтобы создать объект InputImage из ByteBuffer или ByteArray , сначала вычислите угол поворота изображения, как описано ранее для ввода media.Image . Затем создайте объект InputImage с буфером или массивом, а также с указанием высоты, ширины, формата кодировки цвета и угла поворота изображения:

Котлин

val image = InputImage.fromByteBuffer(
        byteBuffer,
        /* image width */ 480,
        /* image height */ 360,
        rotationDegrees,
        InputImage.IMAGE_FORMAT_NV21 // or IMAGE_FORMAT_YV12
)MLKitVisionImage.kt
// Or:
val image = InputImage.fromByteArray(
        byteArray,
        /* image width */ 480,
        /* image height */ 360,
        rotationDegrees,
        InputImage.IMAGE_FORMAT_NV21 // or IMAGE_FORMAT_YV12
)
MLKitVisionImage.kt

Ява

InputImage image = InputImage.fromByteBuffer(byteBuffer,
        /* image width */ 480,
        /* image height */ 360,
        rotationDegrees,
        InputImage.IMAGE_FORMAT_NV21 // or IMAGE_FORMAT_YV12
);MLKitVisionImage.java
// Or:
InputImage image = InputImage.fromByteArray(
        byteArray,
        /* image width */480,
        /* image height */360,
        rotation,
        InputImage.IMAGE_FORMAT_NV21 // or IMAGE_FORMAT_YV12
);MLKitVisionImage.java

Использование `Bitmap`

Чтобы создать объект InputImage из объекта Bitmap , сделайте следующее объявление:

Котлин

val image = InputImage.fromBitmap(bitmap, 0)MLKitVisionImage.kt

Java

InputImage image = InputImage.fromBitmap(bitmap, rotationDegree);MLKitVisionImage.java

Изображение представлено объектом Bitmap вместе с градусами поворота.

3. Обработайте изображение.

Передайте подготовленный объект InputImage методу process PoseDetector .

Котлин

Task<Pose> result = poseDetector.process(image)
       .addOnSuccessListener { results ->
           // Task completed successfully
           // ...
       }
       .addOnFailureListener { e ->
           // Task failed with an exception
           // ...
       }

Ява

Task<Pose> result =
        poseDetector.process(image)
                .addOnSuccessListener(
                        new OnSuccessListener<Pose>() {
                            @Override
                            public void onSuccess(Pose pose) {
                                // Task completed successfully
                                // ...
                            }
                        })
                .addOnFailureListener(
                        new OnFailureListener() {
                            @Override
                            public void onFailure(@NonNull Exception e) {
                                // Task failed with an exception
                                // ...
                            }
                        });

Примечание: Если вы используете API CameraX , обязательно закрывайте ImageProxy после завершения работы с ним, например, добавив OnCompleteListener к Task , возвращаемой методом process . См. пример класса VisionProcessorBase в примере приложения для быстрого старта.

4. Получите информацию об обнаруженной позе.

Если на изображении обнаружен человек, API определения позы возвращает объект Pose с 33 PoseLandmark .

Если человек не полностью попал в кадр, модель присваивает недостающим ориентирам координаты за пределами кадра и присваивает им низкие значения InFrameConfidence.

Если в кадре не обнаружено ни одного человека, объект Pose не содержит PoseLandmark .

Котлин

// Get all PoseLandmarks. If no person was detected, the list will be empty
val allPoseLandmarks = pose.getAllPoseLandmarks()

// Or get specific PoseLandmarks individually. These will all be null if no person
// was detected
val leftShoulder = pose.getPoseLandmark(PoseLandmark.LEFT_SHOULDER)
val rightShoulder = pose.getPoseLandmark(PoseLandmark.RIGHT_SHOULDER)
val leftElbow = pose.getPoseLandmark(PoseLandmark.LEFT_ELBOW)
val rightElbow = pose.getPoseLandmark(PoseLandmark.RIGHT_ELBOW)
val leftWrist = pose.getPoseLandmark(PoseLandmark.LEFT_WRIST)
val rightWrist = pose.getPoseLandmark(PoseLandmark.RIGHT_WRIST)
val leftHip = pose.getPoseLandmark(PoseLandmark.LEFT_HIP)
val rightHip = pose.getPoseLandmark(PoseLandmark.RIGHT_HIP)
val leftKnee = pose.getPoseLandmark(PoseLandmark.LEFT_KNEE)
val rightKnee = pose.getPoseLandmark(PoseLandmark.RIGHT_KNEE)
val leftAnkle = pose.getPoseLandmark(PoseLandmark.LEFT_ANKLE)
val rightAnkle = pose.getPoseLandmark(PoseLandmark.RIGHT_ANKLE)
val leftPinky = pose.getPoseLandmark(PoseLandmark.LEFT_PINKY)
val rightPinky = pose.getPoseLandmark(PoseLandmark.RIGHT_PINKY)
val leftIndex = pose.getPoseLandmark(PoseLandmark.LEFT_INDEX)
val rightIndex = pose.getPoseLandmark(PoseLandmark.RIGHT_INDEX)
val leftThumb = pose.getPoseLandmark(PoseLandmark.LEFT_THUMB)
val rightThumb = pose.getPoseLandmark(PoseLandmark.RIGHT_THUMB)
val leftHeel = pose.getPoseLandmark(PoseLandmark.LEFT_HEEL)
val rightHeel = pose.getPoseLandmark(PoseLandmark.RIGHT_HEEL)
val leftFootIndex = pose.getPoseLandmark(PoseLandmark.LEFT_FOOT_INDEX)
val rightFootIndex = pose.getPoseLandmark(PoseLandmark.RIGHT_FOOT_INDEX)
val nose = pose.getPoseLandmark(PoseLandmark.NOSE)
val leftEyeInner = pose.getPoseLandmark(PoseLandmark.LEFT_EYE_INNER)
val leftEye = pose.getPoseLandmark(PoseLandmark.LEFT_EYE)
val leftEyeOuter = pose.getPoseLandmark(PoseLandmark.LEFT_EYE_OUTER)
val rightEyeInner = pose.getPoseLandmark(PoseLandmark.RIGHT_EYE_INNER)
val rightEye = pose.getPoseLandmark(PoseLandmark.RIGHT_EYE)
val rightEyeOuter = pose.getPoseLandmark(PoseLandmark.RIGHT_EYE_OUTER)
val leftEar = pose.getPoseLandmark(PoseLandmark.LEFT_EAR)
val rightEar = pose.getPoseLandmark(PoseLandmark.RIGHT_EAR)
val leftMouth = pose.getPoseLandmark(PoseLandmark.LEFT_MOUTH)
val rightMouth = pose.getPoseLandmark(PoseLandmark.RIGHT_MOUTH)

Ява

// Get all PoseLandmarks. If no person was detected, the list will be empty
List<PoseLandmark> allPoseLandmarks = pose.getAllPoseLandmarks();

// Or get specific PoseLandmarks individually. These will all be null if no person
// was detected
PoseLandmark leftShoulder = pose.getPoseLandmark(PoseLandmark.LEFT_SHOULDER);
PoseLandmark rightShoulder = pose.getPoseLandmark(PoseLandmark.RIGHT_SHOULDER);
PoseLandmark leftElbow = pose.getPoseLandmark(PoseLandmark.LEFT_ELBOW);
PoseLandmark rightElbow = pose.getPoseLandmark(PoseLandmark.RIGHT_ELBOW);
PoseLandmark leftWrist = pose.getPoseLandmark(PoseLandmark.LEFT_WRIST);
PoseLandmark rightWrist = pose.getPoseLandmark(PoseLandmark.RIGHT_WRIST);
PoseLandmark leftHip = pose.getPoseLandmark(PoseLandmark.LEFT_HIP);
PoseLandmark rightHip = pose.getPoseLandmark(PoseLandmark.RIGHT_HIP);
PoseLandmark leftKnee = pose.getPoseLandmark(PoseLandmark.LEFT_KNEE);
PoseLandmark rightKnee = pose.getPoseLandmark(PoseLandmark.RIGHT_KNEE);
PoseLandmark leftAnkle = pose.getPoseLandmark(PoseLandmark.LEFT_ANKLE);
PoseLandmark rightAnkle = pose.getPoseLandmark(PoseLandmark.RIGHT_ANKLE);
PoseLandmark leftPinky = pose.getPoseLandmark(PoseLandmark.LEFT_PINKY);
PoseLandmark rightPinky = pose.getPoseLandmark(PoseLandmark.RIGHT_PINKY);
PoseLandmark leftIndex = pose.getPoseLandmark(PoseLandmark.LEFT_INDEX);
PoseLandmark rightIndex = pose.getPoseLandmark(PoseLandmark.RIGHT_INDEX);
PoseLandmark leftThumb = pose.getPoseLandmark(PoseLandmark.LEFT_THUMB);
PoseLandmark rightThumb = pose.getPoseLandmark(PoseLandmark.RIGHT_THUMB);
PoseLandmark leftHeel = pose.getPoseLandmark(PoseLandmark.LEFT_HEEL);
PoseLandmark rightHeel = pose.getPoseLandmark(PoseLandmark.RIGHT_HEEL);
PoseLandmark leftFootIndex = pose.getPoseLandmark(PoseLandmark.LEFT_FOOT_INDEX);
PoseLandmark rightFootIndex = pose.getPoseLandmark(PoseLandmark.RIGHT_FOOT_INDEX);
PoseLandmark nose = pose.getPoseLandmark(PoseLandmark.NOSE);
PoseLandmark leftEyeInner = pose.getPoseLandmark(PoseLandmark.LEFT_EYE_INNER);
PoseLandmark leftEye = pose.getPoseLandmark(PoseLandmark.LEFT_EYE);
PoseLandmark leftEyeOuter = pose.getPoseLandmark(PoseLandmark.LEFT_EYE_OUTER);
PoseLandmark rightEyeInner = pose.getPoseLandmark(PoseLandmark.RIGHT_EYE_INNER);
PoseLandmark rightEye = pose.getPoseLandmark(PoseLandmark.RIGHT_EYE);
PoseLandmark rightEyeOuter = pose.getPoseLandmark(PoseLandmark.RIGHT_EYE_OUTER);
PoseLandmark leftEar = pose.getPoseLandmark(PoseLandmark.LEFT_EAR);
PoseLandmark rightEar = pose.getPoseLandmark(PoseLandmark.RIGHT_EAR);
PoseLandmark leftMouth = pose.getPoseLandmark(PoseLandmark.LEFT_MOUTH);
PoseLandmark rightMouth = pose.getPoseLandmark(PoseLandmark.RIGHT_MOUTH);

Советы по повышению производительности

Качество ваших результатов зависит от качества входного изображения:

Чтобы ML Kit мог точно определить позу, человек на изображении должен быть представлен достаточным количеством пиксельных данных; для наилучшей производительности размер объекта должен быть не менее 256x256 пикселей.
Если вы определяете позу в приложении реального времени, вам также стоит учитывать общие размеры входных изображений. Изображения меньшего размера обрабатываются быстрее, поэтому для уменьшения задержки снимайте с более низким разрешением, но учитывайте вышеуказанные требования к разрешению и следите за тем, чтобы объект занимал как можно большую часть изображения.
Плохая фокусировка изображения также может повлиять на точность. Если результаты неудовлетворительны, попросите пользователя переснять изображение.

Если вы хотите использовать определение поз в приложении реального времени, следуйте этим рекомендациям для достижения наилучшей частоты кадров:

Используйте базовый SDK для определения позы и STREAM_MODE .
Рассмотрите возможность захвата изображений в более низком разрешении. Однако учитывайте требования API к размерам изображений.
Если вы используете API Camera или camera2 , ограничивайте количество вызовов детектора. Если во время работы детектора появляется новый видеокадр, удалите его. См. пример класса VisionProcessorBase в примере приложения для быстрого старта.
При использовании API CameraX убедитесь, что стратегия обратного давления установлена на значение по умолчанию ImageAnalysis.STRATEGY_KEEP_ONLY_LATEST . Это гарантирует, что для анализа будет отправлено только одно изображение за раз. Если во время работы анализатора будут получены дополнительные изображения, они будут автоматически удалены и не будут поставлены в очередь на отправку. После закрытия анализируемого изображения вызовом ImageProxy.close() будет отправлено следующее по времени изображение.
Если вы используете выходные данные детектора для наложения графики на входное изображение, сначала получите результат из ML Kit, а затем визуализируйте изображение и наложение за один шаг. В этом случае визуализация на поверхности дисплея выполняется только один раз для каждого входного кадра. Пример см. в классах CameraSourcePreview и GraphicOverlay в примере приложения для быстрого старта.
Если вы используете API Camera2, снимайте изображения в формате ImageFormat.YUV_420_888 . Если вы используете более старую версию API Camera, снимайте изображения в формате ImageFormat.NV21 .

Следующие шаги

Чтобы узнать, как использовать ориентиры поз для их классификации, см. Советы по классификации поз .

Обнаружение поз с помощью ML Kit на Android Оптимизируйте свои подборки Сохраняйте и классифицируйте контент в соответствии со своими настройками.

Попробуйте это

Прежде чем начать

1. Создайте экземпляр PoseDetector

Параметры PoseDetector

Режим обнаружения

Конфигурация оборудования

Котлин

Ява

Котлин

Ява

2. Подготовьте входное изображение.

Использование media.Image

Котлин

Ява

Котлин

Ява

Котлин

Java

Использование URI файла

Котлин

Java

Использование ByteBuffer или ByteArray

Котлин

Ява

Использование Bitmap

Котлин

Java

3. Обработайте изображение.

Котлин

Ява

4. Получите информацию об обнаруженной позе.

Котлин

Ява

Советы по повышению производительности

Следующие шаги

Обнаружение поз с помощью ML Kit на Android

1. Создайте экземпляр `PoseDetector`

Параметры `PoseDetector`

Использование `media.Image`

Использование `ByteBuffer` или `ByteArray`

Использование `Bitmap`