Detecta poses con ML Kit en iOS

ML Kit proporciona dos SDKs optimizados para la detección de poses.

Nombre del SDKPoseDetectionPoseDetectionAccurate
ImplementaciónLos recursos del detector base se vinculan de forma estática a la app durante el tiempo de compilación.Los recursos para un detector preciso se vinculan de forma estática a tu app durante el tiempo de compilación.
Tamaño de la appHasta 29.6 MBHasta 33.2 MB
RendimientoiPhone X: ~45FPSiPhone X: ~29FPS

Probar

Antes de comenzar

  1. Incluye los siguientes pods del ML Kit en el Podfile:

    # If you want to use the base implementation:
    pod 'GoogleMLKit/PoseDetection', '3.2.0'
    
    # If you want to use the accurate implementation:
    pod 'GoogleMLKit/PoseDetectionAccurate', '3.2.0'
    
  2. Después de instalar o actualizar los Pods de tu proyecto, abre el proyecto de Xcode a través de su xcworkspace. El ML Kit es compatible con Xcode 13.2.1 o versiones posteriores.

1. Crea una instancia de PoseDetector.

Para detectar una postura en una imagen, primero crea una instancia de PoseDetector y, de manera opcional, especifica la configuración del detector.

PoseDetector opciones

Modo de detección

PoseDetector funciona en dos modos de detección. Asegúrate de elegir la que coincida con tu caso de uso.

stream (predeterminada)
El detector de poses primero detectará a la persona más destacada en la imagen y, luego, ejecutará la detección de poses. En los fotogramas posteriores, el paso de detección de personas no se realizará, a menos que se oscurezca o ya no se detecte con un alto grado de confianza. El detector de poses intentará rastrear a la persona más destacada y mostrará su postura en cada inferencia. Esto reduce la latencia y simplifica la detección. Usa este modo cuando quieras detectar la postura en una transmisión de video por Internet.
singleImage
El detector de poses detectará a una persona y, luego, ejecutará la detección de poses. El paso de detección de personas se ejecutará para cada imagen, por lo que la latencia será mayor y no habrá seguimiento de personas. Usa este modo cuando uses la detección de poses en imágenes estáticas o cuando no desees hacer un seguimiento.

Especifica las opciones del detector de poses:

Swift

// Base pose detector with streaming, when depending on the PoseDetection SDK
let options = PoseDetectorOptions()
options.detectorMode = .stream

// Accurate pose detector on static images, when depending on the
// PoseDetectionAccurate SDK
let options = AccuratePoseDetectorOptions()
options.detectorMode = .singleImage

Objective‑C

// Base pose detector with streaming, when depending on the PoseDetection SDK
MLKPoseDetectorOptions *options = [[MLKPoseDetectorOptions alloc] init];
options.detectorMode = MLKPoseDetectorModeStream;

// Accurate pose detector on static images, when depending on the
// PoseDetectionAccurate SDK
MLKAccuratePoseDetectorOptions *options =
    [[MLKAccuratePoseDetectorOptions alloc] init];
options.detectorMode = MLKPoseDetectorModeSingleImage;

Por último, obtén una instancia de PoseDetector. Pasa las opciones que especificaste:

Swift

let poseDetector = PoseDetector.poseDetector(options: options)

Objective‑C

MLKPoseDetector *poseDetector =
    [MLKPoseDetector poseDetectorWithOptions:options];

2. Prepara la imagen de entrada

Si quieres detectar poses, haz lo siguiente para cada imagen o fotograma de video. Si habilitaste el modo de transmisión, debes crear objetos VisionImage a partir de CMSampleBuffer.

Crea un objeto VisionImage con UIImage o CMSampleBuffer.

Si usas un UIImage, sigue estos pasos:

  • Crea un objeto VisionImage con UIImage. Asegúrate de especificar el .orientation correcto.

    Swift

    let image = VisionImage(image: UIImage)
    visionImage.orientation = image.imageOrientation

    Objective‑C

    MLKVisionImage *visionImage = [[MLKVisionImage alloc] initWithImage:image];
    visionImage.orientation = image.imageOrientation;

Si usas un CMSampleBuffer, sigue estos pasos:

  • Especifica la orientación de los datos de la imagen contenidos en CMSampleBuffer.

    Para obtener la orientación de la imagen, haz lo siguiente:

    Swift

    func imageOrientation(
      deviceOrientation: UIDeviceOrientation,
      cameraPosition: AVCaptureDevice.Position
    ) -> UIImage.Orientation {
      switch deviceOrientation {
      case .portrait:
        return cameraPosition == .front ? .leftMirrored : .right
      case .landscapeLeft:
        return cameraPosition == .front ? .downMirrored : .up
      case .portraitUpsideDown:
        return cameraPosition == .front ? .rightMirrored : .left
      case .landscapeRight:
        return cameraPosition == .front ? .upMirrored : .down
      case .faceDown, .faceUp, .unknown:
        return .up
      }
    }
          

    Objective‑C

    - (UIImageOrientation)
      imageOrientationFromDeviceOrientation:(UIDeviceOrientation)deviceOrientation
                             cameraPosition:(AVCaptureDevicePosition)cameraPosition {
      switch (deviceOrientation) {
        case UIDeviceOrientationPortrait:
          return cameraPosition == AVCaptureDevicePositionFront ? UIImageOrientationLeftMirrored
                                                                : UIImageOrientationRight;
    
        case UIDeviceOrientationLandscapeLeft:
          return cameraPosition == AVCaptureDevicePositionFront ? UIImageOrientationDownMirrored
                                                                : UIImageOrientationUp;
        case UIDeviceOrientationPortraitUpsideDown:
          return cameraPosition == AVCaptureDevicePositionFront ? UIImageOrientationRightMirrored
                                                                : UIImageOrientationLeft;
        case UIDeviceOrientationLandscapeRight:
          return cameraPosition == AVCaptureDevicePositionFront ? UIImageOrientationUpMirrored
                                                                : UIImageOrientationDown;
        case UIDeviceOrientationUnknown:
        case UIDeviceOrientationFaceUp:
        case UIDeviceOrientationFaceDown:
          return UIImageOrientationUp;
      }
    }
          
  • Crea un objeto VisionImage con el objeto CMSampleBuffer y la orientación:

    Swift

    let image = VisionImage(buffer: sampleBuffer)
    image.orientation = imageOrientation(
      deviceOrientation: UIDevice.current.orientation,
      cameraPosition: cameraPosition)

    Objective‑C

     MLKVisionImage *image = [[MLKVisionImage alloc] initWithBuffer:sampleBuffer];
     image.orientation =
       [self imageOrientationFromDeviceOrientation:UIDevice.currentDevice.orientation
                                    cameraPosition:cameraPosition];

3. Procesa la imagen

Pasa el elemento VisionImage a uno de los métodos de procesamiento de imágenes del detector de posturas. Puedes usar el método asíncrono process(image:) o el método síncrono results().

Para detectar objetos de forma síncrona, haz lo siguiente:

Swift

var results: [Pose]
do {
  results = try poseDetector.results(in: image)
} catch let error {
  print("Failed to detect pose with error: \(error.localizedDescription).")
  return
}
guard let detectedPoses = results, !detectedPoses.isEmpty else {
  print("Pose detector returned no results.")
  return
}

// Success. Get pose landmarks here.

Objective‑C

NSError *error;
NSArray *poses = [poseDetector resultsInImage:image error:&error];
if (error != nil) {
  // Error.
  return;
}
if (poses.count == 0) {
  // No pose detected.
  return;
}

// Success. Get pose landmarks here.

Para detectar objetos de forma asíncrona, haz lo siguiente:

Swift

poseDetector.process(image) { detectedPoses, error in
  guard error == nil else {
    // Error.
    return
  }
  guard !detectedPoses.isEmpty else {
    // No pose detected.
    return
  }

  // Success. Get pose landmarks here.
}

Objective‑C

[poseDetector processImage:image
                completion:^(NSArray * _Nullable poses,
                             NSError * _Nullable error) {
                    if (error != nil) {
                      // Error.
                      return;
                    }
                    if (poses.count == 0) {
                      // No pose detected.
                      return;
                    }

                    // Success. Get pose landmarks here.
                  }];

4. Obtén información sobre la postura detectada

Si se detecta a una persona en la imagen, la API de detección de poses pasa un array de objetos Pose al controlador de finalización o lo muestra, en función de si llamaste a un método asíncrono o a uno síncrono.

Si la persona no estaba completamente dentro de la imagen, el modelo asigna las coordenadas de puntos de referencia faltantes fuera del marco y les proporciona valores de InFrameConfidence bajos.

Si no se detectó a una persona, el array estará vacío.

Swift

for pose in detectedPoses {
  let leftAnkleLandmark = pose.landmark(ofType: .leftAnkle)
  if leftAnkleLandmark.inFrameLikelihood > 0.5 {
    let position = leftAnkleLandmark.position
  }
}

Objective‑C

for (MLKPose *pose in detectedPoses) {
  MLKPoseLandmark *leftAnkleLandmark =
      [pose landmarkOfType:MLKPoseLandmarkTypeLeftAnkle];
  if (leftAnkleLandmark.inFrameLikelihood > 0.5) {
    MLKVision3DPoint *position = leftAnkleLandmark.position;
  }
}

Sugerencias para mejorar el rendimiento

La calidad de los resultados depende de la calidad de la imagen de entrada:

  • Para que el Kit de AA detecte la postura con precisión, la persona en la imagen debe estar representada con datos de píxeles suficientes. Para lograr el mejor rendimiento, el objeto debe tener al menos 256 × 256 píxeles.
  • Si detectas la postura en una aplicación en tiempo real, te recomendamos que también consideres las dimensiones generales de las imágenes de entrada. Las imágenes más pequeñas se pueden procesar más rápido. Para reducir la latencia, captura imágenes con resoluciones más bajas, pero ten en cuenta los requisitos de resolución anteriores y asegúrate de que el objeto ocupe la mayor parte de la imagen posible.
  • Un enfoque de imagen deficiente también puede afectar la precisión. Si no obtienes resultados aceptables, pídele al usuario que vuelva a capturar la imagen.

Si quieres usar la detección de poses en una aplicación en tiempo real, sigue estos lineamientos para lograr la mejor velocidad de fotogramas:

  • Usa el SDK básico de PoseDetection y el modo de detección stream.
  • Considera capturar imágenes con una resolución más baja. Sin embargo, también ten en cuenta los requisitos de dimensiones de imágenes de esta API.
  • Para procesar fotogramas de video, usa la API síncrona results(in:) del detector. Llama a este método desde la función captureOutput(_, didOutput:from:) de AVCaptureVideoDataOutputSampleBufferDelegate para obtener resultados de un fotograma determinado de forma síncrona. Mantén el valor alwaysDiscardsLateVideoFrames de AVCaptureVideoDataOutput como verdadero para limitar las llamadas al detector. Si hay un fotograma de video nuevo disponible mientras se ejecuta el detector, se descartará.
  • Si usas la salida del detector para superponer gráficos en la imagen de entrada, primero obtén el resultado del ML Kit y, luego, renderiza la imagen y la superposición en un solo paso. De esta manera, renderizas en la superficie de visualización solo una vez por cada fotograma de entrada procesado. Consulta las clases previewOverlayView y MLKDetectionOverlayView en la app de muestra para ver un ejemplo.

Próximos pasos