iOS पर ML Kit की मदद से पोज़ का पता लगाएं

एमएल किट, पोज़ का पता लगाने के लिए ऑप्टिमाइज़ किए गए दो SDK टूल उपलब्ध कराती है.

SDK टूल का नामPoseDetectionPoseDetectionAccurate
लागू करने का तरीकाबेस डिटेक्टर की एसेट, बिल्ड के दौरान आपके ऐप्लिकेशन के साथ स्टैटिक रूप से लिंक होती हैं.सटीक डिटेक्टर के लिए ऐसेट, बिल्ड के दौरान आपके ऐप्लिकेशन के साथ स्टैटिक रूप से लिंक होती हैं.
ऐप्लिकेशन का साइज़ज़्यादा से ज़्यादा 29.6 एमबीज़्यादा से ज़्यादा 33.2 एमबी
परफ़ॉर्मेंसiPhone X: ~45FPSiPhone X: ~29FPS

इसे आज़माएं

शुरू करने से पहले

  1. अपने Podfile में, यहां दिए गए ML किट पॉड शामिल करें:

    # If you want to use the base implementation:
    pod 'GoogleMLKit/PoseDetection', '3.2.0'
    
    # If you want to use the accurate implementation:
    pod 'GoogleMLKit/PoseDetectionAccurate', '3.2.0'
    
  2. अपने प्रोजेक्ट के पॉड इंस्टॉल या अपडेट करने के बाद, Xcode प्रोजेक्ट के xcworkspace का इस्तेमाल करके खोलें. ML किट, Xcode 13.2.1 या इसके बाद के वर्शन में काम करती है.

1. PoseDetector का एक इंस्टेंस बनाएं

किसी इमेज में किसी पोज़ का पता लगाने के लिए, पहले PoseDetector का इंस्टेंस बनाएं और अगर आप चाहें, तो डिटेक्टर सेटिंग भी तय करें.

PoseDetector के विकल्प

पहचान मोड

PoseDetector, पहचान करने वाले दो मोड में काम करता है. पक्का करें कि आपने वही विकल्प चुना है जो आपके इस्तेमाल के उदाहरण से मेल खाता हो.

stream (डिफ़ॉल्ट)
पोज़ डिटेक्टर, सबसे पहले इमेज में मौजूद मुख्य व्यक्ति की पहचान करेगा. इसके बाद, वह पोज़ का पता लगाएगा. बाद के फ़्रेम में, व्यक्ति की पहचान करने का चरण तब तक शुरू नहीं किया जाएगा, जब तक वह व्यक्ति धुंधला न हो या उसकी पहचान बड़े भरोसे के साथ न हो पाए. पोज़ डिटेक्टर, सबसे ज़्यादा प्रमुखता से दिखने वाले व्यक्ति को ट्रैक करने की कोशिश करेगा और हर अनुमान में अपना पोज़ दिखाएगा. इससे इंतज़ार का समय कम हो जाता है और आसानी से पहचान की जा सकती है. इस मोड का इस्तेमाल तब करें, जब आपको वीडियो स्ट्रीम में पोज़ की पहचान करनी हो.
singleImage
पोज़ डिटेक्टर किसी व्यक्ति की पहचान करेगा और उसके बाद पोज़ की पहचान करेगा. व्यक्ति की पहचान करने वाला स्टेप हर इमेज के लिए चलेगा, इसलिए इंतज़ार का समय बढ़ जाएगा और किसी व्यक्ति को ट्रैक नहीं किया जाएगा. स्थैतिक इमेज पर या जहां ट्रैकिंग की ज़रूरत न हो, वहां पोज़ की पहचान का इस्तेमाल करते समय इस मोड का इस्तेमाल करें.

पोज़ डिटेक्टर के विकल्प तय करें:

Swift

// Base pose detector with streaming, when depending on the PoseDetection SDK
let options = PoseDetectorOptions()
options.detectorMode = .stream

// Accurate pose detector on static images, when depending on the
// PoseDetectionAccurate SDK
let options = AccuratePoseDetectorOptions()
options.detectorMode = .singleImage

Objective-C

// Base pose detector with streaming, when depending on the PoseDetection SDK
MLKPoseDetectorOptions *options = [[MLKPoseDetectorOptions alloc] init];
options.detectorMode = MLKPoseDetectorModeStream;

// Accurate pose detector on static images, when depending on the
// PoseDetectionAccurate SDK
MLKAccuratePoseDetectorOptions *options =
    [[MLKAccuratePoseDetectorOptions alloc] init];
options.detectorMode = MLKPoseDetectorModeSingleImage;

आखिर में, PoseDetector का एक इंस्टेंस पाएं. अपने बताए गए विकल्पों को पास करें:

Swift

let poseDetector = PoseDetector.poseDetector(options: options)

Objective-C

MLKPoseDetector *poseDetector =
    [MLKPoseDetector poseDetectorWithOptions:options];

2. इनपुट इमेज तैयार करें

पोज़ का पता लगाने के लिए, वीडियो की हर इमेज या फ़्रेम के लिए नीचे दिया गया तरीका अपनाएं. अगर आपने स्ट्रीम मोड चालू किया है, तो आपको CMSampleBuffer से VisionImage ऑब्जेक्ट बनाने होंगे.

UIImage या CMSampleBuffer का इस्तेमाल करके, VisionImage ऑब्जेक्ट बनाएं.

अगर UIImage का इस्तेमाल किया जाता है, तो यह तरीका अपनाएं:

  • UIImage की मदद से VisionImage ऑब्जेक्ट बनाएं. पक्का करें कि आपने सही .orientation डाला हो.

    Swift

    let image = VisionImage(image: UIImage)
    visionImage.orientation = image.imageOrientation

    Objective-C

    MLKVisionImage *visionImage = [[MLKVisionImage alloc] initWithImage:image];
    visionImage.orientation = image.imageOrientation;

अगर CMSampleBuffer का इस्तेमाल किया जाता है, तो यह तरीका अपनाएं:

  • CMSampleBuffer में शामिल इमेज डेटा का ओरिएंटेशन बताएं.

    इमेज ओरिएंटेशन पाने के लिए:

    Swift

    func imageOrientation(
      deviceOrientation: UIDeviceOrientation,
      cameraPosition: AVCaptureDevice.Position
    ) -> UIImage.Orientation {
      switch deviceOrientation {
      case .portrait:
        return cameraPosition == .front ? .leftMirrored : .right
      case .landscapeLeft:
        return cameraPosition == .front ? .downMirrored : .up
      case .portraitUpsideDown:
        return cameraPosition == .front ? .rightMirrored : .left
      case .landscapeRight:
        return cameraPosition == .front ? .upMirrored : .down
      case .faceDown, .faceUp, .unknown:
        return .up
      }
    }
          

    Objective-C

    - (UIImageOrientation)
      imageOrientationFromDeviceOrientation:(UIDeviceOrientation)deviceOrientation
                             cameraPosition:(AVCaptureDevicePosition)cameraPosition {
      switch (deviceOrientation) {
        case UIDeviceOrientationPortrait:
          return cameraPosition == AVCaptureDevicePositionFront ? UIImageOrientationLeftMirrored
                                                                : UIImageOrientationRight;
    
        case UIDeviceOrientationLandscapeLeft:
          return cameraPosition == AVCaptureDevicePositionFront ? UIImageOrientationDownMirrored
                                                                : UIImageOrientationUp;
        case UIDeviceOrientationPortraitUpsideDown:
          return cameraPosition == AVCaptureDevicePositionFront ? UIImageOrientationRightMirrored
                                                                : UIImageOrientationLeft;
        case UIDeviceOrientationLandscapeRight:
          return cameraPosition == AVCaptureDevicePositionFront ? UIImageOrientationUpMirrored
                                                                : UIImageOrientationDown;
        case UIDeviceOrientationUnknown:
        case UIDeviceOrientationFaceUp:
        case UIDeviceOrientationFaceDown:
          return UIImageOrientationUp;
      }
    }
          
  • CMSampleBuffer ऑब्जेक्ट और ओरिएंटेशन का इस्तेमाल करके, VisionImage ऑब्जेक्ट बनाएं:

    Swift

    let image = VisionImage(buffer: sampleBuffer)
    image.orientation = imageOrientation(
      deviceOrientation: UIDevice.current.orientation,
      cameraPosition: cameraPosition)

    Objective-C

     MLKVisionImage *image = [[MLKVisionImage alloc] initWithBuffer:sampleBuffer];
     image.orientation =
       [self imageOrientationFromDeviceOrientation:UIDevice.currentDevice.orientation
                                    cameraPosition:cameraPosition];

3. इमेज को प्रोसेस करें

पोज़ डिटेक्टर के इमेज प्रोसेस करने के किसी तरीके का इस्तेमाल करने के लिए, VisionImage को पास करें. एसिंक्रोनस process(image:) तरीके या सिंक्रोनस results() तरीके का इस्तेमाल किया जा सकता है.

ऑब्जेक्ट का सिंक्रोनस रूप से पता लगाने के लिए:

Swift

var results: [Pose]
do {
  results = try poseDetector.results(in: image)
} catch let error {
  print("Failed to detect pose with error: \(error.localizedDescription).")
  return
}
guard let detectedPoses = results, !detectedPoses.isEmpty else {
  print("Pose detector returned no results.")
  return
}

// Success. Get pose landmarks here.

Objective-C

NSError *error;
NSArray *poses = [poseDetector resultsInImage:image error:&error];
if (error != nil) {
  // Error.
  return;
}
if (poses.count == 0) {
  // No pose detected.
  return;
}

// Success. Get pose landmarks here.

ऑब्जेक्ट का एसिंक्रोनस तरीके से पता लगाने के लिए:

Swift

poseDetector.process(image) { detectedPoses, error in
  guard error == nil else {
    // Error.
    return
  }
  guard !detectedPoses.isEmpty else {
    // No pose detected.
    return
  }

  // Success. Get pose landmarks here.
}

Objective-C

[poseDetector processImage:image
                completion:^(NSArray * _Nullable poses,
                             NSError * _Nullable error) {
                    if (error != nil) {
                      // Error.
                      return;
                    }
                    if (poses.count == 0) {
                      // No pose detected.
                      return;
                    }

                    // Success. Get pose landmarks here.
                  }];

4. पहचाने गए पोज़ के बारे में जानकारी पाएं

अगर इमेज में किसी व्यक्ति की पहचान की जाती है, तो पोज़ डिटेक्शन एपीआई, Pose ऑब्जेक्ट के कलेक्शन को पूरा होने वाले हैंडलर को पास करता है या इस अरे को दिखाता है. यह इस बात पर निर्भर करता है कि आपने एसिंक्रोनस तरीके को कॉल किया है या सिंक्रोनस तरीका.

अगर इमेज में व्यक्ति पूरी तरह से नहीं था, तो मॉडल फ़्रेम के बाहर उन लैंडमार्क कोऑर्डिनेट असाइन करता है जो मौजूद नहीं हैं. साथ ही, उन्हें इनफ़्रेम कॉन्फ़िडेंस की कम वैल्यू बताते हैं.

अगर किसी भी व्यक्ति के बारे में पता नहीं चलता है, तो कलेक्शन खाली होता है.

Swift

for pose in detectedPoses {
  let leftAnkleLandmark = pose.landmark(ofType: .leftAnkle)
  if leftAnkleLandmark.inFrameLikelihood > 0.5 {
    let position = leftAnkleLandmark.position
  }
}

Objective-C

for (MLKPose *pose in detectedPoses) {
  MLKPoseLandmark *leftAnkleLandmark =
      [pose landmarkOfType:MLKPoseLandmarkTypeLeftAnkle];
  if (leftAnkleLandmark.inFrameLikelihood > 0.5) {
    MLKVision3DPoint *position = leftAnkleLandmark.position;
  }
}

परफ़ॉर्मेंस को बेहतर बनाने के लिए सलाह

आपके नतीजों की क्वालिटी, इनपुट इमेज की क्वालिटी पर निर्भर करती है:

  • एमएल किट की मदद से पोज़ का सटीक पता लगाने के लिए, इमेज में मौजूद व्यक्ति को काफ़ी पिक्सल डेटा दिखना चाहिए. बेहतरीन परफ़ॉर्मेंस के लिए, सब्जेक्ट कम से कम 256x256 पिक्सल का होना चाहिए.
  • अगर आपको किसी रीयल-टाइम में पोज़ का पता चलता है, तो इनपुट इमेज के सभी डाइमेंशन को भी ध्यान में रखा जा सकता है. छोटी इमेज को जल्दी प्रोसेस किया जा सकता है. इसलिए, इंतज़ार का समय कम करने के लिए, कम रिज़ॉल्यूशन वाली इमेज लें. हालांकि, ऊपर बताई गई रिज़ॉल्यूशन की ज़रूरी शर्तों को ध्यान में रखें. साथ ही, पक्का करें कि सब्जेक्ट को ज़्यादा से ज़्यादा इमेज दी गई हो.
  • खराब इमेज फ़ोकस भी सटीक जानकारी पर असर डाल सकता है. अगर आपको स्वीकार करने वाले नतीजे नहीं मिलते हैं, तो उपयोगकर्ता से इमेज को फिर से कैप्चर करने के लिए कहें.

अगर आपको रीयल-टाइम ऐप्लिकेशन में पोज़ की पहचान करने की सुविधा का इस्तेमाल करना है, तो सबसे अच्छी फ़्रेमरेट पाने के लिए इन दिशा-निर्देशों का पालन करें:

  • बेस PoseDetection SDK टूल और stream डिटेक्शन मोड का इस्तेमाल करें.
  • इससे कम रिज़ॉल्यूशन वाली इमेज कैप्चर की जा सकती हैं. हालांकि, इस एपीआई की इमेज डाइमेंशन से जुड़ी ज़रूरी शर्तों का भी ध्यान रखें.
  • वीडियो फ़्रेम को प्रोसेस करने के लिए, डिटेक्टर के results(in:) सिंक्रोनस एपीआई का इस्तेमाल करें. दिए गए वीडियो फ़्रेम से सिंक्रोनस रूप से नतीजे पाने के लिए, AVCaptureVideoDataOutputSampleBufferDelegate के captureOutput(_, didOutput:from:) फ़ंक्शन से इस तरीके को कॉल करें. डिटेक्टर के कॉल को रोकने के लिए, AVCaptureVideoDataOutput के alwaysDiscardsLateVideoFrames को 'सही' के तौर पर सेट करें. डिटेक्टर के चालू रहने के दौरान, अगर कोई नया वीडियो फ़्रेम उपलब्ध होता है, तो उसे हटा दिया जाएगा.
  • अगर इनपुट इमेज पर ग्राफ़िक ओवरले करने के लिए, डिटेक्टर के आउटपुट का इस्तेमाल किया जाता है, तो सबसे पहले एमएल किट की मदद से नतीजा पाएं. इसके बाद, एक ही चरण में इमेज और ओवरले को रेंडर करें. ऐसा करने पर, प्रोसेस किए गए हर इनपुट फ़्रेम के लिए सिर्फ़ एक बार डिसप्ले प्लैटफ़ॉर्म पर इमेज बनाई जाती है. उदाहरण के लिए, शोकेस सैंपल ऐप्लिकेशन में previewOverlayView और MLKDetectionOverlayView क्लास देखें.

अगले चरण