Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

iOS पर ML Kit की मदद से, इमेज में मौजूद टेक्स्ट की पहचान करें

ML Kit की मदद से, इमेज या वीडियो में मौजूद टेक्स्ट की पहचान की जा सकती है. जैसे, सड़क के साइन बोर्ड पर लिखा टेक्स्ट. इस सुविधा की मुख्य विशेषताएं ये हैं:

Text Recognition v2 API
ब्यौरा	इमेज या वीडियो में मौजूद टेक्स्ट की पहचान करना. साथ ही, लैटिन, चाइनीज़, देवनागरी, जैपनीज़, और कोरियन स्क्रिप्ट और कई भाषाओं के लिए सहायता.
एसडीके के नाम	`GoogleMLKit/TextRecognition GoogleMLKit/TextRecognitionChinese GoogleMLKit/TextRecognitionDevanagari GoogleMLKit/TextRecognitionJapanese GoogleMLKit/TextRecognitionKorean`
लागू करना	ऐसेट, आपके ऐप्लिकेशन से स्टैटिक तौर पर लिंक होती हैं. यह प्रोसेस, बिल्ड प्रोसेस में लगने वाले समय के दौरान होती है
ऐप्लिकेशन के साइज़ पर पड़ने वाला असर	हर स्क्रिप्ट एसडीके के लिए, करीब 38 एमबी
परफ़ॉर्मेंस	लैटिन स्क्रिप्ट एसडीके के लिए, ज़्यादातर डिवाइसों पर रीयल-टाइम में काम करता है. हालांकि, अन्य स्क्रिप्ट के लिए, यह सुविधा थोड़ी धीमी काम करती है.

इसे आज़माएं

इस एपीआई के इस्तेमाल का उदाहरण देखने के लिए, सैंपल ऐप्लिकेशन आज़माएं.
कोडलैब की मदद से, कोड को खुद आज़माएं.

शुरू करने से पहले

अपने Podfile में, ML Kit के ये पॉड शामिल करें:

# To recognize Latin script
pod 'GoogleMLKit/TextRecognition', '8.0.0'
# To recognize Chinese script
pod 'GoogleMLKit/TextRecognitionChinese', '8.0.0'
# To recognize Devanagari script
pod 'GoogleMLKit/TextRecognitionDevanagari', '8.0.0'
# To recognize Japanese script
pod 'GoogleMLKit/TextRecognitionJapanese', '8.0.0'
# To recognize Korean script
pod 'GoogleMLKit/TextRecognitionKorean', '8.0.0'

अपने प्रोजेक्ट के पॉड इंस्टॉल या अपडेट करने के बाद, .xcworkspace का इस्तेमाल करके, अपना Xcode प्रोजेक्ट खोलें. ML Kit, Xcode के वर्शन 12.4 या इसके बाद वाले वर्शन पर काम करता है.

1. `TextRecognizer` का इंस्टेंस बनाएं

TextRecognizer का इंस्टेंस बनाएं. साथ ही, +textRecognizer(options:) को कॉल करके, ऊपर बताई गई डिपेंडेंसी के तौर पर, एसडीके से जुड़े विकल्प पास करें:

Swift

// When using Latin script recognition SDK
let latinOptions = TextRecognizerOptions()
let latinTextRecognizer = TextRecognizer.textRecognizer(options:options)

// When using Chinese script recognition SDK
let chineseOptions = ChineseTextRecognizerOptions()
let chineseTextRecognizer = TextRecognizer.textRecognizer(options:options)

// When using Devanagari script recognition SDK
let devanagariOptions = DevanagariTextRecognizerOptions()
let devanagariTextRecognizer = TextRecognizer.textRecognizer(options:options)

// When using Japanese script recognition SDK
let japaneseOptions = JapaneseTextRecognizerOptions()
let japaneseTextRecognizer = TextRecognizer.textRecognizer(options:options)

// When using Korean script recognition SDK
let koreanOptions = KoreanTextRecognizerOptions()
let koreanTextRecognizer = TextRecognizer.textRecognizer(options:options)

Objective-C

// When using Latin script recognition SDK
MLKTextRecognizerOptions *latinOptions = [[MLKTextRecognizerOptions alloc] init];
MLKTextRecognizer *latinTextRecognizer = [MLKTextRecognizer textRecognizerWithOptions:options];

// When using Chinese script recognition SDK
MLKChineseTextRecognizerOptions *chineseOptions = [[MLKChineseTextRecognizerOptions alloc] init];
MLKTextRecognizer *chineseTextRecognizer = [MLKTextRecognizer textRecognizerWithOptions:options];

// When using Devanagari script recognition SDK
MLKDevanagariTextRecognizerOptions *devanagariOptions = [[MLKDevanagariTextRecognizerOptions alloc] init];
MLKTextRecognizer *devanagariTextRecognizer = [MLKTextRecognizer textRecognizerWithOptions:options];

// When using Japanese script recognition SDK
MLKJapaneseTextRecognizerOptions *japaneseOptions = [[MLKJapaneseTextRecognizerOptions alloc] init];
MLKTextRecognizer *japaneseTextRecognizer = [MLKTextRecognizer textRecognizerWithOptions:options];

// When using Korean script recognition SDK
MLKKoreanTextRecognizerOptions *koreanOptions = [[MLKKoreanTextRecognizerOptions alloc] init];
MLKTextRecognizer *koreanTextRecognizer = [MLKTextRecognizer textRecognizerWithOptions:options];

2. इनपुट इमेज तैयार करना

इमेज को UIImage या CMSampleBufferRef के तौर पर TextRecognizer के process(_:completion:) तरीके में पास करें:

VisionImage ऑब्जेक्ट बनाने के लिए, UIImage या CMSampleBuffer का इस्तेमाल करें.

अगर UIImage का इस्तेमाल किया जाता है, तो यह तरीका अपनाएं:

VisionImage ऑब्जेक्ट, UIImage की मदद से बनाएं. पक्का करें कि .orientation सही तरीके से तय किया गया हो.

Swift

let image = VisionImage(image: UIImage)
visionImage.orientation = image.imageOrientation

Objective-C

MLKVisionImage *visionImage = [[MLKVisionImage alloc] initWithImage:image];
visionImage.orientation = image.imageOrientation;

अगर CMSampleBuffer का इस्तेमाल किया जाता है, तो यह तरीका अपनाएं:

` CMSampleBuffer` में मौजूद इमेज डेटा का ओरिएंटेशन तय करें.

इमेज का ओरिएंटेशन पाने के लिए:

Swift

func imageOrientation(
  deviceOrientation: UIDeviceOrientation,
  cameraPosition: AVCaptureDevice.Position
) -> UIImage.Orientation {
  switch deviceOrientation {
  case .portrait:
    return cameraPosition == .front ? .leftMirrored : .right
  case .landscapeLeft:
    return cameraPosition == .front ? .downMirrored : .up
  case .portraitUpsideDown:
    return cameraPosition == .front ? .rightMirrored : .left
  case .landscapeRight:
    return cameraPosition == .front ? .upMirrored : .down
  case .faceDown, .faceUp, .unknown:
    return .up
  }
}

Objective-C

- (UIImageOrientation)
  imageOrientationFromDeviceOrientation:(UIDeviceOrientation)deviceOrientation
                         cameraPosition:(AVCaptureDevicePosition)cameraPosition {
  switch (deviceOrientation) {
    case UIDeviceOrientationPortrait:
      return cameraPosition == AVCaptureDevicePositionFront ? UIImageOrientationLeftMirrored
                                                            : UIImageOrientationRight;

    case UIDeviceOrientationLandscapeLeft:
      return cameraPosition == AVCaptureDevicePositionFront ? UIImageOrientationDownMirrored
                                                            : UIImageOrientationUp;
    case UIDeviceOrientationPortraitUpsideDown:
      return cameraPosition == AVCaptureDevicePositionFront ? UIImageOrientationRightMirrored
                                                            : UIImageOrientationLeft;
    case UIDeviceOrientationLandscapeRight:
      return cameraPosition == AVCaptureDevicePositionFront ? UIImageOrientationUpMirrored
                                                            : UIImageOrientationDown;
    case UIDeviceOrientationUnknown:
    case UIDeviceOrientationFaceUp:
    case UIDeviceOrientationFaceDown:
      return UIImageOrientationUp;
  }
}

VisionImage ऑब्जेक्ट और ओरिएंटेशन का इस्तेमाल करके, CMSampleBuffer ऑब्जेक्ट बनाएं:

Swift

let image = VisionImage(buffer: sampleBuffer)
image.orientation = imageOrientation(
  deviceOrientation: UIDevice.current.orientation,
  cameraPosition: cameraPosition)

Objective-C

 MLKVisionImage *image = [[MLKVisionImage alloc] initWithBuffer:sampleBuffer];
 image.orientation =
   [self imageOrientationFromDeviceOrientation:UIDevice.currentDevice.orientation
                                cameraPosition:cameraPosition];

3. इमेज को प्रोसेस करना

इसके बाद, इमेज को process(_:completion:) तरीके में पास करें:

Swift

textRecognizer.process(visionImage) { result, error in
  guard error == nil, let result = result else {
    // Error handling
    return
  }
  // Recognized text
}

Objective-C

[textRecognizer processImage:image
                  completion:^(MLKText *_Nullable result,
                               NSError *_Nullable error) {
  if (error != nil || result == nil) {
    // Error handling
    return;
  }
  // Recognized text
}];

4. पहचाने गए टेक्स्ट के ब्लॉक से टेक्स्ट निकालना

अगर टेक्स्ट की पहचान करने की प्रोसेस पूरी हो जाती है, तो यह Text ऑब्जेक्ट दिखाता है. A Text ऑब्जेक्ट में, इमेज में पहचाना गया पूरा टेक्स्ट और शून्य या उससे ज़्यादा TextBlock ऑब्जेक्ट शामिल होते हैं.

हर TextBlock, टेक्स्ट के आयताकार ब्लॉक को दिखाता है. इसमें शून्य या उससे ज़्यादा TextLine ऑब्जेक्ट शामिल होते हैं. हर TextLine ऑब्जेक्ट में शून्य या उससे ज़्यादा TextElement ऑब्जेक्ट शामिल होते हैं. ये ऑब्जेक्ट, शब्दों और तारीखों और नंबरों जैसी शब्द जैसी इकाइयों को दिखाते हैं.

TextBlock, TextLine, और TextElement के हर ऑब्जेक्ट के लिए, उस इलाके में पहचाना गया टेक्स्ट और उस इलाके के बाउंडिंग कोऑर्डिनेट पाए जा सकते हैं.

उदाहरण के लिए:

Swift

let resultText = result.text
for block in result.blocks {
    let blockText = block.text
    let blockLanguages = block.recognizedLanguages
    let blockCornerPoints = block.cornerPoints
    let blockFrame = block.frame
    for line in block.lines {
        let lineText = line.text
        let lineLanguages = line.recognizedLanguages
        let lineCornerPoints = line.cornerPoints
        let lineFrame = line.frame
        for element in line.elements {
            let elementText = element.text
            let elementCornerPoints = element.cornerPoints
            let elementFrame = element.frame
        }
    }
}

Objective-C

NSString *resultText = result.text;
for (MLKTextBlock *block in result.blocks) {
  NSString *blockText = block.text;
  NSArray<MLKTextRecognizedLanguage *> *blockLanguages = block.recognizedLanguages;
  NSArray<NSValue *> *blockCornerPoints = block.cornerPoints;
  CGRect blockFrame = block.frame;
  for (MLKTextLine *line in block.lines) {
    NSString *lineText = line.text;
    NSArray<MLKTextRecognizedLanguage *> *lineLanguages = line.recognizedLanguages;
    NSArray<NSValue *> *lineCornerPoints = line.cornerPoints;
    CGRect lineFrame = line.frame;
    for (MLKTextElement *element in line.elements) {
      NSString *elementText = element.text;
      NSArray<NSValue *> *elementCornerPoints = element.cornerPoints;
      CGRect elementFrame = element.frame;
    }
  }
}

इनपुट इमेज के लिए दिशा-निर्देश

ML Kit को सटीक तरीके से टेक्स्ट की पहचान करने के लिए, इनपुट इमेज में ऐसा टेक्स्ट होना चाहिए जो पिक्सल डेटा के ज़रिए दिखाया गया हो. आदर्श तौर पर, हर वर्ण कम से कम 16x16 पिक्सल का होना चाहिए. आम तौर पर, वर्णों के 24x24 पिक्सल से बड़े होने पर, सटीक नतीजे मिलने की संभावना नहीं बढ़ती.

इसलिए, उदाहरण के लिए, 640x480 पिक्सल वाली इमेज, ऐसे बिज़नेस कार्ड को स्कैन करने के लिए सही हो सकती है जो इमेज की पूरी चौड़ाई में फैला हो. लेटर साइज़ के पेपर पर प्रिंट किए गए किसी दस्तावेज़ को स्कैन करने के लिए, 720x1280 पिक्सल वाली इमेज की ज़रूरत पड़ सकती है.
इमेज का फ़ोकस खराब होने से, टेक्स्ट की पहचान करने की सटीक दर पर असर पड़ सकता है. अगर आपको सही नतीजे नहीं मिल रहे हैं, तो उपयोगकर्ता से इमेज को फिर से कैप्चर करने के लिए कहें.
अगर रीयल-टाइम ऐप्लिकेशन में टेक्स्ट की पहचान की जा रही है, तो आपको इनपुट इमेज के कुल डाइमेंशन पर ध्यान देना चाहिए. छोटी इमेज को तेज़ी से प्रोसेस किया जा सकता है. लेटेंसी कम करने के लिए, पक्का करें कि टेक्स्ट, इमेज के ज़्यादा से ज़्यादा हिस्से में मौजूद हो. साथ ही, कम रिज़ॉल्यूशन वाली इमेज कैप्चर करें. हालांकि, ऊपर बताई गई सटीक दर की ज़रूरी शर्तों को ध्यान में रखें. ज़्यादा जानकारी के लिए, परफ़ॉर्मेंस बेहतर करने के बारे में सलाह देखें.

परफ़ॉर्मेंस बेहतर करने के बारे में सलाह

वीडियो फ़्रेम प्रोसेस करने के लिए, डिटेक्टर के results(in:) सिंक्रोनस एपीआई का इस्तेमाल करें. दिए गए वीडियो फ़्रेम से सिंक्रोनस तौर पर नतीजे पाने के लिए, इस तरीके को AVCaptureVideoDataOutputSampleBufferDelegate's captureOutput(_, didOutput:from:) फ़ंक्शन से कॉल करें. डिटेक्टर को कॉल करने की संख्या कम करने के लिए, AVCaptureVideoDataOutput के alwaysDiscardsLateVideoFrames को true पर सेट करें. अगर डिटेक्टर के चालू रहने के दौरान, कोई नया वीडियो फ़्रेम उपलब्ध होता है, तो उसे छोड़ दिया जाएगा.
अगर इनपुट इमेज पर ग्राफ़िक्स ओवरले करने के लिए, डिटेक्टर के आउटपुट का इस्तेमाल किया जाता है, तो पहले ML Kit से नतीजा पाएं. इसके बाद, इमेज रेंडर करें और एक ही चरण में ओवरले करें. ऐसा करने पर, प्रोसेस किए गए हर इनपुट फ़्रेम के लिए, डिसप्ले सर्फ़ेस पर सिर्फ़ एक बार रेंडर किया जाता है. उदाहरण के लिए, ML Kit के क्विकस्टार्ट सैंपल में, updatePreviewOverlayViewWithLastFrame देखें.
कम रिज़ॉल्यूशन वाली इमेज कैप्चर करने पर विचार करें. हालांकि, इस एपीआई की इमेज डाइमेंशन से जुड़ी ज़रूरी शर्तों को भी ध्यान में रखें.
परफ़ॉर्मेंस में गिरावट से बचने के लिए, अलग-अलग स्क्रिप्ट के विकल्पों के साथ, कई TextRecognizer इंस्टेंस एक साथ न चलाएं.

इसे आज़माएं

शुरू करने से पहले

1. TextRecognizer का इंस्टेंस बनाएं

Swift

Objective-C

2. इनपुट इमेज तैयार करना

Swift

Objective-C

Swift

Objective-C

Swift

Objective-C

3. इमेज को प्रोसेस करना

Swift

Objective-C

4. पहचाने गए टेक्स्ट के ब्लॉक से टेक्स्ट निकालना

Swift

Objective-C

इनपुट इमेज के लिए दिशा-निर्देश

परफ़ॉर्मेंस बेहतर करने के बारे में सलाह

1. `TextRecognizer` का इंस्टेंस बनाएं