Mit ML Kit können Sie Text in Bildern oder Videos erkennen, z. B. den Text eines Straßenschilds. Die Hauptmerkmale dieser Funktion sind:
Text Recognition API | |
---|---|
Beschreibung | Erkennt lateinischen Text in Bildern oder Videos. |
Name der Bibliothek | com.google.android.gms:play-services-mlkit-text-recognition |
Implementierung | Die Bibliothek wird dynamisch über die Google Play-Dienste heruntergeladen. |
Auswirkungen auf die App-Größe | 260KB |
Initialisierungszeit | Möglicherweise müssen Sie warten, bis die Mediathek heruntergeladen ist. |
Leistung | In Echtzeit auf den meisten Geräten. |
Testen
- Probieren Sie die Beispiel-App aus, um sich ein Anwendungsbeispiel dieser API anzusehen.
- Probiere den Code selbst mit dem Codelab aus.
Hinweis
- Achten Sie darauf, dass Sie in der Datei
build.gradle
auf Projektebene das Maven-Repository von Google in die Abschnittebuildscript
undallprojects
aufnehmen. - Fügen Sie die Abhängigkeiten für die ML Kit-Android-Bibliotheken in die Gradle-Datei des Moduls auf App-Ebene ein, die normalerweise
app/build.gradle
ist:dependencies { // ... implementation 'com.google.android.gms:play-services-mlkit-text-recognition:18.0.2' }
-
Optional, aber empfohlen: Du kannst deine App so konfigurieren, dass das ML-Modell automatisch nach der Installation aus dem Play Store auf das Gerät heruntergeladen wird. Fügen Sie dazu der Datei
AndroidManifest.xml
Ihrer Anwendung die folgende Deklaration hinzu:<application ...> ... <meta-data android:name="com.google.mlkit.vision.DEPENDENCIES" android:value="ocr" /> <!-- To use multiple models: android:value="ocr,model2,model3" --> </application>
Sie können die Modellverfügbarkeit auch explizit überprüfen und den Download über die ModuleInstallClient API der Google Play-Dienste anfordern.
Wenn Sie das Herunterladen von Modellen während der Installation nicht aktivieren, wird das Modell beim ersten Ausführen des On-Device-Detektors heruntergeladen. Anfragen, die vor dem Download gesendet werden, liefern keine Ergebnisse.
1. Instanz von TextRecognizer
erstellen
Erstellen Sie eine Instanz von TextRecognizer
:
Kotlin
val recognizer = TextRecognition.getClient(TextRecognizerOptions.DEFAULT_OPTIONS)
Java
TextRecognizer recognizer = TextRecognition.getClient(TextRecognizerOptions.DEFAULT_OPTIONS);
2. Eingabebild vorbereiten
Wenn Sie Text in einem Bild erkennen möchten, erstellen Sie ein InputImage
-Objekt aus einem Bitmap
-, media.Image
-, ByteBuffer
-, Bytearray oder einer Datei auf dem Gerät. Übergeben Sie dann das Objekt InputImage
an die Methode processImage
von TextRecognizer
.
Sie können ein InputImage
-Objekt aus verschiedenen Quellen erstellen. Dies wird im Folgenden erläutert.
Mit einem media.Image
Wenn Sie ein InputImage
-Objekt aus einem media.Image
-Objekt erstellen möchten, z. B. wenn Sie ein Bild von der Kamera eines Geräts aufnehmen, übergeben Sie das Objekt media.Image
und die Rotation des Bildes an InputImage.fromMediaImage()
.
Wenn Sie die
KameraX-Bibliothek verwenden, berechnen die Klassen OnImageCapturedListener
und ImageAnalysis.Analyzer
den Rotationswert für Sie.
Kotlin
private class YourImageAnalyzer : ImageAnalysis.Analyzer { override fun analyze(imageProxy: ImageProxy) { val mediaImage = imageProxy.image if (mediaImage != null) { val image = InputImage.fromMediaImage(mediaImage, imageProxy.imageInfo.rotationDegrees) // Pass image to an ML Kit Vision API // ... } } }
Java
private class YourAnalyzer implements ImageAnalysis.Analyzer { @Override public void analyze(ImageProxy imageProxy) { Image mediaImage = imageProxy.getImage(); if (mediaImage != null) { InputImage image = InputImage.fromMediaImage(mediaImage, imageProxy.getImageInfo().getRotationDegrees()); // Pass image to an ML Kit Vision API // ... } } }
Wenn Sie keine Kamerabibliothek verwenden, die Ihnen den Grad der Drehung des Bildes angibt, können Sie ihn anhand des Grads der Drehung und der Ausrichtung des Kamerasensors im Gerät berechnen:
Kotlin
private val ORIENTATIONS = SparseIntArray() init { ORIENTATIONS.append(Surface.ROTATION_0, 0) ORIENTATIONS.append(Surface.ROTATION_90, 90) ORIENTATIONS.append(Surface.ROTATION_180, 180) ORIENTATIONS.append(Surface.ROTATION_270, 270) } /** * Get the angle by which an image must be rotated given the device's current * orientation. */ @RequiresApi(api = Build.VERSION_CODES.LOLLIPOP) @Throws(CameraAccessException::class) private fun getRotationCompensation(cameraId: String, activity: Activity, isFrontFacing: Boolean): Int { // Get the device's current rotation relative to its "native" orientation. // Then, from the ORIENTATIONS table, look up the angle the image must be // rotated to compensate for the device's rotation. val deviceRotation = activity.windowManager.defaultDisplay.rotation var rotationCompensation = ORIENTATIONS.get(deviceRotation) // Get the device's sensor orientation. val cameraManager = activity.getSystemService(CAMERA_SERVICE) as CameraManager val sensorOrientation = cameraManager .getCameraCharacteristics(cameraId) .get(CameraCharacteristics.SENSOR_ORIENTATION)!! if (isFrontFacing) { rotationCompensation = (sensorOrientation + rotationCompensation) % 360 } else { // back-facing rotationCompensation = (sensorOrientation - rotationCompensation + 360) % 360 } return rotationCompensation }
Java
private static final SparseIntArray ORIENTATIONS = new SparseIntArray(); static { ORIENTATIONS.append(Surface.ROTATION_0, 0); ORIENTATIONS.append(Surface.ROTATION_90, 90); ORIENTATIONS.append(Surface.ROTATION_180, 180); ORIENTATIONS.append(Surface.ROTATION_270, 270); } /** * Get the angle by which an image must be rotated given the device's current * orientation. */ @RequiresApi(api = Build.VERSION_CODES.LOLLIPOP) private int getRotationCompensation(String cameraId, Activity activity, boolean isFrontFacing) throws CameraAccessException { // Get the device's current rotation relative to its "native" orientation. // Then, from the ORIENTATIONS table, look up the angle the image must be // rotated to compensate for the device's rotation. int deviceRotation = activity.getWindowManager().getDefaultDisplay().getRotation(); int rotationCompensation = ORIENTATIONS.get(deviceRotation); // Get the device's sensor orientation. CameraManager cameraManager = (CameraManager) activity.getSystemService(CAMERA_SERVICE); int sensorOrientation = cameraManager .getCameraCharacteristics(cameraId) .get(CameraCharacteristics.SENSOR_ORIENTATION); if (isFrontFacing) { rotationCompensation = (sensorOrientation + rotationCompensation) % 360; } else { // back-facing rotationCompensation = (sensorOrientation - rotationCompensation + 360) % 360; } return rotationCompensation; }
Übergeben Sie dann das Objekt media.Image
und den Rotationsgradwert an InputImage.fromMediaImage()
:
Kotlin
val image = InputImage.fromMediaImage(mediaImage, rotation)
Java
InputImage image = InputImage.fromMediaImage(mediaImage, rotation);
Datei-URI verwenden
Übergeben Sie den Anwendungskontext und den Datei-URI an InputImage.fromFilePath()
, um ein InputImage
-Objekt aus einem Datei-URI zu erstellen. Dies ist nützlich, wenn Sie den Intent ACTION_GET_CONTENT
verwenden, um den Nutzer aufzufordern, ein Bild aus der Galerie-App auszuwählen.
Kotlin
val image: InputImage try { image = InputImage.fromFilePath(context, uri) } catch (e: IOException) { e.printStackTrace() }
Java
InputImage image; try { image = InputImage.fromFilePath(context, uri); } catch (IOException e) { e.printStackTrace(); }
Mit ByteBuffer
oder ByteArray
Berechnen Sie zum Erstellen eines InputImage
-Objekts aus einem ByteBuffer
oder einem ByteArray
zuerst den Grad der Bilddrehung, wie zuvor für die media.Image
-Eingabe beschrieben.
Erstellen Sie dann das Objekt InputImage
mit dem Zwischenspeicher oder Array, zusammen mit Höhe, Breite, Farbcodierungsformat und Rotationsgrad des Bildes:
Kotlin
val image = InputImage.fromByteBuffer( byteBuffer, /* image width */ 480, /* image height */ 360, rotationDegrees, InputImage.IMAGE_FORMAT_NV21 // or IMAGE_FORMAT_YV12 ) // Or: val image = InputImage.fromByteArray( byteArray, /* image width */ 480, /* image height */ 360, rotationDegrees, InputImage.IMAGE_FORMAT_NV21 // or IMAGE_FORMAT_YV12 )
Java
InputImage image = InputImage.fromByteBuffer(byteBuffer, /* image width */ 480, /* image height */ 360, rotationDegrees, InputImage.IMAGE_FORMAT_NV21 // or IMAGE_FORMAT_YV12 ); // Or: InputImage image = InputImage.fromByteArray( byteArray, /* image width */480, /* image height */360, rotation, InputImage.IMAGE_FORMAT_NV21 // or IMAGE_FORMAT_YV12 );
Mit einem Bitmap
Erstellen Sie zum Anlegen eines InputImage
-Objekts aus einem Bitmap
-Objekt die folgende Deklaration:
Kotlin
val image = InputImage.fromBitmap(bitmap, 0)
Java
InputImage image = InputImage.fromBitmap(bitmap, rotationDegree);
Das Bild wird durch ein Bitmap
-Objekt zusammen mit einem Rotationsgrad dargestellt.
3. Bild verarbeiten
Übergeben Sie das Bild an die Methode process
:
Kotlin
val result = recognizer.process(image) .addOnSuccessListener { visionText -> // Task completed successfully // ... } .addOnFailureListener { e -> // Task failed with an exception // ... }
Java
Task<Text> result = recognizer.process(image) .addOnSuccessListener(new OnSuccessListener<Text>() { @Override public void onSuccess(Text visionText) { // Task completed successfully // ... } }) .addOnFailureListener( new OnFailureListener() { @Override public void onFailure(@NonNull Exception e) { // Task failed with an exception // ... } });
4. Text aus Textblöcken erkennen
Wenn die Texterkennung erfolgreich ist, wird ein Text
-Objekt an den Erfolgs-Listener übergeben. Ein Text
-Objekt enthält den im Bild erkannten vollständigen Text und null oder mehr TextBlock
-Objekte.
Jeder TextBlock
steht für einen rechteckigen Textblock, der null oder mehr Line
-Objekte enthält. Jedes Line
-Objekt steht für eine Textzeile, die null oder mehr Element
-Objekte enthält. Jedes Element
-Objekt stellt ein Wort oder eine wortähnliche Entität dar, die null oder mehr Symbol
-Objekte enthält. Jedes Symbol
-Objekt stellt ein Zeichen, eine Ziffer oder eine wortähnliche Entität dar.
Für jedes TextBlock
-, Line
-, Element
- und Symbol
-Objekt können Sie den Text in der Region, die Begrenzungskoordinaten der Region und viele andere Attribute wie Rotationsinformationen, Konfidenzwert usw. erkennen.
Beispiel:
Kotlin
val resultText = result.text for (block in result.textBlocks) { val blockText = block.text val blockCornerPoints = block.cornerPoints val blockFrame = block.boundingBox for (line in block.lines) { val lineText = line.text val lineCornerPoints = line.cornerPoints val lineFrame = line.boundingBox for (element in line.elements) { val elementText = element.text val elementCornerPoints = element.cornerPoints val elementFrame = element.boundingBox } } }
Java
String resultText = result.getText(); for (Text.TextBlock block : result.getTextBlocks()) { String blockText = block.getText(); Point[] blockCornerPoints = block.getCornerPoints(); Rect blockFrame = block.getBoundingBox(); for (Text.Line line : block.getLines()) { String lineText = line.getText(); Point[] lineCornerPoints = line.getCornerPoints(); Rect lineFrame = line.getBoundingBox(); for (Text.Element element : line.getElements()) { String elementText = element.getText(); Point[] elementCornerPoints = element.getCornerPoints(); Rect elementFrame = element.getBoundingBox(); for (Text.Symbol symbol : element.getSymbols()) { String symbolText = symbol.getText(); Point[] symbolCornerPoints = symbol.getCornerPoints(); Rect symbolFrame = symbol.getBoundingBox(); } } } }
Richtlinien für Eingabebilder
-
Damit ML Kit Text präzise erkennen kann, müssen Eingabebilder Text enthalten, der durch genügend Pixeldaten dargestellt wird. Idealerweise sollte jedes Zeichen mindestens 16 x 16 Pixel groß sein. Zeichen, die größer als 24 x 24 Pixel sind, haben im Allgemeinen keinen Vorteil.
Ein Bild mit 640 × 480 kann also gut zum Scannen einer Visitenkarte verwendet werden, die die volle Breite des Bildes einnimmt. Zum Scannen eines Dokuments, das auf Briefpapier gedruckt wird, ist möglicherweise ein Bild mit 720 x 1280 Pixeln erforderlich.
-
Ein schlechter Bildfokus kann die Genauigkeit der Texterkennung beeinträchtigen. Wenn du keine akzeptablen Ergebnisse erhältst, bitte den Nutzer, das Bild noch einmal aufzunehmen.
-
Wenn Sie Text in einer Echtzeitanwendung erkennen, sollten Sie die Gesamtabmessungen der Eingabebilder berücksichtigen. Kleinere Bilder können schneller verarbeitet werden. Damit die Latenz verringert wird, muss der Text einen möglichst großen Teil des Bilds einnehmen und Bilder mit niedrigerer Auflösung erfassen. Beachte dabei die oben genannten Anforderungen an die Genauigkeit. Weitere Informationen finden Sie unter Tipps zur Leistungssteigerung.
Tipps zur Verbesserung der Leistung
- Wenn Sie die
Camera
odercamera2
API verwenden, drosseln Sie Aufrufe an den Detektor. Wenn während der Ausführung des Detektors ein neuer Videoframe verfügbar ist, lassen Sie den Frame fallen. Ein Beispiel finden Sie in der Kurzanleitungs-Beispielanwendung in der KlasseVisionProcessorBase
. - Achten Sie bei Verwendung der
CameraX
API darauf, dass die Rückdruckstrategie auf den StandardwertImageAnalysis.STRATEGY_KEEP_ONLY_LATEST
festgelegt ist. Dadurch wird garantiert, dass jeweils nur ein Bild zur Analyse übermittelt wird. Wenn das Analyseprogramm ausgelastet ist, werden mehr Bilder erstellt, damit sie nicht zur Auslieferung in die Warteschlange gestellt werden. Sobald das analysierte Bild durch Aufrufen von ImageProxy.close() geschlossen wird, wird das nächste neueste Bild gesendet. - Wenn Sie die Ausgabe des Detektors verwenden, um Grafiken auf dem Eingabebild einzublenden, rufen Sie zuerst das Ergebnis aus ML Kit ab und rendern dann das Bild und das Overlay in einem einzigen Schritt. Wird für jeden Eingabeframe nur einmal auf der Anzeigeoberfläche gerendert. Ein Beispiel findest du in den Beispielklassen
CameraSourcePreview
undGraphicOverlay
. - Wenn Sie die Camera2 API verwenden, nehmen Sie Bilder im Format
ImageFormat.YUV_420_888
auf. Wenn Sie die ältere Camera API verwenden, nehmen Sie Bilder im FormatImageFormat.NV21
auf. - Bilder mit einer geringeren Auflösung aufnehmen Beachten Sie jedoch die Anforderungen an die Bildabmessungen dieser API.