Za pomocą ML Kit możesz rozpoznawać tekst na obrazach lub w filmach, np. tekst na znaku drogowym. Główne cechy tej funkcji:
| Funkcja | Biblioteka, którą trzeba pobrać | Biblioteka połączona |
|---|---|---|
| Nazwa biblioteki | com.google.android.gms:play-services-mlkit-text-recognition
com.google.android.gms:play-services-mlkit-text-recognition-chinese com.google.android.gms:play-services-mlkit-text-recognition-devanagari com.google.android.gms:play-services-mlkit-text-recognition-japanese com.google.android.gms:play-services-mlkit-text-recognition-korean |
com.google.mlkit:text-recognition
com.google.mlkit:text-recognition-chinese com.google.mlkit:text-recognition-devanagari com.google.mlkit:text-recognition-japanese com.google.mlkit:text-recognition-korean |
| Implementacja | Model jest pobierany dynamicznie za pomocą Usług Google Play. | Model jest statycznie połączony z aplikacją w czasie kompilacji. |
| Rozmiar aplikacji | Zwiększenie rozmiaru o około 260 KB na architekturę skryptu. | Zwiększenie rozmiaru o około 4 MB na skrypt na architekturę. |
| Czas inicjowania | Przed pierwszym użyciem może być konieczne poczekanie na pobranie modelu. | Model jest dostępny od razu. |
| Skuteczność | Większość urządzeń obsługuje skrypty łacińskie w czasie rzeczywistym, ale inne skrypty mogą działać wolniej. | Większość urządzeń obsługuje skrypty łacińskie w czasie rzeczywistym, ale inne skrypty mogą działać wolniej. |
Wypróbuj
- Wypróbuj przykładową aplikację, aby zobaczyć, jak używać tego interfejsu API.
- Wypróbuj kod samodzielnie, korzystając z ćwiczenia w Codelabs.
Zanim zaczniesz
- W pliku
build.gradlena poziomie projektu dodaj repozytorium Google Maven do sekcjibuildscriptiallprojects. Dodaj zależności bibliotek ML Kit na Androida do pliku Gradle na poziomie modułu, który zwykle znajduje się w
app/build.gradle:Aby połączyć model z aplikacją:
dependencies { // To recognize Latin script implementation 'com.google.mlkit:text-recognition:16.0.1' // To recognize Chinese script implementation 'com.google.mlkit:text-recognition-chinese:16.0.1' // To recognize Devanagari script implementation 'com.google.mlkit:text-recognition-devanagari:16.0.1' // To recognize Japanese script implementation 'com.google.mlkit:text-recognition-japanese:16.0.1' // To recognize Korean script implementation 'com.google.mlkit:text-recognition-korean:16.0.1' }Aby używać modelu w Usługach Google Play:
dependencies { // To recognize Latin script implementation 'com.google.android.gms:play-services-mlkit-text-recognition:19.0.1' // To recognize Chinese script implementation 'com.google.android.gms:play-services-mlkit-text-recognition-chinese:16.0.1' // To recognize Devanagari script implementation 'com.google.android.gms:play-services-mlkit-text-recognition-devanagari:16.0.1' // To recognize Japanese script implementation 'com.google.android.gms:play-services-mlkit-text-recognition-japanese:16.0.1' // To recognize Korean script implementation 'com.google.android.gms:play-services-mlkit-text-recognition-korean:16.0.1' }Jeśli zdecydujesz się używać modelu w Usługach Google Play, możesz skonfigurować aplikację tak, aby automatycznie pobierała model na urządzenie po zainstalowaniu aplikacji ze Sklepu Play. Aby to zrobić, dodaj tę deklarację do pliku
AndroidManifest.xmlaplikacji:<application ...> ... <meta-data android:name="com.google.mlkit.vision.DEPENDENCIES" android:value="ocr" > <!-- To use multiple models: android:value="ocr,ocr_chinese,ocr_devanagari,ocr_japanese,ocr_korean,..." --> </application>Możesz też wyraźnie sprawdzić dostępność modelu i poprosić o jego pobranie za pomocą interfejsu ModuleInstallClient API w Usługach Google Play. Jeśli nie włączysz pobierania modelu podczas instalacji ani nie poprosisz o wyraźne pobranie, model zostanie pobrany przy pierwszym uruchomieniu skanera. Żądania wysyłane przed zakończeniem pobierania nie przyniosą żadnych wyników.
1. Utwórz instancję TextRecognizer
Utwórz instancję TextRecognizer, przekazując opcje
związane z biblioteką, dla której zadeklarowano zależność powyżej:
Kotlin
// When using Latin script library val recognizer = TextRecognition.getClient(TextRecognizerOptions.DEFAULT_OPTIONS) // When using Chinese script library val recognizer = TextRecognition.getClient(ChineseTextRecognizerOptions.Builder().build()) // When using Devanagari script library val recognizer = TextRecognition.getClient(DevanagariTextRecognizerOptions.Builder().build()) // When using Japanese script library val recognizer = TextRecognition.getClient(JapaneseTextRecognizerOptions.Builder().build()) // When using Korean script library val recognizer = TextRecognition.getClient(KoreanTextRecognizerOptions.Builder().build())
Java
// When using Latin script library TextRecognizer recognizer = TextRecognition.getClient(TextRecognizerOptions.DEFAULT_OPTIONS); // When using Chinese script library TextRecognizer recognizer = TextRecognition.getClient(new ChineseTextRecognizerOptions.Builder().build()); // When using Devanagari script library TextRecognizer recognizer = TextRecognition.getClient(new DevanagariTextRecognizerOptions.Builder().build()); // When using Japanese script library TextRecognizer recognizer = TextRecognition.getClient(new JapaneseTextRecognizerOptions.Builder().build()); // When using Korean script library TextRecognizer recognizer = TextRecognition.getClient(new KoreanTextRecognizerOptions.Builder().build());
2. Przygotuj obraz wejściowy
Aby rozpoznać tekst na obrazie, utwórz obiekt InputImage na podstawie
albo Bitmap, media.Image, ByteBuffer, tablicy bajtów lub pliku na
urządzeniu. Następnie przekaż obiekt InputImage do metody
TextRecognizer's processImage.
Obiekt InputImage
możesz utworzyć z różnych źródeł. Każde z nich opisujemy poniżej.
Używanie media.Image
Aby utworzyć obiekt InputImage
na podstawie obiektu media.Image, np. gdy robisz zdjęcie aparatem urządzenia, przekaż obiekt media.Image i obrót obrazu do InputImage.fromMediaImage().
Jeśli używasz biblioteki
CameraX, klasy OnImageCapturedListener i ImageAnalysis.Analyzer obliczają wartość obrotu.
Kotlin
private class YourImageAnalyzer : ImageAnalysis.Analyzer { override fun analyze(imageProxy: ImageProxy) { val mediaImage = imageProxy.image if (mediaImage != null) { val image = InputImage.fromMediaImage(mediaImage, imageProxy.imageInfo.rotationDegrees) // Pass image to an ML Kit Vision API // ... } } }
Java
private class YourAnalyzer implements ImageAnalysis.Analyzer { @Override public void analyze(ImageProxy imageProxy) { Image mediaImage = imageProxy.getImage(); if (mediaImage != null) { InputImage image = InputImage.fromMediaImage(mediaImage, imageProxy.getImageInfo().getRotationDegrees()); // Pass image to an ML Kit Vision API // ... } } }
Jeśli nie używasz biblioteki aparatu, która podaje stopień obrotu obrazu, możesz go obliczyć na podstawie stopnia obrotu urządzenia i orientacji czujnika aparatu w urządzeniu:
Kotlin
private val ORIENTATIONS = SparseIntArray() init { ORIENTATIONS.append(Surface.ROTATION_0, 0) ORIENTATIONS.append(Surface.ROTATION_90, 90) ORIENTATIONS.append(Surface.ROTATION_180, 180) ORIENTATIONS.append(Surface.ROTATION_270, 270) } /** * Get the angle by which an image must be rotated given the device's current * orientation. */ @RequiresApi(api = Build.VERSION_CODES.LOLLIPOP) @Throws(CameraAccessException::class) private fun getRotationCompensation(cameraId: String, activity: Activity, isFrontFacing: Boolean): Int { // Get the device's current rotation relative to its "native" orientation. // Then, from the ORIENTATIONS table, look up the angle the image must be // rotated to compensate for the device's rotation. val deviceRotation = activity.windowManager.defaultDisplay.rotation var rotationCompensation = ORIENTATIONS.get(deviceRotation) // Get the device's sensor orientation. val cameraManager = activity.getSystemService(CAMERA_SERVICE) as CameraManager val sensorOrientation = cameraManager .getCameraCharacteristics(cameraId) .get(CameraCharacteristics.SENSOR_ORIENTATION)!! if (isFrontFacing) { rotationCompensation = (sensorOrientation + rotationCompensation) % 360 } else { // back-facing rotationCompensation = (sensorOrientation - rotationCompensation + 360) % 360 } return rotationCompensation }
Java
private static final SparseIntArray ORIENTATIONS = new SparseIntArray(); static { ORIENTATIONS.append(Surface.ROTATION_0, 0); ORIENTATIONS.append(Surface.ROTATION_90, 90); ORIENTATIONS.append(Surface.ROTATION_180, 180); ORIENTATIONS.append(Surface.ROTATION_270, 270); } /** * Get the angle by which an image must be rotated given the device's current * orientation. */ @RequiresApi(api = Build.VERSION_CODES.LOLLIPOP) private int getRotationCompensation(String cameraId, Activity activity, boolean isFrontFacing) throws CameraAccessException { // Get the device's current rotation relative to its "native" orientation. // Then, from the ORIENTATIONS table, look up the angle the image must be // rotated to compensate for the device's rotation. int deviceRotation = activity.getWindowManager().getDefaultDisplay().getRotation(); int rotationCompensation = ORIENTATIONS.get(deviceRotation); // Get the device's sensor orientation. CameraManager cameraManager = (CameraManager) activity.getSystemService(CAMERA_SERVICE); int sensorOrientation = cameraManager .getCameraCharacteristics(cameraId) .get(CameraCharacteristics.SENSOR_ORIENTATION); if (isFrontFacing) { rotationCompensation = (sensorOrientation + rotationCompensation) % 360; } else { // back-facing rotationCompensation = (sensorOrientation - rotationCompensation + 360) % 360; } return rotationCompensation; }
Następnie przekaż obiekt media.Image i wartość stopnia obrotu do InputImage.fromMediaImage():
Kotlin
val image = InputImage.fromMediaImage(mediaImage, rotation)
Java
InputImage image = InputImage.fromMediaImage(mediaImage, rotation);
Używanie identyfikatora URI pliku
Aby utworzyć obiekt na podstawie identyfikatora URI pliku, przekaż kontekst aplikacji i identyfikator URI pliku do InputImage.fromFilePath().InputImage Jest to przydatne, gdy używasz intencji ACTION_GET_CONTENT, aby poprosić użytkownika o wybranie obrazu z aplikacji galerii.
Kotlin
val image: InputImage try { image = InputImage.fromFilePath(context, uri) } catch (e: IOException) { e.printStackTrace() }
Java
InputImage image; try { image = InputImage.fromFilePath(context, uri); } catch (IOException e) { e.printStackTrace(); }
Używanie ByteBuffer lub ByteArray
Aby utworzyć obiekt InputImage
na podstawie ByteBuffer lub ByteArray, najpierw oblicz stopień obrotu obrazu
jak opisano wcześniej w przypadku danych wejściowych media.Image.
Następnie utwórz obiekt InputImage z buforem lub tablicą, a także z wysokością, szerokością, formatem kodowania kolorów i stopniem obrotu obrazu:
Kotlin
val image = InputImage.fromByteBuffer( byteBuffer, /* image width */ 480, /* image height */ 360, rotationDegrees, InputImage.IMAGE_FORMAT_NV21 // or IMAGE_FORMAT_YV12 ) // Or: val image = InputImage.fromByteArray( byteArray, /* image width */ 480, /* image height */ 360, rotationDegrees, InputImage.IMAGE_FORMAT_NV21 // or IMAGE_FORMAT_YV12 )
Java
InputImage image = InputImage.fromByteBuffer(byteBuffer, /* image width */ 480, /* image height */ 360, rotationDegrees, InputImage.IMAGE_FORMAT_NV21 // or IMAGE_FORMAT_YV12 ); // Or: InputImage image = InputImage.fromByteArray( byteArray, /* image width */480, /* image height */360, rotation, InputImage.IMAGE_FORMAT_NV21 // or IMAGE_FORMAT_YV12 );
Używanie Bitmap
Aby utworzyć obiekt InputImage
na podstawie obiektu Bitmap, użyj tej deklaracji:
Kotlin
val image = InputImage.fromBitmap(bitmap, 0)
Java
InputImage image = InputImage.fromBitmap(bitmap, rotationDegree);
Obraz jest reprezentowany przez obiekt Bitmap wraz ze stopniami obrotu.
3. Przetwórz obraz
Przekaż obraz do metody process:
Kotlin
val result = recognizer.process(image) .addOnSuccessListener { visionText -> // Task completed successfully // ... } .addOnFailureListener { e -> // Task failed with an exception // ... }
Java
Task<Text> result = recognizer.process(image) .addOnSuccessListener(new OnSuccessListener<Text>() { @Override public void onSuccess(Text visionText) { // Task completed successfully // ... } }) .addOnFailureListener( new OnFailureListener() { @Override public void onFailure(@NonNull Exception e) { // Task failed with an exception // ... } });
4. Wyodrębnij tekst z bloków rozpoznanego tekstu
Jeśli operacja rozpoznawania tekstu się powiedzie, do
odbiornika sukcesu zostanie przekazany obiekt Text. Obiekt Text zawiera cały tekst rozpoznany na
obrazie oraz 0 lub więcej TextBlock obiektów.
Każdy obiekt TextBlock reprezentuje prostokątny blok tekstu,
który zawiera 0 lub więcej obiektów Line. Każdy
Line obiekt reprezentuje wiersz tekstu, który zawiera 0
lub więcej Element obiektów. Każdy Element
obiekt reprezentuje słowo lub jednostkę podobną do słowa, która zawiera 0 lub więcej
Symbol obiektów. Każdy Symbol
obiekt reprezentuje znak, cyfrę lub jednostkę podobną do słowa.
W przypadku każdego obiektu TextBlock, Line,
Element i Symbol możesz uzyskać tekst rozpoznany w regionie, współrzędne ograniczające region i wiele innych atrybutów, takich jak informacje o obrocie, wynik pewności itp.
Na przykład:
Kotlin
val resultText = result.text for (block in result.textBlocks) { val blockText = block.text val blockCornerPoints = block.cornerPoints val blockFrame = block.boundingBox for (line in block.lines) { val lineText = line.text val lineCornerPoints = line.cornerPoints val lineFrame = line.boundingBox for (element in line.elements) { val elementText = element.text val elementCornerPoints = element.cornerPoints val elementFrame = element.boundingBox } } }
Java
String resultText = result.getText(); for (Text.TextBlock block : result.getTextBlocks()) { String blockText = block.getText(); Point[] blockCornerPoints = block.getCornerPoints(); Rect blockFrame = block.getBoundingBox(); for (Text.Line line : block.getLines()) { String lineText = line.getText(); Point[] lineCornerPoints = line.getCornerPoints(); Rect lineFrame = line.getBoundingBox(); for (Text.Element element : line.getElements()) { String elementText = element.getText(); Point[] elementCornerPoints = element.getCornerPoints(); Rect elementFrame = element.getBoundingBox(); for (Text.Symbol symbol : element.getSymbols()) { String symbolText = symbol.getText(); Point[] symbolCornerPoints = symbol.getCornerPoints(); Rect symbolFrame = symbol.getBoundingBox(); } } } }
Wytyczne dotyczące obrazów wejściowych
-
Aby ML Kit mógł dokładnie rozpoznawać tekst, obrazy wejściowe muszą zawierać tekst reprezentowany przez wystarczającą ilość danych pikseli. Najlepiej, aby każdy znak miał co najmniej 16 x 16 pikseli. Zwykle nie ma korzyści z dokładności, jeśli znaki są większe niż 24 x 24 piksele.
Na przykład obraz o wymiarach 640 x 480 pikseli może dobrze działać w przypadku skanowania wizytówki która zajmuje całą szerokość obrazu. Aby zeskanować dokument wydrukowany na papierze o rozmiarze Letter, może być wymagany obraz o wymiarach 720 x 1280 pikseli.
-
Słaba ostrość obrazu może wpływać na dokładność rozpoznawania tekstu. Jeśli nie uzyskujesz zadowalających wyników, spróbuj poprosić użytkownika o ponowne zrobienie zdjęcia.
-
Jeśli rozpoznajesz tekst w aplikacji działającej w czasie rzeczywistym, musisz wziąć pod uwagę ogólne wymiary obrazów wejściowych. Mniejsze obrazy można przetwarzać szybciej. Aby zmniejszyć opóźnienie, upewnij się, że tekst zajmuje jak największą część obrazu, i rób zdjęcia w niższej rozdzielczości (pamiętając o wymaganiach dotyczących dokładności wymienionych powyżej). Więcej informacji znajdziesz w artykule Wskazówki dotyczące zwiększania skuteczności.
Wskazówki dotyczące zwiększania skuteczności
- Jeśli używasz interfejsu
Cameralubcamera2API, ograniczaj liczbę wywołań detektora. Jeśli podczas działania detektora pojawi się nowa klatka wideo, pomiń ją. Przykład znajdziesz w klasieVisionProcessorBasew przykładowej aplikacji z krótkim przewodnikiem. - Jeśli używasz interfejsu
CameraXAPI, upewnij się, że strategia backpressure jest ustawiona na wartość domyślnąImageAnalysis.STRATEGY_KEEP_ONLY_LATEST. Gwarantuje to, że do analizy będzie dostarczany tylko 1 obraz naraz. Jeśli podczas pracy analizatora zostanie wygenerowanych więcej obrazów, zostaną one automatycznie pominięte i nie zostaną umieszczone w kolejce do dostarczenia. Gdy obraz analizowany zostanie zamknięty przez wywołanie ImageProxy.close(), zostanie dostarczony następny najnowszy obraz. - Jeśli używasz danych wyjściowych detektora do nakładania grafiki na
obraz wejściowy, najpierw pobierz wynik z ML Kit, a następnie w jednym kroku wyrenderuj obraz
i nałóż na niego grafikę. Dzięki temu renderowanie na powierzchni wyświetlacza
odbywa się tylko raz na każdą klatkę wejściową. Przykład znajdziesz w klasach
CameraSourcePreviewiGraphicOverlayw przykładowej aplikacji z krótkim przewodnikiem. - Jeśli używasz interfejsu Camera2 API, rób zdjęcia w
ImageFormat.YUV_420_888formacie. Jeśli używasz starszego interfejsu Camera API, rób zdjęcia wImageFormat.NV21formacie. - Rozważ robienie zdjęć w niższej rozdzielczości. Pamiętaj jednak o wymaganiach tego interfejsu API dotyczących wymiarów obrazu.