Diese Seite wurde von der Cloud Translation API übersetzt.

Texterkennung Version 2

Die ML Kit Text Recognition v2 API kann Text in jedem Zeichensatz aus Chinesisch, Devanagari, Japanisch, Koreanisch und Latein erkennen. Die API kann auch verwendet werden, um Dateneingabeaufgaben wie die Verarbeitung von Kreditkarten, Belegen und Visitenkarten zu automatisieren.

iOS Android

Hauptmerkmale

Texterkennung in verschiedenen Schriftsystemen und Sprachen Unterstützt die Erkennung von Text in chinesischen, Devanagari-, japanischen, koreanischen und lateinischen Schriftzeichen
Analysiert die Textstruktur Unterstützt die Erkennung von Symbolen, Elementen, Linien und Absätzen
Sprache des Textes erkennen Identifiziert die Sprache des erkannten Textes
Echtzeiterkennung: Erkennung von Text in Echtzeit auf einer Vielzahl von Geräten

Textstruktur

Die Texterkennung unterteilt Text in Blöcke, Linien, Elemente und Symbole. Ganz allgemein:

ist ein Block ein zusammenhängender Satz von Textzeilen, z. B. ein Absatz oder eine Spalte.
Eine Linie ist eine zusammenhängende Gruppe von Wörtern auf derselben Achse und
Ein Element ist in den meisten lateinischen Sprachen ein zusammenhängender Satz alphanumerischer Zeichen ("Wort") auf derselben Achse und in anderen Sprachen ein Wort
Ein Symbol ist in den meisten lateinischen Sprachen ein einzelnes alphanumerisches Zeichen auf derselben Achse, in anderen Sprachen ein Zeichen

In der Abbildung unten sehen Sie jeweils ein Beispiel in absteigender Reihenfolge. Der erste hervorgehobene Block in Cyan ist ein Textblock. Die zweite Gruppe hervorgehobener Blöcke in Blau sind Textzeilen. Die dritte Gruppe hervorgehobener Blöcke in Dunkelblau sind „Words“.

Für alle erkannten Blöcke, Linien, Elemente und Symbole gibt die API die Begrenzungsrahmen, Eckpunkte, Rotationsinformationen, den Konfidenzwert, die erkannten Sprachen und den erkannten Text zurück.

Beispielergebnisse

Erkannter Text
Text	Wege der parlamentarischen Demokratie
Blocks	(1 Block)

Block 0
Text	Wege der parlamentarischen Demokratie
Frame	(296, 665–796, 882)
Eckpunkte	(296, 719), (778, 665), (796, 828), (314, 882)
Erkannter Sprachcode	de
Zeilen	(3 Zeilen)

Zeile 0
Text	Wege der
Frame	(434, 678–670, 749)
Eckpunkte	(434, 705), (665, 678), (670, 722), (439, 749)
Erkannter Sprachcode	de
Konfidenzwert	0,8766741
Rotationsgrad	-6,6116457
Elemente	(2 Elemente)

Element 0
Text	Wege
Frame	(434, 689–575, 749)
Eckpunkte	(434, 705), (570, 689), (575, 733), (439, 749)
Erkannter Sprachcode	de
Konfidenzwert	0,8964844
Rotationsgrad	-6,6116457
Elemente	(4 Elemente)

Symbol 0
Text	W
Frame	(434, 698–500, 749)
Eckpunkte	(434, 706), (495, 698), (500, 741), (439, 749)
Konfidenzwert	0,87109375
Rotationsgrad	-6,611646