Die ML Kit Text Recognition API kann Text in jedem lateinischen Zeichensatz erkennen. Es kann auch zur Automatisierung von Dateneingabeaufgaben wie der Verarbeitung von Kreditkarten, Belegen und Visitenkarten verwendet werden.
Hauptmerkmale
- Text in lateinischen Schriften erkennen: Erkennt Text mit lateinischen Schriftzeichen.
- Textstruktur analysieren Unterstützt die Erkennung von Wörtern/Elementen, Zeilen und Absätzen.
- Sprache des Textes erkennen Die Sprache des erkannten Textes
- Kleiner Anwendungsbedarf: Unter Android wird die API als entbündelte Bibliothek über Google Play-Dienste angeboten.
- Echtzeiterkennung: Kann Text in Echtzeit auf einer Vielzahl von Geräten erkennen
Textstruktur
Die Texterkennung teilt Text in Blöcke, Linien, Elemente und Symbole auf. Ungefähr im Klartext:
Ein Block ist ein zusammenhängender Satz von Textzeilen, z. B. ein Absatz oder eine Spalte.
Eine Linie ist eine zusammenhängende Gruppe von Wörtern auf derselben Achse.
Ein Element ist ein zusammenhängender alphanumerischer Zeichensatz ("word") auf derselben Achse in den meisten Sprachen mit lateinischer Schrift oder ein Wort in anderen
ein Symbol ist ein einzelnes alphanumerisches Zeichen auf derselben Achse, das in den meisten Sprachen Lateinisch ist, oder ein Zeichen in anderen
Im Bild unten sind Beispiele dafür in absteigender Reihenfolge zu sehen. Der erste hervorgehobene Block in Cyan ist ein Textblock. Bei den zweiten hervorgehobenen Blöcken handelt es sich um blaue Textzeilen. Die dritte Gruppe von hervorgehobenen Blöcken in Dunkelblau ist Words.
Für alle erkannten Blöcke, Linien, Elemente und Symbole gibt die API Begrenzungsrahmen, Eckpunkte, Rotationsinformationen, Konfidenzwert, erkannte Sprachen und erkannten Text zurück.
Beispielergebnisse

Foto: Dietmar Rabich, Wikimedia Commons, "Düsseldorf, Wege der parlamentarian Demokratie – 2015 – 8123", CC BY-SA 4.0
Erkannter Text | |
---|---|
Text | Wege der parlamentarische Demokratie |
Blocks | (1 Block) |
Block 0 | |
---|---|
Text | Wege der parlamentarischen Demokratie |
Rahmen | (296, 665–796, 882) |
Eckpunkte | (296, 719), (778, 665), (796, 828), (314, 882) |
Erkannter Sprachcode | de |
Linien | (3 Zeilen) |
Zeile 0 | |
---|---|
Text | Wege der |
Rahmen | (434, 678–670, 749) |
Eckpunkte | (434, 705), (665, 678), (670, 722), (439, 749) |
Erkannter Sprachcode | de |
Konfidenzwert | 0,8766741 |
Rotationsgrad | -6,6116457 |
Elemente | (2 Elemente) |
Element 0 | |
---|---|
Text | Möglichkeiten |
Rahmen | (434, 689–575, 749) |
Eckpunkte | (434, 705), (570, 689), (575, 733), (439, 749) |
Erkannter Sprachcode | de |
Konfidenzwert | 0,8964844 |
Rotationsgrad | -6,6116457 |
Elemente | (4 Elemente) |
Symbol 0 | |
---|---|
Text | W |
Rahmen | (434, 698–500, 749) |
Eckpunkte | (434, 706), (495, 698), (500, 741), (439, 749) |
Konfidenzwert | 0,87109375 |
Rotationsgrad | -6,611646 |