机器学习套件文本识别 v2 API 可以识别任何中文、梵文、日语、韩语和拉丁字符集的文本。该 API 还可用于自动执行处理信用卡、收据和名片等数据输入任务。
主要功能
- 识别各种脚本和语言的文本:支持识别中文、梵文、日语、韩语和拉丁字母的文本
- 分析文本结构:支持检测符号、元素、行和段落
- 识别文本的语言:识别识别出的文本的语言
- 实时识别:可在各种设备上实时识别文本
文本结构
文本识别器会将文本细分为块、行、元素和符号。大致说来:
块是一组连续的文本行,例如段落或列。
线是同一轴上的一组连续的字词,
Element 是一组拉丁字母组成的连续字母数字(“word”),在拉丁字母的大多数列中,该字母均指其他字符
Symbol 是大多数拉丁语语言中的同一个轴上的单个字母数字字符,或者是其他语言中的字符
下图按降序突出显示了这些示例。第一个突出显示的块(以青色表示)是一段文本块。第二组突出显示的蓝色块是文本行。最后,突出显示的第三组文本为深蓝色的单词是 Word。
对于所有检测到的块、线条、元素和符号,该 API 会返回边界框、边角、旋转信息、置信度分数、可识别的语言和识别的文本。
示例结果

照片: Dietmar Rabich、Wikimedia Commons、 “Düsseldorf, Wege der parlamentarischen Demokratie -- 2015 -- 8123”、 CC BY-SA 4.0
识别出的文字 | |
---|---|
文字 | Wege der lalamentarischen 民主党 |
组成块 | (1 个文本块) |
文本块 0 | |
---|---|
文字 | Wege der parlamentarischen Demokratie 博物馆 |
Frame | (296665 - 796882) |
角点 | (296, 719)、(778, 665)、(796, 828)、(314, 882) |
识别出的语言代码 | de |
线条 | (3 行) |
第 0 行 | |
---|---|
文字 | 韦德 |
Frame | (434、678 - 670、749) |
角点 | (434, 705)、(665, 678)、(670, 722)、(439, 749) |
识别出的语言代码 | de |
置信度分数 | 0.8766741 |
旋转角度 | -6.6116457 |
元素 | (2 个元素) |
元素 0 | |
---|---|
文字 | 韦格 |
Frame | (434、689 - 575、749) |
角点 | (434, 705)、(570, 689)、(575, 733)、(439, 749) |
识别出的语言代码 | de |
置信度分数 | 0.8964844 |
旋转角度 | -6.6116457 |
元素 | (4 个元素) |
符号 0 | |
---|---|
文字 | W |
Frame | (434、698 - 500、749) |
角点 | (434, 706)、(495, 698)、(500, 741)、(439, 749) |
置信度分数 | 0.87109375 |
旋转角度 | -6.611646 |