Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

文字识别 v2

机器学习套件文字识别 v2 API 可以识别任何中文、梵文、日语、韩语和拉丁语字符集中的文本。此 API 还可用于自动执行数据输入任务，例如处理信用卡、收据和名片。

主要功能

识别各种文字和语言的文本 支持识别中文、梵文、日语、韩语和拉丁字母的文字
分析文本结构支持检测符号、元素、行和段落
识别文本的语言 识别识别出的文本的语言
实时识别：可以在各种设备上实时识别文本

文字结构

文本识别器将文本细分为块、行、元素和符号。大致说来：

块是一组连续的文本行，例如段落或列。
线条是同一轴上的一组连续字词，并且
一个元素 (Element) 是同一轴上的一组连续字母数字字符（“字词”），或其他语言中的字词是一个字词
Symbol 是大多数拉丁语言中同一轴上的单个字母数字字符，或其他字符

下图按降序突出显示了上述各项的示例。第一个突出显示的块以青色显示，表示文本块。第二组突出显示的蓝色块是“文本行”。最后，第三组突出显示的块（深蓝色）是“Words”。

对于所有检测到的所有块、线、元素和符号，该 API 会返回边界框、角点、旋转信息、置信度分数、识别的语言和识别的文本。

示例结果

识别的文本
文字	Wege der parlamentarischen Demokratie
推挡次数	（1 个块）

文本块 0
文字	民主党人民共和国议会大厦
Frame	（296、665 - 796、882）
角点	(296, 719)、(778, 665)、(796, 828)、(314, 882)
可识别的语言代码	de
线条	（3 行）

第 0 行
文字	韦格德
Frame	（434、678 - 670、749）
角点	(434, 705)、(665, 678)、(670, 722)、(439, 749)
可识别的语言代码	de
置信度分数	0.8766741
旋转角度	-6.6116457
元素	（2 个元素）

元素 0
文字	韦格
Frame	（434、689 - 575、749）
角点	(434, 705)、(570, 689)、(575, 733)、(439, 749)
可识别的语言代码	de
置信度分数	0.8964844
旋转角度	-6.6116457
元素	（4 个元素）

符号 0
文字	西
Frame	（434、698 - 500、749）
角点	(434, 706)、(495, 698)、(500, 741)、(439, 749)
置信度分数	0.87109375
旋转角度	-6.611646

如未另行说明，那么本页面中的内容已根据知识共享署名 4.0 许可获得了许可，并且代码示例已根据 Apache 2.0 许可获得了许可。有关详情，请参阅 Google 开发者网站政策。Java 是 Oracle 和/或其关联公司的注册商标。

最后更新时间 (UTC)：2025-07-25。