文本提取支持的文件类型
使用集合让一切井井有条
根据您的偏好保存内容并对其进行分类。
无论文件类型(MIME 或内容类型)如何,Cloud Search 都会将发送的所有内容编入索引。系统会对文件的元数据数据及其内容(如果支持)执行索引。下面列出了支持内容索引编制的文件类型。
- Microsoft Word (DOC)
- Microsoft Word (DOCX)
- Microsoft Excel (XLS)
- Microsoft Excel (XLSX)
- Microsoft PowerPoint (PPT)
- Microsoft PowerPoint (PPTX)
- Adobe 的便携式文档格式 (PDF)
- 富文本格式 (RTF)
- 文本格式 (TXT)
- 超文本标记语言 (HTML)
- 可扩展标记语言 (XML)
除了这些文件类型外,Cloud Search 还支持将任何纯文本中的内容编入索引。
光学字符识别 (OCR) 文件类型和特征
Google Cloud Search 还使用 OCR 从以下文件类型中提取文本:
文件类型 |
大小上限 |
联合图像专家组 (JPG) |
10 MB |
图形交换格式 (GIF) |
10 MB |
带标记的图片文件格式 (TIFF) |
10 MB |
可缩放矢量图形 (SVG) |
10 MB |
PostScript 图片格式 (PS) |
10 MB |
便携式文档格式 (PDF) |
30 MB |
OCR 也适用于具有以下特征的文件:
- 手写文件。使用拉丁字母、日语和韩语的文档效果最好。
- 垂直撰写的文档,例如日语文档。
- 从右至左写入的文档,例如希伯来语。
如未另行说明,那么本页面中的内容已根据知识共享署名 4.0 许可获得了许可,并且代码示例已根据 Apache 2.0 许可获得了许可。有关详情,请参阅 Google 开发者网站政策。Java 是 Oracle 和/或其关联公司的注册商标。
最后更新时间 (UTC):2023-04-14。
[{
"type": "thumb-down",
"id": "missingTheInformationINeed",
"label":"没有我需要的信息"
},{
"type": "thumb-down",
"id": "tooComplicatedTooManySteps",
"label":"太复杂/步骤太多"
},{
"type": "thumb-down",
"id": "outOfDate",
"label":"内容需要更新"
},{
"type": "thumb-down",
"id": "translationIssue",
"label":"翻译问题"
},{
"type": "thumb-down",
"id": "samplesCodeIssue",
"label":"示例/代码问题"
},{
"type": "thumb-down",
"id": "otherDown",
"label":"其他"
}]
[{
"type": "thumb-up",
"id": "easyToUnderstand",
"label":"易于理解"
},{
"type": "thumb-up",
"id": "solvedMyProblem",
"label":"解决了我的问题"
},{
"type": "thumb-up",
"id": "otherUp",
"label":"其他"
}]