文本提取支持的文件类型

无论文件类型(MIME 或内容类型)如何,Cloud Search 都会将发送的所有项编入索引。对文件的元数据数据及其内容(如果支持)执行索引。下面列出了支持内容索引的文件类型

  • Microsoft Word 文件 (DOC)
  • Microsoft Word 文件 (DOCX)
  • Microsoft Excel (XLS)
  • Microsoft Excel (XLSX)
  • Microsoft PowerPoint (PPT)
  • Microsoft PowerPoint (PPTX)
  • Adobe 的可移植文档格式 (PDF)
  • 富文本格式 (RTF)
  • 文本格式 (TXT)
  • 超文本标记语言 (HTML)
  • 可扩展标记语言 (XML)

除了这些文件类型之外,Cloud Search 还支持将任意纯文本文件中的内容编入索引。

光学字符识别 (OCR) 文件类型和特性

Google Cloud Search 还使用 OCR 从以下文件类型中提取文本:

文件类型 大小上限
联合摄影专家组 (JPG) 10 MB
图形交换格式 (GIF) 10 MB
带标记图片文件格式 (TIFF) 10 MB
可缩放矢量图形 (SVG) 10 MB
PostScript 图片格式 (PS) 10 MB
便携式文档格式 (PDF) 30 MB

OCR 也适用于具有以下特征的文件:

  • 手写文档。使用拉丁字母、日语和韩语的文档可实现最佳结果。
  • 垂直编写的文档,如日语文档。
  • 从右向左书写的文档,例如希伯来语。