Cloud Search は、ファイル形式(MIME または content-type)に関係なく、送信されたすべてのアイテムをインデックスに登録します。インデックス登録は、ファイルのメタデータ データと、サポートされている場合はそのコンテンツに対して行われます。コンテンツ インデックス登録がサポートされるファイル形式のリストを以下に示します。
- Microsoft Word(DOC)
- Microsoft Word(DOCX)
- Microsoft Excel(XLS)
- Microsoft Excel(XLSX)
- Microsoft PowerPoint(PPT)
- Microsoft PowerPoint(PPTX)
- Adobe の Portable Document Format(PDF)
- リッチテキスト形式(RTF)
- テキスト形式(TXT)
- ハイパーテキスト マークアップ言語(HTML)
- XML(拡張マークアップ言語)
これらのファイル形式に加えて、Cloud Search は任意の書式なしテキスト ファイル内のコンテンツのインデックス登録をサポートしています。
光学式文字認識(OCR)のファイル形式と特性
また、Google Cloud Search は OCR を使用して次のファイル形式からテキストを抽出します。
File type | 最大サイズ |
---|---|
共同写真エキスパート グループ(JPG) | 10 MB |
GIF(Graphic Interchange Format) | 10 MB |
Tagged Image File Format(TIFF) | 10 MB |
Scalable Vector Graphics(SVG) | 10 MB |
PostScript 画像形式(PS) | 10 MB |
Portable Document Format(PDF) | 30 MB |
OCR は、次の特性を持つファイルにも対応します。
- 手書きのドキュメント。ラテン文字、日本語、韓国語のドキュメントのほうが最適な結果が得られます。
- 日本語などの縦書きのドキュメント。
- 右から左に記述するドキュメント(ヘブライ語など)