テキスト抽出でサポートされているファイル形式

Cloud Search は、ファイル形式(MIME または content-type)に関係なく、送信されたすべてのアイテムをインデックスに登録します。インデックス登録は、ファイルのメタデータ データと、サポートされている場合はそのコンテンツに対して行われます。コンテンツ インデックス登録がサポートされるファイル形式のリストを以下に示します。

  • Microsoft Word(DOC)
  • Microsoft Word(DOCX)
  • Microsoft Excel(XLS)
  • Microsoft Excel(XLSX)
  • Microsoft PowerPoint(PPT)
  • Microsoft PowerPoint(PPTX)
  • Adobe の Portable Document Format(PDF)
  • リッチテキスト形式(RTF)
  • テキスト形式(TXT)
  • ハイパーテキスト マークアップ言語(HTML)
  • XML(拡張マークアップ言語)

これらのファイル形式に加えて、Cloud Search は任意の書式なしテキスト ファイル内のコンテンツのインデックス登録をサポートしています。

光学式文字認識(OCR)のファイル形式と特性

また、Google Cloud Search は OCR を使用して次のファイル形式からテキストを抽出します。

File type 最大サイズ
共同写真エキスパート グループ(JPG) 10 MB
GIF(Graphic Interchange Format) 10 MB
Tagged Image File Format(TIFF) 10 MB
Scalable Vector Graphics(SVG) 10 MB
PostScript 画像形式(PS) 10 MB
Portable Document Format(PDF) 30 MB

OCR は、次の特性を持つファイルにも対応します。

  • 手書きのドキュメント。ラテン文字、日本語、韓国語のドキュメントのほうが最適な結果が得られます。
  • 日本語などの縦書きのドキュメント。
  • 右から左に記述するドキュメント(ヘブライ語など)