テキスト抽出でサポートされているファイル形式

Cloud Search は、ファイル形式に関係なく、送信されたすべてのアイテムをインデックスに登録します (MIME またはコンテンツ タイプ)。インデックス登録はファイルのメタデータ データに対して行われる。 その内容が返されます。コンテンツのファイル形式は次のとおりです。 インデックス登録がサポートされています

  • Microsoft Word(DOC)
  • Microsoft Word(DOCX)
  • Microsoft Excel(XLS)
  • Microsoft Excel(XLSX)
  • Microsoft PowerPoint(PPT)
  • Microsoft PowerPoint(PPTX)
  • Adobe の Portable Document Format(PDF)
  • リッチテキスト形式(RTF)
  • テキスト形式(TXT)
  • HTML(Hypertext Markup Language)
  • XML(拡張マークアップ言語)

これらのファイル形式に加えて、Cloud Search ではコンテンツのインデックス登録がサポートされています。 記述できます。

光学式文字認識(OCR)のファイル形式と特性

Google Cloud Search では、OCR を使用して次のファイル形式からテキストも抽出します。

ファイル形式 最大サイズ
Joint Photographic Experts Group(JPG) 10 MB
Graphic Interchange Format(GIF) 10 MB
Tagged Image File Format(TIFF) 10 MB
Scalable Vector Graphics(SVG) 10 MB
PostScript イメージ形式(PS) 10 MB
PDF(Portable Document Format) 30 MB

OCR は次の特性を持つファイルにも対応します。

  • 手書きのドキュメント。ラテン文字、日本語、韓国語の収量ドキュメント 目指しています。
  • 日本語などの縦書きのドキュメント。
  • 右から左に表記されるドキュメント(ヘブライ語など)。