テキスト抽出でサポートされているファイル形式
コレクションでコンテンツを整理
必要に応じて、コンテンツの保存と分類を行います。
Cloud Search は、ファイル形式(MIME またはコンテンツ タイプ)に関係なく、送信されたすべてのアイテムをインデックス登録します。インデックス登録は、ファイルのメタデータと、サポートされている場合はコンテンツに対して行われます。コンテンツのインデックス登録がサポートされているファイル形式の一覧は次のとおりです。
- Microsoft Word(DOC)
- Microsoft Word(DOCX)
- Microsoft Excel(XLS)
- Microsoft Excel(XLSX)
- Microsoft PowerPoint(PPT)
- Microsoft PowerPoint(PPTX)
- Adobe の Portable Document Format(PDF)
- リッチ テキスト形式(RTF)
- テキスト形式(TXT)
- ハイパーテキスト マークアップ言語(HTML)
- XML(拡張マークアップ言語)
これらのファイル形式に加えて、Cloud Search は任意のプレーン テキスト ファイル内のコンテンツのインデックス登録をサポートしています。
光学式文字認識(OCR)のファイル形式と特性
Google Cloud Search は、OCR を使用して次のファイル形式からテキストを抽出します。
ファイル形式 |
最大サイズ |
Joint Photographic Experts Group(JPG) |
10 MB |
グラフィック交換形式(GIF) |
10 MB |
Tagged Image File Format(TIFF) |
10 MB |
Scalable Vector Graphics(SVG) |
10 MB |
PostScript 画像形式(PS) |
10 MB |
Portable Document Format(PDF) |
30 MB |
OCR は、次のような特性を持つファイルでも機能します。
- 手書きの書類。ラテン文字、日本語、韓国語のドキュメントで最良の結果が得られます。
- 日本語などの縦書きのドキュメント。
- ヘブライ語など、右から左に書かれたドキュメント。
特に記載のない限り、このページのコンテンツはクリエイティブ・コモンズの表示 4.0 ライセンスにより使用許諾されます。コードサンプルは Apache 2.0 ライセンスにより使用許諾されます。詳しくは、Google Developers サイトのポリシーをご覧ください。Java は Oracle および関連会社の登録商標です。
最終更新日 2025-08-29 UTC。
[[["わかりやすい","easyToUnderstand","thumb-up"],["問題の解決に役立った","solvedMyProblem","thumb-up"],["その他","otherUp","thumb-up"]],[["必要な情報がない","missingTheInformationINeed","thumb-down"],["複雑すぎる / 手順が多すぎる","tooComplicatedTooManySteps","thumb-down"],["最新ではない","outOfDate","thumb-down"],["翻訳に関する問題","translationIssue","thumb-down"],["サンプル / コードに問題がある","samplesCodeIssue","thumb-down"],["その他","otherDown","thumb-down"]],["最終更新日 2025-08-29 UTC。"],[],[],null,[]]