Tipi di file supportati per l'estrazione di testo

Cloud Search indicizza tutti gli elementi inviati, indipendentemente dal tipo di file (MIME o content-type). L'indicizzazione viene eseguita sui dati dei metadati di un file e, se supportato, sui relativi contenuti. Di seguito è riportato un elenco dei tipi di file per i quali è supportata l'indicizzazione dei contenuti.

  • Microsoft Word (DOC)
  • Microsoft Word (DOCX)
  • Microsoft Excel (XLS)
  • Microsoft Excel (XLSX)
  • Microsoft Powerpoint (PPT)
  • Microsoft Powerpoint (PPTX)
  • Adobe Portable Document Format (PDF)
  • Rich Text Format (RTF)
  • Text Format (TXT)
  • Hypertext Markup Language (HTML)
  • Extensible Markup Language (XML)

Oltre a questi tipi di file, Cloud Search supporta l'indicizzazione dei contenuti all'interno di qualsiasi file di testo normale.

Tipi di file e caratteristiche del riconoscimento ottico dei caratteri (OCR)

Google Cloud Search utilizza l'OCR anche per estrarre il testo dai seguenti tipi di file:

Tipo di file Dimensione massima
Joint Photographic Experts Group (JPG) 10 MB
Graphic Interchange Format (GIF) 10 MB
Tagged Image File Format (TIFF) 10 MB
Scalable Vector Graphics (SVG) 10 MB
PostScript Image Format (PS) 10 MB
Portable Document Format (PDF) 30 MB

L'OCR funziona anche sui file con queste caratteristiche:

  • Documenti scritti a mano. I documenti in alfabeto latino, giapponese e coreano producono i risultati migliori.
  • Documenti scritti verticalmente, ad esempio quelli in giapponese.
  • Documenti scritti da destra a sinistra, ad esempio in ebraico.