Tipos de archivos admitidos para la extracción de texto
Organiza tus páginas con colecciones
Guarda y categoriza el contenido según tus preferencias.
Cloud Search indexa todos los elementos que se envían, sin importar el tipo de archivo (MIME o tipo de contenido). La indexación se realiza en los datos de metadatos de un archivo y, si es compatible, en su contenido. A continuación, se incluye una lista de los tipos de archivos para los que se admite la indexación de contenido.
Microsoft Word (DOC)
Microsoft Word (DOCX)
Microsoft Excel (XLS)
Microsoft Excel (XLSX)
Microsoft PowerPoint (PPT)
Microsoft PowerPoint (PPTX)
Formato de documento portátil (PDF) de Adobe
Formato de texto enriquecido (RTF)
Formato de texto (TXT)
Lenguaje de marcado de hipertexto (HTML)
Lenguaje de marcado extensible (XML)
Además de estos tipos de archivos, Cloud Search admite la indexación de contenido en cualquier archivo de texto sin formato.
Tipos de archivos y características del reconocimiento óptico de caracteres (OCR)
Google Cloud Search también usa el OCR para extraer texto de los siguientes tipos de archivos:
Tipo de archivo
Tamaño máximo
Joint Photographic Experts Group (JPG)
10 MB
Graphic Interchange Format (GIF)
10 MB
Formato de archivo de imagen con etiquetas (TIFF)
10 MB
Gráficos vectoriales escalables (SVG)
10 MB
Formato de imagen PostScript (PS)
10 MB
Formato de documento portátil (PDF)
30 MB
El OCR también funciona en archivos con estas características:
Documentos escritos a mano. Los documentos en escritura latina, japonés y coreano producen los mejores resultados.
Documentos escritos verticalmente, como los que están en japonés.
Documentos escritos de derecha a izquierda, como el hebreo.
[[["Fácil de comprender","easyToUnderstand","thumb-up"],["Resolvió mi problema","solvedMyProblem","thumb-up"],["Otro","otherUp","thumb-up"]],[["Falta la información que necesito","missingTheInformationINeed","thumb-down"],["Muy complicado o demasiados pasos","tooComplicatedTooManySteps","thumb-down"],["Desactualizado","outOfDate","thumb-down"],["Problema de traducción","translationIssue","thumb-down"],["Problema con las muestras o los códigos","samplesCodeIssue","thumb-down"],["Otro","otherDown","thumb-down"]],["Última actualización: 2026-04-01 (UTC)"],[],[]]