Các loại tệp được hỗ trợ để trích xuất văn bản

Cloud Search lập chỉ mục tất cả các mục đã gửi, bất kể loại tệp (MIME hoặc loại nội dung). Hoạt động lập chỉ mục được thực hiện trên dữ liệu siêu dữ liệu của một tệp và nội dung của tệp đó (nếu được hỗ trợ). Dưới đây là danh sách các loại tệp được hỗ trợ lập chỉ mục nội dung được.

  • Microsoft Word (DOC)
  • Microsoft Word (DOCX)
  • Microsoft Excel (XLS)
  • Microsoft Excel (XLSX)
  • Microsoft PowerPoint (PPT)
  • Microsoft PowerPoint (PPTX)
  • Định dạng tài liệu di động của Adobe (PDF)
  • Định dạng văn bản đa dạng thức (RTF)
  • Định dạng văn bản (TXT)
  • Ngôn ngữ đánh dấu siêu văn bản (HTML)
  • Ngôn ngữ đánh dấu mở rộng (XML)

Ngoài các loại tệp này, Cloud Search còn hỗ trợ lập chỉ mục nội dung trong mọi tệp văn bản thuần tuý.

Đặc điểm và loại tệp nhận dạng ký tự quang học (OCR)

Google Cloud Search cũng sử dụng OCR để trích xuất văn bản từ các loại tệp sau:

Loại tệp Kích thước tối đa
Nhóm chuyên gia nhiếp ảnh chung (JPG) 10 MB
Định dạng trao đổi đồ hoạ (GIF) 10 MB
Định dạng tệp hình ảnh được gắn thẻ (TIFF) 10 MB
Đồ hoạ vectơ có thể mở rộng (SVG) 10 MB
Định dạng hình ảnh PostScript (PS) 10 MB
Định dạng tài liệu di động (PDF) 30 MB

Công nghệ nhận dạng ký tự quang học (OCR) cũng hoạt động trên các tệp có những đặc điểm sau:

  • Tài liệu viết tay. Các tài liệu bằng chữ Latinh, tiếng Nhật và tiếng Hàn mang lại kết quả tốt nhất.
  • Tài liệu viết dọc, chẳng hạn như tài liệu bằng tiếng Nhật.
  • Các tài liệu được viết từ phải sang trái, chẳng hạn như tiếng Do Thái.