ประเภทไฟล์ที่รองรับสําหรับการแยกข้อความ

Cloud Search จะจัดทำดัชนีรายการทั้งหมดที่ส่ง ไม่ว่าจะเป็นประเภทไฟล์ใดก็ตาม (MIME หรือ Content-Type) การจัดทำดัชนีจะดำเนินการกับข้อมูลเมตาของไฟล์และเนื้อหา (หากรองรับ) ต่อไปนี้คือรายการประเภทไฟล์ที่รองรับการจัดทำดัชนีเนื้อหา

  • Microsoft Word (DOC)
  • Microsoft Word (DOCX)
  • Microsoft Excel (XLS)
  • Microsoft Excel (XLSX)
  • Microsoft PowerPoint (PPT)
  • Microsoft Powerpoint (PPTX)
  • Portable Document Format (PDF) ของ Adobe
  • Rich Text Format (RTF)
  • รูปแบบข้อความ (TXT)
  • Hypertext Markup Language (HTML)
  • ภาษามาร์กอัปที่ขยายได้ (XML)

นอกจากประเภทไฟล์เหล่านี้แล้ว Cloud Search ยังรองรับการจัดทำดัชนีเนื้อหา ภายในไฟล์ข้อความธรรมดาด้วย

ประเภทไฟล์และการรู้จำอักขระด้วยภาพ (OCR)

นอกจากนี้ Google Cloud Search ยังใช้ OCR เพื่อดึงข้อความจากไฟล์ประเภทต่อไปนี้ด้วย

ประเภทไฟล์ ขนาดสูงสุด
Joint Photographic Experts Group (JPG) 10 MB
รูปแบบการแลกเปลี่ยนกราฟิก (GIF) 10 MB
รูปแบบไฟล์รูปภาพที่ติดแท็ก (TIFF) 10 MB
กราฟิกเวกเตอร์ที่ปรับขนาดได้ (SVG) 10 MB
รูปแบบรูปภาพ PostScript (PS) 10 MB
Portable Document Format (PDF) 30 MB

นอกจากนี้ OCR ยังใช้ได้กับไฟล์ที่มีลักษณะต่อไปนี้ด้วย

  • เอกสารที่เขียนด้วยลายมือ เอกสารที่เป็นอักษรละติน ญี่ปุ่น และเกาหลีจะให้ผลลัพธ์ที่ดีที่สุด
  • เอกสารที่เขียนในแนวตั้ง เช่น เอกสารภาษาญี่ปุ่น
  • เอกสารที่เขียนจากขวาไปซ้าย เช่น ภาษาฮีบรู