Metin çıkarma için desteklenen dosya türleri

Cloud Search, dosya türünden (MIME veya içerik türü) bağımsız olarak gönderilen tüm öğeleri dizine ekler. Dizine ekleme, bir dosyanın meta veri verileri ve destekleniyorsa içeriği üzerinde gerçekleştirilir. Aşağıda, içerik dizine eklemenin desteklendiği dosya türlerinin listesi verilmiştir.

  • Microsoft Word (DOC)
  • Microsoft Word (DOCX)
  • Microsoft Excel (XLS)
  • Microsoft Excel (XLSX)
  • Microsoft PowerPoint (PPT)
  • Microsoft PowerPoint (PPTX)
  • Adobe Taşınabilir Belge Biçimi (PDF)
  • Zengin Metin Biçimi (RTF)
  • Metin Biçimi (TXT)
  • Hypertext Biçimlendirme Dili (HTML)
  • Genişletilebilir Biçimlendirme Dili (XML)

Cloud Search, bu dosya türlerine ek olarak herhangi bir düz metin dosyasındaki içeriğin indekslenmesini de destekler.

Optik karakter tanıma (OCR) dosya türleri ve özellikleri

Google Cloud Search, aşağıdaki dosya türlerinden metin ayıklamak için de OCR kullanır:

Dosya türü Maksimum boyut
Joint Photographic Experts Group (JPG) 10 MB
Grafik Değişim Biçimi (GIF) 10 MB
Etiketli Resim Dosyası Biçimi (TIFF) 10 MB
Ölçeklenebilir Vektör Grafiği (SVG) 10 MB
PostScript Görüntü Biçimi (PS) 10 MB
Taşınabilir Belge Biçimi (PDF) 30 MB

OCR, aşağıdaki özelliklere sahip dosyalarda da çalışır:

  • Elle yazılmış belgeler. Latin alfabesi, Japonca ve Korece yazılmış dokümanlar en iyi sonuçları verir.
  • Dikey olarak yazılmış dokümanlar (ör. Japonca dokümanlar).
  • İbranice gibi sağdan sola yazılmış belgeler.