Metin çıkarma için desteklenen dosya türleri

Cloud Search, gönderilen tüm öğeleri dosya türünden (MIME veya içerik türü) bağımsız olarak dizine ekler. Dizine ekleme, bir dosyanın meta veri verilerinde ve destekleniyorsa içeriğinde gerçekleştirilir. Aşağıda, içerik dizine eklemenin desteklendiği dosya türlerinin listesi verilmiştir.

  • Microsoft Word (DOC)
  • Microsoft Word (DOCX)
  • Microsoft Excel (XLS)
  • Microsoft Excel (XLSX)
  • Microsoft PowerPoint (PPT)
  • Microsoft PowerPoint (PPTX)
  • Adobe’nin Taşınabilir Belge Biçimi (PDF)
  • Zengin Metin Biçimi (RTF)
  • Metin Biçimi (TXT)
  • HyperText Biçimlendirme Dili (HTML)
  • Genişletilebilir Biçimlendirme Dili (XML)

Bu dosya türlerine ek olarak, Cloud Search herhangi bir düz metin dosyası içindeki içeriğin dizine eklenmesini destekler.

Optik Karakter Tanıma (OCR) dosya türleri ve özellikleri

Google Cloud Search, aşağıdaki dosya türlerinden metin çıkarmak için de OCR özelliğini kullanır:

Dosya türü Maksimum boyut
Ortak Fotoğraf Uzmanları Grubu (JPG) 10 MB
Grafik Değişim Biçimi (GIF) 10 MB
Etiketli Resim Dosyası Biçimi (TIFF) 10 MB
Ölçeklenebilir Vektör Grafiği (SVG) 10 MB
PostScript Resim Biçimi (PS) 10 MB
Taşınabilir Belge Biçimi (PDF) 30 MB

OCR, aşağıdaki özelliklere sahip dosyalarda da kullanılabilir:

  • El yazısı dokümanlar. Latin alfabesi, Japonca ve Korece dokümanlar en iyi sonuçları verir.
  • Japoncalar gibi dikey olarak yazılmış dokümanlar.
  • İbranice gibi sağdan sola yazılmış dokümanlar.