Googlebot'un iç yapısı: Tarama, getirme ve bayt işleme süreçlerimiz

31 Mart 2026, Salı

Search Off the Record podcast'inin 105. bölümünü dinlediyseniz bizim (ve sunucularımız) için özel önemi olan bir konuyu, yani Googlebot'un iç işleyişini derinlemesine incelediğimizi duymuş olabilirsiniz.

Uzun süredir "Googlebot" adı, interneti sistematik bir şekilde okuyan tek ve yorulmak bilmeyen bir robot imajını zihinlerde canlandırıyor. Ancak gerçek biraz daha karmaşık ve çok daha ilginç. Bugün, tarama altyapımızın iç işleyişine göz atmak istiyoruz. Özellikle de kendi kafamızı karıştıran bir konu olan bayt boyutu sınırlarına odaklanacağız.

Öncelikle, Googlebot tek bir program değildir.

İlk olarak, tarihsel bir yanlış adlandırmayı düzeltelim. 2000'lerin başlarında Google'ın tek bir ürünü olduğu için tek bir tarayıcımız vardı. "Googlebot" ismi yerleşti. Ancak günümüzde Googlebot, merkezi bir tarama platformuna benzeyen bir sistemin yalnızca bir kullanıcısıdır.

Sunucu günlüklerinizde Googlebot'u gördüğünüzde yalnızca Google Arama'ya bakıyorsunuz demektir. Google Alışveriş, AdSense ve daha pek çok hizmet gibi düzinelerce farklı istemci, tarama isteklerini farklı tarayıcı adları kullanarak aynı temel altyapı üzerinden yönlendirir. Bu tarayıcıların başlıcaları Google tarayıcı altyapısı sitesinde belgelenmiştir.

2 MB sınırı: Baytlarınıza ne oluyor?

İşler bu noktada biraz kafa karıştırıcı bir hal alıyor. Tarayıcı altyapısındaki her istemcide getirme işlemleri için bazı ayarların yapılması gerekir. Bu ayarlar arasında kullanıcı aracısı dizesi, robots.txt dosyasında hangi kullanıcı aracısı jetonlarının aranacağı ve tek bir URL'den kaç bayt getirileceği yer alır.

Googlebot şu anda tek bir URL için (PDF'ler hariç) en fazla 2 MB getirir. Yani, HTTP üst bilgisi de dahil olmak üzere bir kaynağın yalnızca ilk 2 MB'lık kısmını tarar. Bu sınır, PDF dosyaları için 64 MB'tır.

Resim ve video tarayıcıları genellikle geniş bir eşik değer aralığına sahiptir. Bu, büyük ölçüde veri getirdikleri ürüne bağlıdır. Örneğin görsel aramanın aksine, site simgesi getirme işlemi çok düşük bir sınıra sahip olabilir.

Sınır belirtilmeyen diğer tüm tarayıcılar için varsayılan değer, içerik türünden bağımsız olarak 15 MB'tır.

Bu durum, sunucunuzun ağ üzerinden gönderdiği baytlar için ne anlama geliyor?

  1. Kısmi getirme: Googlebot, boyutu 2 MB'tan büyük olan HTML dosyalarınızı reddetmez. Bunun yerine, getirme işlemini tam olarak 2 MB sınırında durdurur. Bu sınırın HTTP istek başlıklarını içerdiğini unutmayın.
  2. Kesme noktasının işlenmesi: İndirilen bu kısım (ilk 2 MB'lık veri), sanki dosyanın tamamıymış gibi dizine ekleme sistemlerimize ve Web Oluşturma Hizmeti'ne (WRS) aktarılır.
  3. Görünmeyen baytlar: Sözkonusu 2 MB'lık eşikten sonraki tüm baytlar bütünüyle göz ardı edilir. Bu veriler getirilmez, oluşturulmaz ve dizine eklenmez.
  4. Kaynakları getirme: HTML'de başvurulan her kaynak (medya öğeleri, yazı tipleri ve birkaç sıra dışı dosya hariç), ana HTML'de olduğu gibi Googlebot aracılığıyla WRS tarafından getirilir. URL başına kendilerine ait ayrı bir bayt sayaçları vardır ve ana sayfanın boyutuna dahil edilmezler.

Web'in büyük çoğunluğu için 2 MB'lık bir HTML veri yükü devasa bir boyuttur ve bu sınıra hiçbir zaman ulaşmazsınız. Ancak sayfanız şişirilmiş satır içi base64 resimleri ya da devasa satır içi CSS/JavaScript blokları içeriyorsa veya megabaytlarca büyüklükteki menülerle başlıyorsa, asıl metin içeriğinizin veya kritik yapılandırılmış verilerinizin yanlışlıkla 2 MB sınırının dışında kalmasına neden olabilirsiniz. Bu önemli baytlar getirilmezlerse Googlebot için yok hükmündedirler.

Baytları oluşturma

Tarayıcı, baytları (sınıra kadar) başarıyla aldıktan sonra görevi WRS'ye devreder. WRS, sayfanın nihai görsel ve metinsel durumunu anlamak amacıyla JavaScript'i işler ve tıpkı modern bir tarayıcı gibi istemci taraflı kodu yürütür. Oluşturma işlemi, sayfanın metinsel içeriğini ve yapısını daha iyi anlamak için JavaScript ve CSS dosyalarını getirip yürütür ve XHR isteklerini işler (resim veya video istemez). 2 MB sınırı istenen her kaynak için de geçerlidir.

Ancak, WRS'nin yalnızca tarayıcının gerçekten aldığı kodu yürütebileceğini unutmayın. Ayrıca WRS, durum bilgisiz çalışır. İstekler arasındaki yerel depolama ve oturum verilerini temizler. Bu durumun, dinamik ve JavaScript'e bağımlı öğelerin sistemlerimiz tarafından nasıl yorumlandığı hususunda özel etkileri olabilir.

Baytlarınız için en iyi uygulamalar

Googlebot'un içeriğinizi verimli bir şekilde getirip anlayabilmesini sağlamak için aşağıdaki bayt düzeyindeki en iyi uygulamaları göz önünde bulundurun:

  • HTML'nizi sade tutun: Ağır CSS ve JavaScript kodlarını harici dosyalara taşıyın. İlk HTML belgesi 2 MB ile sınırlandırılmış olsa da harici komut dosyaları ve stil sayfaları ayrı olarak getirilir (kendi sınırlarına tabidir).
  • Sıralama önemlidir: Meta etiketler, <title> öğeleri, <link> öğeleri, standart öğeler ve temel yapılandırılmış veriler gibi en kritik öğelerinizi HTML belgesinde daha yukarıya yerleştirin. Böylece bu öğelerin, kesme noktasının altında kalma olasılığı azalır.
  • Sunucu günlüklerinizi izleyin: Sunucu yanıt sürelerinizi gözlemleyin. Sunucunuz bayt sunmakta zorlanıyorsa, tarayıcılarımız altyapınızda aşırı yüklenmeye neden olmamak için otomatik olarak geri çekilir. Bu durum, tarama sıklığınızı düşürür.

Bu sınır taşa kazınmadı. Web geliştikçe ve HTML sayfalarının boyutu büyüdükçe zaman içinde değişebilir. (Veya küçüldükçe. Umarız küçülür.)

Tarama sihirli bir işlem değildir. Yüksek düzeyde düzenlenmiş ve ölçeklendirilmiş bir bayt değişimidir. Merkezi getirme altyapımızın bu baytları nasıl aldığını ve sınırladığını anlayarak sitenizin en önemli içeriğinin her zaman işleme dahil edilmesini sağlayabilirsiniz.

İyi optimizasyonlar!

Kamera arkasıyla ilgili daha fazla ayrıntı öğrenmek ister misiniz? YouTube'da veya podcast dinlediğiniz diğer platformlarda Search Off the Record podcast'inin 105. bölümüne göz atın!