Robots Refresher: Sayfa düzeyinde ayrıntı seviyesi

14 Mart 2025, Cuma

Site sahipleri robots.txt dosyasını kullanarak tarayıcıların, web sitesinin hangi bölümlerine erişebileceğini kolayca kontrol edebilir. Web standartlarını geliştirmeyle ilgilenen topluluk, HTML için meta etiketlerinin önerilmesinden sadece birkaç ay sonra (ve bildiğimiz kadarıyla Google kurulmadan önce) 1996'da robots meta etiketlerini geliştirerek site sahiplerinin, arama motorlarının ve web tarayıcıların sayfalarını nasıl kullanabileceğini daha iyi ifade etmesine yardımcı olmuştur. Ardından, X-Robots-Tag HTTP yanıt başlıkları eklenmiştir. Bu talimatlar bir URL ile birlikte gönderildiği için tarayıcılar robots.txt dosyası aracılığıyla URL'yi taramaları engellenmediği takdirde yalnızca bu talimatları dikkate alabilir. Bunlar birlikte Robot Hariç Tutma Protokolü'nü (REP) oluşturur.

Robots meta etiketlerine bakış

Meta etiketler (veya öğeler), makine tarafından okunabilen meta verileri ekleyebileceğiniz bir yöntemdir. Robots meta etiketleri, meta etiketin bir "türüdür" ve arama motoru tarayıcıları da dahil olmak üzere tarayıcılar için geçerlidir. Bu etiketler, içeriğin dizine eklenmesinin engellenip engellenmediğini belirtir. Sayfadaki bağlantıların, tarama için izlenip izlenmeyeceğini de belirtirler. Bu bilgiler, doğrudan sayfadaki robots meta etiketleriyle kolayca sağlanabilir.

Herhangi bir URL için Robot Hariç Tutma Protokolü

HTML olmayan içeriklere aynı düzeyde kontrol sağlamak için "X-Robots-Tag" HTTP yanıt başlığı oluşturulmuştur. Bu HTTP başlıkları da REP kapsamında değerlendirilir. Başlık, robots meta etiketiyle aynı değerleri destekler ve internette yayınlanan her türlü içeriğe eklenebilir. Google, bu başlığı HTML'nin yanı sıra PDF'ler, doküman dosyaları ve hatta resimler gibi içeriklerde de destekler. Bu dosya biçimlerinin çoğunda meta etiketlerine eşdeğer bir mekanizma bulunmadığı için HTTP yanıt başlığı faydalıdır.

Robots meta etiketlerini ve başlıklarını kullanmaya başlama

Söz dizimi basittir ve genişletilebilir. Kurallar genellikle web geliştiricisi tarafından veya site sahiplerinin tercihlerini belirleyebileceği onay kutuları ya da açılır menülerin bulunduğu bir içerik yönetim sistemi aracılığıyla uygulanır. Bu kontroller, Googlebot gibi belirli bir tarayıcıya yönelik olabilir veya belirli bir adı atlayarak bu değerleri destekleyen tüm tarayıcılara yönelik olabilir.

Örneğin, aşağıdaki kurallar tüm tarayıcılara ilişkilendirilen sayfayı dizine ekleme için kullanmamalarını söyler:

  • Bir web sayfasında HTML meta etiketi şeklinde:
    <meta name="robots" content="noindex">

    Mevcut meta etiketlerine veya yanıt başlıklarına bakmak biraz daha karmaşıktır ve sayfa içeriğinin ya da başlıklarının doğrudan incelenmesi gerekir. Herhangi bir sayfadaki HTML meta etiketlerini, tarayıcınızdaki sayfa kaynağına bakarak veya sayfayı incelemek için Chrome'un geliştirici araçlarını kullanarak görüntüleyebilirsiniz.

  • HTTP yanıt başlığı biçiminde:
    X-Robots-Tag: noindex

    Chrome'un geliştirici araçlarındaki ağ panelinde tek tek URL'lerin HTTP yanıt başlıklarını kontrol edebilirsiniz.

Yapabileceğiniz işlemlere dair diğer örnekler:

Bu sayfa veya doküman için snippet gösterme.

HTTP başlığında:
X-Robots-Tag: nosnippet
veya HTML'de:
<meta name="robots" content="nosnippet">

Diğerleri için bir tercih belirtmeden bu sayfayı ExampleBot-News içinde dizine ekleme.

Bu kontroller açıkça bir tarayıcıyı belirtir.

X-Robots-Tag: examplebot-news: noindex
veya
<meta name="examplebot-news" content="noindex">

ExampleBot snippet göstermemeli ve tüm tarayıcılar bu sayfadaki bağlantıları izlememelidir.

En kısıtlayıcı ve geçerli yönergelerin geçerli olduğunu hatırlatırız. Bu nedenle, ExampleBot için yönerge "nosnippet, nofollow" olarak birleştirilir.

X-Robots-Tag: examplebot: nosnippet
X-Robots-Tag: nofollow
veya
<meta name="examplebot" content="nosnippet">
<meta name="robots" content="nofollow">

REP mekanizması seçme

Kullanacağınız mekanizmayı nasıl seçersiniz? Temel olarak robots.txt ve sayfa düzeyindeki kontroller benzerdir ancak tamamen birbirinin yerine kullanılamaz. Bazen belirli bir işlem yalnızca mekanizmalardan biriyle mümkün olabilir. Örneğin, tarama işleminin durdurulması isteniyorsa (ör. sonsuz arama sonucu sayfaları için robots.txt ile mümkündür), bir FTP sunucusu için kontrole ihtiyacınız varsa (robots.txt ile mümkündür) veya bir sayfa için snippet gösterilmemesini istiyorsanız (yalnızca sayfa düzeyindeki öğelerle mümkündür). Taramayı engelleme ile dizine eklemeyi engelleme arasında ayrım yapmanız gerekmiyorsa daha geniş kapsamlı kontroller için (bir web sitesinin büyük bölümlerini engelleme) robots.txt dosyasını, tek tek sayfaları engellemek için ise sayfa düzeyinde kontrolleri kullanabilirsiniz.

Güçlü ve yaşam standardı olan Robot Hariç Tutma Protokolü

Bu kontrollerin tümü doğaları gereği genişletilebilir. Site sahipleri, tarayıcı operatörleri ve arama motorları yıllar içinde bu standartları geliştirmek için birlikte çalıştı. Geçmişte noindex ve nofollow gibi birkaç değer kullanılmaya başlandı. Ardından nosnippet, noarchive ve max-snippet: gibi daha fazla değer benimsendi. Bazen de değerlerin desteği sonlandırıldı. Örneğin, dizin kapatılmadan önce DMOZ/Açık Dizin Projesi snippet'lerini kullanan noodp desteği sonlandırıldı. Google, site sahipleri için çok sayıda değeri destekler ve diğer büyük tarayıcı operatörleri de benzer sayıda değeri destekler.

REP kapsamında, site sahipleri nelerin taranacağını ve taranan verilerin arama motorlarında nasıl kullanılacağını kontrol edebilir. Bunu web sitelerinin daha büyük bölümleri için geniş kapsamlı olarak veya tek tek sayfalar, hatta sayfalardaki resimler için çok ayrıntılı bir düzeyde yapabilirler. Bu kontroller yaygın olarak bilinir, sık kullanılan tüm içerik yönetim sistemlerinde mevcuttur, ticari operatörler tarafından geniş çapta desteklenir ve günümüzde internetteki milyarlarca ana makinede kullanılır.


Robots Refresher serisinin diğer bölümlerine göz atın: