14 Mart 2025, Cuma
Site sahipleri robots.txt dosyasını
kullanarak tarayıcıların, web sitesinin hangi bölümlerine erişebileceğini
kolayca kontrol edebilir.
Web standartlarını geliştirmeyle ilgilenen topluluk, HTML için meta
etiketlerinin önerilmesinden sadece birkaç ay sonra (ve bildiğimiz kadarıyla Google
kurulmadan önce)
1996'da robots meta
etiketlerini
geliştirerek site sahiplerinin, arama motorlarının ve web tarayıcıların sayfalarını
nasıl kullanabileceğini daha iyi
ifade etmesine yardımcı olmuştur. Ardından,
X-Robots-Tag
HTTP yanıt başlıkları eklenmiştir.
Bu talimatlar bir URL ile birlikte gönderildiği için tarayıcılar robots.txt dosyası aracılığıyla URL'yi
taramaları engellenmediği takdirde yalnızca bu talimatları dikkate alabilir. Bunlar birlikte
Robot Hariç Tutma Protokolü'nü (REP) oluşturur.
Robots meta
etiketlerine bakış
Meta
etiketler (veya öğeler), makine tarafından okunabilen meta verileri ekleyebileceğiniz bir yöntemdir.
Robots meta
etiketleri, meta
etiketin bir "türüdür" ve arama motoru tarayıcıları da dahil olmak üzere tarayıcılar
için geçerlidir. Bu etiketler, içeriğin dizine eklenmesinin engellenip engellenmediğini belirtir. Sayfadaki bağlantıların, tarama için izlenip izlenmeyeceğini
de belirtirler. Bu bilgiler, doğrudan sayfadaki robots meta
etiketleriyle kolayca sağlanabilir.
Herhangi bir URL için Robot Hariç Tutma Protokolü
HTML olmayan içeriklere aynı düzeyde kontrol sağlamak için "X-Robots-Tag
" HTTP yanıt başlığı
oluşturulmuştur. Bu
HTTP başlıkları
da REP kapsamında değerlendirilir.
Başlık, robots meta
etiketiyle aynı değerleri destekler ve internette
yayınlanan her türlü içeriğe eklenebilir.
Google, bu başlığı HTML'nin yanı sıra PDF'ler, doküman dosyaları ve hatta resimler gibi içeriklerde de destekler.
Bu dosya biçimlerinin çoğunda meta
etiketlerine eşdeğer bir mekanizma bulunmadığı için
HTTP yanıt başlığı faydalıdır.
Robots meta
etiketlerini ve başlıklarını kullanmaya başlama
Söz dizimi basittir ve genişletilebilir. Kurallar genellikle web geliştiricisi tarafından veya site sahiplerinin tercihlerini belirleyebileceği onay kutuları ya da açılır menülerin bulunduğu bir içerik yönetim sistemi aracılığıyla uygulanır. Bu kontroller, Googlebot gibi belirli bir tarayıcıya yönelik olabilir veya belirli bir adı atlayarak bu değerleri destekleyen tüm tarayıcılara yönelik olabilir.
Örneğin, aşağıdaki kurallar tüm tarayıcılara ilişkilendirilen sayfayı dizine ekleme için kullanmamalarını söyler:
- Bir web sayfasında HTML
meta
etiketi şeklinde:<meta name="robots" content="noindex">
Mevcut
meta
etiketlerine veya yanıt başlıklarına bakmak biraz daha karmaşıktır ve sayfa içeriğinin ya da başlıklarının doğrudan incelenmesi gerekir. Herhangi bir sayfadaki HTMLmeta
etiketlerini, tarayıcınızdaki sayfa kaynağına bakarak veya sayfayı incelemek için Chrome'un geliştirici araçlarını kullanarak görüntüleyebilirsiniz.
- HTTP yanıt başlığı
biçiminde:
X-Robots-Tag: noindex
Chrome'un geliştirici araçlarındaki ağ panelinde tek tek URL'lerin HTTP yanıt başlıklarını kontrol edebilirsiniz.
Yapabileceğiniz işlemlere dair diğer örnekler:
Bu sayfa veya doküman için snippet gösterme. |
HTTP başlığında:
X-Robots-Tag: nosnippet <meta name="robots" content="nosnippet"> |
Diğerleri için bir tercih belirtmeden bu sayfayı Bu kontroller açıkça bir tarayıcıyı belirtir. |
X-Robots-Tag: examplebot-news: noindex <meta name="examplebot-news" content="noindex"> |
En kısıtlayıcı ve geçerli yönergelerin geçerli olduğunu hatırlatırız. Bu nedenle, |
X-Robots-Tag: examplebot: nosnippet X-Robots-Tag: nofollow <meta name="examplebot" content="nosnippet"> <meta name="robots" content="nofollow"> |
REP mekanizması seçme
Kullanacağınız mekanizmayı nasıl seçersiniz? Temel olarak robots.txt ve sayfa düzeyindeki kontroller benzerdir ancak tamamen birbirinin yerine kullanılamaz. Bazen belirli bir işlem yalnızca mekanizmalardan biriyle mümkün olabilir. Örneğin, tarama işleminin durdurulması isteniyorsa (ör. sonsuz arama sonucu sayfaları için robots.txt ile mümkündür), bir FTP sunucusu için kontrole ihtiyacınız varsa (robots.txt ile mümkündür) veya bir sayfa için snippet gösterilmemesini istiyorsanız (yalnızca sayfa düzeyindeki öğelerle mümkündür). Taramayı engelleme ile dizine eklemeyi engelleme arasında ayrım yapmanız gerekmiyorsa daha geniş kapsamlı kontroller için (bir web sitesinin büyük bölümlerini engelleme) robots.txt dosyasını, tek tek sayfaları engellemek için ise sayfa düzeyinde kontrolleri kullanabilirsiniz.
Güçlü ve yaşam standardı olan Robot Hariç Tutma Protokolü
Bu kontrollerin tümü doğaları gereği genişletilebilir. Site sahipleri, tarayıcı operatörleri ve arama
motorları yıllar içinde bu standartları geliştirmek için birlikte çalıştı.
Geçmişte noindex
ve nofollow
gibi
birkaç değer kullanılmaya başlandı. Ardından nosnippet
, noarchive
ve max-snippet:
gibi
daha fazla
değer benimsendi.
Bazen de değerlerin desteği sonlandırıldı. Örneğin, dizin kapatılmadan
önce DMOZ/Açık
Dizin Projesi snippet'lerini kullanan
noodp
desteği sonlandırıldı.
Google, site
sahipleri için çok sayıda değeri
destekler ve diğer büyük tarayıcı operatörleri de benzer sayıda değeri destekler.
REP kapsamında, site sahipleri nelerin taranacağını ve taranan verilerin arama motorlarında nasıl kullanılacağını kontrol edebilir. Bunu web sitelerinin daha büyük bölümleri için geniş kapsamlı olarak veya tek tek sayfalar, hatta sayfalardaki resimler için çok ayrıntılı bir düzeyde yapabilirler. Bu kontroller yaygın olarak bilinir, sık kullanılan tüm içerik yönetim sistemlerinde mevcuttur, ticari operatörler tarafından geniş çapta desteklenir ve günümüzde internetteki milyarlarca ana makinede kullanılır.