Robots.txt dosyasında desteklenmeyen kurallarla ilgili not

2 Temmuz 2019, Salı

Dün Google'ın üretim robots.txt ayrıştırıcısını açık kaynak olarak sunacağımızı duyurmuştuk. Bu, gelecekte Arama'da potansiyel olarak kullanıma sunulacak açık kaynak projelere zemin hazırlayan heyecan verici bir andı. Geri bildirimlerden çok işimize yarıyor. Hem geliştiricilerden hem de web yöneticilerinden gelen sorulara büyük önem veriyoruz. Bir soru önemliydi ve bu yazıda o soruyu ele alacağız:
Neden kodda tarama gecikmesi gibi diğer kurallar için bir kod işleyici bulunmuyor?

Dün yayınladığımız internet taslağı, standartta yer almayan kurallar için genişletilebilir bir yapı sağlıyor. Yani, bir tarayıcı kendi satırını desteklemek isterse (ör. unicorns: allowed) bunu yapabilir. Bunun bir ayrıştırıcıda nasıl duracağını göstermek için açık kaynak robots.txt ayrıştırıcımıza site haritası gibi çok yaygın bir satır ekledik.

Ayrıştırıcı kitaplığımızı açık kaynaklı hale getirirken robots.txt kurallarının nasıl kullanıldığını analiz ettik. Özellikle, internet taslağı tarafından desteklenmeyen crawl-delay, nofollow ve noindex gibi kurallara odaklandık. Google bu kurallarla ilgili hiç doküman oluşturmadığından Googlebot'la ilişkili kullanımlarının çok düşük olması normaldir. Daha ayrıntılı incelemede bu kullanımların, internetteki tüm robots.txt dosyalarının %0,001'i dışında diğer tüm kurallarla çeliştiğini gördük. Bu hatalar, web sitelerinin Google arama sonuçlarındaki varlığını web yöneticilerinin istemeyeceği bir şekilde olumsuz etkilemektedir.

Sağlıklı bir ekosistem sağlamak ve gelecekteki açık kaynaklı sürümlere hazırlanmak amacıyla, desteklenmeyen ve yayından kaldırılmış kuralları işleyen tüm kodları (noindex gibi) 1 Eylül 2019'da kullanımdan kaldırıyoruz. Taramayı kontrol eden robots.txt dosyasındaki noindex dizine ekleme kuralı kullanan kişiler için çeşitli alternatif seçenekler mevcuttur:

  • noindex robots meta etiketlerinde: Hem HTTP yanıt başlıklarında hem de HTML'de desteklenen noindex kuralı, taramaya izin verildiğinde URL'lerin dizinden kaldırılmasının en etkili yoludur.
  • 404 ve 410 HTTP durum kodları: Her iki durum kodu da sayfanın mevcut olmadığı anlamına gelir. Bu nedenle, bu tür URL'ler taranıp işlendikten sonra Google'ın dizininden çıkarılır.
  • Şifre koruması: Abonelik veya ödeme duvarlı içeriği belirtmek için işaretleme kullanılmadığı sürece, bir sayfayı giriş yaptıktan sonra gizlemek genellikle sayfayı Google dizininden kaldırır.
  • robots.txt içinde Disallow: Arama motorları yalnızca bildikleri sayfaları dizine ekleyebilir. Bu nedenle sayfanın taranmasını engellemek genellikle içeriğinin dizine eklenmemesi anlamına gelir. Arama motoru, bir URL'yi diğer sayfaların bağlantılarına bakarak dizine ekleyebilir ancak içeriği görmeden bu sayfaları ileride daha az görünür kılmayı amaçlıyoruz.
  • Search Console URL kaldırma aracı: Bu araç, bir URL'yi Google arama sonuçlarından geçici olarak kaldırmanın hızlı ve kolay bir yoludur.

Google'ın arama sonuçlarından bilgi kaldırma hakkında daha fazla yardım için Yardım Merkezimizi ziyaret edin. Sorularınız varsa Twitter'dan ve Web Yöneticisi Topluluğumuzdan hem çevrimdışı hem de internet üzerinden bize ulaşabilirsiniz.