Google'ın robots.txt ayrıştırıcısı artık açık kaynak

01 Temmuz 2019, Pazartesi

25 yıl boyunca robot hariç tutma protokolü (REP) yalnızca varsayılan bir standarttı. Bu durum bazen can sıkıcı sonuçlara yol açıyordu. Bazı uç örneklerde web yöneticileri belirsizlikler yaşıyorlardı (örneğin, metin düzenleyicilerinin robots.txt dosyalarına BOM karakterleri eklemesi gibi). Öte yandan, tarayıcı ve araç geliştiricileri açısından da bazı belirsizlikler oluyordu. Örneğin, yüzlerce megabaytlık robots.txt dosyalarıyla nasıl başa çıkılacaktı?

Googlebot bir web sitesinin kutusunu açıyor

Bugün, REP'i internet standardı haline getirme çabalarına öncülük ettiğimizi duyurduk. Bu önemli bir adım olsa da robots.txt dosyalarını ayrıştıran geliştiriciler için ekstra çalışma anlamına gelmektedir.

Size yardım etmeye hazırız: Üretim sistemlerimizin, robots.txt dosyalarındaki kuralları ayrıştırmak ve eşleştirmek için kullandığı C++ kitaplığını açık kaynak haline getirdik. Bu kütüphane 20 yıldır kullanımdadır ve 90'larda yazılmış kod parçalarını içerir. Kütüphane o zamandan beri gelişmeye devam etmiştir. Web yöneticilerinin, robots.txt dosyalarını nasıl yazdıkları ve ele almanız gereken önemli olaylar hakkında çok şey öğrendik. Yıllar içinde öğrendiğimiz bu bilgileri de mantıklı olduğunu düşündüğümüz durumlarda internet taslağına ekledik.

Ayrıca, birkaç kuralı test etmenize yardımcı olmak için açık kaynak paketine bir test aracı da ekledik. Bu aracı oluşturduktan sonra kullanımı oldukça kolaydır:

robots_main <robots.txt content> <user_agent> <url>

Kitaplığa göz atmak isterseniz robots.txt ayrıştırıcı için GitHub depomuza bakın. Bu kitaplığı kullanarak geliştirebileceklerinizi görmek bizi memnun edecektir. Kitaplığı kullanarak bir şey geliştirdiğinize yorumunuzu Twitter üzerinden gönderin. Kitaplıkla ilgili yorumlarınız ya da sorularınız olursa bize GitHub üzerinden erişebilirsiniz.