El analizador de robots.txt de Google ahora es de código abierto

Lunes, 1 de julio de 2019

Durante 25 años, el Protocolo de exclusión de robots (REP) fue solo un estándar de facto. Esto solía tener consecuencias frustrantes. Por un lado, para los webmasters, implicaba incertidumbre, por ejemplo, cuando el editor de texto incluía caracteres BOM en sus archivos robots.txt. Por otro lado, también generaba incertidumbre entre los desarrolladores de rastreadores y herramientas. Por ejemplo, ¿cómo debían lidiar con archivos robots.txt de cientos de megabytes?

Googlebot analiza un sitio web

Hoy, anunciamos que encabezamos el esfuerzo por convertir el REP en un estándar de Internet. Si bien este es un paso importante, implica un trabajo adicional para los desarrolladores que analizan los archivos robots.txt.

Estamos aquí para ayudarte: implementamos el código abierto en la biblioteca de C++ que usan nuestros sistemas de producción para analizar y correlacionar reglas en archivos robots.txt. Esta biblioteca existe desde hace unos 20 años y contiene fragmentos de código que se escribieron en los años 90. Desde entonces, la biblioteca evolucionó. Aprendimos mucho sobre la manera en que los webmasters escriben los archivos robots.txt y acerca de casos límite que tuvimos que abordar. Incorporamos lo que aprendimos a lo largo de los años al borrador de Internet cuando resultaba conveniente.

También incluimos una herramienta de prueba en el paquete de código abierto para ayudarte a probar algunas reglas. Una vez compilado, el uso es muy sencillo:

robots_main <robots.txt content> <user_agent> <url>

Si quieres ver la biblioteca, ve al repositorio de GitHub del analizador de robots.txt. Nos encantaría ver lo que puedes crear con ella. Si compilaste algo con la biblioteca, envíanos un comentario en Twitter y, si tienes comentarios o preguntas sobre la biblioteca, búscanos en GitHub.