El analizador de robots.txt de Google ahora es de código abierto

Lunes, 1 de julio del 2019

Durante 25 años, el protocolo de exclusión para robots (REP) era solo un estándar de hecho, lo que en ocasiones ha tenido consecuencias frustrantes. Por un lado, para los webmasters, suponía incertidumbre en casos extremos, como cuando su editor de texto incluía caracteres BOM en los archivos robots.txt. Por otro lado, para los desarrolladores de rastreadores y herramientas, también aportaba incertidumbre. Por ejemplo, ¿cómo gestionar los archivos robots.txt que ocupan cientos de megabytes?

El robot de Google sacando un sitio web de una caja

Hoy anunciábamos que vamos a promover el proceso para convertir el REP en un estándar de Internet. Aunque este paso es importante, supone trabajo extra para los desarrolladores que analizan archivos robots.txt.

Pero estamos aquí para ayudarte: hemos pasado a código abierto la biblioteca de C++ que utilizan nuestros sistemas de producción para analizar y relacionar reglas en archivos robots.txt. Esta biblioteca tiene unos 20 años e incluye fragmentos de código escritos en los años 90. Desde entonces, la biblioteca ha evolucionado; hemos aprendido mucho acerca de cómo escriben los webmasters los archivos robots.txt y los casos límite que teníamos que tener en cuenta, y hemos añadido lo que hemos aprendido a lo largo de los años también al borrador de Internet cuando tenía sentido hacerlo.

En el paquete de código abierto también hemos incluido una herramienta de prueba que te ayudará a probar algunas reglas. Su uso es muy sencillo:

robots_main <robots.txt content> <user_agent> <url>

Si quieres echarle un vistazo a la biblioteca, busca el analizador de robots.txt en nuestro repositorio de GitHub. Nos encantaría ver qué puedes desarrollar con él. Si has creado algo con la biblioteca, déjanos un comentario en Twitter. Y si tienes algún comentario o alguna pregunta al respecto, escríbenos en GitHub.