Propuesta para formalizar la especificación del protocolo de exclusión para robots

Lunes, 1 de julio del 2019

Durante 25 años, el protocolo de exclusión para robots (REP) ha sido uno de los componentes más básicos y críticos de la Web. Permite que los propietarios de sitios web impidan que clientes automatizados, como los rastreadores web, accedan a sus sitios, ya sea total o parcialmente.

En 1994, Martijn Koster (también webmaster) creó el estándar inicial cuando los rastreadores abrumaban su sitio. Con ayuda de los comentarios de otros webmasters, nació el REP y los buscadores lo adoptaron para ayudar a los propietarios de sitios web a gestionar los recursos de su servidor más fácilmente.

Sin embargo, el REP nunca se convirtió en un estándar de Internet oficial, lo que significa que los desarrolladores han interpretado el protocolo de una forma algo distinta a lo largo de los años. Y, desde sus inicios, el REP no se ha actualizado para adaptarse a los casos límite actuales. Todo esto supone un problema para los propietarios de sitios web, ya que el ambiguo estándar de hecho dificulta que las reglas se escriban bien.

Queríamos ayudar a los propietarios y desarrolladores de sitios web a crear experiencias increíbles en Internet y que pudieran dejar de preocuparse sobre cómo controlar a los rastreadores. Junto con el autor original del protocolo, los webmasters y otros buscadores, hemos documentado cómo se utiliza el protocolo REP en la Web moderna y lo hemos enviado al IETF.

El borrador de REP propuesto refleja más de 20 años de experiencia real en el uso de reglas de robots.txt, tanto por parte del robot de Google como de otros rastreadores principales, y en unos 500 millones de sitios web que se basan en REP. Gracias a estos controles detallados, los editores pueden decidir qué contenido quieren que se rastree en sus sitios para que se pueda mostrar a los usuarios interesados. Es decir, no se modifican las reglas creadas en 1994, sino que básicamente se definen todas las situaciones no contempladas anteriormente en relación con el análisis y las coincidencias de robots.txt, adaptándolas a la Web moderna. En particular:

  1. Cualquier protocolo de transferencia basado en URIs puede usar robots.txt. Por ejemplo, ya no se limita a HTTP, sino que también se puede usar con FTP o CoAP.
  2. Los desarrolladores deben analizar al menos los primeros 500 kibibytes de un archivo robots.txt. Definir un tamaño máximo de archivo asegura que las conexiones no estén abiertas durante demasiado tiempo, lo que reduce la carga innecesaria en los servidores.
  3. Un nuevo tiempo máximo de almacenamiento en caché, que puede ser de 24 horas o un valor de directiva de caché si está disponible, da a los propietarios de sitios web flexibilidad para actualizar su archivo robots.txt cuando quieran, sin que los rastreadores sobrecarguen los sitios web con solicitudes de robots.txt. Por ejemplo, en el caso de HTTP, se pueden usar encabezados Cache-Control para determinar el tiempo de almacenamiento en caché.
  4. En la especificación ahora se estipula que, cuando un archivo robots.txt al que antes se podía acceder deja de ser accesible debido a errores del servidor, las páginas que se sabe que están bloqueadas por este hecho no se rastrean durante un periodo razonablemente largo.

Además, hemos actualizado el formulario de Backus-Naur ampliado en el borrador de Internet para definir mejor la sintaxis de robots.txt, que es fundamental para que los desarrolladores analicen las líneas.

RFC son las siglas de Request for Comments (petición de comentarios), y justo esa es nuestra intención: hemos subido el borrador a IETF para recibir comentarios de desarrolladores que se preocupan por los elementos básicos que conforman Internet. Mientras trabajamos por ofrecer a los creadores de sitios web los controles que necesitan para indicarnos cuánta información quieren que esté disponible para el robot de Google y, por extensión, en la Búsqueda, debemos asegurarnos de que lo hacemos bien.

Si quieres enviarnos un comentario, hacernos alguna pregunta o simplemente saludar, puedes encontrarnos en Twitter y en nuestra comunidad de webmasters, tantooffline como online.