Nota sobre las reglas no admitidas en el archivo robots.txt

Martes, 2 de julio del 2019

Ayer anunciamos que el analizador de robots.txt de producción de Google pasaría a ser de código abierto. Fue un momento emocionante que allanó el camino para posibles proyectos de software libre de la Búsqueda de ahora en adelante. Vuestros comentarios son muy útiles, y estamos recogiendo preguntas de desarrolladores y webmasters por igual. Destacaba sobre todo una, que abordaremos en esta entrada:
¿Por qué no se incluye un controlador de código para otras reglas, como crawl-delay?

El borrador de Internet que publicamos ayer especifica una arquitectura extensible para las reglas que no forman parte del estándar. Es decir, si un rastreador quisiera incluir su propia línea, como unicorns: allowed, podría hacerlo. Para demostrar cómo quedaría en un analizador, hemos incluido una línea muy habitual, sitemap, en nuestro analizador de robots.txt de código abierto.

Al pasar a código abierto nuestra biblioteca de analizadores, examinamos el uso de las reglas de robots.txt. En particular, nos centramos en las reglas que no se contemplan en el borrador de Internet, como crawl-delay, nofollow y noindex. Como Google nunca ha documentado estas reglas, su uso en relación con el robot de Google es muy reducido. Al investigar más a fondo, hemos observado que su uso se contradecía con otras reglas en todos los archivos robots.txt de Internet, excepto en el 0,001 %. Estos errores perjudican la presencia de los sitios web en los resultados de búsqueda de Google, de formas que no creemos que sean la intención de los webmasters.

Para mantener un ecosistema en buen estado y prepararnos de cara a futuras versiones de código abierto, el 1 de septiembre del 2019 retiraremos todo el código que controla reglas no admitidas y no publicadas (como noindex). Si hasta ahora confiabas en la regla de indexación noindex para controlar el rastreo en el archivo robots.txt, tienes varias opciones alternativas:

noindex en etiquetas meta robots: la regla noindex es la forma más eficaz de retirar URLs del índice cuando se permite el rastreo, y se admite tanto en los encabezados de respuesta HTTP como en HTML.
Códigos de estado HTTP 404 y 410: ambos códigos de estado indican que la página no existe, por lo que esas URLs se retirararán del índice de Google una vez rastreadas y procesadas.
Protección de contraseñas: a menos que se utilicen etiquetas para indicar contenido con muro de pago o de suscripción, ocultar una página tras un inicio de sesión suele hacer que se elimine del índice de Google.
Disallow en robots.txt: los buscadores solo pueden indexar las páginas que conocen, por lo que, si impides que se rastreen las páginas, su contenido no se indexará. Si bien el buscador también puede indexar una URL a partir de enlaces procedentes de otras páginas sin ver el contenido, nuestra intención es que esas páginas sean menos visibles de aquí en adelante.
Herramienta de retirada de URLs de Search Console: esta herramienta es un método rápido y sencillo para retirar temporalmente una URL de los resultados de búsqueda de Google.

Para consultar más información sobre cómo retirar contenido de los resultados de búsqueda de Google, visita nuestro Centro de Ayuda. Si tienes alguna pregunta, nos puedes encontrar en Twitter y en nuestra comunidad para webmasters, tanto offline como online.

Publicado por Gary Illyes

Nota sobre las reglas no admitidas en el archivo robots.txt Organízate con las colecciones Guarda y clasifica el contenido según tus preferencias.

Nota sobre las reglas no admitidas en el archivo robots.txt