Comentario acerca de reglas no compatibles en robots.txt

Martes, 2 de julio de 2019

Ayer anunciamos que el analizador de robots.txt de producción de Google pasaría a tener código abierto. Fue un momento emocionante que allanó el camino para potenciales proyectos de código abierto de la Búsqueda en el futuro. Los comentarios son útiles, y estamos recopilando las preguntas de los desarrolladores y los webmasters. Se destacó una pregunta que abordaremos en esta publicación:
¿Por qué no se incluye en el código un controlador para otras reglas como el retardo de rastreo?

El borrador de Internet que publicamos ayer proporciona una arquitectura extensible para las reglas que no forman parte del estándar. Por lo tanto, si un rastreador deseara admitir su propia línea como unicorns: allowed, podría hacerlo. Para demostrar cómo se vería esto en un analizador, incluimos una línea muy común, un mapa del sitio, en nuestro analizador de robots.txt de código abierto.

Al mismo tiempo que implementamos al código abierto en nuestra biblioteca de analizadores, analizamos el uso de las reglas de robots.txt. En particular, nos enfocamos en reglas no compatibles con el borrador de Internet, como crawl-delay, nofollow y noindex. Lógicamente, Google nunca documentó estas reglas, ya que su uso en relación con Googlebot es muy bajo. Si analizamos un poco más, observamos que su uso se contradice con otras reglas en todos los archivos, excepto en el 0.001% de los archivos robots.txt de Internet. Estos errores afectan la presencia de los sitios web en los resultados de la Búsqueda de Google de formas que creemos que los webmasters no tenían previstas.

A fin de mantener un ecosistema saludable y prepararnos para posibles actualizaciones de código abierto, quitaremos el código que maneje reglas no compatibles y no publicadas (como noindex) el 1 de septiembre de 2019. Para quienes dependan de la regla de indexación noindex en el archivo robots.txt, que controla el rastreo, hay varias opciones alternativas:

  • noindex en las etiquetas robots meta: La regla noindex, admitida en encabezados de respuesta HTTP y en HTML, es la manera más eficaz de quitar URLs del índice cuando se permite el rastreo.
  • Códigos de estado HTTP 404 y 410: Ambos códigos de estado indican que la página no existe, lo que quitará esas URLs del índice de Google una vez que se hayan rastreado y procesado.
  • Protección de contraseñas: A menos que se use lenguaje de marcado para indicar contenido de paga o suscripción, por lo general, ocultar una página detrás de un acceso la quitará del índice de Google.
  • Disallow en robots.txt: Los motores de búsqueda solo pueden indexar páginas que conocen, por lo que bloquear la página para evitar que se rastree suele provocar que su contenido no se indexe. Si bien el motor de búsqueda también puede indexar una URL basada en vínculos de otras páginas, sin ver el contenido en sí, procuramos hacer que esas páginas sean menos visibles en el futuro.
  • Herramienta para quitar URL de Search Console: Es una manera rápida y fácil de quitar una URL de los resultados de la Búsqueda de Google de manera temporal.

Si quieres obtener más orientación sobre cómo quitar información de los resultados de la Búsqueda de Google, visita nuestro Centro de ayuda. Si tienes alguna pregunta, encuéntranos en Twitter y en nuestra Comunidad de webmasters, física y en línea.