Robot de Google

"Robot de Google" es el nombre genérico del rastreador web de Google y engloba dos tipos de rastreadores: el de ordenadores, que simula ser un usuario que navega desde su ordenador, y el de dispositivos móviles, que recrea un usuario de este tipo de dispositivos.

Es probable que tu sitio web lo acaben rastreando ambos tipos de robots de Google. Puedes saber cuál te ha rastreado consultando la cadena de user-agent de la solicitud. Como ambos rastreadores siguen las reglas del mismo token de producto (token de user-agent) de robots.txt, no puedes elegir de forma exclusiva a uno u otro en tu archivo robots.txt.

Si Google ya indexa tu sitio centrándose en los dispositivos móviles, la mayor parte de las solicitudes de rastreo serán del rastreador para móviles del robot de Google, y solo una parte muy pequeña provendrá del rastreador para ordenadores. Si aún no se indexa de este modo, ocurrirá lo contrario. En ambos casos, el rastreador minoritario solo rastreará URLs que ya haya visitado el rastreador mayoritario.

Cómo accede el robot de Google a los sitios

En la mayoría de los casos, de media el robot de Google no debería acceder a tu sitio más de una vez cada pocos segundos. Sin embargo, si se producen retrasos, puede que esta frecuencia de rastreo aumente ligeramente durante breves periodos.

El robot de Google está diseñado para ejecutarse simultáneamente en miles de ordenadores porque así es más eficiente y se puede adaptar al crecimiento de la Web. Además, para consumir menos ancho de banda, muchos de los rastreadores se ejecutan en ordenadores que están cerca de los sitios web que tienen posibilidades de rastrear. Por tanto, puede que en tus registros figuren visitas de varios ordenadores de google.com, todas ellas con el user-agent del robot de Google. En cada visita, se intentan rastrear tantas páginas de tu sitio como permita el ancho de banda de tu servidor. Si tu sitio tiene problemas para soportar todas las solicitudes de rastreo de Google, puedes pedir un cambio en la frecuencia de rastreo.

Por lo general, el robot de Google rastrea con HTTP/1.1. Sin embargo, desde noviembre del 2020, el robot de Google puede rastrear con HTTP/2 los sitios que sean compatibles con este protocolo y puedan aprovechar sus ventajas. De este modo, el robot de Google y esos sitios ahorran recursos informáticos (como CPU o RAM), pero el cambio no afecta de ninguna manera a la indexación ni al posicionamiento de los sitios.

Si no quieres que tu sitio se rastree con HTTP/2, indica al servidor donde se aloja que, cuando el robot de Google intente rastrear el sitio con HTTP/2, responda con un código de estado HTTP 421. Si no puedes hacerlo, envía un mensaje al equipo del robot de Google (aunque esta solución es temporal).

Impedir que el robot de Google acceda a un sitio

Resulta prácticamente imposible mantener un servidor web en secreto limitándote a no publicar ningún enlace que lleve a él. Por ejemplo, en cuanto un usuario siga un enlace de tu servidor "secreto" a otro servidor web, es posible que tu URL "secreta" aparezca en la etiqueta referente, por lo que el otro servidor web podría almacenarla y publicarla en su registro de referentes. Además, en la Web hay muchos enlaces obsoletos y rotos. Si alguien publica un enlace incorrecto a tu sitio o no actualiza otros enlaces para reflejar cambios que hayas hecho en tu servidor, el robot de Google intentará rastrear un enlace incorrecto de tu sitio.

Si no quieres que el robot de Google rastree contenido de tu sitio, tienes varias opciones. Recuerda que no es lo mismo impedir que el robot de Google rastree una página, que evitar que la indexe o que impedir que tanto rastreadores como usuarios puedan acceder a ella.

Comprobar que sea el robot de Google

Hay rastreadores que falsifican la cadena de user-agent del robot de Google, por lo que, antes de bloquearlo, comprueba que las solicitudes problemáticas que detectes de verdad procedan de Google. La mejor forma de hacerlo es mediante una petición de DNS invertida de la IP de origen de la solicitud.

El robot de Google, al igual que el resto de los robots de buscadores respetados, obedece las directivas del archivo robots.txt, pero es posible que algunos spammers y otros usuarios malintencionados no lo hagan. Como parte de nuestra lucha contra los spammers, puedes denunciar spam para avisarnos si encuentras páginas o sitios fraudulentos en los resultados de la Búsqueda de Google.