Robot de Google

Robot de Google es el nombre genérico del rastreador web de Google y engloba dos tipos de rastreadores: el de ordenadores, que simula ser un usuario que navega desde su ordenador, y el de dispositivos móviles, que recrea un usuario de este tipo de dispositivos.

Es probable que tu sitio web lo acaben rastreando ambos tipos de robots de Google. Puedes saber cuál te ha rastreado consultando la cadena de user-agent de la solicitud. Como ambos rastreadores siguen las reglas del mismo token de producto (token de user-agent) de robots.txt, no puedes elegir de forma exclusiva uno u otro en tu archivo robots.txt.

Cómo accede el robot de Google a los sitios

En la mayoría de los casos, de media el robot de Google no debería acceder a tu sitio más de una vez cada pocos segundos. Sin embargo, si se producen retrasos, puede que esta frecuencia de rastreo aumente ligeramente durante breves periodos.

El robot de Google está diseñado para ejecutarse simultáneamente en miles de ordenadores porque así es más eficiente y se puede adaptar al crecimiento de la Web. Además, para consumir menos ancho de banda, muchos de los rastreadores se ejecutan en ordenadores que están cerca de los sitios que tienen posibilidades de rastrear. Por tanto, es posible que tus registros muestren visitas de varios equipos a la página google.com, en todos los casos con el user-agent del robot de Google. En cada visita, se intentan rastrear tantas páginas de tu sitio como permita el ancho de banda de tu servidor. Si tu sitio tiene problemas para soportar todas las solicitudes de rastreo de Google, puedes pedir un cambio en la frecuencia de rastreo.

Por lo general, el robot de Google rastrea con HTTP/1.1. Sin embargo, desde noviembre del 2020, el robot de Google puede rastrear con HTTP/2 los sitios que sean compatibles con este protocolo y puedan aprovechar sus ventajas. De este modo, el robot de Google y esos sitios ahorran recursos informáticos (como CPU o RAM), pero el cambio no afecta de ninguna manera a la indexación ni al posicionamiento de los sitios.

Si no quieres que tu sitio se rastree con HTTP/2, indica al servidor donde se aloja que, cuando el robot de Google intente rastrear el sitio con HTTP/2, responda con un código de estado HTTP 421. Si no puedes hacerlo, envía un mensaje al equipo del robot de Google (aunque esta solución es temporal).

El robot de Google puede rastrear los primeros 15 MB de archivos HTML o de archivos de texto compatibles. Todos los recursos a los que se haga referencia en el código HTML, como imágenes, vídeos, CSS y JavaScript, se obtienen por separado. Después de los primeros 15 MB del archivo, el robot de Google deja de rastrear y solo tiene en cuenta los primeros 15 MB del archivo para indexarlo. El límite de tamaño de archivo se aplica a los datos sin comprimir. Es posible que otros rastreadores tengan límites diferentes.

Impedir que el robot de Google acceda a un sitio

Resulta prácticamente imposible mantener un servidor web en secreto limitándote a no publicar ningún enlace que lleve a él. Por ejemplo, en cuanto un usuario siga un enlace de tu servidor "secreto" a otro servidor web, es posible que tu URL "secreta" aparezca en la etiqueta referente, por lo que el otro servidor web podría almacenarla y publicarla en su registro de referentes. Además, en la Web hay muchos enlaces obsoletos y rotos. Si alguien publica un enlace incorrecto a tu sitio o no actualiza otros enlaces para reflejar cambios que hayas hecho en tu servidor, el robot de Google intentará rastrear un enlace incorrecto de tu sitio.

Si no quieres que el robot de Google rastree contenido de tu sitio, tienes varias opciones. Recuerda que no es lo mismo impedir que el robot de Google rastree una página, que evitar que la indexe o que impedir que tanto rastreadores como usuarios puedan acceder a ella.

Comprobar que sea el robot de Google

Hay rastreadores que falsifican la cadena de user-agent del robot de Google, por lo que, antes de bloquearlo, comprueba que las solicitudes problemáticas que detectes de verdad procedan de Google. La mejor forma de hacerlo es mediante una petición de DNS invertida de la IP de origen de la solicitud o comparando la IP de origen con los intervalos de IP del robot de Google.