Googlebot
Googlebot es el nombre genérico de los dos tipos de rastreadores web de Google:
- Googlebot para computadoras de escritorio: Es un rastreador para computadoras de escritorio que simula a un usuario en una computadora.
- Googlebot para smartphones: Es un rastreador que simula a un usuario de dispositivos móviles.
Puedes identificar el subtipo de Googlebot según la string usuario-agente de la solicitud. Sin embargo, como ambos tipos de rastreador obedecen al mismo token de producto (token usuario-agente) que se encuentra en robots.txt, no puedes dirigirte a Googlebot para smartphones o Googlebot para computadoras de escritorio selectivamente usando robots.txt.
Para la mayoría de los sitios, Google indexa la versión para dispositivos móviles principalmente del contenido. Por lo tanto, la mayoría de las solicitudes de rastreo de Googlebot se harán con el rastreador para dispositivos móviles, mientras que una minoría se hará con el de computadoras de escritorio.
Cómo accede Googlebot a tu sitio
Para la mayoría de los sitios, Googlebot no debería, en promedio, acceder más de una vez cada pocos segundos. Sin embargo, es posible que la frecuencia parezca ligeramente superior durante períodos breves si hay retrasos.
Googlebot está diseñado para ejecutarse de manera simultánea en miles de equipos con el objetivo de mejorar el rendimiento y ajustarse al crecimiento de la Web. Además, para reducir el uso del ancho de banda, se ejecutan muchos rastreadores en equipos ubicados cerca de los sitios que podrían rastrear. Por lo tanto, es posible que, en tus registros, se muestren visitas de varias direcciones IP, todas con el usuario-agente de Googlebot. Nuestro objetivo es rastrear todas las páginas posibles de tu sitio en cada visita sin sobrecargar tu servidor. Si tu sitio no logra seguir el ritmo de las solicitudes de rastreo de Google, puedes reducir la frecuencia de rastreo.
Googlebot rastrea más que nada desde direcciones IP en Estados Unidos. En caso de que Googlebot detecte que un sitio bloquea las solicitudes de Estados Unidos, puede intentar rastrear desde direcciones IP ubicadas en otros países. La lista de bloques de direcciones IP que usa Googlebot actualmente está disponible en formato JSON.
Googlebot rastrea por HTTP/1.1 y, si el sitio lo admite, HTTP/2. No hay ningún beneficio de clasificación según la versión de protocolo que se use para rastrear tu sitio. Sin embargo, el rastreo a través de HTTP/2 puede ahorrar recursos de procesamiento (por ejemplo, CPU o RAM) para tu sitio y Googlebot.
Para inhabilitar el rastreo de HTTP/2, indícale al servidor que aloja tu sitio que responda con un código de estado HTTP 421
cuando Googlebot intente rastrearlo en HTTP/2. Si eso no es posible, puedes enviar un mensaje al equipo de Googlebot (aunque esta solución es temporal).
Googlebot puede rastrear los primeros 15 MB de un archivo HTML o un archivo basado en texto compatible. Cada recurso al que se hace referencia en el código HTML, como CSS y JavaScript, se obtiene por separado, y cada recuperación está vinculada por el mismo límite de tamaño de archivo. Después de los primeros 15 MB del archivo, Googlebot deja de rastrear y solo considera los primeros 15 MB para la indexación. El límite de tamaño de archivo se aplica a los datos sin comprimir. Es posible que otros rastreadores de Google, como Googlebot para imágenes y Googlebot para videos, tengan límites diferentes.
Cómo bloquear a Googlebot en tu sitio
Es casi imposible mantener un servidor web en secreto, aunque no publiques vínculos que lleven a él. Por ejemplo, una vez que alguien sigue un vínculo de tu servidor "secreto" a otro servidor web, la URL "secreta" puede aparecer en la etiqueta del referente y el otro servidor web puede almacenarla y publicarla en su registro de referentes. De manera similar, la Web tiene muchos vínculos obsoletos o rotos. Cada vez que alguien publique un vínculo incorrecto a tu sitio o no lo actualice para que refleje los cambios en tu servidor, Googlebot intentará rastrear el vínculo incorrecto para tu sitio.
Si no quieres que Googlebot rastree contenido de tu sitio, tienes varias opciones para evitarlo. Ten en cuenta las diferencias entre evitar que Googlebot rastree o indexe una página y evitar que tanto los rastreadores como los usuarios puedan acceder a la página.
Cómo verificar Googlebot
Antes de bloquear a Googlebot, ten en cuenta que otros rastreadores suelen falsificar la string usuario-agente que usa. Es importante que verifiques si una solicitud problemática realmente proviene de Google. La mejor forma de hacerlo es mediante una búsqueda de DNS inversa en la IP fuente de la solicitud, o bien para que la IP fuente coincida con los rangos de IP de Googlebot.