Googlebot

Googlebot es el nombre genérico de los dos tipos de rastreadores web de Google: uno que simula ser un usuario de computadoras de escritorio y otro que simula ser un usuario de dispositivos móviles.

Es posible que ambos Googlebot (para computadoras de escritorio y para dispositivos móviles) rastreen tu sitio web. Puedes identificar el subtipo de Googlebot según la string usuario-agente de la solicitud. Sin embargo, como ambos tipos de rastreador obedecen al mismo token de producto (token usuario-agente) que se encuentra en robots.txt, no puedes dirigirte a uno u otro selectivamente usando robots.txt.

Si tu sitio se convirtió a dispositivos móviles primero en Google, la mayoría de las solicitudes de rastreo de Googlebot se harán con el rastreador para dispositivos móviles, mientras que el de computadoras de escritorio rastreará la minoría. En el caso de los sitios que aún no se hayan convertido, la mayoría de las solicitudes se llevarán a cabo con el rastreador para computadoras de escritorio. En ambos casos, el rastreador de la minoría rastrea únicamente las URL que ya hayan sido rastreadas por el de la mayoría.

Cómo accede a tu sitio Googlebot

Para la mayoría de los sitios, Googlebot no debería, en promedio, acceder más de una vez cada pocos segundos. Sin embargo, es posible que la frecuencia parezca ligeramente superior durante períodos breves si hay retrasos.

Googlebot está diseñado para ejecutarse de manera simultánea en miles de equipos con el objetivo de mejorar el rendimiento y ajustarse al crecimiento de la Web. Además, para reducir el uso del ancho de banda, se ejecutan muchos rastreadores en equipos ubicados cerca de los sitios que podrían rastrear. Por lo tanto, es posible que en tus registros se muestren visitas de varios equipos en google.com y que todos tengan a Googlebot como usuario-agente. Nuestro objetivo es rastrear todas las páginas posibles de tu sitio en cada visita sin superar el límite del ancho de banda de tu servidor. Si tu sitio no logra seguir el ritmo de las solicitudes de rastreo de Google, puedes solicitar un cambio en la frecuencia de rastreo.

En general, Googlebot rastrea HTTP/1.1. Sin embargo, a partir de noviembre de 2020, es posible que comience a rastrear sitios en HTTP/2, por lo que podrán beneficiarse del rastreo los sitios que utilicen este protocolo. Esto puede ahorrar recursos de procesamiento (como CPU o RAM) tanto al sitio como a Googlebot, pero no afecta la indexación ni la clasificación de tu sitio.

Para inhabilitar el rastreo de HTTP/2, indícale al servidor que aloja tu sitio que responda con un código de estado HTTP 421 cuando Googlebot intente rastrearlo en HTTP/2. Si eso no es posible, puedes enviar un mensaje al equipo de Googlebot (aunque esta solución es temporal).

Cómo bloquear a Googlebot en tu sitio

Es casi imposible mantener un servidor web en secreto, aunque no publiques vínculos que lleven a él. Por ejemplo, una vez que alguien sigue un vínculo de tu servidor "secreto" a otro servidor web, la URL "secreta" puede aparecer en la etiqueta del referente y el otro servidor web puede almacenarla y publicarla en su registro de referentes. De manera similar, la Web tiene muchos vínculos obsoletos o rotos. Cada vez que alguien publique un vínculo incorrecto a tu sitio o no lo actualice para que refleje los cambios en tu servidor, Googlebot intentará rastrear el vínculo incorrecto para tu sitio.

Si no quieres que Googlebot rastree contenido de tu sitio, tienes varias opciones para evitarlo. Ten en cuenta las diferencias entre evitar que Googlebot rastree o indexe una página y evitar que tanto los rastreadores como los usuarios puedan acceder a la página.

Cómo verificar a Googlebot

Antes de bloquear a Googlebot, ten en cuenta que otros rastreadores suelen falsificar la string usuario-agente que usa. Es importante que verifiques si una solicitud problemática realmente proviene de Google. La mejor forma de hacerlo es mediante una búsqueda de DNS inversa en la IP fuente de la solicitud.

Googlebot y todos los bots de motores de búsqueda confiables respetan las directivas de robots.txt, a diferencia de algunos bots de motores de búsqueda menos confiables y generadores de spam que no lo hacen. Google lucha activamente contra los generadores de spam. Si ves páginas o sitios que contienen spam en los resultados de la Búsqueda de Google, denúncialos ante Google.