Descripción general de los rastreadores y recuperadores de Google (usuarios-agentes)

Google usa rastreadores y recuperadores con el objetivo de realizar acciones para sus productos, ya sean automáticas o activadas por la solicitud de un usuario. El término "rastreador" (también llamado "robot" o "araña") es un término genérico que se usa para cualquier programa que descubre y analiza sitios web automáticamente. Los recuperadores actúan a modo de programas como wget que, por lo general, realiza una sola solicitud en nombre de un usuario. Los clientes de Google se dividen en tres categorías:

Rastreadores comunes	Los rastreadores comunes que se usan para los productos de Google (como Googlebot). Siempre respetan las reglas de robots.txt para los rastreos automáticos.
Rastreadores para casos específicos	Los rastreadores para casos específicos son similares a los rastreadores comunes, pero los usan productos específicos cuando existe un acuerdo entre el sitio rastreado y el producto de Google sobre el proceso de rastreo. Por ejemplo, `AdsBot` ignora el usuario-agente global de robots.txt (`*`) con el permiso del publicador del anuncio.
Recuperadores generados por el usuario	Los recuperadores activados por el usuario forman parte de las herramientas y funciones del producto en las que el usuario final activa una recuperación. Por ejemplo, Google Site Verifier actúa sobre la solicitud de un usuario.

Propiedades técnicas de los rastreadores y recuperadores de Google

Los rastreadores y recuperadores de Google están diseñados para que miles de máquinas los ejecuten de manera simultánea con el objetivo de mejorar el rendimiento y ajustarse al crecimiento de la Web. Para optimizar el uso del ancho de banda, estos clientes se distribuyen en muchos centros de datos de todo el mundo, de modo que se encuentren cerca de los sitios a los que podrían acceder. Por lo tanto, es posible que en tus registros se muestren visitas de varias direcciones IP. Google realiza la salida principalmente desde direcciones IP en Estados Unidos. En caso de que Google detecte que un sitio bloquea las solicitudes de Estados Unidos, puede intentar hacer el rastreo desde direcciones IP ubicadas en otros países.

Protocolos de transferencia compatibles

Los rastreadores y recuperadores de Google admiten HTTP/1.1 y HTTP/2. Los rastreadores usarán la versión del protocolo que proporcione el mejor rendimiento de rastreo y pueden cambiar de protocolo entre sesiones de rastreo según las estadísticas de rastreo anteriores. La versión de protocolo predeterminada que usan los rastreadores de Google es HTTP/1.1. El rastreo a través de HTTP/2 puede ahorrar recursos de procesamiento (por ejemplo, CPU o RAM) en tu sitio y en Googlebot. Sin embargo, no hay ningún beneficio específico del producto de Google para el sitio (por ejemplo, no hay un aumento de clasificación en la Búsqueda de Google). Para inhabilitar el rastreo con HTTP/2, indícale al servidor donde se aloja tu sitio que responda con un código de estado HTTP 421 cuando Googlebot intente acceder con HTTP/2. Si eso no es posible, puedes enviar un mensaje al equipo de Rastreo (aunque esta solución es temporal).

La infraestructura del rastreador de Google también admite el rastreo a través de FTP (según se define en la RFC959 y sus actualizaciones) y FTPS (según se define en la RFC4217 y sus actualizaciones). Sin embargo, es raro que se rastree a través de estos protocolos.

Codificaciones de contenido compatibles

Los rastreadores y los recuperadores de Google admiten las siguientes codificaciones de contenido (compresiones): gzip, deflate y Brotli (br). Las codificaciones de contenido que admite cada usuario-agente de Google se anuncian en el encabezado Accept-Encoding de cada solicitud que realizan. Por ejemplo: Accept-Encoding: gzip, deflate, br.

Límites de tamaño de archivo

De forma predeterminada, los rastreadores y los recuperadores de Google solo rastrean los primeros 15 MB de un archivo, y se ignora cualquier contenido que supere este límite. Sin embargo, los proyectos individuales pueden establecer límites diferentes para sus rastreadores y recuperadores, y también para diferentes tipos de archivos. Por ejemplo, un rastreador de Google como Googlebot puede tener un límite de tamaño más pequeño (por ejemplo, 2 MB) o especificar un límite de tamaño de archivo más grande para un PDF que para HTML.

Frecuencia de rastreo y carga del host

Nuestro objetivo es rastrear la mayor cantidad posible de páginas de tu sitio en cada visita sin sobrecargar el servidor. Si tu sitio tiene problemas para soportar las solicitudes de rastreo de Google, puedes reducir la frecuencia de rastreo. Ten en cuenta que enviar el código de respuesta HTTP incorrecto a los rastreadores de Google puede afectar la forma en que tu sitio aparece en los productos de Google.

Almacenamiento en caché HTTP

La infraestructura de rastreo de Google admite el almacenamiento en caché HTTP heurístico como se define en el estándar de almacenamiento en caché HTTP, específicamente a través del encabezado de respuesta ETag y el encabezado de solicitud If-None-Match, y el encabezado de respuesta Last-Modified y el encabezado de solicitud If-Modified-Since.

Nota: Considera configurar los valores de Etag y Last-Modified independientemente de la preferencia de los rastreadores de Google. Otros tipos de aplicaciones, como los CMS, también usan estos encabezados.

Si los campos de encabezado de respuesta ETag y Last-Modified están presentes en la respuesta HTTP, los rastreadores de Google usan el valor ETag como exige el estándar HTTP. En el caso específico de los rastreadores de Google, te recomendamos que uses ETag en lugar del encabezado Last-Modified para indicar la preferencia de almacenamiento en caché, ya que ETag no tiene problemas de formato de fecha.

No se admiten otras directivas de almacenamiento en caché HTTP.

Los rastreadores y recuperadores individuales de Google pueden usar o no el almacenamiento en caché, según las necesidades del producto con el que están asociados. Por ejemplo, Googlebot admite el almacenamiento en caché cuando se vuelve a rastrear URLs para la Búsqueda de Google, y Storebot-Google solo admite el almacenamiento en caché en ciertas condiciones.

Para implementar el almacenamiento en caché HTTP en tu sitio, comunícate con tu proveedor de hosting o de sistema de administración de contenido.

`ETag` y `If-None-Match`

La infraestructura de rastreo de Google admite ETag y If-None-Match como se define en el estándar de almacenamiento en caché HTTP. Obtén más información sobre el encabezado de respuesta ETag y su equivalente de encabezado de solicitud, If-None-Match.

Last-Modified y If-Modified-Since

La infraestructura de rastreo de Google admite Last-Modified y If-Modified-Since como se define en el estándar de almacenamiento en caché HTTP con las siguientes advertencias:

La fecha en el encabezado Last-Modified debe tener el formato según el estándar HTTP. Para evitar problemas de análisis, te recomendamos que uses el siguiente formato de fecha: "Día de la semana, zona horaria DD Mon YYYY HH:MM:SS". Por ejemplo: "Fri, 4 Sep 1998 19:15:56 GMT".
Si bien no es obligatorio, considera configurar también el campo max-age del encabezado de respuesta Cache-Control para ayudar a los rastreadores a determinar cuándo volver a rastrear la URL específica. Establece el valor del campo max-age en la cantidad esperada de segundos que el contenido no cambiará. Por ejemplo: Cache-Control: max-age=94043.

Obtén más información sobre el encabezado de respuesta Last-Modified y su equivalente de encabezado de solicitud, If-Modified-Since.

Cómo verificar rastreadores y recuperadores de Google

Los rastreadores de Google se identifican de tres maneras:

El encabezado de la solicitud user-agent HTTP.
La dirección IP de origen de la solicitud.
El nombre de host de DNS inverso de la IP de origen.

Obtén información para usar estos detalles para verificar los rastreadores y buscadores de Google.

Descripción general de los rastreadores y recuperadores de Google (usuarios-agentes)

Propiedades técnicas de los rastreadores y recuperadores de Google

Protocolos de transferencia compatibles

Codificaciones de contenido compatibles

Límites de tamaño de archivo

Frecuencia de rastreo y carga del host

Almacenamiento en caché HTTP

ETag y If-None-Match

Last-Modified y If-Modified-Since

Cómo verificar rastreadores y recuperadores de Google

`ETag` y `If-None-Match`