El robot de Google por dentro: desmitificar cómo rastreamos y obtenemos información, y los bytes que procesamos

Martes, 31 de marzo del 2026

Si escuchaste el episodio 105 del pódcast Search Off the Record, puede que nos hayas oído hablar en profundidad sobre un tema que nos toca muy de cerca tanto a nosotros como a nuestros servidores: el funcionamiento interno del robot de Google.

Durante mucho tiempo, el nombre "robot de Google" ha evocado la imagen de un robot único e incansable que lee Internet de forma sistemática. Pero la realidad es un poco más compleja (y mucho más interesante). Hoy queremos mostraros cómo funciona por dentro nuestra infraestructura de rastreo, centrándonos en lo que nos trae de cabeza: los límites de tamaño en bytes.

En primer lugar, el robot de Google no es un único programa

Para empezar, vamos a aclarar un nombre histórico inapropiado. A principios de los años 2000, Google solo tenía un producto, así que solo contábamos con un rastreador. Nos quedamos con el nombre "robot de Google". Sin embargo, hoy en día, el robot de Google es solo un usuario de algo parecido a una plataforma de rastreo centralizada.

Cuando ves al robot de Google en los registros de tu servidor, solo estás viendo la Búsqueda de Google. Decenas de clientes (como Google Shopping o AdSense, entre otros) dirigen sus solicitudes de rastreo a través de esta misma infraestructura subyacente con diferentes nombres de rastreadores. Los más grandes se documentan en el sitio de la infraestructura del rastreador de Google.

El límite de 2 MB: ¿qué ocurre con tus bytes?

Aquí es donde las cosas se vuelven un poco confusas. Cada cliente de la infraestructura del rastreador debe definir algunos ajustes para sus solicitudes. Estos ajustes incluyen la cadena de user-agent, qué tokens de user-agent buscarán en robots.txt y cuántos bytes obtendrán de una sola URL.

Actualmente, el robot de Google obtiene hasta 2 MB de cada URL (excepto los PDFs). Esto significa que solo rastrea los primeros 2 MB de un recurso, incluido el encabezado HTTP. En el caso de los archivos PDF, el límite es de 64 MB.

Los rastreadores de imágenes y vídeos suelen tener una amplia gama de valores de umbral. Esto depende en gran medida del producto para el que estén obteniendo datos. Por ejemplo, la obtención de un icono de página puede tener un límite muy bajo, a diferencia de la Búsqueda de imágenes.

En el caso de cualquier otro rastreador que no especifique un límite, el valor predeterminado es de 15 MB, independientemente del tipo de contenido.

¿Qué implica esto para los bytes que tu servidor envía por la red?

Obtención parcial: si tu archivo HTML ocupa más de 2 MB, el robot de Google no rechaza la página. En su lugar, detiene la obtención de datos exactamente en el límite de 2 MB. Ten en cuenta que el límite incluye los encabezados de solicitud HTTP.
Procesamiento del límite: la parte descargada (los primeros 2 MB) se envía a nuestros sistemas de indexación y al servicio de renderizado web (WRS) como si fuera el archivo completo.
Los bytes invisibles: los bytes que haya después de ese umbral de 2 MB se ignoran por completo. No se obtienen, no se renderizan y no se indexan.
Incorporación de recursos: el WRS obtendrá con el robot de Google todos los recursos a los que se haga referencia en el HTML (excepto los archivos multimedia, las fuentes y algunos archivos poco comunes), al igual que el HTML principal. Tienen su propio contador de bytes independiente por URL y no se tienen en cuenta para calcular el tamaño de la página principal.

En la gran mayoría de los sitios web, una carga útil HTML de 2 MB es enorme y nunca alcanzarás este límite. Sin embargo, si tu página incluye imágenes base64 insertadas de gran tamaño, bloques enormes de CSS o JavaScript, o si empieza con megabytes de menús, podrías desplazar accidentalmente el contenido de texto o los datos estructurados críticos fuera del límite de 2 MB. Si no se obtienen esos bytes cruciales, para el robot de Google simplemente no existen.

Renderizar los bytes

Una vez que el rastreador obtiene los bytes correctamente (hasta llegar al límite), pasa el relevo al WRS. El WRS procesa JavaScript y ejecuta código del lado del cliente de forma similar a un navegador moderno para comprender el estado visual y textual final de la página. El renderizado extrae y ejecuta archivos JavaScript y CSS. También procesa las solicitudes XHR para comprender mejor el contenido textual y la estructura de la página (no solicita imágenes ni vídeos). El límite de 2 MB se aplica a cada recurso solicitado.

Sin embargo, recuerda que el WRS solo puede ejecutar el código que el rastreador haya obtenido. Además, el WRS funciona sin estado. Borra el almacenamiento local y los datos de sesión entre solicitudes. Esto puede tener implicaciones particulares en cómo nuestros sistemas interpretan los elementos dinámicos que dependen de JavaScript.

Prácticas recomendadas para tus bytes

Para asegurarte de que el robot de Google pueda obtener e interpretar tu contenido de forma eficiente, ten en cuenta estas prácticas recomendadas a nivel de bytes:

Mantén tu HTML ligero: mueve el CSS y el JavaScript pesados a archivos externos. Aunque el documento HTML inicial tiene un límite de 2 MB, las secuencias de comandos y las hojas de estilo externas se obtienen por separado (sujetas a sus propios límites).
El orden importa: coloca los elementos más críticos (como las etiquetas meta, los elementos <title>, los elementos <link>, las URLs canónicas y los datos estructurados esenciales) en la parte superior del documento HTML. De esta forma, es poco probable que se encuentren fuera del límite.
Monitoriza los registros de tu servidor: no pierdas de vista los tiempos de respuesta de tu servidor. Si tu servidor tiene problemas para servir bytes, nuestros rastreadores se retirarán automáticamente para evitar sobrecargar tu infraestructura, lo que reducirá tu frecuencia de rastreo.

Ten en cuenta que este límite no es inamovible y puede cambiar con el tiempo a medida que la Web evoluciona y las páginas HTML aumentan de tamaño. (O se reducen. Ojalá se reduzcan).

El rastreo no es magia. Es un intercambio de bytes a gran escala y muy orquestado. Si sabes cómo nuestra infraestructura central de obtención recupera y limita esos bytes, puedes asegurarte de que el contenido más importante de tu sitio siempre se incluya.

¡Que disfrutes optimizando!

¿Quieres conocer más detalles de lo que ocurre entre bastidores? Consulta el episodio 105 del pódcast Search Off the Record en YouTube o en tu plataforma de pódcasts favorita.

Publicado por Gary.