Dentro de Googlebot: cómo desmitificar el rastreo, la recuperación y los bytes que procesamos

Martes, 31 de marzo de 2026

Si escuchaste el episodio 105 del podcast Search Off the Record, tal vez nos hayas oído hablar en detalle sobre un tema que nos apasiona (y está relacionado con nuestros servidores): el funcionamiento interno de Googlebot.

Durante mucho tiempo, el nombre "Googlebot" evocó la imagen de un solo robot incansable que leía Internet de forma sistemática. Pero la realidad es un poco más compleja y mucho más interesante. Hoy queremos mostrarte nuestra infraestructura de rastreo, con un enfoque especial en lo que nos quita el sueño: los límites de tamaño en bytes.

En primer lugar, Googlebot no es un solo programa

Primero, aclaremos un error de denominación histórico. A principios de la década del 2000, Google tenía un solo producto, por lo que teníamos un solo rastreador. El nombre "Googlebot" se instaló. Sin embargo, hoy en día, Googlebot es solo un usuario de algo que se asemeja a una plataforma de rastreo centralizada.

Cuando ves Googlebot en los registros del servidor, solo estás viendo la Búsqueda de Google. Decenas de otros clientes (Google Shopping, AdSense y más) dirigen sus solicitudes de rastreo a través de esta misma infraestructura subyacente con diferentes nombres de rastreadores. Los más grandes se documentan en el sitio de infraestructura del rastreador de Google.

El límite de 2 MB: ¿qué sucede con tus bytes?

Aquí es donde las cosas se vuelven un poco confusas. Cada cliente de la infraestructura del rastreador debe establecer algunos parámetros de configuración para sus recuperaciones. Estos parámetros de configuración incluyen la cadena de usuario-agente, qué tokens de usuario-agente buscarán en robots.txt y cuántos bytes recuperarán de una sola URL.

Actualmente, Googlebot recupera hasta 2 MB para cualquier URL individual (sin incluir los PDFs). Esto significa que rastrea solo los primeros 2 MB de un recurso, incluido el encabezado HTTP. En el caso de los archivos PDF, el límite es de 64 MB.

Por lo general, los rastreadores de imágenes y videos tienen una amplia variedad de valores de umbral, y esto depende en gran medida del producto para el que realizan la recuperación. Por ejemplo, recuperar un ícono de página puede tener un límite muy bajo, a diferencia de la búsqueda con imágenes.

Para cualquier otro rastreador que no especifique un límite, el valor predeterminado es de 15 MB, independientemente del tipo de contenido.

¿Qué significa esto para los bytes que tu servidor envía a través del cable?

Recuperación parcial: Si tu archivo HTML es mayor a 2 MB, el robot de Google no rechaza la página. En cambio, detiene la recuperación exactamente en el límite de 2 MB. Ten en cuenta que el límite incluye los encabezados de la solicitud HTTP.
Procesamiento del corte: Esa parte descargada (los primeros 2 MB de bytes) se pasa a nuestros sistemas de indexación y al Servicio de procesamiento web (WRS) como si fuera el archivo completo.
Los bytes no vistos: Se ignoran por completo los bytes que existen después de ese umbral de 2 MB. No se recuperan, no se renderizan ni se indexan.
Incorporación de recursos: WRS recuperará todos los recursos a los que se haga referencia en el código HTML (excepto los archivos multimedia, las fuentes y algunos archivos poco comunes) con Googlebot, al igual que el código HTML superior. Cuentan con su propio contador de bytes por URL independiente y no se incluyen en el tamaño de la página principal.

Para la gran mayoría de la Web, una carga útil de HTML de 2 MB es enorme, y nunca alcanzarás este límite. Sin embargo, si tu página incluye imágenes en Base64 intercaladas demasiado grandes, bloques masivos de CSS o JavaScript intercalados, o comienza con menús de megabytes, podrías extender accidentalmente tu contenido textual real o tus datos estructurados críticos más allá del límite de 2 MB. Si esos bytes cruciales no se recuperan, para el robot de Google, simplemente no existen.

Renderización de los bytes

Una vez que el rastreador recuperó correctamente los bytes (hasta el límite), le pasa el control al WRS. El WRS procesa JavaScript y ejecuta código del cliente de manera similar a un navegador moderno para comprender el estado visual y textual final de la página. La renderización extrae y ejecuta archivos JavaScript y CSS, y procesa solicitudes XHR para comprender mejor el contenido y la estructura textual de la página (no solicita imágenes ni videos). El límite de 2 MB también se aplica a cada recurso solicitado.

Sin embargo, recuerda que el WRS solo puede ejecutar el código que recuperó el rastreador. Además, el WRS opera sin estado, ya que borra el almacenamiento local y los datos de sesión entre solicitudes. Esto puede tener implicaciones particulares en la forma en que nuestros sistemas interpretan los elementos dinámicos que dependen de JavaScript.

Prácticas recomendadas para tus bytes

Para asegurarte de que Googlebot pueda recuperar y comprender tu contenido de manera eficiente, ten en cuenta estas prácticas recomendadas a nivel de bytes:

Mantén tu código HTML ligero: Mueve el código CSS y JavaScript pesado a archivos externos. Si bien el documento HTML inicial tiene un límite de 2 MB, las hojas de estilo y las secuencias de comandos externas se recuperan por separado (sujetas a sus propios límites).
El orden importa: Coloca los elementos más importantes (como las metaetiquetas, los elementos <title>, los elementos <link>, los elementos canónicos y los datos estructurados esenciales) más arriba en el documento HTML. Esto garantiza que sea poco probable que se encuentren por debajo del punto de corte.
Supervisa los registros de tu servidor: Presta atención a los tiempos de respuesta de tu servidor. Si tu servidor tiene dificultades para entregar bytes, nuestros rastreadores se retirarán automáticamente para evitar sobrecargar tu infraestructura, lo que reducirá la frecuencia de rastreo.

Ten en cuenta que este límite no es definitivo y puede cambiar con el tiempo a medida que la Web evoluciona y las páginas HTML aumentan de tamaño (o, con suerte, se reducen).

El rastreo no es cuestión de magia, sino un intercambio de bytes altamente coordinado y a gran escala. Si comprendes cómo nuestra infraestructura central de recuperación recupera y limita esos bytes, puedes asegurarte de que siempre se incluya el contenido más importante de tu sitio.

¡Que disfrutes la optimización!

¿Quieres conocer más detalles de lo que ocurre tras bambalinas? Mira el episodio 105 del podcast Search Off the Record en YouTube o en cualquier plataforma en la que escuches podcasts.

Publicado por Gary.