Por dentro do Googlebot: desmistificando o rastreamento, a busca e os bytes que processamos

Terça-feira, 31 de março de 2026

Se você escutou o episódio 105 do podcast Search Off the Record, talvez tenha ouvido a gente analisar um assunto que é muito importante para nós (e para nossos servidores): o funcionamento interno do Googlebot.

Por muito tempo, o nome "Googlebot" evocou a imagem de um único robô incansável lendo toda a internet metodicamente. Mas a realidade é um pouco mais complexa e muito mais interessante. Hoje, queremos revelar os mistérios da nossa infraestrutura de rastreamento, com foco especial naquilo que nos deixa atordoados: limites de tamanho de bytes.

Primeiro, o Googlebot não é um único programa

Vamos começar esclarecendo um equívoco histórico. No início dos anos 2000, o Google tinha um único produto, então tínhamos um único rastreador. O nome "Googlebot" pegou. Hoje, porém, o Googlebot é apenas um usuário de algo que se assemelha a uma plataforma de rastreamento centralizada.

Quando você vê o Googlebot nos registros do seu servidor, o que você enxerga é a Pesquisa Google. Dezenas de outros clientes (Google Shopping, AdSense e muito mais) encaminham suas solicitações de rastreamento pela mesma infraestrutura subjacente com nomes de rastreador diferentes. Os maiores estão documentados no site da infraestrutura do rastreador do Google.

O limite de 2 MB: o que acontece com seus bytes?

É aqui que as coisas ficam um pouco confusas. Cada cliente da infraestrutura de rastreamento precisa definir algumas configurações para as buscas. Essas configurações incluem a string do user agent, quais tokens de user agent serão procurados no robots.txt e quantos bytes serão buscados de um único URL.

No momento, o Googlebot busca até 2 MB para cada URL individual (exceto PDFs). Isso significa que ele rastreia apenas os primeiros 2 MB de um recurso, incluindo o cabeçalho HTTP. Para arquivos PDF, o limite é de 64 MB.

Os rastreadores de imagens e vídeos geralmente têm uma ampla variedade de limites, e isso depende muito do produto que eles estão buscando. Por exemplo, a busca de um favicon pode ter um limite muito baixo, ao contrário da pesquisa por imagens.

Para qualquer outro rastreador que não especifique um limite, o padrão é de 15 MB, independente do tipo de conteúdo.

O que isso significa para os bytes que seu servidor envia pela rede?

Busca parcial: se o arquivo HTML tiver mais de 2 MB, o Googlebot não vai rejeitar a página. Ele apenas interrompe a busca exatamente na marca de 2 MB. O limite inclui cabeçalhos de solicitação HTTP.
Processamento do corte: essa parte baixada (os primeiros 2 MB de bytes) é transmitida aos nossos sistemas de indexação e ao Web Rendering Service (WRS) como se fosse o arquivo completo.
Os bytes não vistos: todos os bytes que existem após esse limite de 2 MB são totalmente ignorados. Eles não são buscados, renderizados nem indexados.
Importação de recursos: todos os recursos referenciados no HTML (exceto mídia, fontes e alguns arquivos exóticos) serão buscados pelo WRS com o Googlebot, assim como o HTML principal. Eles têm um contador de bytes por URL separado e não são contabilizados no tamanho da página principal.

Para a grande maioria da web, um payload HTML de 2 MB é enorme, e você nunca vai atingir esse limite. No entanto, se a página incluir enormes imagens base64 inline, blocos gigantes de CSS/JavaScript inline ou começar com megabytes de menus, o conteúdo textual real ou dados estruturados críticos podem acidentalmente ficar depois da marca de 2 MB. Se esses bytes cruciais não forem buscados, eles simplesmente não vão existir para o Googlebot.

Renderização dos bytes

Depois que o rastreador recupera os bytes (até o limite), ele passa o bastão para o WRS. O WRS processa JavaScript e executa código do lado do cliente, como um navegador moderno faria, para entender o estado visual e textual final da página. A renderização extrai e executa arquivos JavaScript e CSS, além de processar solicitações XHR para entender melhor o conteúdo textual e a estrutura da página (sem solicitar imagens nem vídeos). Para cada recurso solicitado, o limite de 2 MB também se aplica.

No entanto, lembre-se de que o WRS só pode executar o código que o rastreador recuperou. Além disso, o WRS opera sem estado — ele limpa o armazenamento local e os dados da sessão entre as solicitações. Isso pode ter implicações específicas para a forma como elementos dinâmicos dependentes de JavaScript são interpretados pelos nossos sistemas.

Práticas recomendadas para seus bytes

Para garantir que o Googlebot consiga buscar e entender seu conteúdo de maneira eficiente, siga estas práticas recomendadas no nível dos bytes:

Mantenha seu HTML simples: mova CSS e JavaScript pesados para arquivos externos. Embora o documento HTML inicial seja limitado a 2 MB, scripts e folhas de estilo externos são buscados separadamente (sujeitos aos próprios limites).
A ordem é importante: coloque os elementos mais importantes, como metatags, elementos <title>, elementos <link>, canônicos e dados estruturados essenciais, mais acima no documento HTML. Isso garante que eles não fiquem depois do corte.
Monitore os registros do servidor: fique de olho nos tempos de resposta do servidor. Se ele estiver com dificuldades para veicular bytes, nossos rastreadores vão reduzir automaticamente a frequência para evitar sobrecarregar sua infraestrutura, o que vai diminuir a frequência de rastreamento.

Esse limite não é fixo e pode mudar com o tempo à medida que a web evolui e as páginas HTML aumentam de tamanho. Ou diminuem de tamanho. A gente espera que elas diminuam.

A rastreamento não é mágica, mas sim uma troca de bytes altamente orquestrada e dimensionada. Entender como nossa infraestrutura central de busca recupera e limita esses bytes é essencial para que o conteúdo mais importante do seu site sempre seja incluído.

Boa otimização!

Quer saber mais detalhes dos bastidores? Confira o episódio 105 do podcast Search Off the Record no YouTube ou em qualquer plataforma de podcasts.

Postado por Gary.