Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

Googlebot

Googlebot é o nome genérico do rastreador da Web do Google. Esse nome é usado para dois tipos diferentes de rastreadores: um rastreador para computadores e outro para dispositivos móveis que simulam a ação de um usuário em cada um desses ambientes.

Seu site provavelmente será rastreado pelo Googlebot Desktop e pelo Googlebot Mobile. Você pode identificar o subtipo do Googlebot observando a string do user agent na solicitação. No entanto, os dois tipos de rastreador obedecem ao mesmo token de produto (token do user agent) no robots.txt. Por isso, não é possível segmentar seletivamente o Googlebot para smartphones nem o Googlebot para computadores com o robots.txt.

Como o Googlebot acessa seu site

Para a maioria dos sites, o acesso do Googlebot não deve ocorrer, em média, mais de uma vez no intervalo de poucos segundos. No entanto, devido a atrasos, é possível que a taxa pareça ser um pouco mais elevada em intervalos curtos.

O Googlebot foi desenvolvido para funcionar simultaneamente em milhares de máquinas a fim de melhorar o desempenho e a escala de acordo com o crescimento da Web. Além disso, para reduzir o uso da largura de banda, muitos rastreadores funcionam em máquinas localizadas perto dos sites que podem ser rastreados. Por isso, seus registros talvez mostrem visitas de vários endereços IP, todos com o user agent do Googlebot. Nosso objetivo é rastrear o maior número possível de páginas no seu site a cada visita, sem sobrecarregar a largura de banda do servidor. Caso seu site esteja com problemas ao acompanhar as solicitações de rastreamento do Google, peça uma mudança na taxa de rastreamento.

O Googlebot rastreia endereços IP nos Estados Unidos. Se for detectado que um site está bloqueando solicitações dos Estados Unidos, o Googlebot vai poder tentar rastrear endereços IP de outros países. A lista de bloqueios de endereços IP que o Googlebot usa atualmente está disponível no formato JSON.

Geralmente, o Googlebot rastreia via HTTP/1.1. No entanto, o Googlebot vai poder rastrear sites que se beneficiaram disso via HTTP/2 se houver compatibilidade nos sites. Isso pode poupar recursos de computação (por exemplo, CPU e RAM) do site e do Googlebot, mas não afeta a indexação nem a classificação do site.

Para desativar o rastreamento via HTTP/2, instrua o servidor que hospeda o site para responder com um código de status HTTP 421 quando o Googlebot tentar fazer o rastreamento dessa maneira. Se isso não for viável, envie uma mensagem para a equipe do Googlebot. No entanto, essa solução é temporária.

O Googlebot consegue rastrear os primeiros 15 MB de arquivos HTML ou baseados em texto compatíveis. Todos os recursos referenciados no HTML, como imagens, vídeos, CSS e JavaScript, são buscados separadamente. Depois disso, o Googlebot interrompe o rastreamento e considera apenas os primeiros 15 MB do arquivo para indexação. O limite de tamanho do arquivo é aplicado aos dados não compactados. Os outros rastreadores podem ter limites diferentes.

Como impedir o acesso do Googlebot ao seu site

É quase impossível manter um servidor da Web em sigilo não publicando links para ele. Quando alguém segue um link do seu servidor "secreto" para outro servidor da Web, o URL "secreto" pode aparecer na tag de referência, ser armazenado e publicado pelo outro servidor da Web no seu registro de referência. De modo similar, a Web tem muitos links desatualizados e corrompidos. Sempre que alguém publicar um link incorreto para seu site ou deixar de atualizar links de acordo com as mudanças no seu servidor, o Googlebot tentará rastrear esse link.

Caso você queira impedir que o Googlebot rastreie conteúdo no seu site, temos várias opções. Há diferenças entre evitar o rastreamento de uma página pelo Googlebot, impedir que ele indexe uma página e não permitir que uma página seja acessada por rastreadores nem por usuários.

Verificação do Googlebot

Antes de decidir bloquear o Googlebot, não esqueça que a string do user agent usada pela ferramenta muitas vezes é falsificada por spoofing por outros rastreadores. É importante confirmar se uma solicitação com problemas tem origem no Google. A melhor maneira de verificar se a solicitação realmente vem do Googlebot é usar uma busca DNS reversa no IP de origem da solicitação ou comparar o IP de origem com os intervalos de IP do Googlebot.