Otimizar sua cota de rastreamento
Este guia descreve como otimizar o rastreamento do Google em sites muito grandes e atualizados com frequência.
Se o site não tem um grande número de páginas que mudam rapidamente, ou se elas parecem ser rastreadas no mesmo dia em que são publicadas, não é necessário ler este guia. No caso específico da Pesquisa Google, basta manter o sitemap atualizado e verificar a cobertura do índice regularmente.
Público-alvo deste guia
Aqui, você verá práticas recomendadas, mas este é um guia avançado destinado principalmente a estes casos:
- sites grandes (mais de um milhão de páginas únicas) com conteúdo que muda com frequência moderada (uma vez por semana);
- sites médios ou grandes (mais de 10 mil páginas únicas) com conteúdo que muda rapidamente (todos os dias);
- sites com uma grande parte do total de URLs classificados pelo Search Console como Detectado, mas não indexado no momento.
Teoria geral do rastreamento
A web é um espaço quase infinito que excede a capacidade do Google de analisar e indexar todos os
URLs disponíveis. Como resultado, há limites para quanto tempo os rastreadores do Google operam em um
único site, o que é definido pelo nome do host. Por exemplo, https://www.example.com/
e https://code.example.com/ são dois nomes de host diferentes e, portanto, têm
cotas de rastreamento separadas. O tempo e os recursos que o Google dedica a um site
geralmente são chamados de cota de rastreamento. Ela é determinada por dois elementos principais: limite de capacidade e demanda
de rastreamento.
Limite de capacidade de rastreamento
O Google procura rastrear o site sem sobrecarregar os servidores. Para evitar isso, os rastreadores do Google calculam um limite de capacidade de rastreamento, que é o número máximo de conexões paralelas simultâneas que podemos usar para rastrear um site, bem como o atraso entre as buscas. Isso é calculado para cobrir todo o conteúdo importante sem sobrecarregar os servidores.
O limite de capacidade de rastreamento pode aumentar ou diminuir com base em alguns fatores:
- Integridade do rastreamento: se o site responder rapidamente por um tempo, o limite aumentará, permitindo que mais conexões sejam usadas para o rastreamento. Caso haja lentidão ou resposta com erros no servidor, o limite é reduzido, e o Google faz menos rastreamentos.
- Limites de rastreamento do Google: o Google não tem máquinas infinitas. Ainda é necessário fazer escolhas com os recursos disponíveis.
Demanda de rastreamento
Cada rastreador tem uma demanda própria para a web. Por exemplo, o AdsBot geralmente tem uma demanda maior quando um site está veiculando segmentações dinâmicas de anúncios; o Google Shopping tem uma demanda maior por produtos que você tem nos seus feeds de comerciante, e a demanda do Googlebot varia de acordo com o tamanho, a frequência de atualização, a qualidade das páginas e a relevância de um site em comparação com outros.
Em geral, os fatores mais importantes para determinar a demanda de rastreamento são estes:
- Inventário percebido: sem sua orientação, o Google tenta rastrear todos ou a maioria dos URLs identificados no site. Se muitos desses URLs forem duplicados ou se você não quiser que eles sejam rastreados por algum motivo (removido, sem importância etc.), isso desperdiçará muito tempo de rastreamento do Google no site. Esse é o fator mais possível de ser controlado.
- Popularidade: os URLs mais acessados na internet costumam ser rastreados com mais frequência para se manterem atualizados no índice.
- Inatividade: nossos sistemas buscam rastrear novamente os documentos com frequência suficiente para captar mudanças.
Além disso, os eventos que ocorrem em todo o site, como as mudanças de sites, podem aumentar a demanda de rastreamento para processar novamente o conteúdo com novos URLs.
Resumindo
Considerando a capacidade e a demanda como um todo, o Google define a cota de rastreamento de um site como o conjunto de URLs a rastrear. Mesmo que o limite da capacidade não seja atingido, se a demanda for baixa, o Google vai rastrear o site com menos frequência.
Práticas recomendadas
Para maximizar a eficiência do rastreamento, siga estas práticas recomendadas:
- Gerencie o inventário de URLs. Use as ferramentas adequadas
para informar ao Google quais páginas devem ser rastreadas. Se o Google passar muito
tempo rastreando URLs sem necessidade, os rastreadores do Google poderão decidir que
não vale a pena analisar o restante do site (ou aumentar a cota para isso).
- Consolide conteúdo duplicado. Elimine o conteúdo duplicado para focar o rastreamento em conteúdo exclusivo em vez de URLs exclusivos.
- Bloqueie o rastreamento de URLs usando robots.txt. Algumas páginas são importantes para os usuários, mas você não precisa que elas apareçam nas plataformas do Google ou sejam reprocessadas pelos sistemas relacionados. Por exemplo, páginas de rolagem infinita que duplicam informações em páginas vinculadas ou versões da mesma página classificadas de forma diferente. Se não for possível fazer a consolidação conforme descrito no primeiro item, bloqueie o que não for importante com robots.txt. Bloquear URLs com robots.txt impede que o Google rastreie essas páginas e reduz significativamente a chance de processamento por outros sistemas do Google, como a indexação pela Pesquisa Google.
-
Retorne um código de status
404ou410para páginas removidas permanentemente. O Google não vai esquecer um URL conhecido, mas um código de status404é um forte indicador para não rastrear esse URL novamente. No entanto, os URLs bloqueados vão permanecer como parte da fila de rastreamento e vão ser rastreados novamente quando o bloqueio for removido. - Elimine erros
soft 404. As páginas desoft 404vão continuar sendo rastreadas, desperdiçando sua cota. Confira se há errossoft 404no Relatório de cobertura do índice. - Mantenha os sitemaps atualizados. O Google lê o sitemap regularmente,
então inclua todo o conteúdo a ser rastreado. Caso seu site
inclua conteúdo atualizado, recomendamos incluir a tag
<lastmod>. - Evite longas cadeias de redirecionamento, que têm um efeito negativo no rastreamento.
- Deixe o carregamento das suas páginas mais eficiente. Se o Google puder carregar e renderizar as páginas mais rapidamente, poderemos ler mais conteúdo do site.
- Depure problemas com a cota de rastreamento. Verifique se o site teve problemas de disponibilidade durante o rastreamento e procure maneiras de otimizar esse processo.
Como faço para ter mais cota de rastreamento?
Há duas maneiras de aumentar a cota de rastreamento:
- Adicione mais recursos de servidor. Caso não seja possível rastrear o site devido à capacidade do servidor (por exemplo, se você estiver recebendo a mensagem Carga do host excedida na Ferramenta de Inspeção de URL), adicione mais recursos de servidor, se isso fizer sentido para sua empresa.
- Otimize a qualidade do conteúdo para o produto do Google que você está segmentando. Para determinar os recursos de rastreamento alocados a cada site, o Google considera elementos relevantes para o produto específico. Por exemplo, na Pesquisa Google, isso inclui fatores como popularidade, valor geral para o usuário, exclusividade do conteúdo e capacidade de veiculação.