Guia do proprietário de sites grandes para gerenciar a cota de rastreamento

Este guia descreve como otimizar o rastreamento do Google em sites muito grandes e atualizados com frequência.

Se o site não tem um grande número de páginas que mudam rapidamente, ou se as páginas parecem ser rastreadas no mesmo dia em que são publicadas, não é necessário ler este guia. Basta manter o sitemap atualizado e verificar a cobertura do índice regularmente.

Se você tem conteúdo que está disponível há algum tempo, mas nunca foi indexado, isso é um problema diferente. Use a Ferramenta de inspeção de URL para descobrir por que sua página não está sendo indexada.

Público-alvo deste guia

Este é um guia avançado destinado a:

  • sites grandes (mais de um milhão de páginas únicas) com conteúdo que muda com frequência moderada (uma vez por semana);
  • sites médios ou grandes (mais de 10 mil páginas únicas) com conteúdo que muda rapidamente (todos os dias).

Teoria geral do rastreamento

A Web é um espaço quase infinito que excede a capacidade do Google de explorar e indexar todos os URLs disponíveis. Como resultado, há limites para quanto tempo o Googlebot pode ficar rastreando um único site. O tempo e os recursos que o Google dedica ao rastreamento de um site geralmente são chamados de cota de rastreamento. Nem tudo que é rastreado no site será necessariamente indexado. Cada página é avaliada, consolidada e analisada para determinar se entrará no índice depois do rastreamento.

A cota de rastreamento é determinada por dois elementos principais: limite de capacidade e demanda.

Limite de capacidade de rastreamento

O Googlebot procura rastrear o site sem sobrecarregar os servidores. Para isso, ele calcula um limite de capacidade de rastreamento, que é o número máximo de conexões paralelas simultâneas que o Googlebot pode usar para rastrear um site, bem como o atraso entre as buscas. Isso é calculado para cobrir todo o conteúdo importante sem sobrecarregar os servidores.

O limite de capacidade de rastreamento pode aumentar ou diminuir com base em alguns fatores:

  • Integridade do rastreamento: se o site responder rapidamente por um tempo, o limite aumentará, permitindo que mais conexões sejam usadas para o rastreamento. Se o site ficar lento ou responder com erros no servidor, o limite diminuirá, e o Googlebot fará menos rastreamentos.
  • Limite definido pelo proprietário do site no Search Console: os proprietários de sites podem reduzir o rastreamento pelo Googlebot. No entanto, definir limites mais altos não aumentará o rastreamento automaticamente.
  • Limites de rastreamento do Google: o Google não tem máquinas infinitas. Ainda é necessário fazer escolhas com os recursos disponíveis.

Demanda de rastreamento

O Google normalmente gasta todo o tempo necessário para rastrear o site de acordo com o tamanho, a frequência de atualização, a qualidade das páginas e a relevância dele em comparação com outros sites.

Os fatores mais importantes para determinar a demanda de rastreamento são estes:

  • Inventário percebido: sem sua orientação, o Googlebot tentará rastrear todos ou a maioria dos URLs que conhece no site. Se muitos desses URLs forem duplicados ou se você não quiser que eles sejam rastreados por algum motivo (removido, sem importância etc.), isso desperdiçará muito tempo de rastreamento do Google no site. Esse é o fator mais possível de ser controlado.
  • Popularidade: os URLs mais acessados na Internet costumam ser rastreados com mais frequência para se manterem atualizados no índice.
  • Inatividade: nossos sistemas buscam rastrear novamente os documentos com frequência suficiente para captar mudanças.

Além disso, os eventos que ocorrem em todo o site, como as mudanças de sites, podem aumentar a demanda de rastreamento para indexar novamente o conteúdo com novos URLs.

Resumindo

Considerando a capacidade e a demanda de rastreamento como um todo, o Google define a cota de rastreamento de um site como o conjunto de URLs que o Googlebot deve rastrear. Mesmo que o limite da capacidade de rastreamento não seja atingido, se a demanda de rastreamento for baixa, o Googlebot rastreará menos o site.

Práticas recomendadas

Siga estas práticas recomendadas para maximizar sua eficiência de rastreamento:

  • Gerencie o inventário de URLs: use as ferramentas adequadas para informar ao Google quais páginas devem ser rastreadas. Se o Google passar muito tempo rastreando URLs que não são apropriados para o índice, o Googlebot poderá decidir que não vale a pena analisar o restante do site (ou aumentar a cota para isso).
    • Consolide conteúdo duplicado. Elimine o conteúdo duplicado para focar o rastreamento em conteúdo exclusivo em vez de URLs exclusivos.
    • Bloqueie o rastreamento de URLs que você não quer que sejam indexados. Algumas páginas são importantes para os usuários, mas você não quer que elas apareçam nos resultados da pesquisa. Por exemplo, páginas de rolagem infinita que duplicam informações em páginas vinculadas ou versões classificadas de forma diferente da mesma página. Se não for possível consolidá-las conforme descrito no primeiro marcador, bloqueie essas páginas sem importância (para a pesquisa) usando robots.txt ou a Ferramenta de parâmetros de URL, para conteúdo duplicado alcançado por parâmetros de URL.
    • Retorne 404/410 para páginas removidas permanentemente. O Google não esquecerá um URL conhecido, mas o erro 404 é um sinal forte para não rastrear esse URL novamente. No entanto, os URLs bloqueados permanecerão como parte da fila de rastreamento e serão rastreados novamente quando o bloco for removido.
    • Elimine erros soft 404. Os erros soft 404s continuarão sendo rastreados e desperdiçarão sua cota. Verifique se há erros soft 404 no Relatório de cobertura do índice.
    • Mantenha os sitemaps atualizados. O Google lê o sitemap regularmente, então inclua todo o conteúdo a ser rastreado. Caso seu site inclua conteúdo atualizado, recomendamos incluir a tag <lastmod>.
    • Evite longas cadeias de redirecionamento, que têm um efeito negativo no rastreamento.
  • Deixe o carregamento das suas páginas mais eficiente. Se o Google puder carregar e renderizar as páginas mais rapidamente, poderemos ler mais conteúdo do site.
  • Monitore o rastreamento do site. Verifique se o site teve problemas de disponibilidade durante o rastreamento e procure maneiras de tornar o rastreamento mais eficiente.

Monitorar o rastreamento e a indexação do site

Veja as principais etapas para monitorar o perfil de rastreamento do site:

  1. Ver se o Googlebot está encontrando problemas de disponibilidade no site.
  2. Ver se você tem páginas que não estão sendo rastreadas, mas deveriam ser.
  3. Ver se alguma parte do site precisa ser rastreada mais rapidamente.
  4. Melhorar a eficiência de rastreamento do site.
  5. Controlar o rastreamento excessivo do site.

1. Ver se o Googlebot está encontrando problemas de disponibilidade no site

Melhorar a disponibilidade do site não aumentará a cota de rastreamento necessariamente. O Google determina a melhor taxa de rastreamento com base na demanda, conforme já foi descrito. No entanto, os problemas de disponibilidade impedem que o Google rastreie seu site o quanto quiser.

Diagnóstico:

Use o relatório de estatísticas de rastreamento para ver o histórico de rastreamento do Googlebot no site. O relatório mostra quando o Google encontrou problemas de disponibilidade nele. Se erros ou avisos de disponibilidade forem relatados para o site, procure instâncias nos gráficos de disponibilidade do host em que as solicitações do Googlebot excedem a linha de limite vermelha, clique no gráfico para ver quais URLs falharam e tente correlacioná-los com os problemas do site.

Tratamento:

  • Leia a documentação do relatório de estatísticas de rastreamento para saber como detectar alguns problemas de disponibilidade e lidar com eles.
  • Bloqueie o rastreamento de páginas se não quiser que elas sejam rastreadas. Veja como gerenciar seu inventário.
  • Aumente a velocidade do carregamento e da renderização das páginas. Consulte como melhorar a eficiência de rastreamento do site.
  • Aumente a capacidade do servidor. Se o Google parece sempre rastrear o site até o limite de capacidade dos servidores, mas você ainda tem URLs importantes que não estão sendo rastreados ou atualizados como necessário, aumentar os recursos de servidor pode permitir que o Google solicite mais páginas. Confira o histórico de disponibilidade do host no relatório de estatísticas de rastreamento para ver se a taxa de rastreamento do Google costuma ultrapassar o limite. Se for o caso, aumente os recursos de servidor por um mês e veja se o número de solicitações de rastreamento aumenta durante esse período.

2. Ver se alguma parte do site não está sendo rastreada, mas deveria ser

O Google passa o tempo necessário no site para indexar todo o conteúdo relevante e de alta qualidade que encontrar. Se você acha que o Googlebot está deixando conteúdos importantes de fora, pode ser que esse material não tenha sido detectado ou esteja bloqueado, ou ainda que a disponibilidade do site esteja limitando o acesso do Google ou fazendo com que ele evite sobrecarregar o servidor.

Diagnóstico:

O Search Console não fornece um histórico de rastreamento do site que pode ser filtrado por URL ou caminho, mas é possível inspecionar os registros do site para ver se URLs específicos foram rastreados pelo Googlebot. Se os URLs rastreados foram ou não indexados é outra história.

Lembre-se de que, para a maioria dos sites, leva vários dias até que as páginas novas sejam detectadas. Em geral, não se deve esperar que os URLs sejam rastreados no mesmo dia, exceto em sites com conteúdo temporário, como os de notícias.

Tratamento:

Se você está adicionando páginas ao site, e elas não estão sendo rastreadas em um prazo razoável, há alguns motivos possíveis para isso: o Google não tem conhecimento sobre elas, o conteúdo está bloqueado, o site atingiu a capacidade máxima de exibição ou a cota de rastreamento acabou.

  1. Informe o Google sobre as novas páginas: atualize os sitemaps para refletir os novos URLs.
  2. Examine as regras robots.txt para confirmar que você não está bloqueando páginas acidentalmente.
  3. Se todas as suas páginas não rastreadas tiverem parâmetros de URL, talvez elas tenham sido excluídas devido às configurações na Ferramenta de parâmetros de URL. Não há como verificar esse tipo de exclusão. Por isso, não recomendamos o uso dessa ferramenta.
  4. Revise as prioridades de rastreamento, ou seja, use a cota de rastreamento com sabedoria. Gerencie seu inventário e melhore a eficiência de rastreamento do site.
  5. Verifique se a capacidade dos servidores está no limite. O Googlebot reduzirá o rastreamento se detectar que seus servidores estão tendo problemas para responder às solicitações.

As páginas podem não ser exibidas nos resultados da pesquisa caso não haja valor suficiente ou demanda do usuário para o conteúdo.

3. Conferir se as atualizações são rastreadas com rapidez suficiente

Se não estamos rastreando páginas novas ou atualizadas no site, talvez elas não tenham sido detectadas. Veja como você pode nos ajudar com as atualizações de página.

O Google se esforça para verificar e indexar as páginas em tempo hábil. Na maioria dos sites, são necessários três dias ou mais. Não espere que o Google indexe páginas no mesmo dia em que forem publicadas, a menos que você tenha um site de notícias ou outro conteúdo temporário e de alto valor.

Diagnóstico:

Examine os registros do site para ver quando URLs específicos foram rastreados pelo Googlebot.

Para saber qual é a data de indexação, use a Ferramenta de inspeção de URL ou faça uma Pesquisa Google para encontrar os URLs que você atualizou.

Tratamento:

O que fazer

  • Use um sitemap do Google Notícias se o site tiver esse tipo de conteúdo. Dê um ping no Google quando o sitemap for publicado ou alterado.
  • Use a tag <lastmod> nos sitemaps para indicar quando um URL indexado foi atualizado.
  • Use uma estrutura de URL simples para ajudar o Google a encontrar suas páginas.
  • Forneça links <a> padrão rastreáveis para ajudar o Google a encontrar suas páginas.

O que evitar:

  • Enviar o mesmo sitemap inalterado várias vezes por dia.
  • Esperar que o Googlebot rastreie tudo que está no sitemap ou que o rastreamento seja imediato: os sitemaps são sugestões úteis, não requisitos absolutos.
  • Incluir URLs nos sitemaps que você não quer que apareçam na Pesquisa. Isso pode desperdiçar sua cota de rastreamento em páginas que você não quer que sejam indexadas.

4. Melhorar a eficiência do rastreamento do site

Aumentar a velocidade de carregamento da página

O rastreamento do Google é limitado pela largura de banda, tempo e disponibilidade das instâncias do Googlebot. Se o servidor responder a solicitações mais rapidamente, poderemos rastrear mais páginas no site. Dito isso, o Google só rastreia conteúdo de alta qualidade. Portanto, deixar páginas de baixa qualidade mais rápidas não incentiva o Googlebot a rastrear mais do site. Por outro lado, se acharmos que estamos perdendo conteúdo de alta qualidade no site, provavelmente aumentaremos sua cota para rastrear esse conteúdo.

Veja como otimizar páginas e recursos para rastreamento:

  • Impeça que recursos grandes, mas sem importância, sejam carregados pelo Googlebot usando robots.txt. Bloqueie apenas recursos não críticos, ou seja, recursos que não são importantes para entender o significado da página (como imagens decorativas).
  • Verifique se o carregamento das suas páginas é rápido.
  • Cuidado com longas cadeias de redirecionamento, que têm um efeito negativo sobre o rastreamento.
  • Tanto o tempo para responder às solicitações do servidor quanto o tempo necessário para renderizar páginas são importantes, incluindo o tempo de carregamento e execução de recursos incorporados, como imagens e scripts. Esteja ciente de recursos grandes ou lentos necessários para a indexação.

Ocultar os URLs que você não quer incluir nos resultados da pesquisa

O desperdício de recursos de servidor em páginas desnecessárias pode reduzir a atividade de rastreamento naquelas que são importantes para você. Isso causa um atraso significativo na descoberta de conteúdos novos ou atualizados em um site.

A exposição de muitos URLs do site que não devem ser rastreados pela Pesquisa pode afetar negativamente o rastreamento e a indexação dele. Normalmente, esses URLs se enquadram nas seguintes categorias:

O que fazer

  • Use o robots.txt se não quiser que o Google rastreie um recurso ou uma página.
  • Se um recurso comum for reutilizado em várias páginas (como uma imagem compartilhada ou um arquivo JavaScript), faça referência a ele no mesmo URL em cada página, para que o Google possa armazenar em cache e reutilizar o mesmo recurso sem precisar solicitá-lo várias vezes.

O que evitar:

  • Não adicione nem remova páginas ou diretórios do robots.txt regularmente como uma forma de realocar a cota de rastreamento para o site. Use o robots.txt somente para páginas ou recursos que você não quer que apareçam no Google a longo prazo.
  • Não alterne sitemaps nem use outros mecanismos de ocultação temporários para realocar a cota.

5. Manipular o rastreamento excessivo do site (emergências)

O Googlebot tem algoritmos para evitar o excesso de solicitações de rastreamento. No entanto, se você acha que o Googlebot está sobrecarregando o site, há algumas coisas a fazer.

Diagnóstico:

Monitore seu servidor em busca de solicitações excessivas do Googlebot para o site.

Tratamento:

Em uma emergência, recomendamos que você siga estas etapas para reduzir a velocidade de rastreamento do Googlebot:

  1. Retorne códigos de resultado HTTP 503/429 temporariamente para solicitações do Googlebot quando o servidor estiver sobrecarregado. O Googlebot tentará rastrear esses URLs novamente por cerca de dois dias. Retornar códigos de "indisponibilidade" por mais de alguns dias fará com que o Google permanentemente desacelere ou pare o rastreamento de URLs no site. Por isso, siga as próximas etapas.
  2. Reduza a taxa de rastreamento do Googlebot para seu site. Isso pode levar até dois dias para entrar em vigor e requer permissões de proprietário do Search Console. Só faça isso se o rastreamento excessivo se repetir em um período prolongado no gráfico Disponibilidade do host > Utilização do host do relatório de estatísticas de rastreamento.
  3. Quando a taxa de rastreamento diminuir, pare de retornar 503/429 para solicitações. O retorno de 503 por mais de dois dias fará com que o Google elimine os URLs 503 do índice.
  4. Monitore o rastreamento e a capacidade do host ao longo do tempo e, se apropriado, aumente a taxa de rastreamento novamente ou permita a taxa padrão.
  5. Se o problema é com um dos rastreadores do AdsBot, é provável que você tenha criado segmentações de anúncios dinâmicos de pesquisa para o site, e é isso que o Google está tentando rastrear. Esse rastreamento ocorre a cada duas semanas. Caso seu servidor não tenha a capacidade necessária para lidar com esses rastreamentos, será preciso limitar as segmentações de anúncios ou aumentar a capacidade de exibição.

Mitos e fatos sobre rastreamento

Teste seu conhecimento sobre como o Google rastreia e indexa os sites.

Compactar sitemaps pode aumentar minha cota de rastreamento.
Verdadeiro
Falso
Isso não acontecerá. Sitemaps compactados ainda precisam ser buscados no servidor. Portanto, você não está economizando muito tempo ou esforço de rastreamento do Google ao enviá-los.
O Google prefere conteúdo mais atualizado, então é melhor continuar ajustando minha página.
Verdadeiro
Falso
O conteúdo é classificado por qualidade, independentemente da idade. Crie e atualize o conteúdo conforme necessário, mas não vale a pena fazer mudanças triviais ou atualizar a data para que as páginas pareçam novas.
O Google dá mais importância ao conteúdo antigo que ao novo.
Verdadeiro
Falso
O que importa é a utilidade da página, seja ela nova ou antiga.
O Google prefere URLs limpos e não gosta de parâmetros de consulta
Verdadeiro
Falso
Podemos rastrear parâmetros. No entanto, lembre-se de bloquear páginas com parâmetros que apontam para conteúdo duplicado.
Quanto mais rápido suas páginas forem carregadas e renderizadas, mais o Google poderá rastrear.
Verdadeiro
Verdadeiro, mas nossos recursos são limitados por uma combinação de tempo e número de bots de rastreamento. Se você puder veicular mais páginas em um tempo limitado, poderemos indexar mais delas. No entanto, podemos dedicar mais tempo ao rastreamento de um site com informações mais importantes, mesmo que ele seja mais lento. É mais importante fazer com que o site seja mais rápido para os usuários do que acelerar a cobertura de rastreamento. É muito mais simples ajudar o Google a rastrear o conteúdo certo do que fazer com que ele rastreie todo o material frequentemente. O rastreamento de um site envolve a recuperação e a renderização do conteúdo. O tempo gasto renderizando a página conta tanto quanto o tempo gasto solicitando a página. Assim, tornar a renderização das suas páginas mais rápida também aumentará a velocidade de rastreamento.
Falso
Sites pequenos não são rastreados com a mesma frequência que os grandes.
Verdadeiro
Falso
Quando um site tem um conteúdo importante que muda com frequência, ele é rastreado com frequência, não importa seu tamanho.
Quanto mais próximo o conteúdo for da página inicial, mais importante ele será para o Google.
Verdadeiro
Parcialmente verdadeiro
A página inicial do site costuma ser a mais importante. Por isso, as páginas vinculadas diretamente a ela podem ser vistas como mais importantes e rastreadas com mais frequência. No entanto, isso não significa que essas páginas terão uma classificação mais alta do que as outras no site.
Falso
O controle de versão de URL é uma boa maneira de incentivar o Google a rastrear novamente minhas páginas.
Verdadeiro
Parcialmente verdadeiro
É provável que você consiga usar um URL com controle de versões para levar o Google a fazer um novo rastreamento, mas isso não costuma ser necessário e desperdiça recursos de rastreamento quando a página não mudou de verdade. Se você usar URLs com controle de versões para indicar novos conteúdos, recomendamos que só mude o URL quando o conteúdo da página tiver alterações significativas.
Falso
A velocidade e os erros do site afetam minha cota de rastreamento.
Verdadeiro
Tornar um site mais rápido melhora a experiência dos usuários e aumenta a taxa de rastreamento. Para o Googlebot, um site rápido é sinal de servidores saudáveis. Assim, ele busca mais conteúdo com o mesmo número de conexões. Por outro lado, um número significativo de códigos de resultado HTTP 5xx (erros de servidor) ou de tempo limite de conexão sinalizam o oposto, e o rastreamento fica lento. Recomendamos que você preste atenção ao relatório de estatísticas de rastreamento no Search Console e mantenha o número de erros do servidor sob controle.
Falso
O rastreamento é um fator de classificação.
Verdadeiro
Falso
Melhorar sua taxa de rastreamento não levará necessariamente a melhores posições nos resultados da pesquisa. O Google usa muitos sinais para classificar os resultados e, embora o rastreamento seja necessário para que uma página esteja nos resultados da pesquisa, ele não é um sinal de classificação.
URLs alternativos e conteúdo incorporado contam na cota de rastreamento.
Verdadeiro
Em geral, todos os URLs que o Googlebot rastreia entram na cota de rastreamento de um site. É possível que URLs alternativos, como AMP ou hreflang, e conteúdo incorporado, como CSS e JavaScript, incluindo buscas XHR, precisem ser rastreados e consumam a cota de rastreamento do site.
Falso
Posso controlar o Googlebot com a diretiva "crawl-delay".
Verdadeiro
Falso
O Googlebot não processa a diretiva não padrão "crawl-delay" do robots.txt.
A diretiva nofollow afeta a cota de rastreamento.
Verdadeiro
Parcialmente verdadeiro
Todos os URLs rastreados afetam a cota de rastreamento. Assim, mesmo que sua página marque um URL como nofollow, ele ainda poderá ser rastreado se outra página do seu site ou da Web não marcar o link como nofollow.
Falso