Como os Códigos de status HTTP e os erros de rede e de DNS afetam a Pesquisa Google

Esta página descreve como diferentes Códigos de status HTTP, erros de rede e de DNS afetam a Pesquisa Google. Analisamos os 20 principais códigos de status que o Googlebot encontrou na Web, além dos erros de rede e de DNS de mais destaque. Outros códigos mais incomuns, como o 418 (I'm a teapot), não foram analisados. Todos os problemas mencionados nesta página geram um erro ou um aviso correspondente no Relatório de estatísticas de rastreamento do Search Console.

Códigos de status HTTP

Os Códigos de status HTTP são gerados pelo servidor que hospeda o site quando ele responde a uma solicitação feita por um cliente, como um navegador ou um rastreador. Cada Código de status HTTP tem um significado diferente, mas geralmente o resultado da solicitação é o mesmo. Por exemplo, há vários códigos de status que sinalizam redirecionamentos, mas o resultado deles é o mesmo.

O Search Console gera mensagens de erro para códigos de status no intervalo 4xx–5xx e para redirecionamentos com falha (3xx). Caso o servidor tenha respondido com um código de status 2xx, o conteúdo recebido na resposta pode ser considerado para indexação.

Códigos de status HTTP
2xx (success)

O Google considera o conteúdo para indexação. Se o conteúdo sugerir um erro, como uma página vazia ou uma mensagem de erro, o Search Console mostrará um erro soft 404.

200 (success)

O Googlebot transmite o conteúdo para o pipeline de indexação. Os sistemas podem indexar o conteúdo, mas não há garantia disso.

201 (created)
202 (accepted)

O Googlebot aguarda o conteúdo por um tempo limitado e passa o que recebeu para o pipeline de indexação. O tempo limite depende do user agent. Por exemplo, o Googlebot para smartphones pode ter um tempo limite diferente do Googlebot para imagens.

204 (no content)

O Googlebot sinaliza ao pipeline de indexação que não recebeu nenhum conteúdo. O Search Console pode mostrar um erro soft 404 no Relatório de cobertura do índice do site.

3xx (redirection)

O Googlebot acompanha até 10 saltos de redirecionamento. Se o rastreador não receber conteúdo em 10 saltos, o Search Console mostrará um erro de redirecionamento no Relatório de cobertura do índice do site. O número de saltos que o Googlebot segue depende do user agent. Por exemplo, o Googlebot para smartphones pode ter um valor diferente do Googlebot para imagens.

Qualquer conteúdo recebido pelo Googlebot referente ao URL de redirecionamento é ignorado, e o conteúdo do URL de destino final é considerado para indexação.

301 (moved permanently)

O Googlebot segue o redirecionamento, e o pipeline de indexação o usa como um sinal forte de que o destino do redirecionamento deve ser canônico.

302 (found)

O Googlebot segue o redirecionamento, e o pipeline de indexação o usa como um sinal fraco de que o destino do redirecionamento deve ser canônico.

303 (see other)
304 (not modified)

O Googlebot sinaliza ao pipeline de indexação que o conteúdo é o mesmo da última vez em que foi rastreado. O pipeline de indexação pode recalcular os sinais para o URL, mas o código de status não afetará a indexação.

307 (temporary redirect) É equivalente a 302.
308 (moved permanently) É equivalente a 301.
4xx (client errors)

O pipeline de indexação do Google não considera os URLs que retornam um código de status 4xx para indexação, e os URLs que já estão indexados e retornam um código de status 4xx são removidos do índice.

Qualquer conteúdo que o Googlebot tenha recebido de URLs que retornem um código de status 4xx é ignorado.

400 (bad request)

Todos os erros 4xx, exceto 429, são tratados da mesma forma: o Googlebot sinaliza ao pipeline de indexação que o conteúdo não existe.

O pipeline de indexação removerá o URL do índice se ele tiver sido indexado antes. Páginas 404 recém-encontradas não são processadas. A frequência de rastreamento diminui gradualmente.

401 (unauthorized)
403 (forbidden)
404 (not found)
410 (gone)
411 (length required)
429 (too many requests)

O Googlebot trata o código de status 429 como um sinal de que o servidor está sobrecarregado, e ele é considerado como um erro de servidor.

5xx (server errors)

Os erros de servidor 5xx e 429 solicitam aos rastreadores do Google que desacelerem temporariamente o rastreamento. Os URLs já indexados são preservados no índice, mas serão descartados.

Qualquer conteúdo que o Googlebot tenha recebido de URLs que retornem um código de status 5xx é ignorado.

500 (internal server error)

O Googlebot diminui a taxa de rastreamento do site. A diminuição na taxa de rastreamento é proporcional ao número de URLs individuais que estão retornando um erro de servidor. O pipeline de indexação do Google remove dos URLs de índice que continuamente retornam um erro de servidor.

502 (bad gateway)
503 (service unavailable)

Erros de rede e de DNS

Erros de rede e de DNS têm efeitos negativos e rápidos na presença de um URL na Pesquisa Google. O Googlebot trata tempos limites de rede, a redefinição de conexão e os erros de DNS de maneira semelhante aos erros de servidor 5xx. No caso de erros de rede, o rastreamento começa a diminuir a velocidade imediatamente, porque um erro de rede é sinal de que o servidor não consegue processar a carga de serviço. Como o Googlebot não conseguiu acessar o servidor que hospeda o site, ele também não recebeu conteúdo do servidor. A falta de conteúdo significa que o Google não consegue indexar os URLs rastreados, e os URLs indexados inacessíveis serão removidos do índice do Google em alguns dias. O Search Console pode gerar erros para cada erro correspondente.

Depurar erros de rede

Esses erros ocorrem antes que o Google comece a rastrear um URL ou durante o processo. Como os erros podem ocorrer antes que o servidor responda e não há um código de status que possa indicar problemas, o diagnóstico deles pode ser um desafio. Para depurar erros de tempo limite e de redefinição de conexão, faça o seguinte:

  • Analise as configurações e os registros de firewall. Pode haver uma regra de bloqueio excessivamente abrangente definida. Verifique se os endereços IP do Googlebot não estão bloqueados por nenhuma regra de firewall.
  • Analise o tráfego de rede. Use ferramentas como tcpdump e Wireshark para capturar e analisar pacotes TCP e procurar por anomalias que apontem para um componente de rede ou módulo de servidor específico.
  • Caso você não encontre nada suspeito, entre em contato com sua empresa de hospedagem.

O erro pode estar em qualquer componente do servidor que processe o tráfego de rede. Por exemplo, interfaces de rede sobrecarregadas podem descartar pacotes que levam a tempos limite (incapacidade de estabelecer uma conexão) e redefinir conexões (pacote RST enviado porque uma porta foi encerrada por engano).

Depurar erros de DNS

Os erros de DNS geralmente ocorrem devido à configuração incorreta, mas eles também podem ser causados por uma regra de firewall que bloqueia as consultas DNS do Googlebot. Para depurar erros de DNS, faça o seguinte:

  • Inspecione as regras de firewall. Confira se nenhum dos IPs do Google está bloqueado por uma regra de firewall e se as solicitações UDP e TCP são permitidas.
  • Analise os registros DNS. Confira se os registros A e CNAME apontam aos endereços IP e nome do host corretos, respectivamente. Exemplo:
    dig +nocmd example.com a +noall +answer
    dig +nocmd www.example.com cname +noall +answer
  • Confira se todos os servidores de nomes estão apontando para os endereços IP corretos do site. Exemplo:
    dig +nocmd example.com ns +noall +answer
    example.com.    86400  IN  NS  a.iana-servers.net.
    example.com.    86400  IN  NS  b.iana-servers.net.
    dig +nocmd @a.iana-servers.net example.com +noall +answer
    example.com.    86400  IN  A  93.184.216.34
    dig +nocmd @b.iana-servers.net example.com +noall +answer
    ...
  • Caso você tenha feito mudanças na configuração de DNS nas últimas 72 horas, talvez seja necessário aguardar para que as alterações se propaguem pela rede DNS global.
  • Caso você execute seu próprio servidor DNS, confirme se ele está íntegro e se não está sobrecarregado.