Como os Códigos de status HTTP e os erros de rede e de DNS afetam a Pesquisa Google

Esta página descreve como diferentes Códigos de status HTTP, erros de rede e de DNS afetam a Pesquisa Google. Analisamos os 20 principais códigos de status que o Googlebot encontrou na Web, além dos erros de rede e de DNS de mais destaque. Outros códigos mais incomuns, como o 418 (I'm a teapot), não foram analisados. Todos os problemas mencionados nesta página geram um erro ou um aviso correspondente no Relatório de cobertura do índice do Search Console.

Códigos de status HTTP

Os Códigos de status HTTP são gerados pelo servidor que hospeda o site quando ele responde a uma solicitação feita por um cliente, como um navegador ou um rastreador. Cada Código de status HTTP tem um significado diferente, mas geralmente o resultado da solicitação é o mesmo. Por exemplo, há vários códigos de status que sinalizam redirecionamentos, mas o resultado deles é o mesmo.

O Search Console gera mensagens de erro para códigos de status no intervalo 4xx–5xx e para redirecionamentos com falha (3xx). Caso o servidor tenha respondido com um código de status 2xx, o conteúdo recebido na resposta pode ser considerado para indexação.

Códigos de status HTTP

2xx (success)

O Google considera o conteúdo para indexação. Se o conteúdo sugerir um erro, como uma página vazia ou uma mensagem de erro, o Search Console vai mostrar um erro soft 404.

200 (success)

O Googlebot transmite o conteúdo ao pipeline de indexação. Os sistemas podem indexar o conteúdo, mas não há garantia disso.

201 (created)
202 (accepted)

O Googlebot aguarda o conteúdo por um tempo limitado e passa o que recebeu para o pipeline de indexação. O tempo limite depende do user agent. Por exemplo, o Googlebot para smartphones pode ter um tempo limite diferente do Googlebot para imagens.

204 (no content)

O Googlebot sinaliza ao pipeline de indexação que não recebeu nenhum conteúdo. O Search Console pode mostrar um erro soft 404 no Relatório de cobertura do índice do site.

3xx (redirection)

O Googlebot acompanha até 10 saltos de redirecionamento. Se o rastreador não receber conteúdo em 10 saltos, o Search Console mostrará um erro de redirecionamento no Relatório de cobertura do índice do site. O número de saltos que o Googlebot acompanha depende do user agent. Por exemplo, o Googlebot para smartphones pode ter um valor diferente do Googlebot para imagens.

No caso do robots.txt, o Googlebot acompanha pelo menos cinco saltos de redirecionamento, conforme definido pela RFC 1945 (em inglês). Depois interrompe essa ação e a trata como um 404 no robots.txt.

Qualquer conteúdo recebido pelo Googlebot referente ao URL de redirecionamento é ignorado, e o conteúdo do URL de destino final é considerado para indexação.

301 (moved permanently)

O Googlebot segue o redirecionamento, e o pipeline de indexação o usa como um sinal forte de que o destino do redirecionamento deve ser canônico.

302 (found)

O Googlebot segue o redirecionamento, e o pipeline de indexação o usa como um sinal fraco de que o destino do redirecionamento deve ser canônico.

303 (see other)
304 (not modified)

O Googlebot sinaliza ao pipeline de indexação que o conteúdo é o mesmo da última vez em que foi rastreado. O pipeline de indexação pode recalcular os sinais para o URL, mas o código de status não afetará a indexação.

307 (temporary redirect) É equivalente a 302.
308 (moved permanently) É equivalente a 301.

4xx (client errors)

O pipeline de indexação do Google não considera os URLs que retornam um código de status 4xx para indexação, e os URLs que já estão indexados e retornam um código de status 4xx são removidos do índice.

Qualquer conteúdo que o Googlebot tenha recebido de URLs que retornem um código de status 4xx é ignorado.

400 (bad request)

Todos os erros 4xx, exceto 429, são tratados da mesma forma: o Googlebot sinaliza ao pipeline de indexação que o conteúdo não existe.

O pipeline de indexação removerá o URL do índice se ele tiver sido indexado antes. Páginas 404 recém-encontradas não são processadas. A frequência de rastreamento diminui gradualmente.

401 (unauthorized)
403 (forbidden)
404 (not found)
410 (gone)
411 (length required)
429 (too many requests)

O Googlebot trata o código de status 429 como um sinal de que o servidor está sobrecarregado, e ele é considerado como um erro de servidor.

5xx (server errors)

Os erros de servidor 5xx e 429 solicitam aos rastreadores do Google que desacelerem temporariamente o rastreamento. Os URLs já indexados são preservados no índice, mas depois são descartados.

Se o arquivo robots.txt retornar um código de status de erro de servidor por mais de 30 dias, o Google vai usar a última cópia em cache do robots.txt. Se ela estiver indisponível, o Google vai presumir que não há restrições de rastreamento.

Qualquer conteúdo que o Googlebot tenha recebido de URLs que retornem um código de status 5xx é ignorado.

500 (internal server error)

O Googlebot diminui a taxa de rastreamento do site. A diminuição na taxa de rastreamento é proporcional ao número de URLs individuais que estão retornando um erro de servidor. O pipeline de indexação do Google remove dos URLs de índice que continuamente retornam um erro de servidor.

502 (bad gateway)
503 (service unavailable)

Erros soft 404

Um erro soft 404 ocorre quando um URL retorna uma página informando ao usuário que ela não existe e também envia um código de status 200 (success). Em alguns casos, isso indica uma página sem conteúdo principal ou vazia.

Essas páginas podem ser geradas pelo servidor da Web/sistema de gerenciamento de conteúdo do seu site ou pelo navegador do usuário por diversos motivos. Exemplo:

  • Um arquivo Server Side Includes (SSI) ausente
  • Uma conexão corrompida com o banco de dados
  • Uma página interna de resultados da pesquisa vazia
  • Um arquivo JavaScript descarregado ou ausente

Para uma boa experiência do usuário, não é recomendado retornar um código de status 200 (success) e exibir ou sugerir uma mensagem de erro ou algum tipo de erro na página. Os usuários podem pensar que é uma página ativa, mas recebem algum tipo de erro. Essas páginas são excluídas da Pesquisa.

Quando os algoritmos do Google detectam que a página é realmente uma página de erro com base no conteúdo, o Search Console exibe um erro soft 404 no Relatório de cobertura do índice do site.

Corrigir erros soft 404

Dependendo do estado da página e do resultado desejado, é possível resolver erros soft 404 de várias maneiras:

Tente determinar qual a melhor solução para seus usuários.

A página e o conteúdo não estão mais disponíveis

Se você removeu a página e não há uma página de substituição no seu site com conteúdo semelhante, retorne um código de resposta (status) 404 (not found) ou 410 (gone) para a página. Esses códigos de status indicam aos mecanismos de pesquisa que a página não existe e que o conteúdo não deve ser indexado.

Se você tiver acesso aos arquivos de configuração do servidor, você pode fazer com que essas páginas sejam úteis aos usuários personalizando-as. Uma boa página 404 personalizada ajuda o usuário a encontrar as informações que procura, além de mostrar mais conteúdo útil que estimula o visitante a continuar navegando no site. Veja algumas dicas para criar uma página 404 personalizada útil:

  • Informe claramente aos visitantes que a página que eles procuram não foi encontrada. Use linguagem simpática e convidativa.
  • Faça com que a página 404 tenha a mesma aparência que o restante do site incluindo a navegação.
  • Adicione links para os artigos ou postagens mais acessadas, bem como um link para a página inicial do site.
  • Pense em uma maneira de o usuário informar um link corrompido.

As páginas 404 personalizadas são criadas exclusivamente para os usuários. Como essas páginas são inúteis do ponto de vista de um mecanismo de pesquisa, confira se o servidor retorna um código de status HTTP 404 para evitar que elas sejam indexadas.

A página ou o conteúdo está em outro lugar

Caso a página tenha sido movida ou exista uma substituição evidente para ela no site, retorne um código 301 (permanent redirect) para redirecionar o usuário. Isso não interrompe a experiência de navegação, além de ser uma ótima maneira de informar aos mecanismos de pesquisa sobre o novo local da página. Use a Ferramenta de inspeção de URL para verificar se o URL está realmente retornando o código correto.

A página e o conteúdo ainda existem

Se uma página sem problemas foi sinalizada com um erro soft 404, é provável que ela não tenha sido carregada corretamente para o Googlebot, que faltaram recursos críticos ou que foi exibida uma mensagem de erro proeminente durante a renderização. Use a Ferramenta de inspeção de URL para examinar o conteúdo renderizado e o código HTTP retornado. Se a página renderizada estiver em branco, quase em branco ou o conteúdo tiver uma mensagem de erro, talvez ela referencie muitos recursos que não foram carregados (imagens, scripts e outros elementos não textuais), o que pode ser interpretado como um soft 404. Os motivos para isso incluem o bloqueio de recursos pelo robots.txt, excesso de recursos em uma página, vários erros de servidor ou arquivos de carregamento lento ou muito grandes.

Erros de rede e de DNS

Erros de rede e de DNS têm efeitos negativos e rápidos na presença de um URL na Pesquisa Google. O Googlebot trata tempos limites de rede, a redefinição de conexão e os erros de DNS de maneira semelhante aos erros de servidor 5xx. No caso de erros de rede, o rastreamento começa a diminuir a velocidade imediatamente, porque um erro de rede é sinal de que o servidor não consegue processar a carga de serviço. Como o Googlebot não conseguiu acessar o servidor que hospeda o site, ele também não recebeu conteúdo do servidor. A falta de conteúdo significa que o Google não consegue indexar os URLs rastreados, e os URLs indexados inacessíveis vão ser removidos do índice do Google em alguns dias. O Search Console pode gerar erros para cada erro correspondente.

Depurar erros de rede

Esses erros ocorrem antes que o Google comece a rastrear um URL ou durante o processo. Como os erros podem ocorrer antes que o servidor responda e não há um código de status que possa indicar problemas, o diagnóstico deles pode ser um desafio. Para depurar erros de tempo limite e de redefinição de conexão, faça o seguinte:

  • Analise as configurações e os registros de firewall. Pode haver uma regra de bloqueio excessivamente abrangente definida. Verifique se os endereços IP do Googlebot não estão bloqueados por nenhuma regra de firewall.
  • Analise o tráfego de rede. Use ferramentas como tcpdump e Wireshark para capturar e analisar pacotes TCP e procurar por anomalias que apontem para um componente de rede ou módulo de servidor específico.
  • Caso você não encontre nada suspeito, entre em contato com sua empresa de hospedagem.

O erro pode estar em qualquer componente do servidor que processe o tráfego de rede. Por exemplo, interfaces de rede sobrecarregadas podem descartar pacotes que levam a tempos limite (incapacidade de estabelecer uma conexão) e redefinir conexões (pacote RST enviado porque uma porta foi encerrada por engano).

Depurar erros de DNS

Os erros de DNS geralmente ocorrem devido à configuração incorreta, mas eles também podem ser causados por uma regra de firewall que bloqueia as consultas DNS do Googlebot. Para depurar erros de DNS, faça o seguinte:

  • Inspecione as regras de firewall. Confira se nenhum dos IPs do Google está bloqueado por uma regra de firewall e se as solicitações UDP e TCP são permitidas.
  • Analise os registros DNS. Confira se os registros A e CNAME apontam aos endereços IP e nome do host corretos, respectivamente. Exemplo:
    dig +nocmd example.com a +noall +answer
    dig +nocmd www.example.com cname +noall +answer
  • Confira se todos os servidores de nomes estão apontando para os endereços IP corretos do site. Exemplo:
    dig +nocmd example.com ns +noall +answer
    example.com.    86400  IN  NS  a.iana-servers.net.
    example.com.    86400  IN  NS  b.iana-servers.net.
    dig +nocmd @a.iana-servers.net example.com +noall +answer
    example.com.    86400  IN  A  93.184.216.34
    dig +nocmd @b.iana-servers.net example.com +noall +answer
    ...
  • Caso você tenha feito mudanças na configuração de DNS nas últimas 72 horas, talvez seja necessário aguardar para que as alterações se propaguem pela rede DNS global. Para acelerar o processo, você pode limpar o cache do DNS público do Google.
  • Caso você execute seu próprio servidor DNS, confirme se ele está íntegro e se não está sobrecarregado.