Não use os erros 403 ou 404 para limitação de taxa

Sexta-feira, 17 de fevereiro de 2023

Nos últimos meses, notamos um aumento no número de proprietários de sites e em algumas redes de fornecimento de conteúdo (CDNs) que tentam usar 404 e outros erros de cliente 4xx (mas não 429) para tentar reduzir a taxa de rastreamento do Googlebot.

A versão curta desta postagem do blog é: não faça isso. Temos uma documentação sobre como reduzir a taxa de rastreamento do Googlebot. Leia esse documento e saiba como gerenciar de forma eficaz a taxa de rastreamento do Googlebot.

De volta ao início: erros 4xx são para erros de cliente

Os erros 4xx que os servidores retornam aos clientes são um sinal do servidor de que a solicitação do cliente estava errada em algum sentido. A maioria dos erros nesta categoria é bastante benigno: erros "não encontrado", "proibido", "sou um bule" (sim, isso existe). Eles não sugerem nada de errado com o próprio servidor.

A única exceção é 429, que significa "muitas solicitações". Esse erro é um sinal claro para qualquer robô bem comportado, incluindo nosso querido Googlebot, de que precisa diminuir a velocidade porque está sobrecarregando o servidor.

Por que os erros 4xx são ruins para a limitação de taxa do Googlebot (exceto 429)

Os erros do cliente são apenas isso: erros do cliente. Geralmente, eles não sugerem um erro com o servidor: não é que está sobrecarregado e não é que encontrou um erro crítico e não consegue responder à solicitação. Eles simplesmente significam que a solicitação do cliente era ruim de alguma forma. Não há uma maneira possível de se igualar, por exemplo, um erro 404 ao servidor estar sobrecarregado. Imagine se esse for o caso: você recebe um fluxo de erros 404 do seu amigo que acidentalmente vincula para as páginas erradas no seu site e, assim, o Googlebot desacelera o rastreamento. Isso seria muito ruim. O mesmo vale para 403, 410 e 418.

Novamente, a grande exceção é o código de status 429, que se traduz em "excesso de solicitações".

O que a limitação de taxa com o erro 4xx faz para o Googlebot

Todos os códigos de status HTTP 4xx (novamente, exceto 429) farão com que seu conteúdo seja removido da Pesquisa Google. O pior é que, se você também exibir seu arquivo robots.txt com um código de status HTTP 4xx, ele será tratado como se não existisse. Se você tinha uma regra que proibia o rastreamento de roupas sujas, agora o Googlebot também sabe disso. Não é bom para nenhuma das partes envolvidas.

Como reduzir a taxa de rastreamento do Googlebot do jeito certo

Temos uma documentação abrangente sobre como reduzir a taxa de rastreamento do Googlebot e como o Googlebot e a indexação da Pesquisa processam os diferentes códigos de status HTTP. Confira. Resumindo, você deve realizar uma destas ações:

Se precisar de mais dicas ou esclarecimentos, entre em contato pelo Twitter ou poste em nossos Fóruns de Ajuda.