Uma observação sobre as regras não compatíveis com robots.txt

Terça-feira, 2 de julho de 2019

Ontem anunciamos que estamos usando o código aberto do analisador de robots.txt em produção do Google. Foi um momento incrível que abriu as portas para possíveis projetos de código aberto da Pesquisa. Seu feedback é importante, e estamos coletando perguntas de desenvolvedores e webmasters. Falaremos nesta postagem sobre uma pergunta que se destacou:
por que o código não inclui um gerenciador para outras regras, como atraso de rastreamento?

O rascunho da Internet que publicamos ontem oferece uma arquitetura extensível para regras que não fazem parte do padrão. Isso significa que um rastreador pode oferecer compatibilidade com uma linha própria, como unicorns: allowed. Para demonstrar isso em um analisador, incluímos uma linha muito comum, sitemap, no nosso analisador de robots.txt de código aberto.

Ao usar o código aberto em nossa biblioteca de analisadores, analisamos o uso de regras do robots.txt. Especificamente, priorizamos as regras incompatíveis com o rascunho da Internet, como crawl-delay, nofollow e noindex. Como essas regras nunca foram documentadas pelo Google, é natural que o uso delas em relação ao Googlebot seja muito baixo. Analisando ainda mais, vimos o uso delas ser contradito por outras regras em todos os arquivos robots.txt, exceto 0,001%. Esses erros prejudicam a presença dos sites nos resultados da pesquisa do Google de maneiras não pretendidas pelos webmasters.

Para manter um ecossistema saudável e se preparar para futuras versões de código aberto, desativamos todo o código que processa regras não compatíveis e não publicadas (como noindex) em 1º de setembro de 2019. Para os desenvolvedores que usavam a regra de indexação noindex no arquivo robots.txt, que controla o rastreamento, existem várias alternativas:

  • noindex nas meta tags robots: compatível com os cabeçalhos de resposta HTTP e com HTML, a regra noindex é a maneira mais eficaz de remover URLs do índice quando o rastreamento for permitido.
  • Códigos de status HTTP 404 e 410: os códigos de status indicam que a página não existe, o que elimina esses URLs do índice do Google após o rastreamento e o processamento.
  • Proteção de senha: a menos que seja usada uma marcação para indicar conteúdo com paywall ou de assinatura, ocultar uma página protegida por login geralmente a remove do índice do Google.
  • Disallow em robots.txt: os mecanismos de pesquisa só podem indexar páginas conhecidas. Bloquear a página geralmente impede que o conteúdo dela seja indexado. O mecanismo de pesquisa também pode indexar URLs com base em links de outras páginas, sem ver o conteúdo, mas nosso objetivo é tornar essas páginas menos visíveis no futuro.
  • Ferramenta de remoção de URL do Search Console: a ferramenta é um método rápido e fácil para remover um URL temporariamente dos resultados da pesquisa do Google.

Para mais orientações sobre como remover informações dos resultados da pesquisa do Google, acesse nossa Central de Ajuda. Se você tiver alguma dúvida, entre em contato no Twitter e na Comunidade para webmasters, tanto off-line quanto on-line.