O analisador do robots.txt do Google agora tem código aberto

Segunda-feira, 1º de julho de 2019

Durante 25 anos, o Protocolo de exclusão de robôs (REP, na sigla em inglês) foi apenas um padrão praticado. Às vezes, isso tinha implicações frustrantes. Por um lado, para webmasters, isso significava incertezas em casos isolados, como quando o editor de texto incluía caracteres BOM nos arquivos robots.txt. Por outro lado, para desenvolvedores de ferramentas e rastreadores, isso também trazia incertezas. Por exemplo, como eles deveriam lidar com arquivos robots.txt com centenas de megabytes?

Googlebot fazendo unboxing de um site

Hoje anunciamos nossa iniciativa para tornar o REP um padrão da Internet. Essa é uma etapa importante, mas significa mais trabalho para os desenvolvedores que analisam arquivos robots.txt.

Estamos aqui para ajudar: abrimos o código da biblioteca C++ que nossos sistemas de produção usam para analisar e corresponder regras em arquivos robots.txt. Essa biblioteca existe há 20 anos e contém partes de código que foram escritas nos anos 90. Desde então, a biblioteca evoluiu. Aprendemos muito sobre como os webmasters escrevem arquivos robots.txt e casos isolados que tivemos que resolver. Além disso, adicionamos o que aprendemos ao longo dos anos ao rascunho da Internet quando necessário.

Também incluímos uma ferramenta de teste no pacote de código aberto para ajudar a testar algumas regras. Após a criação, o uso é muito simples:

robots_main <robots.txt content> <user_agent> <url>

Para conferir a biblioteca, acesse nosso repositório do GitHub e veja o analisador de robots.txt. Estamos animados para ver o que você consegue criar com ela. Se você criar algo usando a biblioteca, deixe um comentário no Twitter. Se você tiver comentários ou dúvidas sobre a biblioteca, acesse o GitHub.