Introdução ao robots.txt

Um arquivo robots.txt informa aos rastreadores do mecanismo de pesquisa quais URLs podem ser acessados no seu site. Esse recurso é usado principalmente para evitar a sobrecarga do site com solicitações e não funciona como um mecanismo para manter uma página da Web fora dos resultados da pesquisa do Google. Para fazer isso, bloqueie a indexação com noindex ou proteja a página com uma senha.

Para que serve um arquivo robots.txt?

Ele é usado principalmente para gerenciar o tráfego do rastreador no seu site e, em alguns casos, para manter um arquivo fora do Google, dependendo do tipo de arquivo:

Efeito do arquivo robots.txt em diferentes tipos de arquivo
Página da Web

É possível usar um arquivo robots.txt em páginas da Web (HTML, PDF ou outros formatos que não sejam de mídia e possam ser lidos pelo Google) para gerenciar o tráfego de rastreamento caso você ache que o servidor será sobrecarregado por solicitações do rastreador do Google. Além disso, o uso do arquivo pode evitar o rastreamento de informações sem importância ou páginas semelhantes no site.

Caso a página da Web esteja bloqueada com um arquivo robots.txt, o URL ainda poderá aparecer nos resultados da pesquisa. No entanto, esse resultado não terá uma descrição. Imagens, vídeos, PDFs e outros arquivos não HTML serão excluídos. Se você vir esse resultado de pesquisa para sua página e quiser corrigi-lo, remova a entrada do robots.txt que causa o bloqueio. Se você quiser ocultar completamente a página da pesquisa, use outro método.

Arquivo de mídia

Use um arquivo robots.txt para gerenciar o tráfego de rastreamento e também para evitar que arquivos de imagem, vídeo e áudio sejam exibidos nos resultados da pesquisa do Google. Isso não impedirá que outras páginas nem usuários vinculem seu arquivo de imagem/vídeo/áudio.

Arquivo de recurso É possível usar um arquivo robots.txt para bloquear arquivos de imagem, script ou estilos menos importantes, caso a página possa ser carregada sem esses recursos e sem perdas significativas. No entanto, se a falta desses recursos dificultar o trabalho do rastreador do Google, não os bloqueie, já que isso pode prejudicar a análise das páginas que dependam deles.

Limitações de um arquivo robots.txt

Antes de criar ou editar um arquivo robots.txt, é necessário conhecer os limites desse método de bloqueio de URL. Dependendo das suas metas e situação, talvez seja melhor considerar outros mecanismos para garantir que os URLs não sejam encontrados facilmente na Web.

  • As diretivas do arquivo robots.txt podem não ser compatíveis com todos os mecanismos de pesquisa.
    As instruções nos arquivos robots.txt não podem impor o comportamento do rastreador no seu site. Cabe ao rastreador obedecê-las. Embora o Googlebot e outros rastreadores da Web confiáveis sigam as instruções de um arquivo robots.txt, talvez outros rastreadores não façam isso. Por isso, caso você não queira que os rastreadores da Web acessem suas informações, é recomendado o uso de outros métodos de bloqueio, como a proteção por senha de arquivos particulares no seu servidor.
  • Rastreadores diferentes interpretam a sintaxe de maneiras distintas.
    Embora os rastreadores da Web confiáveis sigam as diretivas de um arquivo robots.txt, cada rastreador pode interpretá-las de maneira diferente. É importante saber a sintaxe apropriada para atender a diferentes rastreadores da Web, porque alguns podem não entender todas as instruções.
  • Uma página não permitida no arquivo robots.txt ainda poderá ser indexada se estiver vinculada a outros sites.
    Embora o Google não rastreie nem indexe o conteúdo bloqueado por um arquivo robots.txt, ainda podemos encontrar e indexar um URL desabilitado de outros locais da Web. Como resultado, o endereço URL e talvez outras informações disponíveis publicamente, como texto âncora em links para a página, ainda podem aparecer nos resultados da pesquisa do Google. Para impedir de maneira adequada que seu URL apareça nos resultados da pesquisa do Google, proteja os arquivos no seu servidor com uma senha, use o cabeçalho da resposta ou a metatag noindex ou remova toda a página.

Criar um arquivo robots.txt

Se você acha que precisa de um, saiba como criar um arquivo robots.txt.