Introdução ao robots.txt

O que é um arquivo robots.txt?

Esse arquivo informa aos rastreadores do mecanismo de pesquisa quais páginas ou arquivos podem ser solicitados do site. Esse recurso é usado principalmente para evitar a sobrecarga do site com solicitações e não funciona como um mecanismo para manter uma página da Web fora dos resultados da pesquisa do Google. Para fazer isso, use diretivas noindex ou proteja sua página com uma senha.

Para que serve um arquivo robots.txt?

Ele é usado principalmente para gerenciar o tráfego do rastreador no seu site e, em alguns casos, para manter uma página fora do Google, dependendo do tipo de página:

Tipo de página Gerenciamento de tráfego Ocultar do Google Descrição
Página da Web

Em páginas da Web (HTML, PDF ou outros formatos que não sejam de mídia e possam ser lidos pelo Google), um arquivo robots.txt pode ser usado para gerenciar o tráfego de rastreamento caso você ache que o servidor será sobrecarregado por solicitações do rastreador do Google. Além disso, o uso do arquivo pode evitar o rastreamento de informações sem importância ou páginas semelhantes no site.

Não use um arquivo robots.txt para ocultar suas páginas da Web dos resultados da Pesquisa Google. Isso porque, se outras páginas redirecionarem o usuário para sua página com texto descritivo, ela ainda poderá ser indexada sem receber acessos. Se você quiser bloquear a página nos resultados da pesquisa, use outro método, como proteção por senha ou uma diretiva noindex.

Caso a página da Web esteja bloqueada com um arquivo robots.txt, ela ainda poderá aparecer nos resultados da pesquisa. No entanto, esse resultado não terá uma descrição e será parecido com isto. Imagens, vídeos, PDFs e outros arquivos não HTML serão excluídos. Se você vir esse resultado de pesquisa para sua página e quiser corrigi-lo, remova a entrada do robots.txt que causa o bloqueio. Se você quiser ocultar completamente a página da pesquisa, use outro método.

Arquivo de mídia

Use um arquivo robots.txt para gerenciar o tráfego de rastreamento e também para evitar que arquivos de imagem, vídeo e áudio sejam exibidos nos resultados da pesquisa do Google. Isso não impedirá que outras páginas nem usuários vinculem seu arquivo de imagem/vídeo/áudio.

Arquivo de recurso É possível usar um arquivo robots.txt para bloquear arquivos de imagem, script ou estilo menos importantes, caso a página possa ser carregada sem esses recursos e sem perdas significativas. No entanto, se a falta desses recursos dificultar o trabalho do rastreador do Google, será melhor não os bloquear, já que isso pode prejudicar a análise das páginas que dependam deles.

Para quem usa um serviço de hospedagem de sites

Caso você use um serviço desse tipo, como Wix, Drupal ou Blogger, talvez não seja necessário (ou possível) editar seu arquivo robots.txt diretamente. Em vez disso, seu provedor pode incluir uma seção de configurações ou outro recurso para informar aos mecanismos de pesquisa se devem ou não rastrear sua página.

Para ver se sua página foi rastreada pelo Google, pesquise o URL correspondente no Google.

Se você quiser mudar a visibilidade da sua página nos mecanismos de pesquisa, busque instruções de como fazer isso. Por exemplo: ocultar a página dos mecanismos de pesquisa no Wix.

Limitações de um arquivo robots.txt

Antes de criar ou editar um arquivo robots.txt, é necessário conhecer os limites desse método de bloqueio de URL. Em alguns casos, talvez seja melhor considerar outros mecanismos para garantir que os URLs não sejam encontrados facilmente na Web.

  • As diretivas do robots.txt podem não ser compatíveis com todos os mecanismos de pesquisa.
    As instruções nos arquivos robots.txt não podem impor o comportamento do rastreador ao seu site. Cabe ao rastreador obedecê-las. Embora o Googlebot e outros rastreadores da Web confiáveis sigam as instruções de um arquivo robots.txt, elas podem não ser seguidas por outros rastreadores. Por isso, caso você não queira que os rastreadores da Web acessem suas informações, é recomendado o uso de outros métodos de bloqueio, como a proteção por senha de arquivos particulares no seu servidor.
  • Rastreadores diferentes interpretam a sintaxe de maneiras distintas.
    Embora os rastreadores da Web confiáveis sigam as diretivas de um arquivo robots.txt, cada rastreador pode interpretá-las de maneira diferente. É importante saber a sintaxe apropriada para atender a diferentes rastreadores da Web, porque alguns podem não entender todas as instruções.
  • Uma página protegida por robots.txt ainda poderá ser indexada se estiver vinculada a outros sites.
    Embora o Google não rastreie nem indexe o conteúdo bloqueado por um arquivo robots.txt, ainda podemos encontrar e indexar um URL desabilitado com base em links de outros locais da Web. Como resultado, o endereço URL e talvez outras informações disponíveis publicamente, como texto âncora em links para a página, ainda podem aparecer nos resultados da pesquisa do Google. Para impedir de maneira adequada que seu URL apareça nos resultados da Pesquisa Google, proteja os arquivos no seu servidor com uma senha ou use o cabeçalho da resposta ou a metatag noindex. Você também pode remover toda a página.

Como testar bloqueios do robots.txt em uma página

Você pode testar se uma página ou um recurso está bloqueado por uma regra de robots.txt.

Para testar as diretivas noindex, use a Ferramenta de inspeção de URL.