Criar um arquivo robots.txt

É possível controlar quais arquivos os rastreadores podem acessar no seu site com um arquivo robots.txt. O arquivo robots.txt fica na raiz do seu site. Por isso, no site www.example.com, o arquivo robots.txt aparece como www.example.com/robots.txt. O robots.txt é um arquivo de texto simples que segue o Protocolo de exclusão de robôs (em inglês). Um arquivo robots.txt é constituído por uma ou mais regras. Cada regra bloqueia (ou permite) o acesso de um determinado rastreador a um caminho de arquivo especificado no site. A menos que você especifique o contrário no arquivo robots.txt, o rastreamento de todos os arquivos é permitido de forma implícita.

Veja um arquivo robots.txt simples, com duas regras:

User-agent: Googlebot
Disallow: /nogooglebot/

User-agent: *
Allow: /

Sitemap: http://www.example.com/sitemap.xml

Veja o que esse arquivo robots.txt significa:

  1. O user agent chamado "Googlebot" não poderá rastrear qualquer URL que comece com http://example.com/nogooglebot/.
  2. Os outros user agents poderão rastrear todo o site. Essa informação poderia ter sido omitida, e o resultado seria o mesmo. O comportamento padrão é que os user agents tenham permissão para rastrear todo o site.
  3. O arquivo do sitemap está localizado em http://www.example.com/sitemap.xml.

Consulte a seção Sintaxe para ver mais exemplos.

Diretrizes básicas para criar um arquivo robots.txt

Veja as quatro etapas para criar um arquivo robots.txt e torná-lo acessível e útil para todos:

  1. Crie um arquivo chamado "robots.txt".
  2. Adicione regras ao arquivo robots.txt.
  3. Faça upload do arquivo robots.txt para seu site.
  4. Teste o arquivo robots.txt.

Criar um arquivo robots.txt

É possível usar praticamente todos os editores de texto para criar um arquivo robots.txt. Por exemplo, o Bloco de Notas, TextEdit, vi e Emacs podem criar arquivos robots.txt válidos. Não use um processador de texto, porque muitas vezes esses programas salvam os arquivos em formatos próprios e podem adicionar caracteres inesperados, como aspas curvas. Isso pode causar problemas para os rastreadores. Salve o arquivo com a codificação UTF-8 caso seja solicitado na caixa de diálogo "Salvar arquivo".

Regras de formato e localização:

  • O arquivo precisa ter o nome robots.txt.
  • O site pode ter somente um arquivo robots.txt.
  • O arquivo robots.txt precisa estar localizado na raiz do host do site a que se refere. Por exemplo, para controlar o rastreamento em todos os URLs abaixo de https://www.example.com/, o arquivo robots.txt precisa estar localizado em https://www.example.com/robots.txt. Ele não pode ser colocado em um subdiretório (por exemplo, em https://example.com/pages/robots.txt). Caso você tenha dúvidas sobre como acessar a raiz do site ou precise de permissões para fazer isso, entre em contato com o provedor de serviços de hospedagem na Web. Caso você não consiga acessar a raiz do site, use métodos alternativos de bloqueio, como metatags.
  • Um arquivo robots.txt pode ser aplicado em subdomínios (por exemplo, https://website.example.com/robots.txt) ou em portas não padrão (por exemplo, http://example.com:8181/robots.txt).
  • O robots.txt precisa ser um arquivo de texto codificado em UTF-8 (o que inclui ASCII). É possível que o Google ignore caracteres que não fazem parte do intervalo UTF-8, o que pode tornar as regras do robots.txt inválidas.

Adicionar regras ao arquivo robots.txt

As regras são instruções para os rastreadores sobre quais partes do site podem ser rastreadas. Siga estas diretrizes ao adicionar regras ao seu arquivo robots.txt:

  • Um arquivo robots.txt é constituído por um ou mais grupos.
  • Cada grupo consiste em várias regras ou diretivas (instruções), uma diretiva por linha. Cada grupo começa com uma linha de User-agent que especifica o destino dos grupos.
  • Um grupo fornece as seguintes informações:
    • A quem o grupo se aplica (o user agent).
    • Quais diretórios ou arquivos esse user agent pode acessar.
    • Quais diretórios ou arquivos esse user agent não pode acessar.
  • Os rastreadores processam os grupos de cima para baixo. Um user agent pode corresponder a somente um conjunto de regras (o primeiro e mais específico grupo que for correspondente a determinado user agent).
  • Por padrão, um user agent pode rastrear uma página ou um diretório que não esteja bloqueado por uma regra disallow.
  • As regras diferenciam maiúsculas de minúsculas. Por exemplo, disallow: /file.asp será aplicado em https://www.example.com/file.asp, mas não em https://www.example.com/FILE.asp.
  • O caractere # marca o início de um comentário.

Os rastreadores do Google são compatíveis com as seguintes diretivas em arquivos robots.txt:

  • user-agent: [obrigatório, um ou mais por grupo] a diretiva especifica o nome do cliente automático conhecido como rastreador do mecanismo de pesquisa a que a regra se aplica. Essa é a primeira linha de qualquer grupo de regras. Os nomes dos user agents do Google podem ser encontrados na lista de user agents do Google. O uso de um asterisco (*) corresponde a todos os rastreadores, exceto aos diversos rastreadores Google AdsBot, que precisam ser nomeados explicitamente. Exemplo:
    # Example 1: Block only Googlebot
    User-agent: Googlebot
    Disallow: /
    
    # Example 2: Block Googlebot and Adsbot
    User-agent: Googlebot
    User-agent: AdsBot-Google
    Disallow: /
    
    # Example 3: Block all but AdsBot crawlers
    User-agent: *
    Disallow: /
  • disallow: [ao menos uma ou mais entradas disallow ou allow por regra] é um diretório ou uma página, referente ao domínio raiz, que você não quer que o user agent rastreie. Se a regra se referir a uma página, use o nome completo dela conforme exibido no navegador. É preciso começar com um caractere /. No caso de um diretório, é preciso terminar com uma marca /.
  • allow: [ao menos uma ou mais entradas disallow ou allow por regra] é uma página ou um diretório, referente ao domínio raiz, que pode ser rastreado pelo user agent citado anteriormente. É usado para substituir uma diretiva disallow para permitir o rastreamento de um subdiretório ou de uma página em um diretório não permitido. Para uma única página, especifique o nome completo dela conforme exibido no navegador. No caso de um diretório, termine a regra com uma marca /.
  • sitemap: [opcional, zero ou mais por arquivo] é a localização de um sitemap do site. O URL do sitemap precisa ser totalmente qualificado. O Google não supõe nem verifica as variações de http/https/www/sem www. O uso dos sitemaps é uma boa maneira de indicar qual conteúdo o Google deve rastrear, em vez do que pode ou não pode ser rastreado. Saiba mais sobre os sitemaps. Exemplo:
    Sitemap: https://example.com/sitemap.xml
    Sitemap: http://www.example.com/sitemap.xml

Todas as diretivas, exceto sitemap, são compatíveis com o caractere curinga * em prefixos, sufixos ou strings completas de caminhos.

As linhas que não corresponderem a nenhuma dessas diretivas serão ignoradas.

Leia nossa página sobre como o Google interpreta a especificação de robots.txt para ver a descrição completa de cada diretiva.

Fazer upload do arquivo robots.txt

Depois de salvar o arquivo robots.txt no seu computador, você poderá disponibilizá-lo para os rastreadores de mecanismos de pesquisa. Não há uma determinada ferramenta que possa ajudar você com isso, porque a forma como você faz upload do arquivo robots.txt para seu site depende das arquiteturas do servidor e do site. Entre em contato com a empresa de hospedagem ou pesquise a documentação dela. Por exemplo, pesquise "fazer upload de arquivos no Infomaniak".

Depois de fazer upload do arquivo robots.txt, verifique se ele está acessível publicamente e se o Google pode analisá-lo.

Testar a marcação do arquivo robots.txt

Para testar se o arquivo robots.txt recém-enviado está acessível para o público, abra uma janela de navegação privada (ou equivalente) no seu navegador e acesse o local do arquivo robots.txt. Por exemplo, https://example.com/robots.txt. Se o conteúdo do seu arquivo robots.txt for exibido, você já está pronto para testar a marcação.

O Google oferece duas opções para testar a marcação do arquivo robots.txt:

  1. A ferramenta Testar robots.txt no Search Console. Só é possível usar essa ferramenta para arquivos robots.txt que já podem ser acessados no seu site.
  2. Se você é um desenvolvedor, confira e ajude a construir a biblioteca robots.txt de código aberto do Google, que também é usada na Pesquisa Google. Você pode usar essa ferramenta para testar arquivos robots.txt localmente no seu computador.

Enviar o arquivo robots.txt para o Google

Depois que você fizer upload e testar o arquivo robots.txt, os rastreadores do Google encontrarão e começarão a usar seu arquivo robots.txt automaticamente. Não é necessário fazer nada. Se você alterou seu arquivo robots.txt e precisa atualizar a cópia em cache do Google o mais rápido possível, saiba como enviar um arquivo robots.txt atualizado.

Regras úteis do arquivo robots.txt

Veja aqui algumas regras úteis do arquivo robots.txt:

Regras úteis
Impedir o rastreamento do site inteiro

Em algumas situações, os URLs do site ainda poderão ser indexados, mesmo que não tenham sido rastreados.


User-agent: *
Disallow: /
Não permitir o rastreamento de um diretório e o conteúdo dele

Acrescente uma barra depois do nome do diretório para não permitir o rastreamento do diretório inteiro.


User-agent: *
Disallow: /calendar/
Disallow: /junk/
Permitir acesso a um único rastreador

Somente o googlebot-news poderá rastrear o site inteiro.


User-agent: Googlebot-news
Allow: /

User-agent: *
Disallow: /
Permitir acesso a todos os rastreadores, exceto um deles

O Unnecessarybot não poderá rastrear o site, mas os outros bots poderão.


User-agent: Unnecessarybot
Disallow: /

User-agent: *
Allow: /

Não permitir o rastreamento de uma página da Web

Por exemplo, não permitir a página useless_file.html.


User-agent: *
Disallow: /useless_file.html

Bloquear uma imagem específica das Imagens do Google

Por exemplo, não permitir a imagem dogs.jpg.


User-agent: Googlebot-Image
Disallow: /images/dogs.jpg

Bloquear todas as imagens do seu site das Imagens do Google

O Google não consegue indexar imagens e vídeos sem rastreá-los.


User-agent: Googlebot-Image
Disallow: /

Não permitir o rastreamento de arquivos de um tipo específico

Por exemplo, não permitir o rastreamento de todos os arquivos .gif.


User-agent: Googlebot
Disallow: /*.gif$

Não permitir o rastreamento de um site inteiro, mas permitir o Mediapartners-Google

Essa implementação oculta as páginas dos resultados da pesquisa, mas o rastreador da Web Mediapartners-Google ainda poderá analisá-las e decidir quais anúncios exibir aos visitantes do site.


User-agent: *
Disallow: /

User-agent: Mediapartners-Google
Allow: /
Usar $ para corresponder a URLs que terminam com uma string específica

Por exemplo, não permitir todos os arquivos .xls.


User-agent: Googlebot
Disallow: /*.xls$