Regras úteis do arquivo robots.txt

Veja aqui algumas regras úteis do arquivo robots.txt:

Regras úteis
Não permitir o rastreamento do site inteiro

Em algumas situações, os URLs do site ainda poderão ser indexados, mesmo que não tenham sido rastreados.

User-agent: *
Disallow: /
Permitir o rastreamento de um site inteiro (com uma regra Disallow vazia)

Isso permite explicitamente que todos os rastreadores acessem o site inteiro. É o equivalente funcional a não ter um arquivo robots.txt ou usar uma regra Allow: /.

User-agent: *
Disallow:
Não permitir o rastreamento de um diretório e o conteúdo dele

Acrescente uma barra depois do nome do diretório para não permitir o rastreamento do diretório inteiro.

User-agent: *
Disallow: /calendar/
Disallow: /junk/
Disallow: /books/fiction/contemporary/

Não permitir o rastreamento de uma página da web

Por exemplo, não permitir a página useless_file.html localizada em https://example.com/useless_file.html e other_useless_file.html no diretório junk.

User-agent: *
Disallow: /useless_file.html
Disallow: /junk/other_useless_file.html

Impedir o rastreamento do site inteiro, exceto um subdiretório

Os rastreadores só podem acessar o subdiretório public.

User-agent: *
Disallow: /
Allow: /public/
Permitir acesso a um único rastreador

Somente o Googlebot-News poderá rastrear o site inteiro.

User-agent: Googlebot-News
Allow: /

User-agent: *
Disallow: /
Permitir acesso a todos os rastreadores, exceto um deles

O Unnecessarybot não poderá rastrear o site, mas os outros bots poderão.

User-agent: Unnecessarybot
Disallow: /

User-agent: *
Allow: /

Não permitir o rastreamento de um site inteiro, mas permitir o Storebot-Google

Essa implementação oculta as páginas dos resultados da Pesquisa Google, mas o rastreador da web Storebot-Google ainda poderá analisá-las para mostrar seus produtos no Google Shopping.

User-agent: *
Disallow: /

User-agent: Storebot-Google
Allow: /

Bloquear todas as imagens do seu site do Google (inclui todos os lugares em que as imagens são exibidas no Google, como Imagens do Google e Discover)

O Google não consegue indexar imagens e vídeos sem rastreá-los.

User-agent: Googlebot-Image
Disallow: /

Bloquear uma imagem específica das Imagens do Google

Por exemplo, não permitir a imagem dogs.jpg.

User-agent: Googlebot-Image
Disallow: /images/dogs.jpg

Não permitir o rastreamento de arquivos de um tipo específico

Por exemplo, não permitir o rastreamento de todos os arquivos .gif.

User-agent: Googlebot
Disallow: /*.gif$
Usar os caracteres curinga * e $ para corresponder a URLs que terminam com uma string específica.

Por exemplo, não permitir todos os arquivos .xls:

User-agent: Googlebot
Disallow: /*.xls$
Combinar vários user agents em um único grupo

Consolidar regras para vários rastreadores em um grupo torna o arquivo mais curto e fácil de gerenciar, já que todas as regras do grupo se aplicam a todos os user agents listados. Isso é o mesmo que listar os user agents duas vezes com as respectivas regras.

User-agent: Googlebot
User-agent: Storebot-Google
Allow: /cats
Disallow: /