Regras úteis do arquivo robots.txt
Veja aqui algumas regras úteis do arquivo robots.txt:
| Regras úteis | |
|---|---|
| Não permitir o rastreamento do site inteiro |
Em algumas situações, os URLs do site ainda poderão ser indexados, mesmo que não tenham sido rastreados. User-agent: * Disallow: / |
Permitir o rastreamento de um site inteiro (com uma regra Disallow vazia)
|
Isso permite explicitamente que todos os rastreadores acessem o site inteiro. É o equivalente
funcional a não ter um arquivo robots.txt ou usar uma regra User-agent: * Disallow: |
| Não permitir o rastreamento de um diretório e o conteúdo dele |
Acrescente uma barra depois do nome do diretório para não permitir o rastreamento do diretório inteiro. User-agent: * Disallow: /calendar/ Disallow: /junk/ Disallow: /books/fiction/contemporary/ |
|
Não permitir o rastreamento de uma página da web |
Por exemplo, não permitir a página User-agent: * Disallow: /useless_file.html Disallow: /junk/other_useless_file.html |
|
Impedir o rastreamento do site inteiro, exceto um subdiretório |
Os rastreadores só podem acessar o subdiretório User-agent: * Disallow: / Allow: /public/ |
| Permitir acesso a um único rastreador |
Somente o User-agent: Googlebot-News Allow: / User-agent: * Disallow: / |
| Permitir acesso a todos os rastreadores, exceto um deles |
O User-agent: Unnecessarybot Disallow: / User-agent: * Allow: / |
|
Não permitir o rastreamento de um site inteiro, mas permitir o |
Essa implementação oculta as páginas dos resultados da Pesquisa Google, mas o rastreador da web User-agent: * Disallow: / User-agent: Storebot-Google Allow: / |
|
Bloquear todas as imagens do seu site do Google (inclui todos os lugares em que as imagens são exibidas no Google, como Imagens do Google e Discover) |
O Google não consegue indexar imagens e vídeos sem rastreá-los. User-agent: Googlebot-Image Disallow: / |
|
Bloquear uma imagem específica das Imagens do Google |
Por exemplo, não permitir a imagem User-agent: Googlebot-Image Disallow: /images/dogs.jpg |
|
Não permitir o rastreamento de arquivos de um tipo específico |
Por exemplo, não permitir o rastreamento de todos os arquivos User-agent: Googlebot Disallow: /*.gif$ |
Usar os caracteres curinga * e $ para corresponder a URLs que terminam com uma string específica.
|
Por exemplo, não permitir todos os arquivos User-agent: Googlebot Disallow: /*.xls$ |
| Combinar vários user agents em um único grupo |
Consolidar regras para vários rastreadores em um grupo torna o arquivo mais curto e fácil de gerenciar, já que todas as regras do grupo se aplicam a todos os user agents listados. Isso é o mesmo que listar os user agents duas vezes com as respectivas regras. User-agent: Googlebot User-agent: Storebot-Google Allow: /cats Disallow: / |