Perguntas frequentes sobre robots

Perguntas gerais sobre robots

Meu site precisa de um arquivo robots.txt?

Não. Quando o Googlebot acessa um site, ele primeiro pede permissão para o rastreamento tentando recuperar o arquivo robots.txt. Um site sem arquivo robots.txt, metatags robots ou cabeçalhos HTTP X-Robots-Tag em geral é rastreado e indexado normalmente.

Qual método devo usar para bloquear os rastreadores?

Depende. Basicamente, há boas razões para usar cada um destes métodos:

  • robots.txt: use este arquivo se o rastreamento do seu conteúdo estiver causando problemas no servidor. Por exemplo, é possível impedir o rastreamento de scripts de calendários infinitos. Não use o robots.txt para bloquear conteúdo particular (em vez disso, use a autenticação do lado do servidor) nem para processar a canonização. Para garantir que um URL não seja indexado, use a metatag robots ou o cabeçalho HTTP X-Robots-Tag.
  • Metatag robots: se for necessário controlar a forma como uma página HTML individual é exibida nos resultados da pesquisa ou para se certificar de que ela não será exibida.
  • Cabeçalho HTTP X-Robots-Tag: use este cabeçalho se for necessário controlar a forma como o conteúdo é exibido nos resultados da pesquisa ou para se certificar de que ele não seja exibido.

Posso usar o robots.txt, a metatag robots ou o cabeçalho HTTP X-Robots-Tag para remover o site de outra pessoa dos resultados da pesquisa?

Não. Esses métodos só se aplicam a sites em que você pode modificar o código ou adicionar arquivos. Saiba mais sobre como remover informações do Google.

Como posso desacelerar o rastreamento que o Google faz no meu site?

Geralmente, é possível ajustar a configuração da taxa de rastreamento na sua conta do Google Search Console.

Perguntas sobre robots.txt

Eu uso o mesmo robots.txt para vários sites. Posso usar um URL completo em vez de um caminho relativo?

Não. As diretivas no arquivo robots.txt (exceto sitemap:) são válidas somente para caminhos relativos.

Posso colocar o arquivo robots.txt em um subdiretório?

Não. O arquivo precisa ser colocado no diretório superior do site.

Quero bloquear uma pasta privada. Posso impedir que outras pessoas leiam meu arquivo robots.txt?

Não. O arquivo robots.txt pode ser lido por vários usuários. Se as pastas ou os nomes de arquivo do conteúdo não forem destinados ao público, não os liste no arquivo robots.txt. Não recomendamos exibir arquivos robots.txt diferentes com base no user agent ou em outros atributos.

Preciso incluir uma diretiva allow para permitir o rastreamento?

Não, não é necessário incluir uma diretiva allow. Todos os URLs são permitidos de forma implícita, e a diretiva allow é usada para substituir diretivas disallow no mesmo arquivo robots.txt.

O que acontecerá se meu arquivo robots.txt tiver um erro ou for usada uma diretiva sem suporte?

Os rastreadores da Web em geral são muito flexíveis e, normalmente, não são influenciados por pequenos erros no arquivo robots.txt. Muitas vezes, o pior que pode acontecer é as diretivas incorretas / sem suporte serem ignoradas. O Google não faz adivinhações ao interpretar um arquivo robots.txt: ele precisa interpretar o arquivo robots.txt que foi buscado. Dessa forma, se você estiver ciente dos problemas no seu arquivo robots.txt, saiba que eles geralmente são de fácil correção.

Que programa devo usar para criar um arquivo robots.txt?

Use qualquer programa para a criação de arquivos de texto válidos. Programas comuns usados para criar arquivos robots.txt incluem o Bloco de Notas, TextEdit, vi e Emacs. Saiba mais sobre como criar arquivos robots.txt. Depois de criar seu arquivo, valide-o usando a ferramenta Testar robots.txt.

Se eu impedir que o Google rastreie uma página usando uma diretiva disallow no robots.txt, ela desaparecerá dos resultados da pesquisa?

Impedir que o Google rastreie uma página provavelmente removerá a página do índice do Google.

No entanto, disallow no robots.txt não garante que uma página não será exibida nos resultados. O Google ainda pode decidir que ela é relevante com base em informações externas, como links de entrada, e exibir o URL nos resultados. Para bloquear explicitamente a indexação de uma página, use a metatag robots noindex ou o cabeçalho HTTP X-Robots-Tag. Nesse caso, não bloqueie a página no robots.txt, porque ela precisa ser rastreada para que a tag seja vista e obedecida. Saiba como controlar o que você compartilha com o Google.

Quanto tempo leva para que as mudanças no meu arquivo robots.txt afetem os resultados da pesquisa?

Em primeiro lugar, o cache do arquivo robots.txt precisa ser atualizado. Geralmente, os conteúdos são armazenados em cache por até um dia. É possível acelerar esse processo enviando o robots.txt atualizado para o Google. Mesmo depois de encontrar a mudança, o rastreamento e a indexação fazem parte de um processo complicado que pode demorar para URLs individuais, por isso é impossível fornecer um cronograma exato. Além disso, mesmo que seu arquivo robots.txt não permita o acesso a um URL, esse URL pode permanecer visível nos resultados da pesquisa, apesar de não poder ser rastreado. Se você quiser acelerar a remoção das páginas que foram bloqueadas para o Google, envie uma solicitação de remoção.

Como posso suspender temporariamente todo o rastreamento do meu site?

É possível suspender temporariamente todo o rastreamento retornando um Código de status HTTP 503 (service unavailable) para todos os URLs, incluindo o arquivo robots.txt. O rastreamento do arquivo robots.txt será repetido periodicamente até que ele possa ser acessado novamente. Não recomendamos mudar o arquivo robots.txt para impedir o rastreamento.

Meu servidor não diferencia maiúsculas de minúsculas. Como posso impedir completamente o rastreamento de algumas pastas?

As diretivas no arquivo robots.txt diferenciam maiúsculas de minúsculas. Nesse caso, recomendamos garantir que somente uma versão do URL seja indexada usando métodos de canonização. Isso reduz o número de linhas no arquivo robots.txt, o que facilita o gerenciamento. Caso isso não seja possível, recomendamos que você liste as combinações comuns do nome da pasta ou encurte o arquivo o máximo possível. Para isso, use somente os primeiros caracteres em vez do nome completo. Por exemplo, em vez de listar todas as permutações de maiúsculas e minúsculas de /MyPrivateFolder, liste as permutações de "/MyP", se tiver certeza de que nenhum outro URL rastreável existe com esses primeiros caracteres. Como alternativa, use uma metatag robots ou um cabeçalho HTTP X-Robots-Tag se o rastreamento não for um problema.

O valor de 403 Forbidden é retornado para todos os URLs, incluindo o arquivo robots.txt. Por que o site ainda está sendo rastreado?

O Código de status HTTP 403 Forbidden, assim como os outros 4xx, é interpretado como o arquivo robots.txt não existe. Isso significa que os rastreadores geralmente presumem que eles podem rastrear todos os URLs do site. Para bloquear o rastreamento do site, o robots.txt precisa ser retornado com um Código de status HTTP 200 OK e precisa conter uma regra disallow apropriada.

Perguntas sobre a metatag robots

A metatag robots substitui o arquivo robots.txt?

Não. O arquivo robots.txt controla quais páginas são acessadas. A metatag robots controla a indexação de uma página. No entanto, para ver essa tag, a página precisa ser rastreada. Se o rastreamento de uma página for problemático (por exemplo, se a página gerar uma carga elevada no servidor), use o arquivo robots.txt. Se for só uma questão de exibir ou não uma página nos resultados da pesquisa, será possível usar a metatag robots.

A metatag robots pode ser usada para impedir a indexação de parte de uma página?

Não, a metatag robots é uma configuração de nível de página.

Posso usar a metatag robots fora de uma seção <head>?

Não, a metatag robots atualmente precisa estar na seção <head> de uma página.

A metatag robots impede o rastreamento?

Não. Mesmo que a metatag robots seja atualmente noindex, precisaremos rastrear novamente esse URL ocasionalmente para verificar se a metatag mudou.

Como a metatag robots nofollow se compara ao atributo de link rel="nofollow"?

A metatag robots nofollow é aplicada a todos os links em uma página. O atributo de link rel="nofollow" se aplica somente a links específicos em uma página. Para mais informações sobre o atributo de link rel="nofollow", consulte nossa documentação sobre spam gerado pelo usuário e rel="nofollow".

Perguntas sobre o cabeçalho HTTP X-Robots-Tag

Como posso verificar a X-Robots-Tag de um URL?

Uma maneira simples de visualizar os cabeçalhos do servidor é usar a Ferramenta de inspeção de URL no Google Search Console. Para verificar os cabeçalhos de resposta de qualquer URL, tente pesquisar "verificador de cabeçalho do servidor".

Não encontrou a resposta?

Caso não encontre a resposta para sua pergunta nesta página, consulte os recursos de ajuda do Google para proprietários de sites.

Também temos comunidades de ajuda oficiais da Central da Pesquisa Google nos seguintes idiomas: EnglishDeutschEspañolFrançaisItalianoNederlandsPolskiPortuguêsTürkçeРусскийالعربية中文(简体)日本語한국어