Especificações para metatags robots e cabeçalhos HTTP X-Robots-Tag

Resumo

Este documento explica em detalhes como o Google lida com as configurações de indexação no nível da página e possibilita que você controle a forma como ele disponibiliza conteúdo por meio dos resultados da pesquisa. Isso pode ser especificado incluindo uma metatag em páginas (X)HTML ou em um cabeçalho HTTP.

Observação: essas configurações poderão ser lidas e seguidas somente se os rastreadores forem autorizados a acessar as páginas que as incluem.

Voltar ao início

Como usar a metatag robots

A metatag robots permite que você utilize uma abordagem granular e específica em cada página para controlar como uma página individual deve ser indexada e veiculada para os usuários nos resultados da pesquisa. Posicione a metatag robots na seção <head> de uma determinada página assim:

<!DOCTYPE html>
<html><head>
<meta name="robots" content="noindex" />
(…)
</head>
<body>(…)</body>
</html>

A metatag robots do exemplo acima instrui todos os mecanismos de pesquisa a não mostrar a página nos resultados da pesquisa. O valor do atributo name (robots) especifica que a diretiva é aplicada a todos os rastreadores. Para lidar com um rastreador específico, substitua o valor robots do atributo name pelo nome do rastreador que está sendo abordado. Rastreadores específicos também são conhecidos como user agents (um rastreador usa seu user agent para solicitar uma página). O rastreador da Web padrão do Google tem o nome de user agent Googlebot. Para evitar que somente o Googlebot rastreie sua página, atualize a tag da seguinte forma:

<meta name="googlebot" content="noindex" />

Essa tag agora instrui o Google (e nenhum outro mecanismo de pesquisa) a não exibir esta página em seus resultados de pesquisa na Web. Os atributos name e content não diferenciam maiúsculas e minúsculas.

Os mecanismos de pesquisa podem ter diferentes rastreadores para diferentes propriedades ou efeitos. Veja a lista completa de rastreadores do Google. Por exemplo, para exibir uma página nos resultados da pesquisa na Web do Google, mas não no Google Notícias, use a seguinte metatag:

<meta name="googlebot-news" content="noindex" />

Se for preciso especificar vários rastreadores individualmente, não haverá problema em usar várias metatags robots:

<meta name="googlebot" content="noindex">
<meta name="googlebot-news" content="nosnippet">

Se nossos rastreadores encontrarem diretivas concorrentes, a diretiva utilizada será a mais restritiva.

Voltar ao início

Como usar o cabeçalho HTTP X-Robots-Tag

A X-Robots-Tag pode ser usada como um elemento da resposta do cabeçalho HTTP para um determinado URL. Qualquer diretiva que possa ser usada em uma metatag robots também pode ser especificada como uma X-Robots-Tag. Veja um exemplo de resposta HTTP com uma X-Robots-Tag que instrui os rastreadores a não indexar uma página:

HTTP/1.1 200 OK
Date: Tue, 25 May 2010 21:42:43 GMT
(…)
X-Robots-Tag: noindex
(…)

É possível combinar vários cabeçalhos X-Robots-Tag na resposta HTTP ou especificar uma lista de diretivas separadas por vírgulas. Veja um exemplo de uma resposta de cabeçalho HTTP que tem uma X-Robots-Tag noarchive combinada com uma X-Robots-Tag unavailable_after.

HTTP/1.1 200 OK
Date: Tue, 25 May 2010 21:42:43 GMT
(…)
X-Robots-Tag: noarchive
X-Robots-Tag: unavailable_after: 25 Jun 2010 15:00:00 PST
(…)

X-Robots-Tag pode, opcionalmente, especificar um user agent antes das diretivas. Por exemplo, o seguinte conjunto de cabeçalhos HTTP X-Robots-Tag pode ser usado para permitir condicionalmente a exibição de uma página nos resultados da pesquisa para diferentes mecanismos de pesquisa:

HTTP/1.1 200 OK
Date: Tue, 25 May 2010 21:42:43 GMT
(…)
X-Robots-Tag: googlebot: nofollow
X-Robots-Tag: otherbot: noindex, nofollow
(…)

As diretivas especificadas sem um user agent são válidas para todos os rastreadores. A seção abaixo demonstra como lidar com diretivas combinadas. O nome e os valores especificados não diferenciam maiúsculas e minúsculas.

Voltar ao início

Diretivas de indexação e veiculação válidas

Várias outras diretivas podem ser usadas para controlar a indexação e a veiculação com a metatag robots e X-Robots-Tag. Cada valor representa uma diretiva específica. A tabela a seguir exibe todas as diretivas que o Google segue e o significado delas. Observação: essas diretivas podem não ser tratadas da mesma forma por todos os outros rastreadores de mecanismos de pesquisa. Várias diretivas podem ser combinadas em uma lista separada por vírgulas (veja abaixo a manipulação de diretivas combinadas). Essas diretivas não diferenciam maiúsculas e minúsculas.

DiretivaSignificado
all Não há restrições para a indexação ou a veiculação. Observação: essa diretiva é o valor padrão e não terá efeito se for listada explicitamente.
noindex Não exibir esta página e não exibir um link "Em cache" nos resultados da pesquisa.
nofollow Não seguir os links nesta página
none Equivalente a noindex, nofollow
noarchive Não exibir um link "Em cache" nos resultados da pesquisa.
nosnippet Não exibir um snippet nos resultados da pesquisa para esta página
noodp Não usar metadados do projeto Open Directory para títulos ou snippets exibidos para esta página.
notranslate Não oferecer tradução desta página nos resultados de pesquisa.
noimageindex Não indexar imagens nesta página.
unavailable_after: [RFC-850 date/time] Não exibir esta página nos resultados da pesquisa após a data/hora especificada. A data/hora precisa ser especificada no formato RFC 850.

Depois que o arquivo robots.txt (ou a falta dele) conceder permissão para o rastreamento de uma página, por padrão, as páginas serão tratadas como rastreáveis, indexáveis e arquiváveis. Além disso, o uso do conteúdo dessas páginas será aprovado nos snippets que aparecerem nos resultados da pesquisa, a menos que uma permissão seja negada especificamente por uma metatag robots ou X-Robots-Tag.

Voltar ao início

Tratamento de diretivas de indexação e veiculação combinadas

É possível criar uma instrução de multidiretivas combinando diretivas de metatags robots com vírgulas. Veja um exemplo de metatag robots que instrui os rastreadores da Web a não indexar a página e não rastrear quaisquer links na página:

<meta name="robots" content="noindex, nofollow">

Para situações em que vários rastreadores são especificados juntamente com diretivas diferentes, o mecanismo de pesquisa usará a soma das diretivas negativas. Por exemplo:

<meta name="robots" content="nofollow">
<meta name="googlebot" content="noindex">

A página que contém essas metatags será interpretada como proprietária de uma diretiva noindex, nofollow ao ser rastreada pelo Googlebot.

Voltar ao início

Aplicação prática de X-Robots-Tag com Apache

É possível adicionar X-Robots-Tag às respostas HTTP de um site usando arquivos .htaccess e httpd.conf que estão disponíveis por padrão em servidores de Web baseados em Apache. A vantagem de usar uma X-Robots-Tag com respostas HTTP é que isso possibilita especificar diretivas de rastreamento que são aplicadas globalmente em um site. O suporte a expressões regulares possibilita um alto grau de flexibilidade.

Por exemplo, para adicionar uma X-Robots-Tag noindex, nofollow à resposta HTTP para todos os arquivos .PDF em todo um site, adicione o seguinte snippet ao arquivo .htaccess ou arquivo httpd.conf raiz desse site:

<Files ~ "\.pdf$">
  Header set X-Robots-Tag "noindex, nofollow"
</Files>

É possível usar a X-Robots-Tag para arquivos não HTML como arquivos de imagem, em que o uso de metatags robots não é possível. Veja um exemplo de adição de uma diretiva X-Robots-Tag noindex para arquivos de imagens (.png, .jpeg, .jpg, .gif) em todo o site:

<Files ~ "\.(png|jpe?g|gif)$">
  Header set X-Robots-Tag "noindex"
</Files>

Voltar ao início

Como combinar diretivas de rastreamento com indexação/veiculação

Metatags robots e cabeçalhos HTTP X-Robots-Tag são detectados quando um URL é rastreado. Se uma página não tiver permissão para rastrear o arquivo robots.txt, então quaisquer informações sobre diretivas de indexação ou veiculação não serão encontradas e serão, portanto, ignoradas. Se as diretivas de indexação ou veiculação precisarem ser seguidas, os URLs com essas diretivas não poderão ter o rastreamento proibido.

Voltar ao início

Enviar comentários sobre…