Especificações de metatag robots, data-nosnippet e X-Robots-Tag

Resumo

Este documento explica como as configurações no nível da página e do texto podem ser usadas para ajustar a forma como o Google apresenta seu conteúdo nos resultados da pesquisa. Você pode especificar configurações no nível da página incluindo uma metatag em páginas HTML ou em um cabeçalho HTTP. Também é possível especificar configurações no nível do texto usando o atributo data- nosnippet nos elementos HTML de uma página.

Como usar a metatag robots

A metatag robots permite usar uma abordagem detalhada e específica para controlar a indexação e a exibição de uma página individual aos usuários nos resultados da Pesquisa Google. Posicione a metatag robots na seção <head> de uma determinada página assim:

<!DOCTYPE html>
<html><head>
<meta name="robots" content="noindex" />
(…)
</head>
<body>(…)</body>
</html>

A metatag robots no exemplo acima instrui os mecanismos de pesquisa a não mostrar a página nos resultados. O valor do atributo name (robots) especifica que a diretiva é aplicada a todos os rastreadores. Para gerenciar um rastreador específico, substitua o valor robots do atributo name pelo nome do rastreador que está sendo abordado. Rastreadores específicos também são conhecidos como user agents (um rastreador usa seu user agent para solicitar uma página). O rastreador da Web padrão do Google tem o nome de user agent Googlebot. Para evitar que somente o Googlebot rastreie sua página, atualize a tag da seguinte forma:

<meta name="googlebot" content="noindex" />

Esta tag agora instrui o Google a não exibir especificamente essa página nos resultados da pesquisa. Os atributos name e content não diferenciam maiúsculas de minúsculas.

Os mecanismos de pesquisa podem ter diferentes rastreadores para propriedades ou efeitos distintos. Veja a lista completa de rastreadores do Google. Por exemplo, para exibir uma página nos resultados da pesquisa na Web do Google, mas não no Google Notícias, use a seguinte metatag:

<meta name="googlebot-news" content="noindex" />

Para especificar vários rastreadores individualmente, use diversas metatags robots:

<meta name="googlebot" content="noindex">
<meta name="googlebot-news" content="nosnippet">

Como usar o cabeçalho HTTP X-Robots-Tag

O X-Robots-Tag pode ser usado como um elemento da resposta do cabeçalho HTTP para um determinado URL. Qualquer diretiva que possa ser usada em uma metatag robots também pode ser especificada como X-Robots-Tag. Veja um exemplo de uma resposta HTTP com um X-Robots-Tag que instrui os rastreadores a não indexar uma página:

HTTP/1.1 200 OK
Date: Tue, 25 May 2010 21:42:43 GMT
(…)
X-Robots-Tag: noindex
(…)

É possível combinar vários cabeçalhos X-Robots-Tag na resposta HTTP ou especificar uma lista de diretivas separadas por vírgulas. Veja um exemplo de resposta de cabeçalho HTTP com um noarchive X-Robots-Tag combinado a um unavailable_after X-Robots-Tag.

HTTP/1.1 200 OK
Date: Tue, 25 May 2010 21:42:43 GMT
(…)
X-Robots-Tag: noarchive
X-Robots-Tag: unavailable_after: 25 Jun 2010 15:00:00 PST
(…)

O X-Robots-Tag pode, opcionalmente, especificar um user agent antes das diretivas. Por exemplo, o conjunto de cabeçalhos HTTP X-Robots-Tag a seguir pode ser usado para permitir a exibição condicional de uma página nos resultados da pesquisa em diferentes mecanismos de pesquisa:

HTTP/1.1 200 OK
Date: Tue, 25 May 2010 21:42:43 GMT
(…)
X-Robots-Tag: googlebot: nofollow
X-Robots-Tag: otherbot: noindex, nofollow
(…)

As diretivas especificadas sem um user agent são válidas para todos os rastreadores. O cabeçalho HTTP, o nome do user agent e os valores especificados não diferenciam maiúsculas de minúsculas.

Diretivas válidas de indexação e exibição

As diretivas a seguir podem ser usadas para controlar a indexação e a exibição das páginas com a metatag robots e X-Robots-Tag. Cada valor representa uma diretiva específica. A tabela a seguir exibe todas as diretivas seguidas pelo Google e o significado delas. Várias diretivas podem ser combinadas em uma lista separada por vírgulas. Essas diretivas não diferenciam maiúsculas de minúsculas. Nos resultados da pesquisa, um snippet é um breve trecho de texto usado para evidenciar a relevância de um documento para a consulta de um usuário.

Diretivas

all
Não há restrições para a indexação nem para a exibição. Essa diretiva é o valor padrão e não terá efeito se for listada explicitamente.
noindex
Não mostrar esta página nos resultados da pesquisa.
nofollow
Não seguir os links nesta página.
none
Equivalente a noindex, nofollow.
noarchive
Não exibir um link em cache nos resultados da pesquisa.
nosnippet
Não exibir um snippet de texto nem uma visualização de vídeo nos resultados da pesquisa para esta página. Uma miniatura de imagem estática (se disponível) continuará visível, se essa opção resultar em uma melhor experiência do usuário. Isso será aplicado a todas as formas de resultados da pesquisa (na Pesquisa Google na Web, no Imagens do Google e no Discover).
max-snippet:[number]

Usar no máximo [number] caracteres como um snippet textual para esse resultado da pesquisa. Um URL pode aparecer várias vezes em uma página de resultados da pesquisa. Isso não afeta as visualizações de imagens nem de vídeos. Isso será aplicado a todas as formas de resultados da pesquisa (como Pesquisa Google na Web, Imagens do Google, Discover, Assistente). No entanto, esse limite não será aplicado nos casos em que um editor conceder permissão para o uso de conteúdo separadamente. Por exemplo, se o editor fornecer conteúdo na forma de dados estruturados in-page ou tiver um contrato de licença com o Google, essa configuração não interromperá esses usos mais específicos. Esta diretiva será ignorada se nenhum [number] for especificado.

Valores especiais:

  • 0: nenhum snippet deve ser exibido. Equivalente a nosnippet.
  • -1: não há limite de comprimento do snippet.
  • Exemplo:

    <meta name="robots" content="max-snippet:20">
    max-image-preview:[setting]

    Definir o tamanho máximo de uma visualização de imagem para esta página em um resultado da pesquisa.

    Valores setting aceitos:

  • none: nenhuma visualização de imagem deve ser exibida.
  • standard: uma visualização de imagem padrão pode ser exibida.
  • large: uma visualização de imagem maior, até a largura da janela de visualização, pode ser exibida.
  • Isso será aplicado a todas as formas de resultados da pesquisa (como Pesquisa Google na Web, Imagens do Google, Discover e Assistente). No entanto, esse limite não será aplicado nos casos em que um editor conceder permissão para o uso de conteúdo separadamente. Por exemplo, se o editor fornecer conteúdo na forma de dados estruturados in-page ou tiver um contrato de licença com o Google, essa configuração não interromperá esses usos mais específicos.

    Exemplo:

    <meta name="robots" content="max-image-preview:standard">
    max-video-preview:[number]

    Usar no máximo [number] segundos como snippet para vídeos desta página nos resultados da pesquisa.

    Outros valores compatíveis:

  • 0: no máximo, uma imagem estática pode ser usada, de acordo com a configuração max-image-preview.
  • -1: não há limite.
  • Isso será aplicado a todas as formas de resultados da pesquisa (na Pesquisa Google na Web, no Imagens do Google, no Google Videos, no Discover e no Assistente). Esta diretiva será ignorada se nenhum [number] for especificado.

    Exemplo:

    <meta name="robots" content="max-video-preview:-1">
    notranslate
    Não oferecer tradução desta página nos resultados da pesquisa.
    noimageindex
    Não indexar imagens nesta página.
    unavailable_after: [RFC-850 date/time]

    Não exibir esta página nos resultados da pesquisa após a data/hora especificada. A data/hora precisa ser especificada no formato RFC 850. A diretiva será ignorada se nenhum [date/time] válido for especificado. Por padrão, não há data de validade para o conteúdo.

    Exemplo:

    <meta name="robots" content="unavailable_after: Sunday, 01-Sep-24 01:00:00 PDT">

    Tratamento de diretivas de indexação e exibição combinadas

    É possível criar uma instrução de multidiretivas combinando diretivas de metatags robots com vírgulas. Veja um exemplo de metatag robots que instrui os rastreadores da Web a não indexar a página e não rastrear quaisquer links na página:

    <meta name="robots" content="noindex, nofollow">
    

    Veja um exemplo que limita o snippet de texto a 20 caracteres e permite uma visualização de imagem grande:

    <meta name="robots" content="max-snippet:20, max-image-preview:large">
    

    Para situações em que vários rastreadores são especificados juntamente com diretivas diferentes, o mecanismo de pesquisa usará a soma das diretivas negativas. Exemplo:

    <meta name="robots" content="nofollow">
    <meta name="googlebot" content="noindex">
    

    A página que contém essas metatags será interpretada como proprietária de uma diretiva noindex, nofollow ao ser rastreada pelo Googlebot.

    Como usar o atributo HTML data-nosnippet

    O atributo data-nosnippet entrará em vigor em 2019.

    Você pode determinar que partes textuais de uma página HTML não sejam usadas como snippet. Isso pode ser feito em um nível de elemento HTML com o atributo HTML data-nosnippet nos elementos span, div e section. O data-nosnippet é considerado um atributo booleano. Ele é válido com ou sem um valor. Para garantir a legibilidade pelas máquinas, é preciso que a seção tenha HTML válido e todas as tags sejam fechadas corretamente.

    Exemplos:

    <p>This text can be shown in a snippet
     <span data-nosnippet>and this part would not be shown</span>.</p>
    
    <div data-nosnippet>not in snippet</div>
    <div data-nosnippet="true">also not in snippet</div>
    
    <div data-nosnippet>some text</html>
    <!-- unclosed "div" will include all content afterwards -->
    
    <mytag data-nosnippet>some text</mytag>
    <!-- NOT VALID: not a span, div, or section -->
    

    Normalmente, o Google processa páginas para indexá-las, mas a renderização não é garantida. Por isso, a extração de data-nosnippet pode acontecer antes e depois da renderização. Para evitar problemas na renderização, não adicione nem remova o atributo data-nosnippet dos nós existentes por meio do JavaScript. Ao adicionar elementos ao DOM da página usando JavaScript, inclua o atributo data-nosnippet conforme necessário. Ao usar elementos personalizados, envolva ou renderize-os com elementos div, span ou section, caso seja necessário incluir data- nosnippet.

    Como usar dados estruturados

    As metatags robots controlam a quantidade de conteúdo que o Google extrai automaticamente das páginas da Web para exibição como resultados da pesquisa. Porém, muitos editores também usam dados estruturados do schema.org para disponibilizar informações específicas para apresentações de pesquisa. As limitações da metatag robots não afetam o uso desses dados estruturados. Para gerenciar o uso de dados estruturados nas suas páginas da Web, você pode simplesmente modificar os tipos de dados estruturados e valores propriamente ditos, adicionando ou removendo informações a fim de fornecer somente o conteúdo que deve ser disponibilizado. Os dados estruturados ainda podem ser usados para resultados da pesquisa quando declarados em um elemento data-nosnippet.

    Implementação prática de X-Robots-Tag

    Você pode adicionar o X-Robots-Tag às respostas HTTP de um site por meio dos arquivos de configuração do software do servidor da Web do seu site. Por exemplo, em servidores da Web baseados em Apache, você pode usar arquivos .htaccess e httpd.conf. A vantagem de usar um X-Robots-Tag com respostas HTTP é que isso possibilita especificar diretivas de rastreamento que são aplicadas globalmente em um site. O suporte a expressões regulares possibilita um alto grau de flexibilidade.

    Por exemplo, para adicionar um noindex, nofollow X-Robots-Tag à resposta HTTP em todos os arquivos .PDF do site, adicione o snippet a seguir ao arquivo raiz .htaccess ou httpd.conf no Apache ou ao arquivo de configuração do site no NGINX.

    Apache:

    <Files ~ "\.pdf$">
      Header set X-Robots-Tag "noindex, nofollow"
    </Files>
    

    NGINX:

    location ~* \.pdf$ {
      add_header X-Robots-Tag "noindex, nofollow";
    }
    

    Use X-Robots-Tag para arquivos não HTML, como arquivos de imagem, em que o uso de metatags robots em HTML não é possível. Veja um exemplo de adição de uma diretiva noindex X-Robots-Tag para arquivos de imagens (.png, .jpeg, .jpg, .gif) em todo o site:

    Apache:

    <Files ~ "\.(png|jpe?g|gif)$">
      Header set X-Robots-Tag "noindex"
    </Files>
    

    NGINX:

    location ~* \.(png|jpe?g|gif)$ {
      add_header X-Robots-Tag "noindex";
    }
    

    Como combinar diretivas de rastreamento com indexação/exibição

    As metatags robots e os cabeçalhos HTTP X-Robots-Tag são detectados quando um URL é rastreado. Se uma página não tiver permissão para rastrear o arquivo robots.txt, então quaisquer informações sobre diretivas de indexação ou veiculação não serão encontradas e serão, portanto, ignoradas. Se as diretivas de indexação ou exibição precisarem ser seguidas, os URLs com essas diretivas não poderão ter o rastreamento proibido.