Caractéristiques de l'en-tête HTTP "X-Robots-Tag" et de la balise Meta pour les robots

Résumé

Ce document décrit la façon dont nous gérons les paramètres d'indexation au niveau de la page. Cela vous permet de contrôler la façon dont nous affichons un contenu dans les résultats de recherche. Vous pouvez spécifier ces paramètres en incluant une balise Meta dans les pages (X)HTML ou dans un en-tête HTTP.

Remarque : Notez que les robots d'exploration ne peuvent lire et suivre ces paramètres que si vous les autorisez à accéder aux pages qui contiennent ces paramètres.

Haut de page

Utilisation de la balise Meta pour les robots

La balise Meta pour les robots vous permet d'utiliser une approche précise spécifique à la page pour contrôler l'indexation et l'affichage d'une page individuelle dans les résultats de recherche. Placez la balise Meta pour les robots dans la section <head> d'une page donnée, comme ceci :

<!DOCTYPE html>
<html><head>
<meta name="robots" content="noindex" />
(…)
</head>
<body>(…)</body>
</html>

Dans l'exemple ci-dessus, la balise Meta pour les robots indique à tous les moteurs de recherche de ne pas afficher la page dans les résultats de recherche. La valeur de l'attribut name (robots) indique que l'instruction s'applique à tous les robots. Pour cibler un robot d'exploration spécifique, remplacez la valeur robots de l'attribut name par le nom du robot d'exploration en question. Les robots d'exploration spécifiques sont également connus sous le nom de user-agents. Un robot d'exploration utilise son user-agent pour demander à accéder à une page. Le nom du user-agent de notre robot d'exploration standard est Googlebot. Pour empêcher uniquement l'exploration de votre page par Googlebot, mettez à jour la balise comme suit :

<meta name="googlebot" content="noindex" />

Cette balise indique désormais à Google (mais pas aux autres moteurs de recherche) de ne pas afficher cette page dans les résultats de la recherche sur le Web Google. Les attributs name et content ne sont pas sensibles à la casse.

Il peut exister plusieurs robots d'exploration par moteur de recherche, en fonction des différentes propriétés ou des objectifs poursuivis. Consultez la liste complète de nos robots d'exploration. Par exemple, pour afficher une page dans les résultats de la recherche sur le Web Google, mais pas sur Google Actualités, utilisez la balise Meta suivante :

<meta name="googlebot-news" content="noindex" />

Si vous devez spécifier plusieurs robots d'exploration individuellement, vous pouvez utiliser plusieurs balises Meta pour les robots :

<meta name="googlebot" content="noindex">
<meta name="googlebot-news" content="nosnippet">

Si nos robots d'exploration rencontrent des instructions concurrentes, nous utilisons l'instruction la plus restrictive que nous trouvons.

Haut de page

Utilisation de l'en-tête HTTP X-Robots-Tag

L'instruction X-Robots-Tag peut faire partie des éléments de réponse d'en-tête HTTP pour une URL donnée. Toute instruction utilisable dans une balise Meta pour les robots peut également être utilisée comme instruction X-Robots-Tag. Voici un exemple de réponse HTTP avec une instruction X-Robots-Tag qui indique aux robots d'exploration de ne pas indexer une page :

HTTP/1.1 200 OK
Date: Tue, 25 May 2010 21:42:43 GMT
(…)
X-Robots-Tag: noindex
(…)

Plusieurs en-têtes X-Robots-Tag peuvent être combinés dans la réponse HTTP, ou vous pouvez spécifier une liste d'instructions séparées par des virgules. Voici un exemple de réponse d'en-tête HTTP avec une instruction X-Robots-Tag noarchive combinée à une instruction X-Robots-Tag unavailable_after.

HTTP/1.1 200 OK
Date: Tue, 25 May 2010 21:42:43 GMT
(…)
X-Robots-Tag: noarchive
X-Robots-Tag: unavailable_after: 25 Jun 2010 15:00:00 PST
(…)

Il est possible d'indiquer un user-agent avant les instructions dans un en-tête X-Robots-Tag. Par exemple, l'ensemble d'en-têtes HTTP X-Robots-Tag ci-dessous peut établir les conditions d'affichage d'une page dans les résultats de recherche pour différents moteurs de recherche :

HTTP/1.1 200 OK
Date: Tue, 25 May 2010 21:42:43 GMT
(…)
X-Robots-Tag: googlebot: nofollow
X-Robots-Tag: otherbot: noindex, nofollow
(…)

Les instructions sans user-agent sont valables pour tous les robots d'exploration. La rubrique ci-dessous explique comment gérer des instructions combinées. Le nom et les valeurs spécifiées ne sont pas sensibles à la casse.

Haut de page

Instructions d'indexation et d'affichage valides

Vous pouvez utiliser d'autres instructions pour contrôler l'indexation et l'affichage, à l'aide de la balise Meta pour les robots et de l'en-tête X-Robots-Tag. Chaque valeur représente une instruction spécifique. Le tableau suivant présente toutes les instructions que nous respectons et leur signification. Remarque : Il est possible que ces instructions ne soient pas traitées de la même façon par tous les robots d'exploration des moteurs de recherche. Vous pouvez combiner plusieurs instructions en une liste séparée par des virgules. Consultez la rubrique ci-dessous pour savoir comment gérer les instructions combinées. Ces instructions ne sont pas sensibles à la casse.

InstructionSignification
all Il n'existe pas de restrictions pour l'indexation ou l'affichage. Remarque : Cette instruction est la valeur par défaut, et il est inutile de l'indiquer explicitement.
noindex Ne pas afficher cette page dans les résultats de recherche et ne pas afficher de lien "En cache" dans les résultats de recherche.
nofollow Ne pas suivre les liens de cette page.
none Équivaut à noindex, nofollow.
noarchive Ne pas afficher de lien "En cache" dans les résultats de recherche.
nosnippet Ne pas afficher d'extrait de cette page dans les résultats de recherche.
noodp Ne pas utiliser les métadonnées de l'Open Directory project pour les titres ou les extraits de cette page.
notranslate Ne pas proposer la traduction de cette page dans les résultats de recherche.
noimageindex Ne pas indexer les images de cette page.
unavailable_after: [RFC-850 date/time] Ne pas afficher cette page dans les résultats de recherche après la date et l'heure indiquées. La date et l'heure doivent être spécifiées au format RFC 850.

Lorsque le fichier robots.txt (ou l'absence d'un tel fichier) permet d'explorer une page, par défaut les pages sont considérées comme explorables, indexables et archivables. Leur contenu peut être utilisé dans les extraits qui s'affichent dans les résultats de recherche, sauf en cas d'interdiction expresse dans une balise Meta pour les robots ou dans un en-tête X-Robots-Tag.

Haut de page

Gestion des instructions d'indexation et d'affichage combinées

Vous pouvez créer une instruction multiple en combinant les instructions des balises Meta pour les robots avec des virgules. Voici un exemple de balise Meta pour les robots qui indique aux robots d'exploration de ne pas indexer la page et de ne pas explorer les liens de la page :

<meta name="robots" content="noindex, nofollow">

Si plusieurs robots d'exploration et plusieurs instructions sont spécifiés, le moteur de recherche utilise la somme des instructions négatives. Par exemple :

<meta name="robots" content="nofollow">
<meta name="googlebot" content="noindex">

Lors de l'exploration, Googlebot considère que la page qui contient ces balises Meta possède une instruction noindex, nofollow.

Haut de page

Mise en œuvre pratique de l'instruction X-Robots-Tag avec Apache

Vous pouvez ajouter l'instruction X-Robots-Tag aux réponses HTTP d'un site en utilisant les fichiers .htaccess et httpd.conf qui sont disponibles par défaut sur les serveurs Web d'Apache. L'avantage d'utiliser un-tête X-Robots-Tag avec des réponses HTTP est de pouvoir spécifier des instructions d'exploration applicables à l'ensemble d'un site. La compatibilité avec les expressions régulières offre un haut niveau de flexibilité.

Par exemple, pour ajouter une instruction X-Robots-Tag noindex, nofollow à la réponse HTTP de tous les fichiers .PDF d'un site, ajoutez l'extrait suivant dans le fichier .htaccess ou httpd.conf à la racine du site :

<Files ~ "\.pdf$">
  Header set X-Robots-Tag "noindex, nofollow"
</Files>

Vous pouvez utiliser l'en-tête X-Robots-Tag pour les fichiers qui ne sont pas des HTML, comme les fichiers image, qui ne permettent pas d'utiliser des balises Meta pour les robots. L'exemple ci-dessous explique comment ajouter une instruction X-Robots-Tag noindex pour les fichiers image (.png, .jpeg, .jpg, .gif) d'un site entier :

<Files ~ "\.(png|jpe?g|gif)$">
  Header set X-Robots-Tag "noindex"
</Files>

Haut de page

Combiner les instructions d'exploration avec les instructions d'indexation/affichage

Les balises Meta pour les robots et les en-têtes HTTP X-Robots-Tag sont détectés lors de l'exploration d'une URL. Si une page est exclue de l'exploration par l'entremise d'un fichier robots.txt, alors toute information sur les instructions d'indexation ou d'affichage est introuvable et par conséquent ignorée. S'il est nécessaire de suivre des instructions d'indexation ou d'affichage, les URL qui contiennent ces instructions ne peuvent être exclues de l'exploration.

Haut de page

Envoyer des commentaires concernant…