Rappels sur les robots : granularité au niveau de la page

Vendredi 14 mars 2025

Le fichier robots.txt permet aux propriétaires de sites de contrôler facilement les sections d'un site Web accessibles par les robots d'exploration. Pour aider les propriétaires de sites à indiquer plus précisément comment les moteurs de recherche et les robots d'exploration peuvent utiliser leurs pages, la communauté impliquée dans le développement des normes Web a créé les balises meta pour les robots en 1996, quelques mois seulement après la proposition des balises meta pour le HTML (et, de manière anecdotique, avant la création de Google). Plus tard, des en-têtes de réponse HTTP X-Robots-Tag ont été ajoutés. Ces instructions sont envoyées avec une URL. Les robots d'exploration ne peuvent donc les prendre en compte que si le fichier robots.txt ne leur interdit pas d'explorer l'URL. Ensemble, ils forment le protocole d'exclusion des robots (REP).

Présentation des balises meta pour les robots

Les balises (ou éléments) Meta permettent d'inclure des métadonnées lisibles par les machines. Les balises meta pour les robots sont un type de balise meta s'appliquant aux robots d'exploration, y compris aux robots d'exploration des moteurs de recherche. Elles indiquent si le contenu peut être indexé ou non et si les liens de la page doivent être suivis ou non pour l'exploration. Il est facile de fournir ces informations directement sur la page à l'aide de balises meta pour les robots.

Un protocole d'exclusion des robots pour n'importe quelle URL

Pour offrir le même niveau de contrôle pour les non HTML, l'en-tête de réponse HTTP X-Robots-Tag a été créé. Ces en-têtes HTTP font également partie du REP. L'en-tête prend en charge les mêmes valeurs que la balise meta pour les robots et peut être ajouté à n'importe quel contenu diffusé en ligne. En plus du HTML, Google accepte cet en-tête pour les contenus tels que les PDF, les fichiers de documents et même les images. La plupart de ces formats de fichier ne disposent pas d'un mécanisme équivalent aux balises meta. Un en-tête de réponse HTTP est donc utile.

Premiers pas avec les en-têtes et les balises meta pour les robots

La syntaxe est simple et extensible. Les règles sont généralement implémentées par le développeur Web ou via un système de gestion de contenu (CMS), où les propriétaires de sites peuvent avoir des cases à cocher ou des menus déroulants pour sélectionner leurs préférences. Ces commandes peuvent cibler un robot d'exploration spécifique, tel que Googlebot, ou, en omettant un nom spécifique, tous les robots d'exploration compatibles avec ces valeurs.

Par exemple, les règles suivantes indiquent à tous les robots d'exploration de ne pas utiliser la page associée pour l'indexation :

  • Sous la forme d'une balise meta pour HTML, sur une page Web:
    <meta name="robots" content="noindex">

    L'examen des balises meta ou des en-têtes de réponse existants est un peu plus complexe et nécessite un examen direct du contenu ou des en-têtes de la page. Vous pouvez afficher les balises meta pour HTML sur n'importe quelle page en consultant la source de la page dans votre navigateur ou en utilisant les outils pour les développeurs de Chrome pour inspecter la page.

  • Sous la forme d'un en-tête de réponse HTTP :
    X-Robots-Tag: noindex

    Vous pouvez vérifier les en-têtes de réponse HTTP pour chaque URL à l'aide des outils pour les développeurs de Chrome, dans le panneau "Network".

Voici d'autres exemples de ce que vous pouvez faire :

Ne pas afficher d'extrait pour cette page ou ce document.

Dans l'en-tête HTTP :
X-Robots-Tag: nosnippet
ou en HTML :
<meta name="robots" content="nosnippet">

N'indexez pas cette page dans ExampleBot-News sans spécifier de préférence pour d'autres pages.

Ces commandes spécifient explicitement un robot d'exploration.

X-Robots-Tag: examplebot-news: noindex
ou
<meta name="examplebot-news" content="noindex">

ExampleBot ne doit pas afficher d'extrait, et aucun robot d'exploration ne doit suivre les liens de cette page.

Notez que les directives les plus restrictives et valides s'appliquent. Par conséquent, pour ExampleBot, la directive sera combinée sous la forme "nosnippet, nofollow".

X-Robots-Tag: examplebot: nosnippet
X-Robots-Tag: nofollow
ou
<meta name="examplebot" content="nosnippet">
<meta name="robots" content="nofollow">

Choisir un mécanisme REP

Comment choisir le mécanisme à utiliser ? Fondamentalement, les commandes au niveau de la page et du fichier robots.txt sont similaires, mais pas totalement interchangeables. Parfois, une action spécifique n'est possible qu'avec l'un des mécanismes. C'est le cas par exemple si vous souhaitez arrêter l'exploration (pour les pages de résultats de recherche sans fin, par exemple, ce qui est possible avec robots.txt), si vous avez besoin d'un contrôle pour un serveur FTP (ce qui est possible avec robots.txt) ou si vous ne souhaitez pas qu'un extrait s'affiche pour une page (ce qui n'est possible qu'avec les éléments au niveau de la page). Si vous n'avez pas besoin de faire la différence entre le blocage de l'exploration et le blocage de l'indexation, vous pouvez utiliser le fichier robots.txt pour des contrôles plus larges (pour bloquer de grandes parties d'un site Web) et les contrôles au niveau de la page pour bloquer des pages individuelles.

Le protocole d'exclusion des robots, une norme puissante et évolutive

Toutes ces commandes sont extensibles par nature. Au fil des ans, les propriétaires de sites, les opérateurs de robots d'exploration et les moteurs de recherche ont collaboré pour les faire évoluer. Historiquement, la norme a commencé avec quelques valeurs, dont noindex et nofollow, puis d'autres valeurs comme nosnippet, noarchive et max-snippet: ont été adoptées. Parfois, des valeurs sont obsolètes, comme c'était le cas avec noodp, qui utilisait des extraits de DMOZ/Open Directory Project avant la fermeture du répertoire. Google propose une multitude de valeurs aux propriétaires de sites, et les autres opérateurs principaux de robots d'exploration en proposent tout autant.

Dans le cadre du REP, les propriétaires de sites peuvent contrôler le contenu exploré et la façon dont les données explorées sont utilisées dans les moteurs de recherche. Ils peuvent le faire de manière globale pour des parties plus importantes de sites Web ou de manière très précise, pour des pages individuelles, voire pour des images sur des pages. Ces commandes sont bien connues, disponibles dans tous les systèmes de gestion de contenu courants, largement compatibles avec les opérateurs commerciaux et utilisées sur des milliards d'hôtes sur Internet aujourd'hui.


Découvrez le reste de la série de rappels sur les robots :