Spécifications des balises Meta, de data-nosnippet et de X-Robots-Tag

Extrait

Cet article explique comment utiliser des paramètres au niveau de la page et au niveau du texte afin d'ajuster la présentation de votre contenu dans les résultats de recherche Google. Pour spécifier des paramètres au niveau d'une page, ajoutez une balise Meta dans la page HTML ou dans l'en-tête HTTP. Pour définir des paramètres au niveau du texte, vous pouvez utiliser l'attribut data- nosnippet au niveau des éléments HTML de la page.

Fonctionnement de la balise Meta pour les robots

La balise Meta pour les robots vous permet de contrôler avec précision la manière dont chaque page doit être indexée et présentée aux utilisateurs dans les résultats de recherche Google. Placez la balise Meta pour les robots dans la section <head> d'une page donnée, comme ceci :

<!DOCTYPE html>
<html><head>
<meta name="robots" content="noindex" />
(…)
</head>
<body>(…)</body>
</html>

Dans l'exemple ci-dessus, la balise Meta pour les robots indique à la plupart des moteurs de recherche de ne pas afficher la page dans les résultats de recherche. La valeur de l'attribut name (robots) indique que l'instruction s'applique à tous les robots. Pour cibler un robot d'exploration spécifique, remplacez la valeur robots de l'attribut name par le nom du robot d'exploration en question. Les robots d'exploration spécifiques sont également connus sous le nom de user-agents. Un robot d'exploration utilise son user-agent pour demander l'accès à une page. Le nom du user-agent de notre robot d'exploration standard est Googlebot. Si vous souhaitez empêcher uniquement Googlebot d'explorer votre page, mettez à jour la balise comme suit :

<meta name="googlebot" content="noindex" />

Cette balise indique désormais spécifiquement à Google de ne pas afficher cette page dans ses résultats de recherche. Les attributs name et content ne sont pas sensibles à la casse.

Il peut exister plusieurs robots d'exploration par moteur de recherche, en fonction des différentes propriétés ou des objectifs poursuivis. Consultez la liste complète de nos robots d'exploration. Par exemple, pour afficher une page dans les résultats de la recherche sur le Web Google, mais pas sur Google Actualités, utilisez la balise Meta suivante :

<meta name="googlebot-news" content="noindex" />

Pour spécifier plusieurs robots individuellement, insérez plusieurs balises Meta pour les robots :

<meta name="googlebot" content="noindex">
<meta name="googlebot-news" content="nosnippet">

Fonctionnement de l'en-tête HTTP X-Robots-Tag

L'instruction X-Robots-Tag peut faire partie des éléments de réponse d'en-tête HTTP pour une URL donnée. Toute instruction utilisable dans une balise Meta pour les robots peut également être utilisée comme instruction X-Robots-Tag. Voici un exemple de réponse HTTP avec une instruction X-Robots-Tag qui indique aux robots d'exploration de ne pas indexer une page :

HTTP/1.1 200 OK
Date: Tue, 25 May 2010 21:42:43 GMT
(…)
X-Robots-Tag: noindex
(…)

Plusieurs en-têtes X-Robots-Tag peuvent être combinés dans la réponse HTTP, ou vous pouvez spécifier une liste d'instructions séparées par des virgules. Voici un exemple de réponse HTTP qui associe un en-tête noarchive X-Robots-Tag à un en-tête unavailable_after X-Robots-Tag.

HTTP/1.1 200 OK
Date: Tue, 25 May 2010 21:42:43 GMT
(…)
X-Robots-Tag: noarchive
X-Robots-Tag: unavailable_after: 25 Jun 2010 15:00:00 PST
(…)

Il est possible d'indiquer un user-agent avant les instructions dans un en-tête X-Robots-Tag. Par exemple, l'ensemble suivant d'en-têtes HTTP X-Robots-Tag peut être utilisé pour autoriser la diffusion conditionnelle d'une page dans les résultats de recherche pour différents moteurs de recherche :

HTTP/1.1 200 OK
Date: Tue, 25 May 2010 21:42:43 GMT
(…)
X-Robots-Tag: googlebot: nofollow
X-Robots-Tag: otherbot: noindex, nofollow
(…)

Les instructions sans user-agent sont valables pour tous les robots d'exploration. L'en-tête HTTP, le nom du user-agent et les valeurs spécifiées ne sont pas sensibles à la casse.

Instructions d'indexation et d'affichage valides

Vous pouvez utiliser les instructions suivantes pour contrôler l'indexation et l'affichage, à l'aide de la balise Meta pour les robots et de l'en-tête X-Robots-Tag. Chaque valeur représente une instruction spécifique. Le tableau suivant présente toutes les instructions que nous respectons et leur signification. Vous pouvez combiner plusieurs instructions dans une liste séparée par des virgules. Ces instructions ne sont pas sensibles à la casse. Dans les résultats de recherche, les extraits sont des aperçus textuels permettant aux internautes de déterminer la pertinence d'une page par rapport à leur requête.

Instructions

all
Il n'existe pas de restrictions pour l'indexation ou l'affichage. Notez que cette instruction correspond à la valeur par défaut. Il est inutile de l'indiquer explicitement.
noindex
Indique de ne pas afficher cette page dans les résultats de recherche.
nofollow
Indique de ne pas suivre les liens de cette page.
none
Équivaut à noindex, nofollow.
noarchive
Indique de n'afficher aucun lien mis en cache dans les résultats de recherche.
nosnippet
Indique de ne pas afficher d'extrait ni d'aperçu vidéo de cette page dans les résultats de recherche. Une vignette d'image statique (le cas échéant) peut s'afficher pour améliorer l'expérience utilisateur. Cette configuration s'applique à tous les types de résultats de recherche Google, tels que la recherche sur le Web, Google Images ou Discover.
max-snippet:[number]

Remplacez la variable [number] par le nombre maximal de caractères que vous souhaitez appliquer à un extrait de texte pour ce résultat de recherche. Notez qu'une URL peut apparaître sous la forme de plusieurs résultats de recherche dans la recherche Google. Cette configuration n'affecte pas les aperçus d'image ou de vidéo, mais s'applique à tous les types de résultats de recherche Google, tels que la recherche sur le Web, Google Images, Discover ou l'Assistant Google. Toutefois, cette limite n'est pas prise en compte si une autorisation distincte a été explicitement accordée par l'éditeur. Par exemple, si l'éditeur utilise des données structurées sur la page pour régir la taille des extraits ou s'il dispose d'un contrat de licence avec Google, ces autorisations spécifiques supplantent l'instruction "max:snippet". Notez, par ailleurs, que cette instruction est ignorée si aucune variable [number] correcte n'est spécifiée.

Valeurs spéciales :

  • 0 : aucun extrait ne doit s'afficher. Équivaut à nosnippet.
  • -1 : la longueur de l'extrait est illimitée.
  • Exemple :

    <meta name="robots" content="max-snippet:20">
    max-image-preview:[setting]

    Définissez la taille maximale d'un aperçu d'image pour cette page dans les résultats de la recherche.

    Les valeurs setting acceptées sont les suivantes :

  • none : aucun aperçu d'image ne doit s'afficher.
  • standard : un aperçu d'image par défaut peut s'afficher.
  • large : un aperçu d'image de grande taille pouvant s'étendre sur toute la largeur de la fenêtre d'affichage peut apparaître.
  • Cela s'applique à tous les types de résultats de recherche (tels que Google web search, Google Images, Discover, Assistant). Toutefois, cette limite ne s'applique pas dans le cas où un éditeur a accordé une autorisation d'utilisation distincte du contenu. Par exemple, si l'éditeur fournit du contenu sous forme de données structurées sur la page (telles que des versions AMP et canoniques d'un article) ou dispose d'un contrat de licence avec Google, ce paramètre n'interrompra pas les utilisations autorisées plus spécifiques

    Les éditeurs qui ne souhaitent pas que Google utilise des vignettes plus grandes lorsque leurs pages AMP et la version canonique d'un article sont affichées dans la recherche et dans Discover peuvent définir l’attribut max-image-preview sur «standard» ou «none» dans les paramètres Meta pour les robots.

    Exemple :

    <meta name="robots" content="max-image-preview:standard">
    max-video-preview:[number]

    Remplacez la variable [number] par le nombre maximal de secondes que vous souhaitez appliquer à un extrait vidéo pour ce résultat de recherche.

    Autres valeurs acceptées :

  • 0 : une image statique peut être utilisée tout au plus, conformément au paramètre max-image-preview défini.
  • -1 : la durée de l'extrait vidéo est illimitée.
  • Cette configuration s'applique à tous les types de résultats de recherche Google, tels que la recherche sur le Web, Google Images, Discover ou l'Assistant Google. Notez, par ailleurs, que cette instruction est ignorée si aucune variable [number] correcte n'est spécifiée.

    Exemple :

    <meta name="robots" content="max-video-preview:-1">
    notranslate
    Indique de ne pas proposer la traduction de cette page dans les résultats de recherche.
    noimageindex
    Indique de ne pas indexer les images de cette page.
    unavailable_after: [RFC-850 date/time]

    Indique de ne pas afficher cette page dans les résultats de recherche après la date et l'heure indiquées. La date et l'heure doivent respecter le format RFC 850. Cette instruction est ignorée si aucune variable [date/time] correcte n'est spécifiée. Par défaut, aucune date d'expiration du contenu n'est définie.

    Exemple :

    <meta name="robots" content="unavailable_after: Sunday, 01-Sep-24 01:00:00 PDT">

    Gestion des instructions d'indexation et d'affichage combinées

    Vous pouvez créer une instruction multiple en combinant les instructions des balises Meta pour les robots avec des virgules. Voici un exemple de balise Meta pour les robots qui indique aux robots d'exploration de ne pas indexer la page et de ne pas explorer les liens de la page :

    <meta name="robots" content="noindex, nofollow">
    

    Voici un exemple qui limite l'extrait de texte à 20 caractères et autorise l'affichage d'un aperçu d'image de grande taille :

    <meta name="robots" content="max-snippet:20, max-image-preview:large">
    

    Si plusieurs robots d'exploration et plusieurs instructions sont spécifiés, le moteur de recherche utilise la somme des instructions négatives. Exemple :

    <meta name="robots" content="nofollow">
    <meta name="googlebot" content="noindex">
    

    Lors de l'exploration, Googlebot considère que la page qui contient ces balises Meta possède une instruction noindex, nofollow.

    Fonctionnement de l'attribut HTML data-nosnippet

    L'attribut data-nosnippet entrera en vigueur fin 2019.

    Il permet de désigner des parties textuelles d'une page HTML à ne pas utiliser comme extrait. Pour ce faire, utilisez l'attribut HTML data-nosnippet au niveau des éléments HTML span, div ou section. Comme data-nosnippet est considéré comme un attribut booléen, il est valide avec ou sans valeur. Pour garantir la lisibilité par les machines, la section HTML concernée doit contenir un code HTML valide. De même, toutes les balises doivent être correctement fermées.

    Exemples :

    <p>This text can be shown in a snippet
     <span data-nosnippet>and this part would not be shown</span>.</p>
    
    <div data-nosnippet>not in snippet</div>
    <div data-nosnippet="true">also not in snippet</div>
    
    <div data-nosnippet>some text</html>
    <!-- unclosed "div" will include all content afterwards -->
    
    <mytag data-nosnippet>some text</mytag>
    <!-- NOT VALID: not a span, div, or section -->
    

    Google effectue généralement le rendu des pages afin de les indexer, mais ce n'est pas systématique. De ce fait, l'extraction de l'instruction data-nosnippet peut avoir lieu avant et après le rendu. Pour éviter toute confusion, n'ajoutez pas et ne supprimez pas non plus l'attribut data-nosnippet des nœuds existants via JavaScript. Lors de l'ajout d'éléments DOM via JavaScript, si vous souhaitez inclure l'attribut data-nosnippet, faites-le lors de l'ajout initial de l'élément au modèle DOM de la page. Si des éléments personnalisés sont utilisés et que vous devez spécifier l'attribut data- nosnippet, encapsulez-les ou effectuez leur rendu avec des éléments div, span ou section.

    Fonctionnement des données structurées

    Les balises Meta pour les robots déterminent la quantité de contenu que Google extrait automatiquement des pages Web et que nous affich en tant que résultat de recherche. Toutefois, de nombreux éditeurs utilisent également les données structurées schema.org pour permettre à des informations spécifiques d'apparaître sous forme de résultat enrichi dans la recherche. Les limitations liées aux balises Meta pour les robots n'ont aucune incidence sur l'utilisation de ces données structurées. Pour gérer les données structurées de vos pages Web, il vous suffit de modifier les types de données structurées et les valeurs elles-mêmes. En d'autres termes, il suffit d'ajouter ou de supprimer des informations de sorte à ne fournir que les données qui vous intéressent. Notez également que les données structurées peuvent être utilisées pour les résultats de recherche même lorsqu'elles sont déclarées dans un élément data-nosnippet.

    Mise en œuvre pratique de X-Robots-Tag

    Vous pouvez ajouter X-Robots-Tag aux réponses HTTP d'un site à l'aide des fichiers de configuration de son logiciel de serveur Web. Par exemple, sur les serveurs Web basés sur Apache, il s'agit des fichiers .htaccess et httpd.conf. L'avantage d'utiliser un-tête X-Robots-Tag avec des réponses HTTP est de pouvoir spécifier des instructions d'exploration applicables à l'ensemble d'un site. La compatibilité avec les expressions régulières offre, par ailleurs, un haut niveau de flexibilité.

    Par exemple, pour ajouter une instruction noindex, nofollow X-Robots-Tag à la réponse HTTP de tous les fichiers .PDF d'un site, ajoutez l'extrait suivant dans le fichier .htaccess ou httpd.conf à la racine du site sur Apache ou au fichier .conf du site sur NGINX :

    Apache :

    <Files ~ "\.pdf$">
      Header set X-Robots-Tag "noindex, nofollow"
    </Files>
    

    NGINX :

    location ~* \.pdf$ {
      add_header X-Robots-Tag "noindex, nofollow";
    }
    

    Vous pouvez utiliser l'en-tête X-Robots-Tag pour les fichiers qui ne sont pas au format HTML, comme les fichiers image, qui ne permettent pas d'utiliser des balises Meta pour les robots. L'exemple ci-dessous explique comment ajouter une instruction noindex X-Robots-Tagpour les fichiers image (.png, .jpeg, .jpg, .gif) d'un site entier :

    Apache :

    <Files ~ "\.(png|jpe?g|gif)$">
      Header set X-Robots-Tag "noindex"
    </Files>
    

    NGINX :

    location ~* \.(png|jpe?g|gif)$ {
      add_header X-Robots-Tag "noindex";
    }
    

    Combinaison des instructions d'exploration avec les instructions d'indexation/affichage

    Les balises Meta pour les robots et les en-têtes HTTP X-Robots-Tag sont détectés lors de l'exploration d'une URL. Si une page est exclue de l'exploration par l'entremise d'un fichier robots.txt, toute information sur les instructions d'indexation ou d'affichage est introuvable et par conséquent ignorée. S'il est nécessaire de suivre des instructions d'indexation ou d'affichage, les URL qui contiennent ces instructions ne peuvent être exclues de l'exploration.