Consolider les URL en double

Si l'une des pages de votre site est accessible via plusieurs URL, ou si différentes pages de votre site présentent un contenu similaire (par exemple, une page avec une version mobile et une version classique), Google les considère comme des versions en double de la même page. Google choisira une URL comme version canonique et c'est celle-ci qui sera explorée. Toutes les autres URL seront considérées comme des URL en double et explorées moins souvent.

Si vous n'indiquez pas explicitement à Google quelle est l'URL canonique, Google choisira la page canonique à votre place. Il pourrait aussi à tort considérer que toutes les pages similaires sont des doublons d'une même page, ce qui pourrait entraîner un comportement indésirable, comme expliqué dans la section Pourquoi choisir une URL canonique.

Comment Googlebot indexe et sélectionne l'URL canonique

Lorsque Googlebot indexe un site, il essaie de déterminer le contenu principal de chaque page. S'il trouve plusieurs pages d'un même site qui sont semblables, il choisit celle qui lui paraît la plus complète et utile, et la définit comme page canonique. La page canonique est explorée plus régulièrement. Les pages en double sont analysées moins souvent afin de réduire la charge d'exploration de Google sur votre site.

Google choisit la page canonique en fonction d'un certain nombre de facteurs (ou signaux), à savoir : si la page est diffusée ou non via le protocole HTTP ou HTTPS, la qualité de la page, la présence de l'URL dans un sitemap, et tout attribut rel=canonical. Vous pouvez utiliser ces techniques pour indiquer votre préférence à Google, mais Google peut choisir une autre page canonique pour diverses raisons.

Les différentes versions linguistiques d'une même page ne sont considérées comme des doublons que si le contenu principal est dans la même langue. En d'autres termes, si seuls l'en-tête, le pied de page et tout autre texte secondaire sont traduits, mais que le corps du texte reste le même, ces pages sont considérées comme des doublons.

Google utilise les pages canoniques comme sources principales pour évaluer le contenu et la qualité. Le résultat de recherche Google redirige généralement vers la page canonique, sauf si l'un des doublons répond plus précisément à la requête d'un utilisateur. Par exemple, le résultat de recherche redirigera probablement vers la page mobile si l'internaute utilise un appareil mobile, même si la page canonique est la page pour ordinateur.

Raisons légitimes pour lesquelles il est justifié de conserver des pages similaires ou en double

Vous pouvez avoir des raisons légitimes qui expliquent que votre site possède plusieurs URL dirigeant vers la même page, ou des pages en double ou très similaires présentant des URL différentes. Voici les raisons les plus courantes :

  • Pour assurer la compatibilité avec plusieurs types d'appareils :
    https://example.com/news/koala-rampage
    https://m.example.com/news/koala-rampage
    https://amp.example.com/news/koala-rampage
  • Pour créer des URL dynamiques pour des éléments comme les paramètres de recherche ou les identifiants de session :
    https://www.example.com/products?category=dresses&color=green
    https://example.com/dresses/cocktail?gclid=ABCD
    https://www.example.com/dresses/green/greendress.html
  • Si votre système de blog enregistre automatiquement plusieurs URL lorsque vous placez le même article dans plusieurs rubriques :
    https://blog.example.com/dresses/green-dresses-are-awesome/
    https://blog.example.com/green-things/green-dresses-are-awesome/
  • Si votre serveur est configuré pour diffuser le même contenu pour les variantes www/non-www et HTTP/HTTPS :
    http://example.com/green-dresses
    https://example.com/green-dresses
    http://www.example.com/green-dresses
    
  • Si le contenu de votre blog destiné à la syndication sur d'autres sites est reproduit partiellement ou intégralement sur ces domaines :
    https://news.example.com/green-dresses-for-every-day-155672.html (article syndiqué) https://blog.example.com/dresses/green-dresses-are-awesome/3245/ (article original)

Pourquoi choisir une URL canonique

Il est utile de choisir explicitement une page canonique parmi un ensemble de pages en double ou similaires pour plusieurs raisons :

  • Pour définir l'URL que vous souhaitez voir affichée dans les résultats de recherche. Vous préférez peut-être que les internautes accèdent à votre page produit présentant vos robes vertes via https://www.example.com/dresses/green/greendress.html plutôt que via https://example.com/dresses/cocktail?gclid=ABCD.
  • Pour regrouper des indicateurs de liens pour les pages similaires ou en double. Cela permet aux moteurs de recherche de regrouper les informations dont ils disposent concernant les URL individuelles (comme les liens vers ces dernières) en une seule URL favorite. Cela signifie que les liens d'autres sites qui redirigent vers http://example.com/dresses/cocktail?gclid=ABCD sont regroupés avec les liens vers https://www.example.com/dresses/green/greendress.html.
  • Pour simplifier le suivi des statistiques d'un seul produit/sujet. Avec différentes URL, il est plus difficile d'obtenir des données regroupées pour un contenu spécifique.
  • Pour gérer le contenu syndiqué. Si vous syndiquez votre contenu pour le publier sur d'autres domaines, assurez-vous que votre URL préférée apparaît dans les résultats de recherche.
  • Pour éviter de perdre du temps à explorer des pages en double. Pour que Googlebot exploite au mieux votre site, il est préférable de passer du temps à explorer les nouvelles pages (ou les pages mises à jour) de votre site, plutôt que d'explorer les versions classique et mobile des mêmes pages.

Identifier la page considérée comme canonique par Google

Utilisez l'outil d'inspection d'URL pour découvrir la page que Google considère comme étant canonique.

Définir une page canonique

Pour spécifier une URL canonique pour des URLs en double ou similaires, optez pour l'une des méthodes suivantes. Veillez à respecter les consignes générales.

Méthode et description
Balise rel=canonical <link>

Ajoutez une balise <link> au code de toutes les pages en double, redirigeant vers la page canonique.

Avantages :
  • Peut mettre en correspondance un nombre infini de pages en double.

Inconvénients :

  • Peut augmenter la taille de la page.
  • Gestion de la mise en correspondance complexe sur les sites volumineux ou sur ceux dont les URL changent souvent.
  • Fonctionne uniquement pour les pages HTML, pas pour les fichiers comme les PDF. Dans ce cas, vous pouvez utiliser l'en-tête HTTP rel=canonical.
En-tête HTTP rel=canonical

Envoyez un en-tête rel=canonical dans la réponse de votre page.

Avantages :

  • N'augmente pas la taille de la page.
  • Peut mettre en correspondance un nombre infini de pages en double.

Inconvénients :

  • Gestion de la mise en correspondance complexe sur les sites volumineux ou sur ceux dont les URL changent souvent.
Sitemap

Définissez vos pages canoniques dans un sitemap.

Avantages :

  • Facile à mettre en place et à gérer, surtout sur des sites volumineux.

Inconvénients :

  • Googlebot devra malgré tout trouver les pages en double associées à toutes les pages canoniques que vous désignez dans le sitemap.
  • Indicateur moins puissant pour Googlebot que la technique de mise en correspondance rel=canonical.
Redirection 301 Utilisez les redirections 301 pour indiquer à Googlebot qu'une URL de redirection constitue une meilleure version qu'une URL donnée. Utilisez cette méthode uniquement lorsque vous abandonnez une page en double.
Variante AMP Si l'une de vos variantes est une page AMP, vous devrez suivre les consignes AMP pour indiquer la page canonique et la variante AMP.

Consignes générales

Quelle que soit la méthode de choix de l'URL canonique utilisée, suivez ces consignes générales.

  • N'utilisez pas le fichier robots.txt pour la mise en forme canonique.
  • N'utilisez pas l'outil de suppression d'URL pour le choix de l'URL canonique, car il supprime toutes les versions d'une URL de la recherche.
  • Ne définissez pas différentes URL canoniques pour la même page, que vous utilisiez la même méthode ou non (par exemple, une URL dans un sitemap et une URL différente pour la même page avec l'attribut rel="canonical").
  • N'utilisez pas la balise noindex, car elle empêche la sélection d'une page canonique. Cette consigne s'applique à l'exclusion de la page d'un index, et non au choix d'une page canonique.
  • Ne définissez pas une page canonique si vous utilisez des balises "hreflang". Définissez une page canonique dans la même langue. S'il n'existe aucune page canonique dans la même langue, choisissez la meilleure langue de substitution possible.

  • Renvoyez les internautes vers une URL canonique plutôt que vers une URL dupliquée lorsque vous créez un lien sur votre site. Lorsque vous indiquez constamment l'URL que vous considérez comme canonique, Google comprend plus facilement votre préférence.

Préférer le HTTPS au HTTP pour les URL canoniques

Nous préférons définir une page HTTPS comme canonique plutôt que son équivalent HTTP, sauf en cas de problèmes ou d'indicateurs contradictoires. En voici quelques exemples :

  • La page HTTPS dispose d'un certificat SSL incorrect.
  • La page HTTPS contient des dépendances non sécurisées (autres que des images).
  • La page HTTPS redirige les internautes vers ou via une page HTTP.
  • La page HTTPS possède une balise link rel="canonical" vers la page HTTP.

Bien que nos systèmes préfèrent les pages HTTPS aux pages HTTP par défaut, vous pouvez vous assurer de ce comportement en effectuant l'une des actions suivantes :

  • Ajoutez des redirections sur la page HTTP vers la page HTTPS.
  • Ajoutez une balise link rel="canonical" sur la page HTTP vers la page HTTPS.
  • Mettez en œuvre le mécanisme HSTS.

Pour nous empêcher de définir à tort la page HTTP comme URL canonique, évitez les pratiques suivantes :

  • Utiliser des certificats TLS/SSL et des redirections HTTPS vers HTTP incorrects, car ils nous incitent à privilégier le protocole HTTP. La mise en œuvre du mécanisme HSTS ne saurait se substituer à cette nette préférence.
  • Inclure la page HTTP dans votre sitemap ou vos entrées "hreflang" plutôt que la version HTTPS.
  • Mettre en œuvre votre certificat SSL/TLS pour le mauvais hôte en affichant, par exemple, le certificat de www.example.com sur example.com. Le certificat doit correspondre à l'URL complète de votre site. Vous pouvez également utiliser un certificat générique utilisable pour plusieurs sous-domaines d'un domaine.

Utilisateurs avancés uniquement : indiquez à Google d'ignorer les paramètres dynamiques

Utilisez la gestion des paramètres pour indiquer à Googlebot les paramètres à ignorer lors de l'exploration. Le fait d'ignorer certains paramètres peut réduire le contenu en double dans l'index Google et faciliter l'exploration de votre site. Si vous indiquez, par exemple, que le paramètre sessionid doit être ignoré, Googlebot considérera les deux URL suivantes comme des doublons :

  • https://www.example.com/dresses/green.php?sessionid=273749
  • https://www.example.com/dresses/green.php

Pour indiquer qu'une page est un doublon d'une autre page, vous pouvez utiliser une balise <link> dans la section head de votre code HTML.

Imaginons que vous souhaitiez faire de https://example.com/dresses/green-dresses votre URL canonique, même si plusieurs URL permettent d'accéder à ce contenu. Suivez ces étapes pour indiquer que cette URL est canonique :

  1. Marquez toutes les pages en double avec une balise link rel="canonical".

    Ajoutez un élément <link> avec l'attribut rel="canonical" à la section <head> des pages en double, redirigeant vers la page canonique. Exemple :

    <link rel="canonical" href="https://example.com/dresses/green-dresses" />
  2. Si la page canonique possède une variante pour mobile, ajoutez-y une balise link rel="alternate" qui redirige vers la version mobile de la page :
    <link rel="alternate" media="only screen and (max-width: 640px)"  href="http://m.example.com/dresses/green-dresses">
  3. Ajoutez des attributs hreflang ou d'autres redirections appropriées pour la page.

Utilisez des chemins d'accès absolus plutôt que relatifs avec la balise link rel="canonical".

Utilisation conseillée : https://www.example.com/dresses/green/greendresss.html

Utilisation déconseillée : /dresses/green/greendress.html

Utiliser un en-tête HTTP rel="canonical"

Si vous pouvez configurer votre serveur, utilisez les en-têtes HTTP rel="canonical" (plutôt que des balises HTML) pour indiquer l'URL canonique des documents pris en charge par la recherche Google, y compris les formats non HTML tels que les fichiers PDF.

Pour le moment, Google n'accepte cette méthode que pour les résultats de recherche sur le Web.

Si vous intégrez un fichier PDF dans plusieurs URL, vous pouvez renvoyer un en-tête HTTP rel="canonical" pour indiquer à Googlebot quelle est l'URL canonique du fichier PDF :

Link: <http://www.example.com/downloads/white-paper.pdf>; rel="canonical"

Les recommandations pour l'en-tête HTTP rel="canonical" sont identiques à celles de la balise link rel="canonical". Conformément à la norme RFC2616, n'utilisez que des guillemets doubles dans l'en-tête HTTP rel="canonical".

Utiliser un sitemap

Choisissez une URL canonique pour chacune de vos pages et envoyez-les dans un sitemap. Toutes les pages répertoriées dans un sitemap sont suggérées en tant que pages canoniques ; Googlebot déterminera lesquelles sont en double, le cas échéant, en fonction de la similarité du contenu.

Nous ne garantissons pas que nous considérerons les URL du sitemap comme des URL canoniques, mais c'est un moyen simple de définir ce type d'URL pour un site volumineux. Par ailleurs, les sitemaps permettent d'indiquer facilement à Google les pages de votre site qui sont, pour vous, les plus importantes.

N'incluez pas de pages non canoniques dans un sitemap. Si vous utilisez un sitemap, indiquez uniquement les URL canoniques.

Utiliser des redirections 301 pour les URL obsolètes

Utilisez cette méthode lorsque vous souhaitez supprimer des pages en double en assurant une transition fluide.

Admettons qu'il est possible d'accéder à votre page de plusieurs manières :

  • https://example.com/home
  • https://home.example.com
  • https://www.example.com

Choisissez votre URL canonique parmi ces URL et utilisez des redirections 301 pour envoyer le trafic des autres URL vers l'URL choisie. Une redirection 301 côté serveur est le meilleur moyen de vous assurer que les internautes et les moteurs de recherche sont redirigés vers la bonne page. Le code d'état 301 signifie que la page a été déplacée de manière définitive vers un autre emplacement.

Si vous utilisez un service d'hébergement de sites Web, recherchez dans leur documentation la configuration des redirections 301.

Dépannage

Si une URL canonique correspond à une propriété qui ne vous appartient pas, vous ne pouvez pas voir le trafic généré pour la page en double. Voici quelques raisons courantes pour lesquelles une URL canonique peut faire partie d'une propriété distincte :

  • Variantes linguistiques marquées de manière incorrecte : si vous utilisez plusieurs sites Web qui diffusent sensiblement le même contenu et qui sont localisés dans différentes langues pour répondre aux besoins des utilisateurs à travers le monde, veillez à suivre les instructions relatives aux sites localisés.
  • Balises canoniques incorrectes : certains systèmes de gestion de contenu (CMS) ou leurs plug-ins peuvent utiliser de manière incorrecte les méthodes de choix de l'URL canonique pour renvoyer vers des URL sur des sites Web externes. Vérifiez que ce n'est pas le cas avec votre contenu. Si votre site indique une préférence inattendue en matière d'URL canonique (ce qui peut être dû à une utilisation incorrecte de rel="canonical" ou à une redirection 301), vous pouvez résoudre ce problème directement.
  • Serveurs configurés de manière inappropriée : certaines configurations inappropriées de l'hôte peuvent entraîner une sélection inattendue d'URL entre les domaines. Exemple :
    • Suite à une mauvaise configuration, un serveur peut afficher du contenu issu de a.com en réponse à une demande d'URL pour b.com.
    • Deux serveurs Web non liés entre eux peuvent afficher des pages de type "soft 404" identiques, sans que nous puissions les identifier comme des pages d'erreur.
  • Piratage malveillant : certaines attaques de sites Web insèrent du code qui entraîne l'affichage d'une redirection 301 HTTP, ou l'inclusion d'une balise link rel="canonical" inter-domaines dans la balise <head> HTML ou l'en-tête HTTP. Ce lien renvoie généralement vers une URL qui héberge du contenu malveillant ou du spam. Dans ce cas, nos algorithmes peuvent sélectionner l'URL qui pointe vers du contenu malveillant ou du spam à la place de l'URL qui figure sur le site Web piraté.
  • Site Web copycat : dans de rares cas, notre algorithme peut sélectionner une URL à partir d'un site externe hébergeant votre contenu sans votre autorisation. Si vous pensez qu'un autre site ne respecte pas les règles relatives aux droits d'auteur, vous pouvez contacter l'hébergeur du site pour lui demander de supprimer votre contenu. Vous pouvez également nous demander de supprimer de nos résultats de recherche la page qui porte atteinte à vos droits d'auteur en envoyant une demande DMCA (Digital Millennium Copyright Act).