Remarque sur les règles non acceptées dans le fichier robots.txt

Mardi 02 juillet 2019

Hier, nous avons annoncé que nous allons partager en Open Source notre analyseur robots.txt produit par Google. Ce fut un moment passionnant qui ouvre la voie à de futurs projets Open Source sur la Recherche. Vos commentaires sont utiles, et nous avons hâte de recueillir les questions des développeurs et des webmasters. Nous avons identifié une question que nous aborderons dans cet article :
Pourquoi le gestionnaire de code n'est-il pas inclus pour d'autres règles comme le délai d'exploration ?

Le brouillon Internet que nous avons publié hier fournit une architecture extensible pour les règles qui ne font pas partie de la norme. Cela signifie que les robots d'exploration qui souhaitent prendre en charge sa propre ligne, comme unicorns: allowed, peuvent le faire. Pour montrer à quoi cela ressemblerait, nous avons inclus une ligne très courante dans notre analyseur robots.txt Open Source.

Pendant que nous partageons notre bibliothèque d'analyseurs en Open Source, nous avons analysé l'utilisation des règles de robots.txt. En particulier, nous nous sommes concentrés sur les règles non compatibles avec le brouillon Internet, telles que crawl-delay, nofollow et noindex. Comme ces règles n'ont jamais été documentées par Google, leur utilisation en lien avec Googlebot est très faible. Pour aller plus loin, nous avons constaté que leur utilisation était contraire aux autres règles de 99.999 % des fichiers robots.txt sur Internet. Ces erreurs nuisent à la présence des sites Web dans les résultats de recherche Google, d'une manière que nous ne pensons pas que les webmasters avaient l'intention de le faire.

Pour maintenir un écosystème sain et nous préparer à de futures versions Open Source, nous supprimerons le 1er septembre 2019, tout code qui gère les règles non compatibles et non publiées (par exemple, noindex). Si vous avez utilisé la règle d'indexation noindex dans le fichier robots.txt, qui contrôle l'exploration, il existe plusieurs options :

  • noindex dans les balises meta robots : compatible avec les en-têtes de réponse HTTP et en HTML, la règle noindex est la plus efficace pour supprimer des URL de l'index lorsque l'exploration est autorisée.
  • Codes d'état HTTP 404 et 410 : les deux codes d'état signifient que la page n'existe pas, ce qui supprimera de telles URL de Google une fois qu'elles ont été explorées et traitées.
  • Protection par mot de passe : sauf si le balisage est utilisé pour indiquer un contenu soumis à un paywall ou accessible par abonnement, le masquage d'une page derrière une connexion entraîne généralement sa suppression de l'index Google.
  • Disallow dans robots.txt : les moteurs de recherche ne peuvent indexer que les pages qu'ils connaissent. Par conséquent, bloquer l'exploration de la page signifie généralement que son contenu ne sera pas indexé. dans le menu déroulant. Le moteur de recherche peut également indexer une URL à partir de liens provenant d'autres pages, mais pas le contenu lui-même. Toutefois, l'objectif est de réduire la visibilité de ces pages à l'avenir.
  • Outil de suppression d'URL dans la Search Console : cet outil vous permet de supprimer rapidement et facilement une URL des résultats de recherche Google.

Pour savoir comment supprimer des informations des résultats de recherche Google, consultez notre Centre d'aide. Si vous avez des questions, n'hésitez pas à nous contacter sur Twitter ou dans la communauté des webmasters, que ce soit hors connexion ou en ligne.