Présentation des robots d'exploration et des extracteurs Google (user-agents)

Google utilise des robots d'exploration et des extracteurs pour effectuer des actions sur ses produits soit automatiquement, soit à la demande de l'utilisateur.

Le terme générique "robot d'exploration", ou plus simplement "robot", désigne tout programme qui permet de découvrir et d'analyser automatiquement des sites Web en suivant des liens d'une page Web à une autre. Le robot d'exploration principal de Google utilisé pour la recherche Google s'appelle Googlebot.

Les extracteurs, comme les navigateurs, sont des outils qui demandent une seule URL suite à la requête d'un utilisateur.

Les tableaux suivants présentent les robots d'exploration et extracteurs Google utilisés par différents produits et services. Vous pouvez également y voir comment les journaux d'URL de provenance s'affichent, ainsi que la manière de les spécifier dans le fichier robots.txt. Les listes ne sont pas exhaustives, elles ne couvrent que les demandeurs les plus courants pouvant apparaître dans les fichiers journaux.

  • Le jeton user-agent est utilisé dans la ligne User-agent: du fichier robots.txt pour indiquer le type de robot d'exploration lors de l'écriture des règles d'exploration pour votre site. Comme indiqué dans le tableau, certains robots utilisent plusieurs jetons. Un seul jeton de robot doit correspondre pour qu'une règle s'applique. Cette liste n'est pas exhaustive, mais couvre la plupart des robots d'exploration que vous êtes susceptible de voir sur votre site Web.
  • La chaîne user-agent complète est une description complète du robot d'exploration. Elle apparaît dans la requête HTTP ainsi que dans vos journaux Web.

Robots d'exploration courants

Les robots d'exploration courants de Google permettent de trouver des informations pour créer les index de recherche de Google, d'effectuer d'autres explorations spécifiques à un produit et de procéder à des analyses. Ils respectent toujours les règles du fichier robots.txt et explorent généralement les plages d'adresses IP publiées dans l'objet googlebot.json.

Robots d'exploration courants
Jeton user-agent Googlebot
Chaîne user-agent complète Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
Jeton user-agent Googlebot
Chaînes user-agent complètes
  • Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Googlebot/2.1; +http://www.google.com/bot.html) Chrome/W.X.Y.Z Safari/537.36
  • Rarement :
    • Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
    • Googlebot/2.1 (+http://www.google.com/bot.html)

Permet d'explorer les URL d'image pour Google Images et les produits qui en dépendent.

Jetons user-agent
  • Googlebot-Image
  • Googlebot
Chaîne user-agent complète Googlebot-Image/1.0

Googlebot-News utilise Googlebot pour explorer les articles d'actualités. Toutefois, il respecte son jeton user-agent historique, Googlebot-News.

Jetons user-agent
  • Googlebot-News
  • Googlebot
Chaîne user-agent complète Le user-agent Googlebot-News utilise les différentes chaînes de user-agents Googlebot.

Permet d'explorer les URL vidéo pour Google Vidéos et les produits qui en dépendent.

Jetons user-agent
  • Googlebot-Video
  • Googlebot
Chaîne user-agent complète Googlebot-Video/1.0

Google StoreBot explore certains types de pages, y compris, mais sans s'y limiter, les pages d'informations détaillées sur les produits, les pages du panier et les pages de règlement.

Jeton user-agent Storebot-Google
Chaînes user-agent complètes
  • Agent pour ordinateur :
    Mozilla/5.0 (X11; Linux x86_64; Storebot-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Safari/537.36
  • Agent mobile :
    Mozilla/5.0 (Linux; Android 8.0; Pixel 2 Build/OPD3.170816.012; Storebot-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36

Google-InspectionTool est le robot d'exploration utilisé par les outils de test de la Recherche, tels que le test des résultats enrichis et l'inspection des URL dans la Search Console. Hormis pour le user-agent et le jeton user-agent, il imite Googlebot.

Jetons user-agent
  • Google-InspectionTool
  • Googlebot
Chaîne user-agent complète
  • Mobile
    Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; Google-InspectionTool/1.0;)
  • Ordinateur
    Mozilla/5.0 (compatible; Google-InspectionTool/1.0;)

GoogleOther est le robot d'exploration générique dont différentes équipes produit peuvent se servir pour extraire du contenu accessible au public sur les sites. Par exemple, il peut être utilisé pour des explorations ponctuelles à des fins de recherche et de développement internes.

Jeton user-agent GoogleOther
Chaîne user-agent complète
  • Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; GoogleOther)
  • Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GoogleOther) Chrome/W.X.Y.Z Safari/537.36
  • GoogleOther

GoogleOther-Image est la version de GoogleOther optimisée pour extraire les URL d'images accessibles au public.

Jetons user-agent
  • GoogleOther-Image
  • GoogleOther
Chaîne user-agent complète GoogleOther-Image/1.0

GoogleOther-Video est la version de GoogleOther optimisée pour extraire des URL de vidéos accessibles au public.

Jetons user-agent
  • GoogleOther-Video
  • GoogleOther
Chaîne user-agent complète GoogleOther-Video/1.0

Google-CloudVertexBot explore les sites à la demande de leurs propriétaires lors de la création d'Agents Vertex AI.

Jetons user-agent
  • Google-CloudVertexBot
  • Googlebot
Sous-chaîne de l'user-agent Google-CloudVertexBot

Google-Extended est un jeton de produit autonome que les éditeurs Web peuvent utiliser pour choisir si leurs sites contribuent à améliorer les API génératives des applications Gemini et Vertex AI, y compris les futures générations de modèles qui alimentent ces produits. Google-Extended n'a aucune incidence sur l'inclusion ou le classement d'un site dans la recherche Google.

Jeton user-agent Google-Extended
Chaîne user-agent complète Google-Extended ne dispose pas d'une chaîne user-agent de requête HTTP distincte. L'exploration s'effectue à l'aide des chaînes user-agent Google existantes. Le jeton user-agent du fichier robots.txt est utilisé pour le contrôle.

Robots d'exploration spéciaux

Les robots d'exploration spéciaux sont utilisés par des produits spécifiques qui font l'objet d'un accord entre le site exploré et le produit concerné. Par exemple, AdsBot ignore le user-agent robots.txt global (*) avec l'autorisation de l'éditeur de l'annonce. Les robots d'exploration spéciaux peuvent ignorer les règles du fichier robots.txt. Ils fonctionnent donc sur une plage d'adresses IP différente de celle des robots d'exploration courants. Les plages d'adresses IP sont publiées dans l'objet special-crawlers.json.

Robots d'exploration spéciaux

User-agent utilisé par les API Google pour envoyer des messages de notification push. Ignore le user-agent global (*) dans le fichier robots.txt.

Jeton user-agent APIs-Google
Chaîne user-agent complète APIs-Google (+https://developers.google.com/webmasters/APIs-Google.html)

Vérifie la qualité des annonces sur les pages Web pour mobile. Ignore le user-agent global (*) dans le fichier robots.txt.

Jeton user-agent AdsBot-Google-Mobile
Chaîne user-agent complète Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)

Vérifie la qualité des annonces sur les pages Web pour ordinateur. Ignore le user-agent global (*) dans le fichier robots.txt.

Jeton user-agent AdsBot-Google
Chaîne user-agent complète AdsBot-Google (+http://www.google.com/adsbot.html)

Le robot AdSense visite votre site afin d'évaluer son contenu et de vous permettre ainsi de proposer des annonces pertinentes. Ignore le user-agent global (*) dans le fichier robots.txt.

Jeton user-agent Mediapartners-Google
Chaîne user-agent complète Mediapartners-Google

Le robot d'exploration AdSense pour mobile visite votre site afin d'évaluer son contenu et de vous permettre ainsi de proposer des annonces pertinentes. Ignore le user-agent global (*) dans le fichier robots.txt.

Jeton user-agent Mediapartners-Google
Chaîne user-agent complète (Various mobile device types) (compatible; Mediapartners-Google/2.1; +http://www.google.com/bot.html)

Le user-agent Google-Safety gère l'exploration spécifique aux abus, comme la détection de logiciels malveillants pour les liens publiés publiquement sur les propriétés Google. Ce user-agent ignore les règles du fichier robots.txt.

Chaîne user-agent complète Google-Safety

Extracteurs déclenchés par l'utilisateur

Les extracteurs déclenchés par l'utilisateur permettent d'exécuter une fonction d'extraction spécifique au produit. Par exemple, Google Site Verifier agit à la demande d'un utilisateur, ou un site hébergé sur Google Cloud (GCP) dispose d'une fonctionnalité qui permet à ses utilisateurs de récupérer un flux RSS externe. Étant donné que l'extraction a été demandée par un utilisateur, ces extracteurs ignorent généralement les règles du fichier robots.txt. Les plages d'adresses IP utilisées par les extracteurs déclenchés par l'utilisateur sont publiées dans les objets user-triggered-fetchers.json et user-triggered-fetchers-google.json.

Extracteurs déclenchés par l'utilisateur

Feedfetcher est utilisé pour l'exploration des flux RSS ou Atom pour Google Podcasts, Google Actualités et PubSubHubbub.

Jeton user-agent FeedFetcher-Google
Chaîne user-agent complète FeedFetcher-Google; (+http://www.google.com/feedfetcher.html)

Récupère et traite les flux que les éditeurs ont explicitement fournis via le Centre pour les éditeurs de Google à utiliser sur les pages de destination de Google Actualités.

Chaîne user-agent complète GoogleProducer; (+https://developers.google.com/search/docs/crawling-indexing/overview-google-crawlers#googleproducer)

À la demande de l'utilisateur, Google Read Aloud récupère et lit les pages Web à l'aide de la synthèse vocale.

Chaînes user-agent complètes

Agents actuels :

  • Agent pour ordinateur :
    Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.118 Safari/537.36 (compatible; Google-Read-Aloud; +https://support.google.com/webmasters/answer/1061943)
  • Agent mobile :
    Mozilla/5.0 (Linux; Android 7.0; SM-G930V Build/NRD90M) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.125 Mobile Safari/537.36 (compatible; Google-Read-Aloud; +https://support.google.com/webmasters/answer/1061943)

Ancien agent (obsolète) :

google-speakr

Google Site Verifier récupère les jetons de validation de la Search Console.

Chaîne user-agent complète Mozilla/5.0 (compatible; Google-Site-Verification/1.0)

Remarque concernant Chrome/W.X.Y.Z dans les user-agents

Chaque fois que vous voyez Chrome/W.X.Y.Z dans les chaînes du user-agent dans ce tableau, sachez que W.X.Y.Z est un espace réservé qui correspond à la version du navigateur Chrome utilisée par ce user-agent (par exemple, 41.0.2272.96). Ce numéro de version augmente au fil du temps afin de représenter la dernière version de Chromium utilisée par Googlebot.

Si vous effectuez une recherche dans vos journaux ou si vous filtrez votre serveur afin d'identifier un user-agent avec ce format, utilisez des caractères génériques pour le numéro de version au lieu de spécifier un numéro de version précis.

User-agents dans le fichier robots.txt

Lorsque plusieurs user-agents sont reconnus dans le fichier robots.txt, Google suit le plus spécifique d'entre eux. Si vous souhaitez que tous les robots d'exploration de Google puissent explorer vos pages, vous n'avez pas besoin de fichier robots.txt. En revanche, si vous voulez bloquer ou autoriser l'accès des robots d'exploration de Google à certains de vos contenus, vous pouvez indiquer Googlebot comme user-agent. Par exemple, si vous souhaitez que toutes vos pages s'affichent dans la recherche Google et que des annonces AdSense soient diffusées sur celles-ci, vous n'avez pas besoin de fichier robots.txt. De même, si vous souhaitez empêcher Google d'accéder à certaines pages, vous pouvez bloquer le user-agent Googlebot. Tous les autres user-agents de Google seront alors bloqués eux aussi.

Toutefois, vous pouvez contrôler l'exploration de vos pages de manière plus précise. Par exemple, vous souhaiterez peut-être que toutes vos pages s'affichent dans la recherche Google, mais que les images de votre répertoire personnel ne soient pas explorées. Dans ce cas, utilisez le fichier robots.txt pour interdire au user-agent Googlebot-Image d'explorer les fichiers de votre répertoire personnel (tout en autorisant Googlebot à explorer tous vos fichiers) :

User-agent: Googlebot
Disallow:

User-agent: Googlebot-Image
Disallow: /personal

Prenons un autre exemple. Supposons que vous souhaitiez voir s'afficher des annonces sur l'ensemble de vos pages. Toutefois, vous ne voulez pas que ces pages s'affichent dans la recherche Google. En utilisant ces lignes de code, vous bloquez Googlebot, mais autorisez le user-agent Mediapartners-Google :

User-agent: Googlebot
Disallow: /

User-agent: Mediapartners-Google
Disallow:

Contrôler la vitesse d'exploration

Chaque robot d'exploration Google accède aux sites à des fins spécifiques et à une fréquence qui varie. Google utilise des algorithmes pour déterminer la vitesse d'exploration optimale pour chaque site. Si un robot d'exploration Google explore votre site trop souvent, vous pouvez réduire sa vitesse d'exploration.

Robots d'exploration Google désactivés

Les robots d'exploration Google suivants ne sont plus utilisés et ne sont notés ici qu'à titre indicatif.

Robots d'exploration Google désactivés

Duplex sur le Web

Compatible avec le service Duplex sur le Web

Jeton user-agent DuplexWeb-Google
Chaîne user-agent complète Mozilla/5.0 (Linux; Android 11; Pixel 2; DuplexWeb-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.193 Mobile Safari/537.36

Web Light

Vérifiait de la présence de l'en-tête no-transform chaque fois qu'un utilisateur cliquait sur votre page dans la recherche, dans les conditions appropriées Le user-agent Web Light n'était utilisé que pour les requêtes de navigation explicites d'un visiteur humain. Il pouvait donc ignorer les règles du fichier robots.txt, qui bloquent les requêtes d'exploration automatisée.

Jeton user-agent googleweblight
Chaîne user-agent complète Mozilla/5.0 (Linux; Android 4.2.1; en-us; Nexus 5 Build/JOP40D) AppleWebKit/535.19 (KHTML, like Gecko; googleweblight) Chrome/38.0.1025.166 Mobile Safari/535.19

Vérifie la qualité des annonces sur les pages Web pour iPhone. Ignore le user-agent global (*) dans le fichier robots.txt.

Jeton user-agent AdsBot-Google-Mobile
Chaîne user-agent complète Mozilla/5.0 (iPhone; CPU iPhone OS 14_7_1 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/14.1.2 Mobile/15E148 Safari/604.1 (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)

Vérifie la qualité des annonces sur les pages d'applications Android. Respecte les règles des robots AdsBot-Google, mais ignore le user-agent global (*) dans le fichier robots.txt.

Jeton user-agent AdsBot-Google-Mobile-Apps
Chaîne user-agent complète AdsBot-Google-Mobile-Apps
Jetons user-agent
  • Googlebot-Image
  • Googlebot
Chaîne user-agent complète Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.75 Safari/537.36 Google Favicon