Présentation des robots d'exploration Google (user-agents)

L'expression "robot d'exploration" désigne tout programme qui permet de détecter et d'analyser automatiquement des sites Web en suivant des liens d'une page à une autre. Notre robot d'exploration principal s'appelle Googlebot. Le tableau ci-après répertorie les caractéristiques des robots d'exploration Google classiques qui peuvent figurer dans les fichiers journaux de votre URL de provenance, ainsi que la manière dont ils doivent être indiqués dans le fichier robots.txt, dans les balises Meta pour les robots et dans les instructions HTTP X-Robots-Tag.

Le tableau suivant présente les robots utilisés par divers produits et services Google :

  • Le jeton user-agent est utilisé dans la ligne User-agent: du fichier robots.txt pour indiquer le type de robot d'exploration lors de l'écriture des règles d'exploration pour votre site. Comme indiqué dans le tableau, certains robots utilisent plusieurs jetons. Un seul jeton de robot doit correspondre pour qu'une règle s'applique. Cette liste n'est pas exhaustive, mais couvre la plupart des robots que vous pouvez voir sur votre site Web.
  • La chaîne user-agent complète est une description complète du robot d'exploration. Elle apparaît dans la demande ainsi que dans vos journaux Web.
Robot d'exploration Jeton user-agent (jeton de produit) Chaîne user-agent complète
APIs-Google

APIs-Google

APIs-Google (+https://developers.google.com/webmasters/APIs-Google.html)
AdSense

Mediapartners-Google

Mediapartners-Google

AdsBot Mobile Web Android

(Vérifie la qualité des annonces sur les pages Web pour Android)

AdsBot-Google-Mobile

Mozilla/5.0 (Linux; Android 5.0; SM-G920A) AppleWebKit (KHTML, like Gecko) Chrome Mobile Safari (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)

AdsBot Mobile Web

(Vérifie la qualité des annonces sur les pages Web pour iPhone)

AdsBot-Google-Mobile

Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1 (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)

AdsBot

(Vérifie la qualité des annonces sur les pages Web pour ordinateur)

AdsBot-Google

AdsBot-Google (+http://www.google.com/adsbot.html)
Googlebot Image
  • Googlebot-Image
  • Googlebot
Googlebot-Image/1.0
Googlebot News
  • Googlebot-News
  • Googlebot
Googlebot-News
Googlebot Video
  • Googlebot-Video
  • Googlebot
Googlebot-Video/1.0

Googlebot pour ordinateur

Googlebot

  • Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
  • Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Googlebot/2.1; +http://www.google.com/bot.html) Chrome/W.X.Y.Z Safari/537.36

    ou (rarement utilisé) :
  • Googlebot/2.1 (+http://www.google.com/bot.html)

Googlebot pour smartphone

Googlebot

Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

Mobile AdSense

Mediapartners-Google

(Différents types d'appareils mobiles) (compatible; Mediapartners-Google/2.1 ; +http://www.google.com/bot.html)

Applications mobiles Android

(Vérifie la qualité des annonces sur les pages d'applications Android. Respecte les règles des robots AdsBot-Google.)

AdsBot-Google-Mobile-Apps

AdsBot-Google-Mobile-Apps

Feedfetcher

FeedFetcher-Google

Ne respecte pas les règles du fichier robots.txt : en savoir plus

FeedFetcher-Google; (+http://www.google.com/feedfetcher.html)

Google Read Aloud

Google-Read-Aloud

Ne respecte pas les règles du fichier robots.txt : en savoir plus

Agents actuels :

  • Agent pour ordinateur : Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.118 Safari/537.36 (compatible; Google-Read-Aloud; +https://developers.google.com/search/docs/advanced/crawling/overview-google-crawlers)
  • Agent mobile : Mozilla/5.0 (Linux; Android 7.0; SM-G930V Build/NRD90M) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.125 Mobile Safari/537.36 (compatible; Google-Read-Aloud; +https://developers.google.com/search/docs/advanced/crawling/overview-google-crawlers)

Ancien agent (obsolète) : google-speakr

Duplex sur le web

DuplexWeb-Google

Peut ignorer le caractère générique * (en savoir plus)

Mozilla/5.0 (Linux; Android 8.0; Pixel 2 Build/OPD3.170816.012; DuplexWeb-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.131 Mobile Safari/537.36

Google Favicon

(récupère les favicons pour divers services)

Google Favicon

Ignore les règles du fichier robots.txt pour les requêtes déclenchées par l'utilisateur.

Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.75 Safari/537.36 Google Favicon
Web Light

googleweblight

Ne respecte pas les règles du fichier robots.txt : en savoir plus

Mozilla/5.0 (Linux; Android 4.2.1; en-us; Nexus 5 Build/JOP40D) AppleWebKit/535.19 (KHTML, like Gecko; googleweblight) Chrome/38.0.1025.166 Mobile Safari/535.19
Google StoreBot Storebot-Google

Agent pour ordinateur : Mozilla/5.0 (X11; Linux x86_64; Storebot-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36

Agent mobile : Mozilla/5.0 (Linux; Android 8.0; Pixel 2 Build/OPD3.170816.012; Storebot-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Mobile Safari/537.36

User-agents dans le fichier robots.txt

Lorsque plusieurs user-agents sont reconnus dans le fichier robots.txt, Google suit le plus spécifique d'entre eux. Si vous souhaitez que tous nos robots d'exploration puissent explorer vos pages, vous n'avez pas besoin de fichier robots.txt. En revanche, si vous voulez bloquer ou autoriser l'accès de nos robots d'exploration à certains de vos contenus, vous pouvez indiquer Googlebot comme user-agent. Par exemple, si vous souhaitez que toutes vos pages s'affichent dans la recherche Google et que des annonces AdSense soient diffusées sur celles-ci, vous n'avez pas besoin de fichier robots.txt. De même, si vous souhaitez nous empêcher d'accéder à certaines pages, vous pouvez bloquer le user-agent Googlebot. Tous nos autres user-agents seront alors bloqués eux aussi.

Toutefois, vous pouvez contrôler l'exploration de vos pages de manière plus précise. Par exemple, vous souhaiterez peut-être que toutes vos pages s'affichent dans la recherche Google, mais que les images de votre répertoire personnel ne soient pas explorées. Dans ce cas, utilisez le fichier robots.txt pour interdire au user-agent Googlebot-Image d'explorer les fichiers de votre répertoire personnel (tout en autorisant Googlebot à explorer tous vos fichiers) :

User-agent: Googlebot
Disallow:

User-agent: Googlebot-Image
Disallow: /personal

Prenons un autre exemple. Supposons que vous souhaitiez voir s'afficher des annonces sur l'ensemble de vos pages. Toutefois, vous ne voulez pas que ces pages s'affichent dans la recherche Google. En utilisant ces lignes de code, vous bloquez Googlebot, mais autorisez le user-agent Mediapartners-Google :

User-agent: Googlebot
Disallow: /

User-agent: Mediapartners-Google
Disallow:

User-agents dans les balises Meta pour les robots

Certaines pages font appel à plusieurs balises Meta pour les robots afin d'indiquer les instructions destinées aux différents robots d'exploration :

<meta name="robots" content="nofollow">
<meta name="googlebot" content="noindex">

Dans cet exemple, nous utiliserons la somme des instructions d'exclusion et Googlebot suivra à la fois l'instruction noindex et l'instruction nofollow. En savoir plus sur la manière de contrôler l'exploration et l'indexation de votre site par nos services