Googlebot

Googlebot est le nom générique du robot d'exploration de Google. Il désigne deux types de robots d'exploration distincts : l'un qui simule un internaute sur un ordinateur, tandis que l'autre simule un utilisateur sur un appareil mobile.

Votre site Web est probablement exploré par les deux types de robots d'exploration de Google : Googlebot pour ordinateur et Googlebot pour smartphone. Pour identifier le sous-type Googlebot, consultez la chaîne user-agent dans la demande. Toutefois, les deux types de robots reposent sur le même jeton de produit (jeton user-agent) dans le fichier robots.txt. Par conséquent, ce fichier ne vous permet pas de déterminer le type de robot d'exploration utilisé (version pour ordinateur ou pour mobile).

Si votre site a été converti en version orientée mobile sur Google, la majorité des demandes d'exploration Googlebot est effectuée à l'aide du robot pour mobile, tandis qu'une minorité est traitée par le robot pour ordinateur. Pour les sites qui n'ont pas encore été convertis, la plupart des explorations sont effectuées à l'aide du robot pour ordinateur. Dans les deux cas, le robot minoritaire explore uniquement les URL déjà traitées par le robot d'exploration majoritaire.

Comment Googlebot accède-t-il à votre site ?

Dans la plupart des cas, les accès de Googlebot à votre site devraient être espacés de plusieurs secondes en moyenne. Cependant, des retards peuvent accroître légèrement cette fréquence sur de courtes périodes.

Googlebot est conçu pour être exécuté simultanément sur plusieurs machines afin d'améliorer les performances et de s'adapter à la croissance du Web. En outre, pour limiter l'utilisation de la bande passante, nous exécutons de nombreux robots d'exploration sur des machines situées à proximité des sites qu'ils peuvent être amenés à explorer. Par conséquent, vos fichiers journaux peuvent indiquer des visites de plusieurs machines sur google.com, toutes avec le user-agent Googlebot. Notre objectif est d'explorer autant de pages de votre site que possible à chaque visite, sans surcharger la bande passante de votre serveur. Si votre site rencontre des difficultés pour répondre aux demandes d'exploration de Google, vous pouvez demander une modification de la vitesse d'exploration.

En règle générale, Googlebot effectue l'exploration via HTTP/1.1. Toutefois, depuis novembre 2020, le protocole HTTP/2 peut être utilisé pour les sites qui peuvent en bénéficier, dans la mesure où ils acceptent ce protocole. Cela contribue à économiser les ressources informatiques (par exemple, le processeur et la mémoire RAM) pour les sites concernés et pour Googlebot, sans affecter leur indexation ni leur classement.

Pour désactiver l'exploration via HTTP/2, demandez au serveur qui héberge votre site de répondre avec un code d'état HTTP 421 lorsque Googlebot tente d'explorer votre site via ce protocole. En cas d'échec, vous pouvez envoyer un message à l'équipe Googlebot (notez toutefois que cette solution est temporaire).

Empêcher Googlebot d'accéder à votre site

Il est quasiment impossible de garder un serveur Web secret en évitant de publier des liens qui pointent vers celui-ci. Dès lors qu'un internaute clique sur un lien de votre serveur "secret" vers un autre serveur Web, votre URL "secrète" peut s'afficher dans la balise de provenance, puis être enregistrée et publiée dans un fichier journal de cet autre serveur Web. De même, le Web contient de nombreux liens obsolètes ou non fonctionnels. Dès lors que quelqu'un publie un lien incorrect vers votre site ou ne met pas à jour les liens suite à des modifications sur votre serveur, Googlebot essaie d'explorer ces liens incorrects.

Si vous souhaitez empêcher Googlebot d'explorer le contenu de votre site, plusieurs possibilités s'offrent à vous. Assurez-vous de bien comprendre les différentes options : vous pouvez empêcher Googlebot d'explorer une page, l'empêcher d'indexer une page ou bien rendre une page complètement inaccessible, que ce soit par un robot d'exploration ou un utilisateur.

Validation de Googlebot

Avant de bloquer Googlebot, sachez que la chaîne user-agent utilisée par Googlebot est souvent falsifiée par d'autres robots. Il est important de vérifier que la demande posant problème provient bien de Google. Le meilleur moyen de vérifier qu'une requête provient bien de Googlebot est d'utiliser une résolution DNS inversée sur l'IP source de la requête.

Googlebot, comme tous les robots d'exploration sérieux, respecte les directives du fichier robots.txt. En revanche, certains spammeurs ou certaines personnes mal intentionnées ne le font pas. Google lutte continuellement contre le spam. Si vous remarquez des pages ou sites de spam dans les résultats de recherche Google, vous pouvez nous signaler du spam.