Ce qu'il faut savoir sur l'exploration du Web par Google

Google explore le Web ouvert depuis plus de 30 ans. Nous recevons régulièrement des questions sur le fonctionnement de nos robots d'exploration. Pour répondre à certaines de ces questions, voici quelques informations sur les robots d'exploration Google et sur la façon dont ils nous aident à organiser les informations à l'échelle mondiale et à mettre les utilisateurs en relation avec des contenus provenant de l'ensemble du Web.

Qu'est-ce que l'exploration ? En bref, l'exploration est la façon dont Google "voit" le Web.

L'exploration consiste à utiliser un logiciel automatisé pour découvrir de nouvelles pages Web et les comprendre. Ainsi, lorsque vous venez sur Google pour trouver une page Web, nous savons qu'elle existe et nous pouvons l'inclure dans vos résultats de recherche. Tous les moteurs de recherche s'appuient sur l'exploration pour savoir quelles pages et quelles informations peuvent exister. Pour en savoir plus, regardez notre vidéo sur la façon dont la recherche Google explore les pages.

Nous disposons de nombreux robots d'exploration, chacun ayant une tâche importante à accomplir

Googlebot est notre robot d'exploration le plus connu. Il est utilisé pour que les résultats de la recherche Google soient toujours à jour. Nous disposons également de robots d'exploration spécifiques à nos autres surfaces, comme Google Images et Google Shopping. Nous fournissons une documentation complète sur nos robots d'exploration les plus couramment utilisés et leur fonction. Nos robots d'exploration utilisent des noms d'user-agent facilement identifiables et des adresses Internet connues. Les propriétaires de sites peuvent ainsi être sûrs que les robots d'exploration Google qu'ils voient sont légitimes.

Nous effectuons des explorations répétées pour trouver les dernières mises à jour et fournir les résultats de recherche les plus récents.

Pour détecter les articles d'alerte info, nous pouvons réexplorer les pages d'accueil des sites d'actualités toutes les quelques minutes. Dans d'autres cas, nous avons peut-être constaté que rien n'a changé depuis des années. Nous pouvons donc attendre un mois avant de procéder à une nouvelle exploration. Les propriétaires de sites peuvent influencer la fréquence de réexploration à l'aide de fichiers sitemap qui nous informent des pages nouvelles et mises à jour.

Exploration fréquente ? C'est bon signe !

Si nous explorons souvent votre site, cela signifie que vos pages contiennent du contenu récent ou très pertinent que les internautes souhaitent trouver, et que nos systèmes reconnaissent cette demande. Les achats en ligne en sont un excellent exemple : nous explorons souvent les sites d'e-commerce pour que nos résultats affichent les prix, les promotions et l'état des stocks les plus récents des marchands.

L'exploration de Google s'est développée progressivement à mesure que les pages sont devenues plus complexes

Une autre raison pour laquelle nous réexplorons fréquemment les pages est de comprendre pleinement leur richesse et ce qu'elles proposent. Nos robots d'exploration utilisent une technique appelée "affichage", qui charge un site dans son intégralité pour "voir" une page comme le ferait une personne réelle. Avec le temps, les pages Web sont devenues plus sophistiquées. La taille médiane des pages mobiles est passée de 816 kilo-octets à 2,3 mégaoctets et elles nécessitent désormais le chargement de plus de 60 fichiers différents, des images aux composants interactifs. Pour obtenir un aperçu représentatif d'une page Web dans toute sa splendeur, nous devons parfois l'explorer plusieurs fois, voire plus, car de nouveaux éléments sont ajoutés en permanence.

Nous optimisons l'exploration automatiquement

Nos robots d'exploration sont conçus pour être efficaces et s'ajustent pour minimiser l'impact sur les propriétaires de sites. Par exemple, lorsqu'un site ralentit ou renvoie des erreurs, notre vitesse d'exploration change automatiquement pour éviter de surcharger les serveurs du site. Nous essayons de limiter l'exploration inutile en mettant en cache le contenu exploré. À mesure que nos robots d'exploration découvrent davantage de pages d'un site Web, ils sont également en mesure d'identifier les sections qui peuvent être couvertes avec moins d'exploration. Par exemple, les calendriers qui vont jusqu'à l'année 9999 n'ont probablement pas besoin d'être explorés dans leur intégralité. Les propriétaires de sites peuvent aider en identifiant les contenus qui n'ont pas besoin d'être explorés. Cela permet aux sites Web de faire des économies en réduisant leurs coûts d'infrastructure et de rendre Internet plus efficace dans son ensemble.

Les robots d'exploration Google n'accèdent jamais aux contenus soumis à un paywall ou un abonnement sans autorisation

Par défaut, si une page n'est pas accessible sur le Web ouvert (par exemple, si le contenu est protégé par une page de connexion), nos robots d'exploration ne peuvent pas y accéder non plus. Nous avons élaboré des conseils spécifiques pour les propriétaires de sites qui souhaitent accorder explicitement à Google l'autorisation d'accéder aux pages d'abonnement (par exemple, pour que Google puisse rediriger les utilisateurs vers ce contenu). Si vous choisissez d'accorder à nos robots d'exploration l'accès aux contenus soumis à un abonnement, vous pouvez utiliser des données structurées pour continuer à afficher un écran de connexion aux visiteurs humains sans enfreindre nos règles concernant le spam. Vous pouvez également empêcher le contenu réservé aux abonnés d'apparaître dans les aperçus de pages en utilisant les commandes d'aperçu.

Les propriétaires de sites peuvent contrôler ce qui est exploré et comment

Nous respectons les normes du Web ouvert, comme robots.txt, un fichier texte simple qui permet aux propriétaires de sites de déclarer comment les robots d'exploration comme le nôtre doivent interagir avec leurs pages. Le fichier robots.txt, ainsi que les balises Meta pour les robots, permettent aux sites Web d'indiquer facilement à Google et à d'autres services comment accéder à leurs contenus. Ils peuvent empêcher l'affichage de pages dans la Recherche. Ils peuvent nous indiquer les nouveaux contenus qu'ils souhaitent que nous explorions à l'aide de sitemaps. Ils peuvent également gérer la fréquence à laquelle nous explorons leurs sites grâce à leur budget d'exploration.

Nos robots d'exploration standards respectent toujours les choix des sites Web concernant l'accès à leur contenu et son utilisation

Après une exploration, nous pouvons utiliser les données explorées plusieurs fois pour éviter les requêtes répétées inutiles sur les sites. Même lorsque nous réutilisons ces données, nous continuons de respecter les choix que les sites nous communiquent via robots.txt et les contrôles que nous proposons via ce protocole Web ouvert. Par exemple, les sites peuvent utiliser Google-Extended dans robots.txt pour contrôler, entre autres, si leur contenu contribue à entraîner les futures versions des modèles Gemini. L'utilisation de Google-Extended n'a aucune incidence sur l'inclusion d'un site dans la Recherche. Nous n'utilisons pas non plus Google-Extended comme signal de classement dans la Recherche.

Nous proposons de nombreux outils aux propriétaires de sites pour gérer leur expérience d'exploration Google, y compris la Google Search Console, qui est disponible sans frais pour les propriétaires de sites. Elle fournit des informations sur la quantité de contenu que nous avons explorée et pourquoi. Elle aide également les sites à diagnostiquer des problèmes tels que les temps d'arrêt des serveurs ou les problèmes de vitesse. De plus, la Search Console fournit des informations complètes sur la visibilité des pages d'un site dans la Recherche et sur la façon dont les utilisateurs interagissent avec elles.

Nos robots d'exploration aident les utilisateurs à accéder au meilleur du Web. Nous cherchons constamment à les rendre plus performants et efficaces.