Au cœur de Googlebot : démystifier l'exploration, l'extraction et les octets que nous traitons

Mardi 31 mars 2026

Si vous avez écouté l'épisode 105 du podcast "Search Off the Record", vous nous avez peut-être entendus parler d'un sujet qui nous tient à cœur (à nous et à nos serveurs) : le fonctionnement interne de Googlebot.

Le nom "Googlebot" a longtemps renvoyé à l'image d'un robot unique et tenace qui lisait systématiquement Internet. Mais la réalité est un peu plus complexe et bien plus intéressante. Aujourd'hui, nous allons nous pencher sur notre infrastructure d'exploration, en nous attardant tout particulièrement sur un sujet qui nous captive : les limites en octets.

Tout d'abord, Googlebot n'est pas un programme unique.

Commençons par corriger une idée reçue. Au début des années 2000, Google ne proposait qu'un seul produit, et nous n'avions donc qu'un seul robot d'exploration. Le nom "Googlebot" est resté. Aujourd'hui, Googlebot n'est qu'un utilisateur parmi d'autres au sein d'une plate-forme d'exploration centralisée.

Lorsque vous voyez Googlebot dans les journaux de votre serveur, vous ne voyez que la recherche Google. Des dizaines d'autres clients (Google Shopping, AdSense, etc.) acheminent tous leurs demandes d'exploration via cette même infrastructure sous-jacente, chacun sous un nom de robot d'exploration distinct. On retrouve les plus importants sur le site de l'infrastructure des robots d'exploration Google.

Limite de 2 Mo : que deviennent vos octets ?

C'est là que les choses se compliquent un peu. Chaque client de l'infrastructure du robot d'exploration définit des paramètres propres à ses extractions. Ces paramètres comprennent : la chaîne user-agent, les jetons user-agent qui seront recherchés dans robots.txt et le volume d'octets à extraire par URL.

Googlebot extrait actuellement jusqu'à 2 Mo par URL (fichiers PDF exclus). Seuls les deux premiers Mo d'une ressource sont donc explorés, en-tête HTTP compris. Pour les fichiers PDF, la limite est de 64 Mo.

Les robots d'exploration d'images et de vidéos ont généralement des seuils très variables, qui dépendent en grande partie du produit pour lequel ils extraient les données. Par exemple, l'extraction d'un favicon peut avoir une limite très basse, contrairement à la recherche d'image.

Pour tout autre robot d'exploration sans limite explicite, la valeur par défaut est de 15 Mo, quel que soit le type de contenu.

Que se passe-t-il concrètement avec les octets envoyés par votre serveur sur le réseau ?

Extraction partielle : si votre fichier HTML dépasse 2 Mo, Googlebot ne rejette pas la page ; il interrompt l'extraction exactement à la limite des 2 Mo. Notez que cette limite inclut les en-têtes de requête HTTP.
Traitement de la portion collectée : la partie téléchargée (les 2 premiers Mo) est transmise à nos systèmes d'indexation et au service de rendu Web (WRS) comme s'il s'agissait du fichier complet.
Octets invisibles : tout contenu excédant ce seuil de 2 Mo est intégralement ignoré. Ces octets ne sont ni extraits, ni restitués, ni indexés.
Importation de ressources : chaque ressource référencée dans le code HTML (à l'exception des fichiers multimédias, des polices et de quelques fichiers exotiques) sera extraite par le service WRS avec Googlebot, comme le code HTML parent. Chaque ressource dispose de son propre compteur d'octets par URL indépendant de celui de la page parente.

Pour la grande majorité du Web, une charge utile HTML de 2 Mo est déjà considérable et vous n'atteindrez probablement jamais ce seuil. En revanche, si votre page intègre des images base64 intégrées volumineuses ou de gros blocs de code CSS/JavaScript intégrés, ou si elle commence par des mégaoctets de menus, vous risquez de pousser involontairement votre contenu textuel ou vos données structurées critiques au-delà du seuil de 2 Mo. Si ces octets essentiels ne sont pas extraits, ils n'existent tout simplement pas pour Googlebot.

Rendu des octets

Une fois que le robot d'exploration a récupéré les octets (jusqu'à la limite), il passe le relais au service WRS. Celui-ci traite le code JavaScript et exécute le code côté client comme un navigateur récent pour comprendre l'état visuel et textuel final de la page. Le rendu récupère et exécute les fichiers JavaScript et CSS, et traite les requêtes XHR pour mieux comprendre le contenu textuel et la structure de la page (il ne demande pas d'images ni de vidéos). La limite de 2 Mo s'applique également à chaque ressource demandée.

Toutefois, n'oubliez pas que le service WRS ne peut exécuter que le code que le robot d'exploration a effectivement récupéré. De plus, le service WRS fonctionne en mode sans état : il efface le stockage local et les données de session entre chaque requête. Cela peut avoir des conséquences non négligeables sur la façon dont les nos systèmes interprètent les éléments dynamiques dépendants de JavaScript.

Bonnes pratiques pour optimiser vos octets

Pour que Googlebot extraie et comprenne efficacement votre contenu, gardez à l'esprit les bonnes pratiques suivantes :

Allégez votre code HTML : déplacez les fichiers CSS et JavaScript volumineux vers des fichiers externes. Bien que le document HTML initial soit plafonné à 2 Mo, les scripts et les feuilles de style externes sont extraits séparément, chacun étant soumis à ses propres limites.
L'ordre compte : placez les éléments les plus importants (comme les balises Meta, les éléments <title>, les éléments <link>, les URL canoniques et les données structurées essentielles) plus haut dans le document HTML. Cela permet de s'assurer qu'ils ne se trouvent pas en deçà du seuil.
Surveillez les journaux de votre serveur : gardez un œil sur les temps de réponse de ce dernier. Si votre serveur a du mal à diffuser des octets, nos robots d'exploration se retireront automatiquement pour éviter de surcharger votre infrastructure, ce qui réduira la fréquence d'exploration.

Notez que cette limite n'est pas définitive et est susceptible d'évoluer avec le Web et la taille des pages HTML. (Ou de diminuer, espérons-le.)

L'exploration ne se fait pas par magie : c'est un échange d'octets à grande échelle, finement orchestré. En sachant comment notre infrastructure d'extraction centrale récupère et limite ces octets, vous pouvez vous assurer que le contenu le plus sensible de votre site sera toujours pris en compte.

Bonne optimisation !

Vous voulez en savoir plus sur les coulisses ? Découvrez l' épisode 105 du podcast "Search Off the Record" sur YouTube ou sur votre plate-forme de podcast préférée.

Publié par Gary.