Guide détaillé de la recherche Google

La recherche Google est un moteur de recherche entièrement automatisé qui fait appel à des logiciels que l'on appelle robots d'exploration pour explorer régulièrement le Web et rechercher les pages à inclure dans l'index. La plupart des sites qui figurent dans nos résultats n'ont pas été envoyés manuellement, mais ont été détectés et ajoutés automatiquement par nos robots lors de leur exploration du Web. Ce document décrit le fonctionnement de la recherche pour votre site Web. Ces connaissances de base peuvent vous aider à résoudre les problèmes d'exploration, à indexer vos pages et à optimiser l'affichage de votre site dans la recherche Google.

Quelques remarques avant de commencer

Avant d'étudier en détail le fonctionnement de la recherche Google, notez que nous n'acceptons aucun paiement pour explorer un site plus fréquemment ou améliorer son classement. Ne croyez pas les personnes qui vous diraient le contraire.

Google ne garantit pas que votre page sera explorée, indexée ou diffusée, même si elle respecte les Essentiels de la recherche Google.

Présentation des trois étapes de la recherche Google

La recherche Google fonctionne en trois étapes : toutes les pages ne les réussissent pas.

Exploration : Google télécharge des textes, des images et des vidéos à partir de pages détectées sur Internet par le biais de programmes automatisés appelés robots d'exploration.
Indexation : Google analyse le texte, les images et les fichiers vidéo présents sur la page, puis stocke les informations dans l'index Google, qui est une grande base de données.
Diffusion des résultats de recherche : lorsqu'un internaute effectue une recherche sur Google, nous affichons des informations pertinentes par rapport à sa requête.

Exploration

La première étape consiste à identifier quelles pages se trouvent sur le Web. Il n'existe aucun registre qui les centralise. Google doit donc rechercher constamment les nouvelles pages et les ajouter à la liste des pages connues. Ce processus s'appelle la "détection d'URL". Les pages connues sont celles auxquelles Google a déjà accédé. D'autres pages sont découvertes lorsque Google extrait un lien depuis une page connue vers une nouvelle page (par exemple, une page hub, comme une page de catégorie, des liens vers un nouvel article de blog) ou lorsque vous envoyez une liste de pages (sitemap) à explorer.

Lorsque Google découvre l'URL d'une page, il peut la consulter (ou l'explorer) pour en savoir plus à son sujet. Nous utilisons un nombre impressionnant d'ordinateurs pour explorer des milliards de pages Web. Le programme chargé de l'exploration s'appelle Googlebot (également désigné par les termes "robot" ou "robot d'exploration", ou encore "spider" ou "bot" en anglais). Googlebot utilise un processus d'exploration basé sur des algorithmes pour déterminer quels sites explorer, la fréquence d'exploration et le nombre de pages à extraire de chaque site. Les robots d'exploration Google sont également programmés pour éviter d'explorer les sites trop rapidement afin d'éviter de les surcharger. Ce mécanisme est basé sur les réponses du site (par exemple, les erreurs HTTP 500 signifient "ralentir").

Toutefois, Googlebot n'explore pas toutes les pages. Certaines pages peuvent être rendues indisponibles pour exploration par le propriétaire du site, tandis que d'autres pages peuvent être inaccessibles sans se connecter au site.

Lors de l'exploration, Google affiche la page et exécute tout code JavaScript détecté à l'aide d'une version récente de Chrome, de la même façon que votre navigateur affiche les pages que vous consultez. Le rendu est important, car les sites Web s'appuient souvent sur JavaScript pour afficher le contenu d'une page. Sans le rendu, il est possible que Google ne voit pas le contenu.

L'exploration dépend de l'accès du robot d'exploration de Google au site. Voici quelques problèmes courants liés à l'accès de Googlebot aux sites :

Indexation

Une fois que nous trouvons une page, nous essayons de déterminer ce sur quoi elle porte. Cette étape s'appelle l'indexation. Elle inclut le traitement et l'analyse du contenu textuel, des balises et attributs de contenu clés, tels que les éléments <title> et les attributs alt, des images, des vidéos et d'autres éléments.

Au cours du processus d'indexation, Google détermine si une page est un doublon d'une autre page sur Internet ou une URL canonique. La page canonique est la page qui peut s'afficher parmi les résultats de recherche. Pour sélectionner la version canonique, nous commençons par regrouper (également appelé clustering) les pages trouvées sur Internet et proposant un contenu similaire, puis nous sélectionnons la plus représentative du groupe. Les autres pages du groupe sont des versions alternatives qui peuvent être diffusées dans des contextes différents, par exemple si l'utilisateur recherche depuis un appareil mobile ou recherche une page très spécifique de ce cluster.

Google collecte également des signaux concernant la page canonique et son contenu, qui peuvent être utilisés lors de l'étape suivante, où nous diffusons la page dans les résultats de recherche. Certains signaux incluent la langue de la page, le pays où se trouve le contenu du site et la facilité d'utilisation de la page.

Les informations collectées concernant la page canonique et son cluster peuvent être stockées dans l'index Google, une grande base de données hébergée sur des milliers d'ordinateurs. L'indexation n'est pas garantie. Toutes les pages que Google traite ne sont pas indexées.

L'indexation dépend également du contenu de la page et de ses métadonnées. Voici quelques problèmes courants d'indexation :

Traitement des résultats de recherche

Lorsqu'un internaute saisit une requête, nos ordinateurs recherchent les pages correspondantes dans l'index et renvoient les résultats que nous estimons être les plus qualitatifs et les plus pertinents vis à vis de la requête de l'utilisateur. La pertinence est déterminée par un algorithme qui repose sur des centaines de facteurs et qui peut inclure des informations telles que la zone géographique de l'internaute, sa langue ou l'appareil qu'il utilise (ordinateur ou téléphone). Par exemple, la recherche "atelier de réparation de vélo" ne génère pas les mêmes résultats selon que l'internaute se trouve à Paris ou à Hong Kong.

Les options d'affichage dans les résultats de recherche qui apparaissent sur la page de résultats de recherche changent également en fonction de la requête de l'utilisateur. Par exemple, si vous recherchez "atelier de réparation de vélos", vous obtiendrez probablement des résultats de recherche à proximité et aucun résultat d'image. En revanche, la recherche "vélo moderne" est plus susceptible d'afficher des résultats d'images, mais pas des résultats de recherche à proximité. Vous pouvez explorer les éléments d'interface utilisateur les plus courants de la recherche sur le Web Google dans notre galerie d'éléments visuels.

Il est possible qu'une page soit indexée dans la Search Console, mais qu'elle ne s'affiche pas dans les résultats de recherche. Cela peut être dû aux raisons suivantes :

Bien que ce guide explique le fonctionnement de la recherche Google, nous nous efforçons en permanence d'améliorer nos algorithmes. Vous pouvez suivre ces modifications en suivant le blog Google Search Central.