Résoudre les erreurs d'exploration de la recherche Google

Voici les principales étapes à suivre pour résoudre les problèmes d'exploration de votre site par la recherche Google :

  1. Vérifiez si Googlebot rencontre des problèmes de disponibilité sur votre site.
  2. Déterminez si certaines de vos pages ne sont pas explorées alors qu'elles devraient l'être.
  3. Vérifiez si certaines parties de votre site doivent être explorées plus rapidement qu'elles ne le sont déjà.
  4. Optimisez l'exploration de votre site.
  5. Corrigez toute exploration excessive de votre site.

Vérifier si Googlebot rencontre des problèmes de disponibilité sur votre site

L'amélioration de la disponibilité de votre site n'entraîne pas nécessairement une augmentation de votre budget d'exploration. Google détermine la vitesse d'exploration la plus appropriée en fonction du besoin d'exploration, comme décrit précédemment. Cependant, les problèmes de disponibilité empêchent Google d'explorer votre site autant qu'il le souhaiterait.

Diagnostic :

Consultez le rapport "Statistiques sur l'exploration" pour afficher l'historique d'exploration de Googlebot pour votre site. Celui-ci indique à quel moment Google a rencontré des problèmes de disponibilité sur votre site. Si des erreurs ou des avertissements de disponibilité sont signalés, examinez les graphiques Disponibilité de l'hôte et recherchez les instances où les demandes Googlebot ont dépassé la limite rouge. Cliquez ensuite sur le graphique pour voir quelles URL ont échoué et essayez de déterminer si elles correspondent à celles ayant rencontré des problèmes sur votre site.

Vous pouvez également utiliser l'outil d'inspection d'URL pour tester quelques URL sur votre site. Si l'outil renvoie des avertissements Charge de l'hôte dépassée, cela signifie que Googlebot ne peut pas explorer autant d'URL de votre site que nécessaire.

Traitement :

  • Lisez la documentation du rapport "Statistiques sur l'exploration" pour déterminer comment détecter et gérer certains problèmes de disponibilité.
  • Bloquez l'exploration des pages requises (voir la section Gérer votre inventaire).
  • Accélérez le chargement et l'affichage des pages (voir la section Optimiser l'exploration de votre site).
  • Augmentez la capacité de votre serveur. Si Google semble atteindre constamment la limite de diffusion de votre site lors de son exploration, mais que certaines de vos URL importantes ne sont pas explorées ou mises à jour autant de fois que nécessaire, l'augmentation de la capacité de votre serveur peut aider Google à explorer davantage de pages sur votre site. Consultez l'historique de disponibilité de votre hôte dans le rapport "Statistiques sur l'exploration" pour déterminer si la vitesse d'exploration de Google semble fréquemment dépasser la limite. Si tel est le cas, augmentez vos ressources de diffusion pendant un mois, puis vérifiez si les demandes d'exploration ont augmenté pendant cette période.

Vérifier si certaines parties de votre site ne sont pas explorées alors qu'elles devraient l'être

Google consacre autant de temps que nécessaire à votre site afin d'indexer tout le contenu pertinent et de haute qualité qu'il y trouve. Si vous estimez que Googlebot est passé à côté d'un contenu important, plusieurs raisons sont possibles : soit Googlebot ne sait pas que ce contenu existe ou n'y a pas accès, soit la disponibilité de votre site restreint l'accès de Google (ou Google tente de ne pas surcharger votre site).

Diagnostic :

La Search Console ne permet pas de filtrer l'historique d'exploration par URL ou par chemin. Toutefois, vous pouvez inspecter les journaux de votre site pour savoir si des URL spécifiques ont été explorées par Googlebot. Rappelez-vous que les URL explorées ne sont pas forcément indexées.

L'identification et l'exploration des nouvelles pages requièrent plusieurs jours pour la plupart des sites, sauf pour ceux où l'exploration du contenu doit avoir lieu le jour de la publication, tels que les sites d'actualités.

Traitement :

Si vous ajoutez des pages à votre site et qu'elles ne sont pas explorées dans un délai raisonnable, soit Google n'a pas connaissance de leur existence ou n'y a pas accès, soit votre site a atteint sa capacité de diffusion maximale ou vous avez épuisé votre budget d'exploration.

  1. Notifiez Google en cas d'ajout de pages : mettez à jour vos sitemaps afin qu'ils reflètent les nouvelles URL.
  2. Examinez les règles du fichier robots.txt afin de vérifier que vous ne bloquez pas des pages par erreur.
  3. Vérifiez vos priorités d'exploration (ou utilisez votre budget d'exploration avec discernement). Gérez votre inventaire et optimisez l'exploration de votre site.
  4. Vérifiez que vous n'avez pas atteint la capacité de diffusion. Googlebot réduit l'exploration s'il détecte que vos serveurs rencontrent des difficultés pour répondre aux demandes d'exploration.

Notez que les pages explorées ne s'affichent pas forcément dans les résultats de recherche, notamment si leur contenu ne présente pas d'intérêt particulier pour les internautes ou si la demande des utilisateurs est insuffisante.

Vérifier si les mises à jour sont explorées suffisamment rapidement

Si nous n'explorons pas les pages que vous venez de créer ou de modifier, il est possible que ces créations ou modifications aient échappé à nos systèmes de détection. Voici comment nous informer des modifications apportées à vos pages.

Notez que Google s'efforce de vérifier et d'indexer les pages dans les meilleurs délais. Pour la plupart des sites, ce délai est d'au moins trois jours. Ne vous attendez pas à ce que Google indexe les pages le jour où vous les publiez, sauf s'il s'agit d'un site d'actualités ou si votre site fait partie des sites reconnus pour lesquels le facteur temps est déterminant.

Diagnostic :

Examinez les journaux de votre site pour déterminer quand des URL spécifiques ont été explorées par Googlebot.

Pour connaître la date d'indexation, utilisez l'outil d'inspection d'URL ou effectuez une recherche portant sur les URL que vous avez actualisées.

Traitement :

Conseillé :

  • Utilisez un sitemap Google Actualités si votre site propose des articles d'actualité.
  • Utilisez la balise <lastmod> dans les sitemaps pour indiquer qu'une URL indexée a été actualisée.
  • Utilisez une structure d'URL explorable pour aider Google à identifier vos pages.
  • Fournissez des liens <a> explorables standards pour aider Google à détecter vos pages.
  • Si votre site utilise du code HTML distinct pour les versions mobile et classique, fournissez le même ensemble de liens sur la version mobile que sur la version classique. Si vous ne pouvez pas fournir le même ensemble de liens sur la version mobile, assurez-vous qu'ils sont inclus dans un fichier sitemap. Google n'indexe que la version mobile des pages. Limiter les liens qui y sont affichés peut ralentir la découverte de nouvelles pages.

À éviter :

  • Envoyez le même sitemap, sans aucune modification, plusieurs fois par jour.
  • Comptez à ce que Googlebot explore tous les éléments de votre sitemap ou à ce qu'il les explore immédiatement. Les sitemaps sont des suggestions utiles pour Googlebot, et non des exigences absolues.
  • Ajoutez dans vos sitemaps les URL que vous ne souhaitez pas voir apparaître dans les résultats de recherche. Ces pages contribuent à épuiser votre budget d'exploration.

Optimiser l'exploration de votre site

Accélérer le chargement des pages

L'exploration Google est limitée par la bande passante, le temps et la disponibilité des instances Googlebot. Si votre serveur répond rapidement aux demandes, il se peut que nous puissions explorer plus de pages de votre site que prévu. Ceci dit, l'objectif principal de Google est d'explorer le contenu de haute qualité. Par conséquent, si vous vous contentez de lui proposer des pages de faible qualité, cela n'incitera pas Googlebot à explorer une plus grande partie de votre site même si elles sont plus rapides. Par contre, si nous estimons que nous sommes passés à côté de contenu de qualité sur votre site, nous augmenterons votre budget afin de pouvoir l'explorer.

Voici comment optimiser l'exploration de vos pages et de vos ressources :

  • Empêchez Googlebot de charger les ressources volumineuses, mais sans importance, à l'aide d'un fichier robots.txt. Assurez-vous de ne bloquer que les ressources non critiques, à savoir celles qui n'affectent pas la signification de la page (comme les images décoratives).
  • Vérifiez que vos pages se chargent rapidement.
  • Évitez les longues chaînes de redirection, qui ont un effet négatif sur l'exploration.
  • Le temps de réponse aux demandes du serveur, ainsi que le temps nécessaire pour afficher les pages, jouent un rôle majeur, y compris la durée de chargement et d'exécution des ressources intégrées telles que les images et les scripts. Tenez compte des ressources volumineuses ou lentes requises pour l'indexation.

Spécifier les modifications de contenu à l'aide de codes d'état HTTP

Google accepte généralement les en-têtes de requêtes HTTP If-Modified-Since et If-None-Match pour l'exploration. Les robots d'exploration Google n'envoient pas les en-têtes à chaque tentative d'exploration. Cela dépend du cas d'utilisation de la requête (par exemple, AdsBot est plus susceptible de définir les en-têtes des requêtes HTTP If-Modified-Since et If-None-Match). Si nos robots d'exploration envoient l'en-tête If-Modified-Since, la valeur de l'en-tête correspond à la date et à l'heure de la dernière exploration du contenu. Sur la base de cette valeur, le serveur peut choisir de renvoyer un code d'état HTTP 304 (Not Modified) sans corps de réponse, auquel cas Google réutilisera la dernière version du contenu explorée. Si le contenu est plus récent que la date spécifiée par le robot d'exploration dans l'en-tête If-Modified-Since, le serveur peut renvoyer un code d'état HTTP 200 (OK) avec le corps de la réponse.

Indépendamment des en-têtes de requête, vous pouvez envoyer un code d'état HTTP 304 (Not Modified) sans aucun corps de réponse à toute requête Googlebot si le contenu n'a pas changé depuis la dernière visite de Googlebot par l'URL. Vous économiserez ainsi du temps et des ressources à votre serveur, ce qui peut améliorer indirectement l'efficacité de l'exploration.

Masquer les URL que vous ne souhaitez pas voir apparaître dans les résultats de recherche

Le fait de mobiliser les ressources du serveur pour des pages secondaires peut réduire l'activité d'exploration pour les pages que vous considérez comme essentielles. Résultat : la détection du contenu nouveau ou mis à jour sur un site peut être retardée de manière significative.

L'exposition de nombreuses URL qui ne devraient pas être explorées par un moteur de recherche peut avoir un impact négatif sur l'exploration et l'indexation de votre site. Ces URL appartiennent généralement aux catégories suivantes :

Conseillé :

  • Utilisez le fichier robots.txt si vous ne souhaitez pas que Google explore une ressource ou une page.
  • Si une ressource commune est réutilisée sur plusieurs pages (telle qu'une image partagée ou un fichier JavaScript), référencez cette ressource avec la même URL sur chaque page. De cette manière, Google mettra en cache et réutilisera la même ressource sans avoir à la demander plusieurs fois.

À éviter :

  • Évitez d'ajouter ou de supprimer régulièrement des pages ou des répertoires dans le fichier robots.txt dans le but de redistribuer une partie du budget d'exploration de votre site. N'utilisez le fichier robots.txt que pour les pages ou les ressources qui ne devraient pas figurer sur Google à long terme.
  • Évitez d'effectuer une rotation des sitemaps ou d'utiliser d'autres mécanismes de masquage temporaire pour redistribuer le budget.

Erreurs soft 404

Une erreur de type soft 404 désigne une URL renvoyant une page qui indique à l'internaute que la page n'existe pas, ainsi qu'un code d'état 200 (success). Dans certains cas, il peut s'agir d'une page sans contenu principal ou vide.

Ces pages peuvent être générées pour diverses raisons par le serveur Web ou le système de gestion de contenu de votre site Web, ou par le navigateur de l'internaute. Exemple :

  • Un fichier d'inclusion côté serveur est manquant
  • Une perte de la connexion à la base de données
  • Une page de résultats de recherche interne vide
  • Un fichier JavaScript non chargé ou manquant

En renvoyant un code d'état 200 (success), puis en affichant ou suggérant un message d'erreur ou un type d'erreur sur la page, vous altérez l'expérience utilisateur. Les internautes peuvent penser que la page en ligne est accessible, mais voient s'afficher une erreur. Ces pages sont exclues de la recherche.

Lorsque les algorithmes de Google détectent qu'il s'agit bien d'une page d'erreur d'après son contenu, la Search Console affiche une erreur soft 404 dans le rapport sur l'indexation des pages du site.

Corriger les erreurs soft 404

Selon l'état de la page et le résultat souhaité, vous pouvez résoudre les erreurs soft 404 de différentes manières :

Essayez de déterminer la solution la plus adaptée à vos utilisateurs.

La page et le contenu ne sont plus disponibles

Si vous avez supprimé la page sans la remplacer par une page au contenu similaire, renvoyez un code de réponse (état) 404 (not found) ou 410 (gone). Ces codes d'état indiquent aux moteurs de recherche que la page n'existe pas et que vous ne souhaitez pas qu'elle soit indexée.

Si vous avez accès aux fichiers de configuration de votre serveur, vous pouvez personnaliser ces pages d'erreur afin d'améliorer l'expérience utilisateur. Une page d'erreur 404 personnalisée permet aux internautes de trouver les informations qu'ils recherchent, et leur fournit également d'autres contenus utiles pour les inciter à explorer votre site. Voici quelques conseils pour concevoir une page 404 personnalisée utile :

  • Indiquez clairement aux internautes que la page qu'ils recherchent est introuvable. Adoptez un langage avenant et agréable.
  • Assurez-vous que votre page 404 a la même apparence (y compris la navigation) que le reste de votre site.
  • Pensez à ajouter des liens vers vos articles ou messages les plus consultés, ainsi que vers la page d'accueil de votre site.
  • Pensez à proposer aux internautes la possibilité de signaler les liens non fonctionnels.

Les pages 404 personnalisées sont créées exclusivement pour les utilisateurs. Comme ces pages sont inutiles du point de vue du moteur de recherche, assurez-vous que le serveur affiche un code d'état HTTP 404 pour éviter qu'elles soient indexées.

La page ou le contenu se trouve ailleurs

Si votre page a été déplacée ou si elle a été remplacée, renvoyez l'erreur 301 (permanent redirect) pour rediriger l'utilisateur. Cette opération n'interrompt pas l'expérience de navigation et constitue un excellent moyen d'indiquer aux moteurs de recherche le nouvel emplacement de la page. Dans l'outil d'inspection d'URL, vérifiez si votre URL renvoie le code approprié.

La page et le contenu existent toujours

Si une page qui ne présente aucun autre problème est signalée par une erreur soft 404, il est probable qu'elle ne se soit pas chargée correctement pour Googlebot, qu'elle ne contenait pas certaines ressources critiques ou qu'elle ait affiché un message d'erreur visible lors du rendu. Utilisez l'outil d'inspection d'URL pour examiner le contenu affiché et le code HTTP renvoyé. Si la page affichée est vierge, presque vide, ou si un message d'erreur s'affiche, il est possible qu'elle fasse référence à de nombreuses ressources qui ne se chargent pas (images, scripts et autres éléments non textuels). Cela peut être interprété comme une erreur soft 404. Plusieurs raisons peuvent expliquer que les ressources ne se chargent pas. Elles peuvent être bloquées (par un robots.txt), elles peuvent être trop nombreuses ou trop volumineuses, leur chargement peut être lent, ou diverses erreurs de serveur peuvent se produire.

Gérer la surexploration de votre site (urgence)

Googlebot exploite des algorithmes qui l'empêchent de surcharger votre site de demandes d'exploration. Toutefois, si vous estimez que cela n'est pas suffisant, plusieurs options s'offrent à vous.

Diagnostic :

Surveillez votre serveur pour déterminer si le nombre de requêtes Googlebot envoyées à votre site est excessif.

Traitement :

En cas d'urgence, nous vous recommandons de suivre les étapes ci-dessous pour ralentir la fréquence d'exploration de Googlebot :

  1. Renvoyez des codes d'état de réponse HTTP 503 ou 429 temporairement pour les requêtes Googlebot lorsque votre serveur est surchargé. Googlebot tentera de réexplorer ces URL pendant environ deux jours. Sachez que si vous renvoyez des codes de non-disponibilité pendant une durée prolongée, Google ralentira définitivement ou cessera d'explorer les URL de votre site. Veillez donc à prendre les mesures supplémentaires suivantes.
  2. Lorsque la vitesse d'exploration diminue, cessez de renvoyer des codes d'état de réponse HTTP 503 ou 429 pour les requêtes d'exploration. Si vous renvoyez 503 ou 429 pendant plus de deux jours, Google supprimera ces URL de l'index.
  3. Surveillez l'exploration et la capacité de l'hôte sur le temps.
  4. Si le robot problématique fait partie des robots d'exploration AdsBot, cela signifie probablement que vous avez créé des cibles d'annonces dynamiques du Réseau de Recherche pour votre site que Google tente d'explorer. Cette exploration se répète toutes les trois semaines. Si votre serveur n'est pas assez puissant pour gérer ces explorations, pensez à limiter vos cibles d'annonces ou à augmenter la capacité de diffusion.