N'utilisez pas d'erreurs 403 ou 404 pour limiter le débit

Vendredi 17 février 2023

Au cours des derniers mois, nous avons constaté une augmentation du nombre de propriétaires de sites Web et de certains réseaux de diffusion de contenu (CDN) qui tentaient d'utiliser les erreurs 404 et d'autres erreurs client 4xx (mais pas 429) pour essayer de réduire la vitesse d'exploration de Googlebot.

Pour faire simple, ne le faites pas. Consultez la documentation sur la réduction de la vitesse d'exploration de Googlebot. Lisez plutôt cet article pour découvrir comment gérer efficacement la vitesse d'exploration de Googlebot.

Retour aux fondamentaux : les erreurs 4xx concernent les erreurs client

Les erreurs 4xx que les serveurs renvoient aux clients sont un signal du serveur que la requête du client n'était pas bonne. La plupart des erreurs de cette catégorie sont relativement anodines : erreurs "Introuvable", "Interdit", "Je suis une théière" (oui, ça existe). Elles n'indiquent rien de grave concernant le serveur lui-même.

La seule exception à la règle est l'erreur 429, qui signifie "trop de requêtes". Cette erreur indique clairement à tout robot bien éduqué, y compris notre cher Googlebot, qu'il doit ralentir parce qu'il surcharge le serveur.

Pourquoi les erreurs 4xx sont mauvaises pour limiter le débit de Googlebot (sauf l'erreur 429)

Les erreurs client ne sont que ça : des erreurs client. En règle générale, elles n'indiquent pas d'erreur au niveau du serveur : ils ne sont pas surchargés, ils n'ont rencontré d'erreurs critiques et ne sont pas dans l'incapacité de répondre à la requête. Elles signifient simplement que la requête du client présentait un problème. Par exemple, une erreur 404 ne signifie en aucun cas que le serveur est surchargé. Imaginez que ce soit le cas : si un ami liait par erreur les mauvaises pages de votre site, vous recevriez un afflux d'erreurs 404 et Googlebot ralentirait son exploration. Ce serait dommage. Il en va de même pour les erreurs 403, 410 et 418.

Là encore, l'exception principale est le code d'état 429, qui se traduit par "trop de requêtes".

Conséquences de la limitation du débit avec les erreurs 4xx sur Googlebot

Tous les codes d'état HTTP 4xx (sauf 429) entraînent la suppression de votre contenu de la recherche Google. Pire, si vous diffusez également votre fichier robots.txt avec un code d'état HTTP 4xx, il sera traité comme s'il n'existait pas. Si vous aviez une règle interdisant d'explorer vos problèmes familiaux, Googlebot est désormais au courant. Ce n'est idéal pour aucune des parties impliquées.

Comment réduire la vitesse d'exploration de Googlebot de manière appropriée

Nous disposons d'une documentation complète sur la réduction de la vitesse d'exploration de Googlebot et sur la manière dont Googlebot (et l'indexation de la recherche Google) gère les différents codes d'état HTTP. N'hésitez pas à les consulter. En bref, vous devez effectuer l'une des deux opérations suivantes :

Si vous avez besoin de conseils supplémentaires ou d'éclaircissements, contactez-nous sur Twitter ou sur nos forums d'aide.