No uses errores 403 ni 404 para limitar la frecuencia

Viernes, 17 de febrero del 2023

En los últimos meses, hemos observado un aumento en el número de propietarios de sitios web y algunas redes de distribución de contenido (CDNs) que intentan utilizar 404 y otros errores de cliente 4xx (excepto 429) para tratar de reducir la frecuencia de rastreo del robot de Google.

En pocas palabras, no lo hagas. Puedes consultar nuestra documentación sobre cómo reducir la frecuencia de rastreo del robot de Google. Te recomendamos que leas esta documentación para descubrir cómo gestionar de manera eficaz la frecuencia de rastreo del robot de Google.

Vuelta a los aspectos básicos: los errores 4xx son para errores de cliente

Los errores 4xx que devuelven los servidores a los clientes son una señal del servidor de que la solicitud del cliente es incorrecta por algún motivo. La mayoría de los errores de esta categoría son bastante inofensivos: errores de tipo "no se ha encontrado", "acceso prohibido", "soy una tetera" (sí, eso existe). Estos errores no indican nada grave sobre el propio servidor.

La única excepción es 429, que significa que se han hecho demasiadas solicitudes. Este error deja claro a cualquier robot bien educado, incluido nuestro querido robot de Google, que debe reducir la velocidad porque está sobrecargando el servidor.

Por qué los errores 4xx afectan negativamente a la limitación de frecuencia del robot de Google (excepto el error 429)

Los errores de cliente son justo eso: errores de cliente. Por lo general, no indican ningún error a nivel del servidor: no está sobrecargado, no se ha encontrado ningún error crítico y no es incapaz de responder a la solicitud. Simplemente significan que ha habido un problema con la solicitud del cliente. Por ejemplo, un error 404 nunca va a implicar que el servidor esté sobrecargado. Si fuera así y un amigo tuyo enlazara accidentalmente las páginas incorrectas de tu sitio, recibirías una avalancha de errores 404, y el robot de Google se ralentizaría con el rastreo, lo que sería un problema. Lo mismo ocurre con 403, 410 y 418.

De nuevo, la única excepción es el código de estado 429, que se indica que ha habido demasiadas solicitudes.

Consecuencias de limitar la frecuencia con errores 4xx al robot de Google

Todos los códigos de estado HTTP 4xx (excepto 429) causarán que tu contenido se retire de la Búsqueda de Google. Y lo que es peor, si también sirves tu archivo robots.txt con un código de estado HTTP 4xx, se tratará como si no existiera. Si tenías una regla que impedía rastrear los trapos sucios, ahora el robot de Google también lo sabe, así que no es lo ideal para ninguna de las partes implicadas.

Forma correcta de reducir la frecuencia de rastreo del robot de Google

No dudes en consultar nuestra documentación detallada sobre cómo reducir la frecuencia de rastreo del robot de Google y sobre cómo gestiona el robot de Google (y la indexación de la Búsqueda) los diferentes códigos de estado HTTP. En resumen, te recomendamos que realices una de estas acciones:

Si necesitas más consejos o aclaraciones, escríbenos en Twitter o en nuestros foros de ayuda.