No uses 403 ni 404 para el límite de frecuencia

Viernes, 17 de febrero de 2023

Durante los últimos meses, notamos un aumento en los propietarios de sitios web y algunas redes de distribución de contenidos (CDN) que intentan usar 404 y otros errores de cliente 4xx (pero no 429) para reducir la frecuencia de rastreo de Googlebot.

La respuesta corta de esta entrada de blog es: no lo hagas. Tenemos documentación sobre cómo reducir la frecuencia de rastreo de Googlebot. Lee esa información y aprende a administrar eficazmente la frecuencia de rastreo de Googlebot.

Back to basics: Los errores de 4xx corresponden a errores del cliente

Los errores 4xx que muestran los servidores a los clientes son una señal del servidor de que la solicitud del cliente fue incorrecta en algún sentido. La mayoría de los errores de esta categoría son bastante benignos: "no encontrado", "prohibido", "soy una tetera" (sí, así como lo lees). No implican problemas del servidor.

La única excepción es 429, que significa "demasiadas solicitudes". Este error le indica claramente a cualquier robot que funciona correctamente, incluido nuestro querido Googlebot, que debe disminuir su velocidad porque está sobrecargando el servidor.

Por qué los errores 4xx no sirven para limitar la frecuencia de Googlebot (excepto 429)

Los errores de cliente son solo eso: errores de cliente. Por lo general, no indican un error con el servidor, como sobrecargas o errores críticos que le impiden responder a la solicitud. Simplemente significan que la solicitud del cliente fue incorrecta de alguna manera. No hay una forma razonable de equiparar, por ejemplo, un error de 404 al servidor que se sobrecarga. Imagina que fuera así: recibes una entrada de errores 404 de tu amigo por error cuando vinculas las páginas incorrectas de tu sitio y, a su vez, Googlebot ralentiza el rastreo. Eso sería bastante malo. Lo mismo sucede con 403, 410 y 418.

Nuevamente, la gran excepción es el código de estado 429, que se traduce en "demasiadas solicitudes".

¿Cómo afecta el límite de frecuencia de 4xx a Googlebot?

Todos los códigos de estado HTTP 4xx (excepto 429), harán que se quite tu contenido de la Búsqueda de Google. Lo que es peor, si también entregas tu archivo robots.txt con un código de estado HTTP 4xx, se considerará como si no existiera. Si tenías una regla que no permitía rastrear tu ropa sucia, ahora Googlebot también lo sabe: esto no es algo bueno para ninguna de las partes involucradas.

Cómo reducir la frecuencia de rastreo de Googlebot de la manera correcta

Tenemos documentación exhaustiva sobre cómo reducir la frecuencia de rastreo de Googlebot y sobre cómo Googlebot (y la indexación de la Búsqueda) controla los diferentes códigos de estado HTTP. Asegúrate de consultarla. En resumen, te recomendamos que realices una de las siguientes acciones:

Si necesitas más sugerencias o aclaraciones, visítanos en Twitter o publica en nuestros foros de ayuda.