Guía para propietarios de sitios grandes sobre cómo gestionar el presupuesto de rastreo

En esta guía se explica cómo optimizar el rastreo que hace Google de sitios web muy grandes y que se actualizan con frecuencia.

Si en tu sitio no hay muchas páginas que cambian rápidamente o si parece que tus páginas se rastrean el mismo día que se publican, no hace falta que leas esta guía; basta con que mantengas actualizado tu sitemap y compruebes la cobertura de indexación de tu sitio con regularidad.

Si tienes contenido que ya lleva publicado un tiempo, pero que todavía no se ha indexado, el problema es otro. Puedes averiguar por qué no se indexa tu página con la herramienta de inspección de URLs.

¿A quién va dirigida esta guía?

Esta es una guía avanzada y está dirigida a propietarios de sitios de este tipo:

  • Sitios grandes (con más de un millón de páginas únicas) que incluyen contenido que cambia con relativa frecuencia (una vez a la semana)
  • Sitios medianos o grandes (con más de 10.000 páginas únicas) que incluyen contenido que cambia muy a menudo (a diario)

Teoría general del rastreo

La Web es un espacio casi infinito, por lo que Google no tiene la capacidad de descubrir e indexar todas las URLs disponibles. Por eso, el tiempo que puede dedicar el robot de Google a rastrear un sitio es limitado. La cantidad de tiempo y de recursos que dedica a rastrear los sitios se denomina "presupuesto de rastreo" del sitio. Recuerda que no se indexa todo lo que se rastrea de un sitio, puesto que cada página debe analizarse, unificarse con páginas similares y evaluarse para decidir si se incluirá en el índice una vez rastreada.

El presupuesto de rastreo lo determinan principalmente dos elementos: el límite de la capacidad de rastreo y la demanda de rastreo.

Límite de la capacidad de rastreo

El robot de Google quiere rastrear tu sitio sin sobrecargar tus servidores. Para conseguirlo, estima el máximo de conexiones paralelas simultáneas que puede utilizar para rastrear un sitio concreto, así como el tiempo de espera entre rastreos. Esta estimación se denomina "límite de la capacidad de rastreo" y se calcula para saber cómo rastrear todo el contenido importante de un sitio sin sobrecargar sus servidores.

El límite de la capacidad de rastreo puede aumentar o disminuir en función de los siguientes factores:

  • Estado del rastreo: si un sitio responde rápidamente durante un tiempo, el límite aumenta y, por tanto, se pueden usar más conexiones para rastrearlo. En cambio, si ese sitio se ralentiza o devuelve errores de servidor, el límite disminuye y el robot de Google lo rastrea menos.
  • Límite fijado por el propietario del sitio web en Search Console: los propietarios de sitios web pueden hacer que el robot de Google rastree menos sus sitios. Aunque se aumente el límite, el robot de Google no incrementará automáticamente la frecuencia de rastreo.
  • Límites de rastreos de Google: Google tiene muchos ordenadores, pero no infinitos, así que debe decidir cómo distribuirlos.

Demanda de rastreo

Por lo general, Google dedica todo el tiempo necesario para rastrear un sitio, tiempo que suele estar determinado por el tamaño, la frecuencia de actualización, la calidad de las páginas y la relevancia que tiene el sitio en comparación con otros.

Estos son los factores que desempeñan un papel crucial en la demanda de rastreo:

  • Inventario detectado: si no indicas al robot de Google qué debe hacer, intentará rastrear todas o la mayor parte de las URLs que conoce de tu sitio. Si muchas de estas URLs son duplicadas o no quieres que se rastreen por algún otro motivo (por ejemplo, porque se han eliminado o no son importantes), Google perderá mucho tiempo de rastreo en tu sitio. Este es el factor que mejor puedes controlar.
  • Popularidad: las URLs que más se visitan en Internet suelen rastrearse con más frecuencia para que estén lo más actualizadas posible en nuestro índice.
  • Falta de actualización: nuestros sistemas quieren volver a rastrear documentos con la suficiente frecuencia como para detectar cualquier cambio.

Además, si hay algún cambio que afecta a todo un sitio (por ejemplo, un traslado), es posible que aumente la demanda de rastreo para volver a indexar el contenido con las nuevas URLs.

Conclusiones

La capacidad y la demanda de rastreo son los dos factores que Google tiene en cuenta para determinar el presupuesto de rastreo de los sitios, que también se puede definir como el conjunto de URLs que el robot de Google puede y quiere rastrear. Aunque no se alcance el límite de la capacidad de rastreo, si la demanda de rastreo es baja, el robot de Google rastreará menos tu sitio.

Prácticas recomendadas

Sigue estas prácticas recomendadas para optimizar la eficiencia del rastreo:

  • Gestiona tus URLs. Usa las herramientas adecuadas para indicar a Google qué páginas debe rastrear y cuáles no. Si Google pasa demasiado tiempo rastreando URLs que no son apropiadas para incluirlas en el índice, es posible que el robot de Google decida que no vale la pena rastrear el resto del sitio ni aumentar el presupuesto para hacerlo.
    • Unifica el contenido duplicado. Elimina el contenido duplicado para que los rastreos se centren en contenido único y no en URLs únicas.
    • Bloquea el rastreo de las URLs que no quieras que se indexen. Hay páginas que pueden ser importantes para determinados usuarios, pero que no te interesa que aparezcan en resultados de búsqueda. Por ejemplo, páginas con desplazamiento infinito que incluyen la misma información en páginas enlazadas o versiones de una misma página que presentan la misma información en otro orden. Si no puedes unificar esas páginas tal como se indica en el primer punto, bloquéalas con un archivo robots.txt o con la herramienta de parámetros de URL (si se puede llegar al mismo contenido con distintos parámetros de URL).
    • Muestra errores 404 o 410 cuando se soliciten páginas eliminadas de forma permanente. Google no olvida las URLs que ya conoce, pero se toma los errores 404 como señales de que no debe rastrear esas URLs de nuevo. No obstante, las URLs que están bloqueadas permanecen en la cola de rastreo y volverán a rastrearse cuando dejen de estar bloqueadas.
    • Elimina los errores soft 404. Las páginas que devuelven este tipo de errores se siguen rastreando, lo que consume parte del presupuesto. Consulta el informe de cobertura de indexación para ver si hay errores soft 404.
    • Mantén tus sitemaps actualizados. Google lee tus sitemaps cada cierto tiempo, así que asegúrate de incluir todo el contenido que quieres que rastree. Si en tu sitio se incluye contenido que se va actualizando, lo recomendable es que incluyas la etiqueta <lastmod>.
    • Procura no usar cadenas de redirección largas, ya que afectan al rastreo.
  • Configura tus páginas para que se carguen de forma eficiente. Si Google puede cargar y renderizar tus páginas rápidamente, es posible que pueda leer más contenido de tu sitio.
  • Monitoriza el rastreo de tu sitio. Comprueba que no haya habido problemas de disponibilidad en tu sitio mientras se rastreaba y busca otras formas de conseguir que el rastreo sea más eficiente.

Monitorizar el rastreo y la indexación de un sitio

Estos son los pasos más importantes para monitorizar el perfil de rastreo de tu sitio:

  1. Averiguar si el robot de Google detecta problemas de disponibilidad en tu sitio.
  2. Determinar si hay páginas que deberían rastrearse, pero que el robot de Google no examina.
  3. Identificar si hay partes de tu sitio que deberían rastrearse más rápido de lo que se está haciendo.
  4. Mejorar la eficiencia de rastreo de tu sitio.
  5. Gestionar el rastreo excesivo de tu sitio.

1. Averiguar si el robot de Google detecta problemas de disponibilidad en tu sitio

Aunque la disponibilidad de tu sitio mejore, es posible que el presupuesto de rastreo de tu sitio no aumente. Tal como se ha comentado más arriba, Google se basa en la demanda de rastreo para determinar la frecuencia de rastreo óptima. No obstante, los problemas de disponibilidad impiden que Google rastree tu sitio tanto como querría.

Diagnosticar el problema

Consulta el informe "Estadísticas de rastreo" para ver el historial de rastreo del robot de Google en tu sitio. En el informe se muestra cuándo ha detectado Google problemas de disponibilidad en tu sitio. Si aparecen advertencias o errores de disponibilidad en tu sitio, busca en los gráficos de disponibilidad de host si en alguna ocasión las solicitudes del robot de Google han superado el límite (que está indicado con una línea roja), haz clic en el gráfico para ver cuáles son las URLs en las que se han detectado problemas e intenta relacionarlas con errores que haya en tu sitio.

Resolver el problema

  • Consulta cómo detectar y gestionar varios problemas de disponibilidad en la documentación del informe "Estadísticas de rastreo".
  • Impide que se rastreen las páginas que no quieres que se rastreen. Consulta la sección sobre cómo gestionar el inventario.
  • Haz que las páginas se carguen y se rendericen más rápido. Consulta la sección Mejorar la eficiencia de rastreo de tu sitio.
  • Aumenta la capacidad de tu servidor. Si Google suele alcanzar el límite de capacidad de tu servidor cuando rastrea tu sitio, pero aun así hay URLs importantes que no se rastrean ni se actualizan tanto como sería necesario, aumenta la capacidad del servidor; de este modo, es posible que Google pueda solicitar más páginas de tu sitio. Consulta el historial de disponibilidad de tu host en el informe "Estadísticas de rastreo" para saber si la frecuencia de rastreo de Google sobrepasa el límite a menudo. Si es así, aumenta los recursos de publicación de tu servidor durante un mes y comprueba si se han hecho más solicitudes de rastreo durante ese mismo periodo.

2. Determinar si hay páginas que deberían rastrearse, pero que el robot de Google no examina

Google se pasa en tu sitio el tiempo necesario para indexar todo el contenido de alta calidad y valioso que encuentra. Si crees que el robot de Google se deja contenido importante, puede deberse a que no sabe que existe, a que ese contenido está bloqueado, a que la disponibilidad de tu sitio está limitando el acceso de Google o a que Google está intentando no sobrecargar tu servidor.

Diagnosticar el problema

En Search Console no hay ningún historial de rastreos de tu sitio que puedas filtrar por URL o ruta, pero puedes saber si el robot de Google ha rastreado URLs específicas examinando los registros de tu sitio. Si las URLs rastreadas se han indexado o no, eso es otra historia.

Recuerda que, en la mayoría de los sitios, las páginas nuevas tardan varios días en detectarse. Por tanto, salvo que tengas un sitio que ofrezca contenido urgente o que se queda obsoleto rápidamente (como un sitio de noticias), no esperes que se rastreen tus URLs el mismo día que se publiquen.

Resolver el problema

Si añades páginas a tu sitio y estas tardan más de lo razonable en rastrearse, la causa puede ser que Google no sabe que existen, que ese contenido está bloqueado, que tu sitio ha alcanzado su límite de publicación o que te has quedado sin presupuesto de rastreo.

  1. Avisa a Google de que tienes páginas nuevas: actualiza tus sitemaps para que incluyan las nuevas URLs.
  2. Examina las reglas del archivo robots.txt para comprobar que no hay ninguna página bloqueada por error.
  3. Si todas las páginas de tu sitio que no se rastrean tienen parámetros de URL, es posible que se hayan excluido debido a la configuración de la herramienta de parámetros de URL. No hay ninguna forma de comprobar si ese es el caso; por eso normalmente recomendamos no usar esa herramienta.
  4. Revisa las prioridades de rastreo; es decir, utiliza el presupuesto de rastreo con cabeza. Gestiona tu inventario y mejora la eficiencia de rastreo de tu sitio.
  5. Comprueba que tus servidores no se estén quedando sin capacidad. El robot de Google reducirá el rastreo si detecta que tus servidores tienen problemas para responder a sus solicitudes.

Aunque una página se haya rastreado, es posible que no se muestre en los resultados de búsqueda si su contenido no tiene suficiente valor o los usuarios no lo solicitan.

3. Identificar si las actualizaciones de tu sitio deberían rastrearse más rápido de lo que se está haciendo

Si no se detecta alguna página nueva o actualizada de tu sitio, quizá sea porque no se ha detectado que está o que se ha actualizado. En esta sección se indica cómo puedes ayudarnos a saber que se ha actualizado una página.

Ten en cuenta que Google procura buscar e indexar páginas en un tiempo razonable, que suele ser de al menos tres días en la mayoría de los casos. Por tanto, salvo que tengas un sitio de noticias o que ofrezca contenido de gran valor que se quede obsoleto rápidamente, no esperes que se indexen tus páginas el mismo día que las publiques.

Diagnosticar el problema

Examina los registros de tu sitio para ver cuándo ha rastreado el robot de Google determinadas URLs.

Para saber la fecha de indexación, utiliza la herramienta de inspección de URLs o busca en Google las URLs que has actualizado.

Resolver el problema

Qué puedes hacer:

  • Enviar un sitemap de noticias si tu sitio incluye contenido de noticias. Hacer ping a Google cuando se publique o modifique tu sitemap.
  • Incluir la etiqueta <lastmod> en los sitemaps para indicar cuándo se ha actualizado una URL indexada.
  • Aplicar una estructura de URLs sencilla para que Google pueda encontrar tus páginas más fácilmente.
  • Proporcionar enlaces <a> rastreables estándar para ayudar a Google a encontrar las páginas.

Qué debes evitar:

  • Enviar el mismo sitemap varias veces el mismo día si no se ha modificado.
  • Esperar que el robot de Google rastree todo el contenido de un sitemap o que lo haga inmediatamente. El robot de Google se toma los sitemaps como sugerencias útiles, no como requisitos absolutos.
  • Incluir en los sitemaps URLs que no quieras que aparezcan en la Búsqueda. Si lo haces, gastarás parte de tu presupuesto de rastreo en páginas que no quieres que se indexen.

4. Mejorar la eficiencia de rastreo de tu sitio

Mejora la velocidad de carga de tus páginas

La capacidad de rastreo de Google está limitada por el ancho de banda, el tiempo y la disponibilidad de las instancias del robot de Google. Si tu servidor responde rápido a las solicitudes, es posible que se puedan rastrear más páginas de tu sitio. Dicho esto, Google solo quiere rastrear contenido de alta calidad, por lo que el robot de Google no va a rastrear más páginas de tu sitio si te limitas a mejorar la velocidad de páginas de baja calidad. En cambio, si en Google creemos que nos estamos perdiendo contenido de alta calidad de tu sitio, probablemente aumentaremos el presupuesto para rastrearlo.

A continuación se indica qué puedes hacer para optimizar tus páginas y tus recursos de cara al rastreo:

  • Evita que el robot de Google cargue recursos grandes, pero poco importantes, mediante el archivo robots.txt. Bloquea solo recursos que no sean importantes; es decir, aquellos que no sean importantes para entender el significado de la página (como las imágenes decorativas).
  • Asegúrate de que tus páginas se carguen rápidamente.
  • Ten cuidado con las cadenas de redirección largas, ya que afectan al rastreo.
  • Son importantes tanto el tiempo que tarda el servidor en responder a las solicitudes como el tiempo necesario para renderizar las páginas. También debe tenerse en cuenta el tiempo de carga y de ejecución de los recursos insertados, como las imágenes y las secuencias de comandos. Ten en cuenta los recursos de gran tamaño o que tardan en cargarse necesarios para indexar el contenido.

Oculta las URLs que no quieras que aparezcan en los resultados de búsqueda

Si malgastas recursos de tu servidor en páginas que no hace falta que se rastreen, puede que se dedique menos tiempo a rastrear páginas que sí son importantes. En ese caso, quizá se tarde mucho en descubrir contenido nuevo o actualizado de calidad.

Si el robot de Google puede acceder a muchas URLs de tu sitio que no quieres que se rastreen, el rastreo y la indexación del sitio pueden verse afectados. Por lo general, estas URLs se clasifican en las siguientes categorías:

Qué puedes hacer:

  • Bloquear con el archivo robots.txt los recursos o las páginas que no quieres que Google rastree.
  • Hacer referencia a los recursos comunes que se utilicen en varias páginas (como una imagen compartida o un archivo JavaScript) con la misma URL; de este modo, Google podrá almacenarlos en caché y reutilizarlos sin tener que solicitarlos varias veces.

Qué debes evitar:

  • Añadir o retirar páginas o directorios del archivo robots.txt con regularidad para reasignar el presupuesto de rastreo a otras páginas de tu sitio. En el archivo robots.txt, debes bloquear únicamente páginas o recursos que no quieres que aparezcan en Google a largo plazo.
  • Rotar sitemaps o recurrir a otros mecanismos de ocultación temporal para reasignar el presupuesto a otras páginas.

5. Gestionar el rastreo excesivo de tu sitio (en caso de emergencia)

El robot de Google tiene algoritmos para no sobrecargar tu sitio con solicitudes de rastreo. Sin embargo, si detectas que el robot de Google está enviando demasiadas solicitudes a tu sitio, tienes varias opciones.

Diagnosticar el problema

Consulta el servidor de tu sitio para ver si recibe demasiadas solicitudes del robot de Google.

Resolver el problema

En caso de emergencia, lo recomendable es seguir estos pasos para que el robot de Google deje de sobrecargar tus servidores:

  1. Cuando tu servidor esté sobrecargado, devuelve los códigos de resultado HTTP 503 o 429 temporalmente como respuesta a las solicitudes del robot de Google. El robot de Google volverá a probar esas URLs durante aproximadamente 2 días. Si durante varios días devuelves códigos que indican que no hay disponibilidad, Google reducirá la frecuencia de rastreo o dejará de rastrear URLs de tu sitio permanentemente, por lo que debes completar los siguientes pasos adicionales.
  2. Reduce la frecuencia con la que el robot de Google rastrea tu sitio. Esta medida puede tardar hasta 2 días en surtir efecto y necesitas permisos de propietario de la propiedad de Search Console. Hazlo solo si, al consultar el gráfico de uso de host que hay en la sección de disponibilidad de host del informe "Estadísticas de rastreo", observas que desde hace tiempo Google suele sobrecargar tu servidor al rastrear tu sitio.
  3. Una vez que haya disminuido la frecuencia de rastreo, deja de devolver códigos 503/429 cuando recibas solicitudes de rastreo. Si Google recibe el código 503 durante más de 2 días al rastrear una URL, la quitará del índice.
  4. Monitoriza el rastreo y la capacidad de tu host a lo largo del tiempo. Si lo consideras oportuno, aumenta la frecuencia de rastreo o vuelve a la frecuencia predeterminada.
  5. Si el rastreador que da problemas es uno de los rastreadores AdsBot, probablemente sea porque has creado objetivos de anuncios dinámicos de búsqueda que dirigen a tu sitio y Google los está intentando rastrear. Google trata de rastrear esos objetivos cada 2 semanas; si tu servidor no puede gestionar estos rastreos, puedes limitar los objetivos de anuncios que utilizas o aumentar la capacidad de tu servidor.

Mitos y realidades sobre el rastreo

Pon a prueba tus conocimientos sobre cómo rastrea e indexa sitios web Google.

Si se comprimen los sitemaps, se puede aumentar el presupuesto de rastreo.
Verdadero
Falso
No es cierto. Los sitemaps comprimidos también tienen que obtenerse del servidor, por lo que no ahorran mucho tiempo de rastreo ni trabajo.
Google prefiere el contenido actualizado, así que es mejor que no pare de modificar mis páginas.
Verdadero
Falso
El contenido se clasifica por calidad, independientemente de cuándo se haya publicado. Crea y actualiza tu contenido según sea necesario, pero ten en cuenta que no aporta ningún valor hacer cambios banales y actualizar la fecha de las páginas para que parezcan estar actualizadas.
Google prefiere el contenido antiguo al nuevo porque tiene más importancia.
Verdadero
Falso
Si tu página es útil, no importa si es nueva o antigua.
Google prefiere URLs claras y no le gustan los parámetros de consulta.
Verdadero
Falso
En Google podemos rastrear parámetros. Eso sí, recuerda bloquear páginas con parámetros que apunten a contenido duplicado.
Cuanto más rápido se carguen y rendericen las páginas, más podrá rastrear Google.
Verdadero
Cierto: nuestros recursos están limitados por el tiempo y el número de robots de rastreo. Cuantas más páginas puedas publicar en un tiempo limitado, más se pueden rastrear. Sin embargo, es posible que se dedique más tiempo a rastrear un sitio que tenga información más importante, aunque sea más lento. Probablemente te interese más que tu sitio sea más rápido para los usuarios que para aumentar la cobertura de rastreo. Es mucho más sencillo ayudar a Google a rastrear el contenido adecuado que intentar que lo rastree todo cada vez. Al rastrear un sitio, no solo hay que obtener el contenido, sino que también hay que renderizarlo, y el tiempo que se tarda en renderizar la página cuenta tanto como el tiempo que se tarda en solicitarla. Por lo tanto, si las páginas se renderizan más rápido, también aumentará la velocidad de rastreo.
Falso
Los sitios pequeños no se rastrean tan a menudo como los grandes.
Verdadero
Falso
Si un sitio tiene contenido importante que cambia con frecuencia, se rastrea a menudo, independientemente de su tamaño.
Cuanto más cerca esté tu contenido de la página principal, más importante será para Google.
Verdadero
Verdadero, en parte
La página principal de un sitio suele ser la más importante, por lo que es posible que las páginas a las que se puede acceder directamente desde ella se consideren más importantes y, por tanto, se rastreen con más frecuencia. No obstante, eso no quiere decir que esas páginas vayan a aparecer en posiciones más altas en comparación con otras páginas de tu sitio.
Falso
Cambiar las versiones de las URLs es una buena forma de animar a Google a volver a rastrear mis páginas.
Verdadero
Verdadero, en parte
Si tus páginas tienen URLs con nuevas versiones, es probable que Google las rastree antes; sin embargo, no suele ser necesario y malgastarás recursos de rastreo si la página en realidad no cambia. Si recurres a URLs con versiones para indicar nuevo contenido, lo recomendable es que solo cambies la URL cuando hayas modificado considerablemente el contenido de la página.
Falso
La velocidad y los errores de un sitio afectan al presupuesto de rastreo.
Verdadero
Si un sitio es rápido, la experiencia de los usuarios es mejor y el sitio se rastrea con más frecuencia. El robot de Google considera que, si un sitio es rápido, sus servidores están en buen estado y, por tanto, puede obtener más contenido con el mismo número de conexiones. En cambio, si hay muchos códigos de resultado HTTP 5xx (errores de servidor) o se agota el tiempo de espera de la conexión, reducirá la frecuencia de rastreo. Lo recomendable es que prestes atención al informe "Estadísticas de rastreo" de Search Console y que reduzcas al máximo los errores de servidor.
Falso
El rastreo es un factor de posicionamiento.
Verdadero
Falso
Por mucho que aumentes la frecuencia de rastreo, la posición de tu sitio en los resultados de búsqueda no tiene por qué mejorar. Google tiene en cuenta muchos factores a la hora de posicionar los resultados y, aunque es necesario rastrear una página para que aparezca en los resultados, el rastreo no es uno de ellos.
Las URLs alternativas y el contenido insertado consumen presupuesto de rastreo.
Verdadero
Por lo general, todas las URLs que rastrea el robot de Google gastan presupuesto de rastreo de un sitio. Es posible que haya que rastrear URLs alternativas, como AMP o hreflang, y contenido insertado, como CSS y JavaScript, incluidas las obtenciones de XHR, lo que consume parte del presupuesto de rastreo.
Falso
Puedo controlar el robot de Google con la directiva "crawl-delay".
Verdadero
Falso
El robot de Google no procesa la directiva "crawl-delay" no estándar del archivo robots.txt.
La directiva nofollow afecta al presupuesto de rastreo.
Verdadero
Verdadero, en parte
Se gasta presupuesto de rastreo al rastrear cualquier URL, por lo que, aunque en una de tus páginas se marque una URL con la directiva nofollow, es posible que la URL se acabe rastreando si está enlazada en otra página del sitio o de Internet sin la directiva nofollow.
Falso