Qué debes saber sobre el rastreo web de Google

Google lleva más de 30 años rastreando la Web abierta y, a menudo, recibe preguntas sobre cómo funcionan sus rastreadores web. Para responder a algunas de ellas, aquí tienes algunos datos sobre las rastreadores de Google y cómo nos ayudan a organizar la información del mundo, conectando a las personas con el contenido de toda la Web.

¿Qué es el rastreo? En resumen, el rastreo es la forma en que Google "ve" la Web.

El rastreo es el proceso de usar software automatizado para descubrir páginas web nuevas y entenderlas. De esta forma, cuando acudas a Google para encontrar una página web, sabremos que existe y podremos incluirla en tus resultados de búsqueda. Todos los buscadores dependen del rastreo para saber qué páginas e información pueden estar disponibles. Para obtener más información, puedes ver nuestro vídeo sobre cómo rastrea páginas la Búsqueda de Google.

Tenemos muchos rastreadores y cada uno de ellos tiene tareas importantes

El robot de Google es nuestro rastreador más conocido y se usa para mantener actualizados los resultados de la Búsqueda de Google. También tenemos rastreadores específicos para otras plataformas, como Google Imágenes y Google Shopping. Proporcionamos la documentación completa de nuestros rastreadores más habituales y para qué sirven. Nuestros rastreadores usan nombres de agente de usuario fáciles de identificar y direcciones de Internet conocidas. De esta forma, los propietarios de los sitios pueden tener la certeza de que los rastreadores de Google que ven son legítimos.

Realizamos rastreos repetidos para encontrar las últimas actualizaciones y ofrecer los resultados de búsqueda más recientes

Para detectar artículos de noticias de última hora, podemos volver a rastrear las páginas principales de noticias cada pocos minutos. En otros casos, puede que veamos que no ha cambiado nada durante años, por lo que podríamos esperar un mes para volver a rastrear. Los propietarios de sitios pueden influir en la frecuencia con la que se vuelve a rastrear su sitio mediante archivos de sitemap que nos informan sobre las páginas nuevas y actualizadas.

Que un sitio se rastree con frecuencia es una buena señal

Si rastreamos tu sitio con frecuencia, es una señal de que tus páginas ofrecen contenido actualizado o muy relevante que la gente busca, y de que nuestros sistemas detectan esa demanda. Las compras online son un buen ejemplo: rastreamos los sitios de comercio electrónico con frecuencia para que nuestros resultados muestren los precios, las promociones y el estado del inventario más actualizados de los comerciantes.

El rastreo de Google ha ido creciendo a lo largo del tiempo a medida que las páginas se han vuelto más complejas

Otra razón por la que volvemos a rastrear sitios con frecuencia es para comprender plenamente la riqueza de una página web y lo que ofrece. Nuestros rastreadores usan una técnica llamada "renderización", que carga un sitio por completo para ver una página como lo haría una persona. A lo largo de los años, las páginas web se han vuelto más sofisticadas. El tamaño medio de las páginas para móviles ha pasado de 816 kilobytes a 2,3 megabytes y ahora tiene más de 60 archivos diferentes que cargar, desde imágenes hasta componentes interactivos. Por lo tanto, para obtener una vista representativa de una página web en todo su esplendor, es posible que tengamos que rastrear la misma página varias veces (o más), ya que se añaden elementos nuevos constantemente.

Optimizamos el rastreo automáticamente

Nuestras rastreadores están diseñados para ser eficientes y se ajustan para minimizar el impacto en los propietarios de sitios. Por ejemplo, cuando un sitio se ralentiza o devuelve errores, nuestra frecuencia de rastreo cambia automáticamente para evitar que se sobrecarguen los servidores del sitio. Intentamos limitar el rastreo innecesario almacenando en caché el contenido rastreado. Además, a medida que nuestros rastreadores descubren más contenido de un sitio web, también pueden reconocer secciones que se pueden cubrir con menos rastreo. Por ejemplo, los calendarios que llegan hasta el año 9999 probablemente no necesiten rastrearse por completo. Los propietarios de sitios pueden ayudar identificando el contenido que no necesita rastrearse, lo que permite a los sitios web ahorrar dinero al reducir sus costes de infraestructura y hace que Internet sea más eficiente en general.

Las rastreadores de Google nunca acceden a contenido de muro de pago o de suscripción sin permiso

De forma predeterminada, si no se puede acceder a una página en la Web abierta (por ejemplo, si el contenido está detrás de una página de inicio de sesión), nuestros rastreadores tampoco podrán acceder a ella. Hemos publicado directrices específicas para los propietarios de sitios web que quieran dar permiso explícito a Google para acceder a páginas de suscripción (por ejemplo, para que Google pueda dirigir a los usuarios a ese contenido). Si decides proporcionar acceso mediante suscripción a nuestros rastreadores, puedes usar datos estructurados para seguir mostrando a los visitantes humanos una pantalla de inicio de sesión sin activar nuestras reglas sobre spam. Además, puedes evitar que el contenido de suscripción aparezca en las vistas previas de las páginas con los controles de vista previa.

Los propietarios de los sitios tienen control sobre qué se rastrea y cómo

Cumplimos los estándares web abiertos, como robots.txt, un archivo de texto sencillo que permite a los propietarios de sitios declarar cómo deben interactuar los rastreadores, como el nuestro, con sus páginas. El archivo robots.txt, junto con las etiquetas meta robots, permite que los sitios web comuniquen fácilmente a Google y a otros servicios cómo acceder a su contenido. Pueden bloquear páginas para que no aparezcan en la Búsqueda. Pueden informarnos sobre el contenido nuevo que quieren que rastreemos mediante sitemaps. Además, pueden gestionar la frecuencia con la que rastreamos sus sitios a través de su presupuesto de rastreo.

Nuestros rastreadores estándar siempre respetan las decisiones de los sitios web sobre cómo se accede a su contenido y cómo se usa.

Después de un rastreo, podemos usar los datos rastreados varias veces para reducir la necesidad de enviar solicitudes repetidas innecesarias a los sitios. Aunque reutilicemos estos datos, seguiremos respetando las decisiones que tomen los sitios a través de robots.txt y los controles que ofrecemos mediante ese protocolo web abierto. Por ejemplo, los sitios pueden usar Google-Extended en robots.txt para controlar, entre otras cosas, si su contenido ayuda a entrenar versiones futuras de los modelos de Gemini. Utilizar Google-Extended no afecta a la inclusión de los sitios en la Búsqueda, ni tampoco lo usamos como factor de posicionamiento en la Búsqueda.

Ofrecemos muchas herramientas para que los propietarios de sitios gestionen su experiencia de rastreo de Google, como Google Search Console, que está disponible sin coste para los propietarios de sitios. Proporciona información sobre cuánto hemos rastreado y por qué. También ayuda a los sitios a diagnosticar problemas, como el tiempo de inactividad del servidor o los problemas de velocidad. Además, Search Console proporciona información detallada sobre cómo se ven las páginas de un sitio en la Búsqueda y cómo interactúan los usuarios con ellas.

Nuestros rastreadores ayudan a los usuarios a acceder a lo mejor de la Web y siempre estamos buscando formas de hacerlos más capaces y eficientes.