Información importante sobre el rastreo web de Google

Google rastrea la Web abierta desde hace más de 30 años, y con frecuencia nos hacen preguntas sobre cómo funcionan nuestros rastreadores web. Para responder algunas de ellas, aquí tienes algunos datos sobre los rastreadores de Google y cómo nos ayudan a organizar la información del mundo y conectan a las personas con el contenido de toda la Web.

¿Qué es el rastreo? En resumen, el rastreo es la forma en que Google "ve" la Web

El rastreo es el proceso de usar software automatizado para descubrir páginas web nuevas y comprenderlas. De esa manera, cuando vienes a Google para encontrar una página web, sabemos que existe y podemos incluirla en tus resultados de la búsqueda. Todos los motores de búsqueda dependen del rastreo para saber qué páginas e información pueden existir. Para obtener más información, puedes mirar nuestro video sobre cómo rastrea las páginas la Búsqueda de Google.

Tenemos muchos rastreadores y cada uno tiene trabajos importantes

Googlebot es nuestro rastreador más conocido y se usa para mantener los resultados de la Búsqueda de Google actualizados. También tenemos rastreadores específicos para otras plataformas, como Google Imágenes y Google Shopping. Proporcionamos documentación completa de nuestros rastreadores más utilizados y su función. Nuestros rastreadores usan nombres de usuario-agente fáciles de identificar y direcciones de Internet conocidas. De esta manera, los propietarios de los sitios pueden tener la certeza de que los rastreadores de Google que ven son legítimos.

Realizamos rastreos repetidos para encontrar las actualizaciones más recientes y proporcionar los últimos resultados de búsqueda

Para detectar artículos de noticias de último momento, es posible que volvamos a rastrear las páginas principales de noticias cada pocos minutos. En otros casos, es posible que no haya cambiado nada durante años, por lo que podríamos esperar un mes para volver a rastrear. Los propietarios de los sitios pueden influir en la frecuencia con la que se vuelve a rastrear el sitio con archivos de mapas del sitio que nos informan sobre las páginas nuevas y actualizadas.

El rastreo frecuente es una buena señal

Si rastreamos tu sitio con frecuencia, es un indicador de que tus páginas tienen contenido nuevo o muy pertinente que las personas quieren encontrar y de que nuestros sistemas reconocen esa demanda. Las compras en línea son un gran ejemplo: rastreamos los sitios de comercio electrónico con frecuencia para que nuestros resultados muestren las promociones, el estado del inventario y los precios más actualizados de los comercios.

El rastreo de Google creció con el tiempo a medida que las páginas se volvieron más complejas

Otro motivo por el que volvemos a rastrear con frecuencia es para comprender por completo la riqueza de una página web y lo que ofrece. Nuestros rastreadores usan una técnica llamada renderización, que carga un sitio por completo para "ver" una página tal como lo haría una persona real. Con el paso de los años, las páginas web se han vuelto más sofisticadas. El tamaño de la página para dispositivos móviles promedio aumentó de 816 kilobytes a 2.3 megabytes y ahora tiene más de 60 archivos diferentes para cargar, desde imágenes hasta componentes interactivos. Por lo tanto, para obtener una instantánea representativa de una página web en todo su esplendor, es posible que debamos rastrear la misma página varias veces, o más, ya que se agregan nuevos elementos todo el tiempo.

Optimizamos el rastreo automáticamente

Nuestros rastreadores están diseñados para ser eficientes y se ajustan para minimizar el impacto en los propietarios de los sitios. Por ejemplo, cuando un sitio se ralentiza o muestra errores, nuestra frecuencia de rastreo cambia automáticamente para evitar sobrecargar los servidores del sitio. Intentamos limitar el rastreo innecesario almacenando en caché el contenido rastreado. A medida que nuestros rastreadores descubren más de un sitio web, también pueden reconocer las secciones que se pueden cubrir con menos rastreo. Por ejemplo, los calendarios que llegan hasta el año 9999 probablemente no necesiten rastrearse en su totalidad. Los propietarios de los sitios pueden ayudar a identificar qué contenido no necesita rastrearse, lo que permite que los sitios web ahorren dinero, ya que se reducen sus costos de infraestructura, y que Internet sea más eficiente en general.

Los rastreadores de Google nunca acceden a contenido de muros de pago o suscripciones sin permiso

De forma predeterminada, si no se puede acceder a una página en la Web abierta (por ejemplo, si el contenido está protegido por una página de acceso), nuestros rastreadores tampoco pueden acceder a ella. Tenemos orientación específica para los propietarios de los sitios si desean otorgar permiso explícito a Google para acceder a las páginas de suscripción (por ejemplo, para que Google pueda derivar usuarios a ese contenido). Si decides proporcionar acceso de suscripción a nuestros rastreadores, puedes usar datos estructurados para seguir mostrando a los visitantes humanos una pantalla de acceso sin activar nuestras reglas sobre spam. Además, puedes evitar que el contenido de suscripción aparezca en las vistas previas de las páginas con los controles de vista previa.

Los propietarios del sitio controlan qué se rastrea y cómo

Respetamos los estándares de la Web abierta, como robots.txt, un archivo de texto simple que permite a los propietarios de los sitios declarar la forma en que los rastreadores como el nuestro deben interactuar con sus páginas. El archivo robots.txt, junto con las metaetiquetas robots, permite que los sitios web comuniquen fácilmente a Google y a otros servicios cómo acceder a su contenido. Pueden bloquear páginas para que no aparezcan en la Búsqueda. Pueden informarnos sobre el contenido nuevo que desean que se rastree con mapas del sitio. Además, pueden administrar la frecuencia con la que rastreamos sus sitios a través de su presupuesto de rastreo.

Nuestros rastreadores estándar siempre respetan las decisiones de los sitios web sobre cómo se accede a su contenido y cómo se usa

Después de un rastreo, es posible que usemos los datos rastreados varias veces para reducir las solicitudes repetidas innecesarias en los sitios. Incluso cuando reutilizamos estos datos, seguimos respetando las decisiones que toman los sitios con robots.txt y los controles que ofrecemos a través de ese protocolo web abierto. Por ejemplo, los sitios pueden usar Google-Extended en robots.txt para controlar, entre otras cosas, si su contenido ayuda a entrenar versiones futuras de los modelos de Gemini. El uso de Google-Extended no afecta la inclusión de un sitio en la Búsqueda, ni tampoco lo usamos como un indicador de clasificación en la Búsqueda.

Proporcionamos muchas herramientas para que los propietarios de los sitios administren su experiencia de rastreo de Google, incluido Google Search Console, que está disponible sin costo para los propietarios de los sitios. Este servicio proporciona información sobre cuánto rastreamos y por qué. También ayuda a los sitios a diagnosticar problemas como el tiempo de inactividad del servidor o los problemas de velocidad. Además, Search Console proporciona información integral sobre cómo se ven las páginas de un sitio en la Búsqueda y cómo interactúan los usuarios con ellas.

Nuestros rastreadores ayudan a conectar a las personas con lo mejor de la Web, y siempre buscamos formas de hacerlos más capaces y eficientes.