Descripción general de los rastreadores y recuperadores de Google (usuarios-agentes)

Google usa rastreadores y recuperadores con el objetivo de realizar acciones para sus productos, ya sean automáticas o activadas por la solicitud de un usuario.

El término “rastreador” (también llamado “robot” o “araña”) es un término genérico que se usa para cualquier programa que descubre y analiza automáticamente sitios web siguiendo vínculos de una página a otra. El rastreador principal de Google que se usa para la Búsqueda de Google se llama Googlebot.

Los recuperadores, como el navegador, son herramientas de que solicitan una sola URL cuando un usuario las solicita.

En las siguientes tablas, se muestran los rastreadores y recuperadores de Google que usan varios productos y servicios, cómo aparecen en los registros del referente y cómo especificarlos en robots.txt. Las listas no son exhaustivas; solo abarcan los solicitantes más comunes que pueden aparecer en los archivos de registro.

  • El token de usuario-agente se usa en la línea User-agent: de robots.txt para establecer coincidencias con un tipo de rastreador cuando escribes las reglas de rastreo correspondientes a tu sitio. Algunos rastreadores tienen más de un token, como se puede ver en la tabla. En esos casos, basta con establecer la coincidencia con un solo token de rastreo para que se aplique una regla. La lista no es exhaustiva, pero abarca la mayoría de los rastreadores que podrías ver en tu sitio web.
  • La cadena de usuario-agente completa es la descripción entera del rastreador y aparece en la solicitud HTTP y en tus registros web.

Rastreadores comunes

Los rastreadores comunes de Google se usan con el objetivo de encontrar información para crear los índices de búsqueda de Google, realizar otros rastreos específicos de productos y realizar análisis. Siempre obedecen las reglas de robots.txt y, por lo general, rastrean desde los rangos de IP publicados en el objeto googlebot.json.

Rastreadores comunes
Token de usuario-agente Googlebot
String de usuario-agente completa Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
Token de usuario-agente Googlebot
Strings de usuario-agente completas
  • Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Googlebot/2.1; +http://www.google.com/bot.html) Chrome/W.X.Y.Z Safari/537.36
  • Casi nunca:
    • Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
    • Googlebot/2.1 (+http://www.google.com/bot.html)

Se usa para rastrear URLs de imágenes en Google Imágenes y productos que dependen de imágenes.

Tokens de usuario-agente
  • Googlebot-Image
  • Googlebot
String de usuario-agente completa Googlebot-Image/1.0

Googlebot-News usa Googlebot para rastrear artículos de noticias, pero respeta su token histórico de usuario-agente Googlebot-News.

Tokens de usuario-agente
  • Googlebot-News
  • Googlebot
String de usuario-agente completa El usuario-agente Googlebot-News usa las diferentes cadenas del usuario-agente de Googlebot.

Se usa para rastrear URLs de video en Google Video y productos que dependen de videos.

Tokens de usuario-agente
  • Googlebot-Video
  • Googlebot
String de usuario-agente completa Googlebot-Video/1.0

Google StoreBot rastrea ciertos tipos de páginas, incluidas, entre otras, las páginas de detalles del producto, las páginas del carrito y las páginas de confirmación de compra.

Token de usuario-agente Storebot-Google
Strings de usuario-agente completas
  • Agente para computadoras de escritorio:
    Mozilla/5.0 (X11; Linux x86_64; Storebot-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Safari/537.36
  • Agente para dispositivos móviles:
    Mozilla/5.0 (Linux; Android 8.0; Pixel 2 Build/OPD3.170816.012; Storebot-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36

Google-InspectionTool es el rastreador que usan las herramientas de prueba de la Búsqueda, como la prueba de resultados enriquecidos y la inspección de URL en Search Console. Además del usuario-agente y del token de usuario-agente, imita a Googlebot.

Tokens de usuario-agente
  • Google-InspectionTool
  • Googlebot
String de usuario-agente completa
  • Dispositivos móviles
    Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; Google-InspectionTool/1.0;)
  • Computadoras de escritorio
    Mozilla/5.0 (compatible; Google-InspectionTool/1.0;)

GoogleOther es el rastreador genérico que pueden usar varios equipos de productos para recuperar contenido de acceso público de sitios. Por ejemplo, se puede usar para rastreos únicos en investigaciones y desarrollos internos.

Token de usuario-agente GoogleOther
String de usuario-agente completa
  • Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; GoogleOther)
  • Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GoogleOther) Chrome/W.X.Y.Z Safari/537.36
  • GoogleOther

GoogleOther-Image es la versión de GoogleOther optimizada para recuperar URLs de imágenes de acceso público.

Tokens de usuario-agente
  • GoogleOther-Image
  • GoogleOther
String de usuario-agente completa GoogleOther-Image/1.0

GoogleOther-Video es la versión de GoogleOther optimizada para recuperar URLs de videos de acceso público.

Tokens de usuario-agente
  • GoogleOther-Video
  • GoogleOther
String de usuario-agente completa GoogleOther-Video/1.0

Google-CloudVertexBot rastrea sitios a pedido de los propietarios cuando se compilan agentes de Vertex AI.

Tokens de usuario-agente
  • Google-CloudVertexBot
  • Googlebot
Subcadena de usuario-agente Google-CloudVertexBot

Google-Extended es un token de producto independiente que los publicadores web pueden usar para decidir si sus sitios ayudan a mejorar las Apps de Gemini y las APIs generativas de Vertex AI, incluidas las generaciones futuras de modelos que impulsan esos productos. Google-Extended no afecta la inclusión ni la clasificación de un sitio en la Búsqueda de Google.

Token de usuario-agente Google-Extended
String de usuario-agente completa Google-Extended no tiene una cadena de usuario-agente de solicitud HTTP independiente. El rastreo se realiza con cadena de usuario-agente existentes de Google; se usa el token de usuario-agente de robots.txt con capacidad de control.

Rastreadores de casos especiales

Cuando existe un acuerdo entre el sitio rastreado y el producto sobre el proceso de rastreo, se usan los rastreadores de casos especiales. Por ejemplo, AdsBot ignora el usuario-agente global de robots.txt (*) con el permiso del publicador del anuncio. Los rastreadores de casos específicos pueden ignorar las reglas de robots.txt y, por lo tanto, operan desde un rango de IP diferente al de los rastreadores comunes. Los rangos de IP se publican en el objeto special-crawlers.json.

Rastreadores de casos especiales

Las APIs de Google los usan para entregar mensajes de notificación push. Ignora el usuario-agente global (*) en robots.txt.

Token de usuario-agente APIs-Google
String de usuario-agente completa APIs-Google (+https://developers.google.com/webmasters/APIs-Google.html)

Comprueba la calidad de los anuncios de las páginas web para dispositivos móviles. Ignora el usuario-agente global (*) en robots.txt.

Token de usuario-agente AdsBot-Google-Mobile
String de usuario-agente completa Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)

Comprueba la calidad de los anuncios de las páginas web en computadoras de escritorio. Ignora el usuario-agente global (*) en robots.txt.

Token de usuario-agente AdsBot-Google
String de usuario-agente completa AdsBot-Google (+http://www.google.com/adsbot.html)

El rastreador de AdSense visita tu sitio para determinar su contenido con el objetivo de proporcionar anuncios relevantes. Ignora el usuario-agente global (*) en robots.txt.

Token de usuario-agente Mediapartners-Google
String de usuario-agente completa Mediapartners-Google

El rastreador de AdSense para dispositivos móviles visita tu sitio para determinar su contenido y brindar anuncios relevantes. Ignora el usuario-agente global (*) en robots.txt.

Token de usuario-agente Mediapartners-Google
String de usuario-agente completa (Various mobile device types) (compatible; Mediapartners-Google/2.1; +http://www.google.com/bot.html)

El usuario-agente de Google-Safety controla el rastreo específico por abuso, como el descubrimiento de software malicioso para los vínculos públicos en las propiedades de Google. Este usuario-agente ignora las reglas de robots.txt.

String de usuario-agente completa Google-Safety

Recuperadores generados por el usuario

Los usuarios inician las recuperaciones activadas por el usuario para realizar una función de recuperación específica del producto. Por ejemplo, Google Site Verifier actúa a pedido de un usuario, o un sitio alojado en Google Cloud (GCP) tiene una función que permite a sus usuarios recuperar una cuenta Feed RSS Debido a que un usuario solicitó la recuperación, estas recuperaciones suelen ignorar las reglas de robots.txt. Los rangos de IPs que usan los recuperadores activados por el usuario se publican en los objetos user-triggered-fetchers.json y user-triggered-fetchers-google.json.

Recuperadores generados por el usuario

Feedfetcher se usa para rastrear feeds RSS o Atom de Google Podcasts, Google Noticias y PubSubHubbub.

Token de usuario-agente FeedFetcher-Google
String de usuario-agente completa FeedFetcher-Google; (+http://www.google.com/feedfetcher.html)

Recupera y procesa feeds que los publicadores proporcionaron de forma explícita a través del Centro para editores de Google que se usarán en las páginas de destino de Google Noticias.

String de usuario-agente completa GoogleProducer; (+https://developers.google.com/search/docs/crawling-indexing/overview-google-crawlers#googleproducer)

A pedido del usuario, Google Read Aloud recupera y lee páginas web con la función de texto a voz (TTS).

Strings de usuario-agente completas

Agentes actuales:

  • Agente para computadoras de escritorio:
    Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.118 Safari/537.36 (compatible; Google-Read-Aloud; +https://support.google.com/webmasters/answer/1061943)
  • Agente para dispositivos móviles:
    Mozilla/5.0 (Linux; Android 7.0; SM-G930V Build/NRD90M) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.125 Mobile Safari/537.36 (compatible; Google-Read-Aloud; +https://support.google.com/webmasters/answer/1061943)

Agente anterior (obsoleto):

google-speakr

Google Site Verifier realiza la recuperación cuando el usuario solicita los tokens de verificación de Search Console.

String de usuario-agente completa Mozilla/5.0 (compatible; Google-Site-Verification/1.0)

Nota sobre Chrome/W.X.Y.Z en usuarios-agentes

Siempre que veas la cadena Chrome/W.X.Y.Z en las cadenas de usuario-agente de la tabla, W.X.Y.Z es un marcador de posición que representa la versión del navegador Chrome que utiliza ese usuario-agente (por ejemplo, 41.0.2272.96). Con el paso del tiempo, el número de versión aumentará para coincidir con la versión de actualización más reciente de Chromium que use Googlebot.

Si buscas en tus registros o filtras un servidor en busca de un usuario-agente con este patrón, usa comodines para el número de versión, en lugar de especificar un número exacto.

Usuarios-agentes en robots.txt

Si en un archivo robots.txt se reconocen varios usuarios-agentes, Google seguirá los más específicos. Si quieres que Google rastree tus páginas, no necesitas un archivo robots.txt. Si quieres bloquear o permitir el acceso de todos los rastreadores de Google a parte de tu contenido, especifica que Googlebot sea el usuario-agente. Por ejemplo, si quieres que todas tus páginas aparezcan en la Búsqueda de Google y que se muestren anuncios de AdSense en ellas, no necesitas un archivo robots.txt. Del mismo modo, si quieres evitar que los rastreadores de Google accedan a algunas páginas, puedes bloquear el usuario-agente Googlebot para que también se bloquee el resto de los usuarios-agentes de Google.

Si prefieres llevar un control más preciso, puedes aplicar una restricción más específica. Quizás te gustaría que todas tus páginas aparezcan en la Búsqueda de Google, pero que no se rastreen las imágenes de tu directorio personal. En ese caso, puedes usar robots.txt para inhabilitar el usuario-agente Googlebot-Image con el objetivo de que deje de rastrear los archivos de tu directorio personal (pero permitir que Googlebot rastree todos los archivos) de la siguiente manera:

User-agent: Googlebot
Disallow:

User-agent: Googlebot-Image
Disallow: /personal

Veamos otro ejemplo. Si quieres que todas tus páginas tengan anuncios, pero prefieres que ninguna aparezca en la Búsqueda de Google, bloquea Googlebot y permite que funcione el usuario-agente Mediapartners-Google, de la siguiente manera:

User-agent: Googlebot
Disallow: /

User-agent: Mediapartners-Google
Disallow:

Cómo controlar la velocidad de rastreo

Cada rastreador de Google accede a sitios para un propósito específico y a velocidades diferentes. Google utiliza algoritmos para determinar la frecuencia de rastreo óptima de cada sitio. Si un rastreador de Google rastrea tu sitio con demasiada frecuencia, puedes reducir la frecuencia de rastreo.

Rastreadores de Google que se dieron de baja

Los siguientes rastreadores de Google ya no están en uso y solo se indican aquí como referencia histórica.

Rastreadores de Google que se dieron de baja

Duplex en la Web

Admitía el servicio web de Duplex en la Web.

Token de usuario-agente DuplexWeb-Google
String de usuario-agente completa Mozilla/5.0 (Linux; Android 11; Pixel 2; DuplexWeb-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.193 Mobile Safari/537.36

Web Light

Verificaba la presencia del encabezado no-transform cada vez que un usuario hacía clic en tu página en la búsqueda bajo las condiciones adecuadas. El usuario-agente de Web Light solo se usaba para las solicitudes explícitas de navegación de un visitante humano, por lo que podía ignorar las reglas de robots.txt, cuyo fin es bloquear las solicitudes de rastreo automáticas.

Token de usuario-agente googleweblight
String de usuario-agente completa Mozilla/5.0 (Linux; Android 4.2.1; en-us; Nexus 5 Build/JOP40D) AppleWebKit/535.19 (KHTML, like Gecko; googleweblight) Chrome/38.0.1025.166 Mobile Safari/535.19

Comprueba la calidad de los anuncios de las páginas web en dispositivos iPhone. Ignora el usuario-agente global (*) en robots.txt.

Token de usuario-agente AdsBot-Google-Mobile
String de usuario-agente completa Mozilla/5.0 (iPhone; CPU iPhone OS 14_7_1 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/14.1.2 Mobile/15E148 Safari/604.1 (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)

Comprueba la calidad de los anuncios de las páginas de apps para Android. Obedece las reglas de robots AdsBot-Google, pero ignora el usuario-agente global (*) en robots.txt.

Token de usuario-agente AdsBot-Google-Mobile-Apps
String de usuario-agente completa AdsBot-Google-Mobile-Apps
Tokens de usuario-agente
  • Googlebot-Image
  • Googlebot
String de usuario-agente completa Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.75 Safari/537.36 Google Favicon