Organízate con las colecciones
Guarda y clasifica el contenido según tus preferencias.
Descripción general de los rastreadores de Google (user-agents)
El término "rastreador" (a veces llamado "robot" o "araña") es el término genérico con el que se denomina a cualquier programa que se utilice para encontrar y analizar automáticamente sitios web siguiendo enlaces entre páginas web. El rastreador principal de Google es el robot de Google. En la tabla de este artículo se incluye información sobre los rastreadores habituales de Google que puedes encontrar en tus registros de URLs referentes. Además, se indica cómo deben especificarse esos rastreadores en el archivo robots.txt, en las etiquetas metarobots y en las reglas HTTP X-Robots-Tag.
En la tabla que hay más abajo se muestran los rastreadores que se usan en varios productos y servicios de Google.
En la columna Token de user-agent aparecen los valores que debes incluir en la línea User-agent: de tu archivo robots.txt si quieres dirigir una regla de rastreo a ese tipo de rastreador en concreto. Como se muestra en la tabla, algunos rastreadores tienen más de un token; en estos casos, basta con que incluyas uno de ellos en una regla para que el rastreador en cuestión la respete. Esta lista no es exhaustiva, pero incluye la mayoría de los rastreadores que pueden visitar tu sitio web.
Los valores de la columna Cadena de user-agent completa son las descripciones completas de cada rastreador, y son las cadenas que verás en las solicitudes HTTP y en tus registros web.
Mozilla/5.0 (iPhone; CPU iPhone OS 14_7_1 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/14.1.2 Mobile/15E148 Safari/604.1 (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)
(Various mobile device types) (compatible; Mediapartners-Google/2.1; +http://www.google.com/bot.html)
Mobile Apps Android
Comprueba la calidad de los anuncios incluidos en las páginas web que se muestran en aplicaciones Android. Sigue las reglas de robots de AdsBot-Google.
Cuando veas la cadena Chrome/W.X.Y.Z en los user-agents de la tabla, ten en cuenta que W.X.Y.Z es un marcador de posición que representa la versión del navegador Chrome que usa ese user-agent (por ejemplo, 41.0.2272.96). Este número irá aumentando con el tiempo para reflejar la versión más reciente de Chromium que utiliza el robot de Google.
Si buscas en tus registros o filtras tu servidor por un user-agent que tenga este patrón, te recomendamos que no indiques un número de versión exacto, sino que utilices comodines.
User-agents en archivos robots.txt
Si en un archivo robots.txt se reconocen varios user-agents, Google seguirá el más concreto. Si quieres que todos los rastreadores de Google puedan rastrear tus páginas, no hace falta que utilices ningún archivo robots.txt. Para bloquear o permitir el acceso de todos los rastreadores de Google a parte de tu contenido, especifica el user-agent "Googlebot". Por ejemplo, si quieres que todas tus páginas aparezcan en la Búsqueda de Google y que se muestren anuncios de AdSense en ellas, no necesitas un archivo robots.txt. Del mismo modo, para impedir que determinadas páginas aparezcan en Google, basta con que bloquees el user-agent Googlebot de modo que no pueda acceder a ellas; así bloquearás también todos los demás user-agents de Google.
Si lo que quieres es tener un control más preciso, puedes usar restricciones más concretas. Por ejemplo, pongamos que quieres que todas tus páginas aparezcan en la Búsqueda de Google pero que no se rastreen imágenes de tu directorio personal. En ese caso, puedes configurar del siguiente modo el archivo robots.txt para evitar que el user-agent Googlebot-Image rastree los archivos de tu directorio personal (pero permitir que el robot de Google rastree todos los archivos):
Veamos otro ejemplo. Si quieres que se muestren anuncios en todas tus páginas, pero no quieres que esas páginas aparezcan en la Búsqueda de Google, bloquea el robot de Google y permite Mediapartners-Google, tal como se muestra a continuación:
Cada rastreador de Google accede a los sitios con una finalidad concreta y con distinta frecuencia. Google usa algoritmos para determinar la frecuencia óptima de rastreo en cada sitio. Si un rastreador de Google rastrea tu sitio con demasiada frecuencia, puedes reducir su frecuencia de rastreo.
Rastreadores de Google retirados
Los siguientes rastreadores de Google ya no se utilizan y solo se indican aquí a modo de historial.
Rastreadores de Google retirados
Duplex web
Admitía el servicio Duplex web.
Token de user-agent
DuplexWeb-Google
Cadena de user-agent completa
Mozilla/5.0 (Linux; Android 11; Pixel 2; DuplexWeb-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.193 Mobile Safari/537.36
Web Light
Comprobaba si estaba presente el encabezado no-transform cuando un usuario hacía clic en tu página en la Búsqueda si cumplía las condiciones adecuadas. El user-agent de Web Light solo se usaba cuando una persona solicitaba expresamente una página, por lo que ignoraba las reglas de robots.txt, que sirven para bloquear las solicitudes de rastreo automatizadas.
Token de user-agent
googleweblight
Cadena de user-agent completa
Mozilla/5.0 (Linux; Android 4.2.1; en-us; Nexus 5 Build/JOP40D) AppleWebKit/535.19 (KHTML, like Gecko; googleweblight) Chrome/38.0.1025.166 Mobile Safari/535.19