Cómo verificar solicitudes de rastreadores y recuperadores de Google
Puedes verificar si una solicitud a tu servidor es realmente de Google. La verificación es posible para rastreadores como Googlebot, así como para otras solicitudes. Esta opción es útil si te preocupa que generadores de spam o de contenido problemático accedan a tu sitio haciéndose pasar por Google.
Los rastreadores y recuperadores de Google se dividen en tres categorías:
| Tipo | Descripción | Máscara de DNS inversa | Rangos de IP |
|---|---|---|---|
| Rastreadores comunes | Los rastreadores comunes que se usan para los productos de Google (como Googlebot) Siempre respetan las reglas de robots.txt para los rastreos automáticos. |
crawl-***-***-***-***.googlebot.com o
geo-crawl-***-***-***-***.geo.googlebot.com
|
common-crawlers.json |
| Rastreadores para casos especiales | Rastreadores o recuperadores que realizan funciones específicas para productos de Google (como AdsBot) cuando existe un acuerdo entre el sitio rastreado y el producto sobre el acceso o para el rastreo o la recuperación específicos en casos de abuso. Estos rastreadores o recuperadores pueden o no respetar las reglas de robots.txt. | rate-limited-proxy-***-***-***-***.google.com |
special-crawlers.json |
| Recuperadores generados por el usuario |
Herramientas y funciones del producto en las que el usuario final activa una recuperación. Por ejemplo, Google Site Verifier actúa sobre la solicitud de un usuario. Debido a que un usuario solicitó la recuperación, estos recursos ignoran las reglas de robots.txt. Los recuperadores controlados por Google se originan a partir de IPs en el objeto user-triggered-fetchers-google.json y se resuelven en un
nombre de host google.com. Las IPs del objeto user-triggered-fetchers.json se resuelven en nombres de host gae.googleusercontent.com. Estas IPs se usan, por ejemplo, si un sitio que se ejecuta en Google Cloud (GCP) tiene una función que requiere la recuperación de feeds RSS externos a pedido del usuario de ese sitio.
|
***-***-***-***.gae.googleusercontent.com o
google-proxy-***-***-***-***.google.com
|
user-triggered-fetchers.json, user-triggered-fetchers-google.json y user-triggered-agents.json |
Existen dos métodos para verificar las solicitudes de Google:
- Manualmente: Para búsquedas únicas, usa herramientas de línea de comandos. Este método es suficiente para la mayoría de los casos de uso.
- Automáticamente: Para las búsquedas a gran escala, usa una solución automática para que haga coincidir la dirección IP de un rastreador con la lista de direcciones IP de Google publicadas.
Usa las herramientas de línea de comandos
-
Ejecuta una búsqueda de DNS inversa en la dirección IP de acceso desde tus registros con el comando
host. -
Verifica que el nombre de dominio sea
googlebot.com,google.com, ogoogleusercontent.com. -
Ejecuta una búsqueda de DNS directa en el nombre de dominio recuperado en el Paso 1 con el comando
hosten el nombre de dominio recuperado. - Verifica que sea la misma que la dirección IP original de acceso desde tus registros.
Ejemplo 1:
host 66.249.66.11.66.249.66.in-addr.arpa domain name pointer crawl-66-249-66-1.googlebot.com.host crawl-66-249-66-1.googlebot.comcrawl-66-249-66-1.googlebot.com has address 66.249.66.1
Ejemplo 2:
host 35.247.243.240240.243.247.35.in-addr.arpa domain name pointer geo-crawl-35-247-243-240.geo.googlebot.com.host geo-crawl-35-247-243-240.geo.googlebot.comgeo-crawl-35-247-243-240.geo.googlebot.com has address 35.247.243.240
Ejemplo 3:
host 66.249.90.7777.90.249.66.in-addr.arpa domain name pointer rate-limited-proxy-66-249-90-77.google.com.host rate-limited-proxy-66-249-90-77.google.comrate-limited-proxy-66-249-90-77.google.com has address 66.249.90.77
Usa soluciones automáticas
Otra forma de identificar a Googlebot por dirección IP es hacer coincidir la dirección IP del rastreador con las listas de rangos de IP de los rastreadores y recuperadores de Google:
- Rastreadores comunes como Googlebot
- Rastreadores especiales como AdsBot
- Recuperadores activados por el usuario (usuarios)
- Recuperadores activados por el usuario (Google)
- Agentes activados por el usuario
En el caso de otras direcciones IP de Google desde las que se puede acceder a tu sitio (por ejemplo, Apps Script), vincula la dirección IP de acceso con la lista de direcciones IP de Google. Ten en cuenta que las direcciones IP en los archivos JSON se representan en formato CIDR.