Verificar el robot de Google y otros rastreadores de Google

Puedes comprobar si un rastreador web que accede a tu servidor es realmente un rastreador de Google (por ejemplo, el robot de Google). Esto resulta útil si te preocupa que los spammers u otras personas malintencionadas puedan acceder a tu sitio haciéndose pasar por el robot de Google.

Hay dos métodos para verificar los rastreadores de Google:

  • Manualmente: para hacer búsquedas únicas, utiliza herramientas de línea de comandos. Este método es suficiente para la mayoría de los casos prácticos.
  • Automáticamente: para realizar búsquedas a gran escala, utiliza una solución automática para que la dirección IP de un rastreador coincida con la lista de direcciones IP del robot de Google publicadas.

Usar herramientas de línea de comandos

  1. Busca en tus registros la dirección IP que está accediendo a tu servidor y realiza una petición de DNS invertida con ella mediante el comando host.
  2. Verifica que el nombre de dominio es googlebot.com o google.com.
  3. Ejecuta una petición de DNS normal con el nombre de dominio que hayas obtenido en el paso 1; para hacerlo, usa el comando host en el nombre de dominio.
  4. Verifica que es la misma dirección IP de acceso original que figura en tus registros.

Ejemplo 1:

host 66.249.66.1
1.66.249.66.in-addr.arpa domain name pointer crawl-66-249-66-1.googlebot.com.

host crawl-66-249-66-1.googlebot.com
crawl-66-249-66-1.googlebot.com has address 66.249.66.1

Ejemplo 2:

host 66.249.90.77
77.90.249.66.in-addr.arpa domain name pointer rate-limited-proxy-66-249-90-77.google.com.

host rate-limited-proxy-66-249-90-77.google.com
rate-limited-proxy-66-249-90-77.google.com has address 66.249.90.77

Usar soluciones automáticas

Si lo prefieres, puedes identificar el robot de Google según la dirección IP de tu dominio. Para ello, procura que coincida con la lista de direcciones IP del robot de Google. En el caso de los otros rastreadores de Google, compara la dirección IP del rastreador con la lista completa de direcciones IP de Google.