Verificare Googlebot e altri crawler di Google

Puoi verificare se un web crawler che accede al tuo server è davvero un crawler di Google, ad esempio Googlebot. Ciò risulta utile se temi che spammer o altri utenti malintenzionati accedano al tuo sito facendosi passare per Googlebot.

Esistono due metodi per verificare i crawler di Google:

  • Manualmente: per le ricerche singole, usa gli strumenti a riga di comando. Questo metodo è sufficiente per la maggior parte dei casi d'uso.
  • Automaticamente: per le ricerche su larga scala, usa una soluzione automatica per confrontare l'indirizzo IP di un crawler con l'elenco degli indirizzi IP di Googlebot pubblicati.

Utilizzare strumenti a riga di comando

  1. Esegui una ricerca DNS inversa in base agli indirizzi IP che accedono al tuo sito e che sono elencati nei tuoi log, utilizzando il comando host.
  2. Verifica che il nome di dominio appartenga a googlebot.com o google.com.
  3. Esegui una ricerca DNS anticipata in base al nome di dominio ottenuto al passaggio 1 utilizzando il comando host.
  4. Verifica che l'indirizzo IP che accede al tuo sito corrisponda a quello indicato nei log.

Esempio 1:

host 66.249.66.1
1.66.249.66.in-addr.arpa domain name pointer crawl-66-249-66-1.googlebot.com.

host crawl-66-249-66-1.googlebot.com
crawl-66-249-66-1.googlebot.com has address 66.249.66.1

Esempio 2:

host 66.249.90.77
77.90.249.66.in-addr.arpa domain name pointer rate-limited-proxy-66-249-90-77.google.com.

host rate-limited-proxy-66-249-90-77.google.com
rate-limited-proxy-66-249-90-77.google.com has address 66.249.90.77

Utilizzare soluzioni automatiche

In alternativa, puoi identificare Googlebot in base all'indirizzo IP confrontando l'indirizzo IP del crawler con l'elenco di indirizzi IP di Googlebot. Per tutti gli altri crawler di Google, confronta l'indirizzo IP del crawler con l'elenco completo degli indirizzi IP di Google.