クローラが Googlebot などの Google クローラであることを確認する

サーバーへのウェブクローラからのアクセスが本当に Googlebot などの Google クローラによるものかどうかを確認できます。この方法は、スパマーなどが Googlebot であると称してサイトにアクセスしていないかを知りたい場合に便利です。

Google のクローラを確認するには、次の 2 つの方法があります。

  • 手動: 1 回限りのルックアップでは、コマンドライン ツールを使用します。ほとんどの場合、この方法で十分です。
  • 自動: 大規模なルックアップでは、自動ソリューションを使用して、公開されている Googlebot の IP アドレスのリストとクローラの IP アドレスを照合します。

コマンドライン ツールを使用する

  1. ログにアクセスが記録されている IP アドレスについて、host コマンドを使用してリバース DNS ルックアップを実施します。
  2. ドメイン名が googlebot.com または google.com であることを確認します。
  3. ステップ 1 で取得したドメイン名で host コマンドを使用して、取得したドメイン名について DNS フォワード ルックアップを実施します。
  4. これがログにアクセスが記録されていた元の IP アドレスと同じかどうかを確認します。

例 1:

host 66.249.66.1
1.66.249.66.in-addr.arpa domain name pointer crawl-66-249-66-1.googlebot.com.

host crawl-66-249-66-1.googlebot.com
crawl-66-249-66-1.googlebot.com has address 66.249.66.1

例 2:

host 66.249.90.77
77.90.249.66.in-addr.arpa domain name pointer rate-limited-proxy-66-249-90-77.google.com.

host rate-limited-proxy-66-249-90-77.google.com
rate-limited-proxy-66-249-90-77.google.com has address 66.249.90.77

自動ソリューションを使用する

クローラの IP アドレスを Googlebot の IP アドレスのリストと照合して、IP アドレスで Googlebot を識別することもできます。その他の Google クローラの場合は、クローラの IP アドレスを Google IP アドレスの完全なリストと照合します。