Google のウェブクロールに関する注意事項

Google は 30 年を超える期間にわたってオープンウェブをクロールしており、ウェブクローラの仕組みについて頻繁にご質問をいただきます。そこで、Google のクローラーに関する事実と、クローラーが世界中の情報を整理し、ウェブ全体からコンテンツにアクセスできるようにする仕組みについてご紹介します。

クローリングとは簡潔に示すと、クロールは Google がウェブを「認識」する方法です。

クロールとは、自動化されたソフトウェアを使用して新しいウェブページを発見し、それらを理解するプロセスです。そうすることで、ユーザーが Google でウェブページを検索したときに、そのページが存在することがわかり、検索結果に含めることができます。すべての検索エンジンは、クロールによって、どのようなページや情報が存在する可能性があるかを把握しています。詳しくは、Google 検索がページをクロールする方法についての動画をご覧ください。

Google には多くのクローラーがあり、それぞれが重要な役割を担っています

Googlebot は最もよく知られているクローラーで、Google 検索の検索結果を最新の状態に保つために使用されます。Google 画像検索や Google ショッピングなど、他のサービスに特化したクローラーもあります。Google が最も一般的に使用しているクローラーとそれらの用途について、ドキュメントの全文を掲載しています。Google のクローラーは、簡単に識別できるユーザーエージェント名と既知のインターネットアドレスを使用します。これにより、サイト所有者は、表示されている Google クローラーが正当なものであることを確認できます。

クロールが頻繁に行われているのは良い兆候です。

Google がサイトを頻繁にクロールしている場合は、ユーザーが探している新しいコンテンツや関連性の高いコンテンツがページに含まれており、Google のシステムがその需要を認識していることを示しています。オンラインショッピングは良い例です。Google は e コマースサイトを頻繁にクロールし、検索結果に小売業者の最新の価格、プロモーション、在庫状況を表示できるようにしています。

ページの複雑化に伴い、Google のクロールも進化

頻繁に再クロールするもう一つの理由は、ウェブページの豊富さや提供内容を完全に把握するためです。Google のクローラーはレンダリングという手法を使用します。この手法では、サイトを完全に読み込んで、人間がページを見るのと同じようにページを「認識」します。ウェブページは年々複雑化しており、モバイルページの平均サイズは 816 キロバイトから 2.3 メガバイトに増加し、読み込むファイル数も画像からインタラクティブなコンポーネントまで 60 を超える種類に増加しています。そのため、ウェブページの全体像を代表するスナップショットを取得するには、同じページを複数回（またはそれ以上）クロールする必要がある場合があります。新しい要素は常に追加されるため、クロール回数は増える可能性があります。

クロールは自動的に最適化されます

Google のクローラーは効率性を重視して設計されており、サイト所有者への影響を最小限に抑えるように自動調整されます。たとえば、サイトの速度が低下したり、エラーが返されたりすると、サイトのサーバーの過負荷を避けるために、クロール率が自動的に変更されます。クロールされたコンテンツをキャッシュに保存することで、無駄なクロールを制限しようとしています。また、クローラーはウェブサイトのより多くの部分を検出するにつれて、クロール頻度を減らしてもよいセクションを認識できるようになります。たとえば、9999 年まで続くカレンダーは、全体をクロールする必要がない可能性があります。サイト所有者は、クロールする必要のないコンテンツを特定することで、インフラストラクチャのコストを削減し、インターネット全体の効率を高めることができます。

Google クローラーは、許可なくペイウォールや定期購入コンテンツにアクセスすることはありません

デフォルトでは、オープンウェブでページにアクセスできない場合（コンテンツがログインページの背後にある場合など）、Google のクローラーもそのページにアクセスできません。Google に定期購入ページへのアクセスを明示的に許可したい場合（たとえば、Google がユーザーをそのコンテンツに誘導できるようにするためなど）は、サイト所有者向けの具体的なガイダンスをご覧ください。クローラーにサブスクリプションアクセスを提供する場合、構造化データを使用することで、人間の訪問者にはログイン画面を表示し続けながら、スパムに関するルールをトリガーしないようにすることができます。また、プレビューコントロールを利用して、サブスクリプションコンテンツがページプレビューに表示されないようにすることもできます。

サイト所有者は、何がどのようにクロールされるかを管理できます

Google は、robots.txt などのオープンウェブ標準を尊重しています。robots.txt は、サイト所有者が Google のようなクローラーがページとどのようにやり取りすべきかを宣言できるシンプルなテキストファイルです。robots.txt と robots メタタグを使用すると、ウェブサイトは Google などのサービスに対して、コンテンツへのアクセス方法を簡単に伝えることができます。検索結果にページが表示されないようにブロックできます。サイトマップを使用して、クロールしてほしい新しいコンテンツを Google に知らせることができます。また、サイトの所有者は、クロールバジェットを通じて、Googlebot がサイトをクロールする頻度を管理できます。

Google の標準クローラーは、コンテンツへのアクセス方法と使用方法に関するウェブサイトの選択を常に尊重します。

クロール後、クロールされたデータを複数回使用して、サイトでの無駄なリクエストの繰り返しを減らすことがあります。このデータを再利用する場合でも、Google は robots.txt を通じてサイトが行った選択と、そのオープンウェブプロトコルを通じて提供されるコントロールを尊重し続けます。たとえば、サイトは robots.txt で Google-Extended を使用して、コンテンツが Gemini モデルの将来のバージョンのトレーニングに役立つかどうかなどを制御できます。Google-Extended を利用しても、検索でのサイトの登録に影響することはありません。また、Google-Extended は検索でのランキングシグナルとして使用されることもありません。

Google では、サイト所有者が Google のクロールエクスペリエンスを管理するためのツールを多数提供しています。たとえば、Google Search Console は、サイト所有者が無料で利用できます。クロールした量とその理由に関する情報が表示されます。また、サイトのサーバーのダウンタイムや速度の問題などの診断にも役立ちます。また、Search Console では、サイトのページが検索結果にどのように表示され、ユーザーがどのように利用しているかに関する包括的な情報も提供されます。

Google のクローラは、ユーザーがウェブを最大限に活用できるように支援します。Google は、クローラの機能と効率を向上させる方法を常に模索しています。

Google のウェブ クロールに関する注意事項