上級者向け: 検索の仕組み

サイトの問題のデバッグや検索傾向の予測を行うためには、Google 検索がコンテンツをクロールおよびインデックス登録し、検索結果に表示する仕組みを理解することが重要です。

クロール

クロールとは、新しいページや更新されたページを Google インデックスに登録するため、Googlebot がそれらのページにアクセスするプロセスです。

Google では、大規模なコンピュータ群を使用して、ウェブ上の数十億のページを取得(クロール)します。取得プログラムは Googlebot と呼ばれ、ロボットやボット、スパイダーとも呼ばれます。Googlebot は、アルゴリズム処理を使用して、クロールするサイト、クロールする頻度、各サイトから取得するページ数を決定します。

クロールの開始時には、これまでのクロールで生成されたウェブページ URL のリストに、ウェブサイト所有者から提供されたサイトマップ データを加えた情報が使用されます。Googlebot は、アクセスしたページ上のリンクを検出し、それらをクロール対象ページのリストに追加します。また、新しいサイト、既存のサイトへの変更、無効なリンクを検出し、Google インデックスの更新情報として使用します。

Google は、クロール中のページ レンダリングに最新版の Chrome を使用します。レンダリング処理の一環として、検出したページ スクリプトをすべて実行します。サイトに動的に生成されるコンテンツがある場合は、JavaScript SEO の基本を遵守してください。

Google がページをクロール対象外と判断する方法

  • robots.txt でブロックされたページはクロールされませんが、別のページにリンクされている場合には、インデックスに登録される可能性があります。Google は、ページへのリンクをもとにページの内容を推測し、コンテンツを解析せずにそのページをインデックス登録することがあります。
  • 匿名ユーザーがアクセスできないページはクロールできません。したがって、ログインなどの認証によって保護されたページはクロールされません。
  • ページがすでにクロールされていて、別のページの重複であると見なされた場合は、クロールの頻度が少なくなります。

クローラビリティを改善する

Google がサイトのページを適切に検出できるようにするには、以下の手法をお試しください。

インデックス登録

Googlebot は、ページのコンテンツを把握するために、クロール対象の各ページを処理します。 これには、テキスト コンテンツ、主要なコンテンタグや属性(<title> タグや alt 属性)、画像、動画などの処理が含まれます。Googlebot はさまざまなコンテンツを処理できますが、すべての種類を処理できるわけではありません。たとえば、一部のリッチメディア ファイルのコンテンツは処理できません。

Google は、クロールからインデックス登録までの間に、ページが別のページの重複または正規ページかどうかを判断します。ページが重複していると見なされると、ページのクロール頻度が大幅に低下します。類似したページは 1 つの「ドキュメント」にグループ化されます。これは、1 つ以上のページからなるグループで、正規ページとその重複として検出されたすべてのページで構成されます。正規ページとは、そのグループの代表に最もふさわしいページであり、重複とは、正規ページを指す単なる代替 URL であることもあれば、正規ページのモバイル版(または PC 版)であることもあります。

noindex ディレクティブ(ヘッダーまたはタグ)が実装されたページは Google のインデックスに登録されません。ただし、クローラがディレクティブを認識できるようにする必要があります。robots.txt ファイル、ログインページ、他のデバイスなどによってページがブロックされている場合、Google がページにアクセスしていなくてもインデックスに登録されてしまう可能性があります。

より効果的なインデックス登録を行う

Google がページのコンテンツを適切に把握できるようにするには、以下のようなさまざまな手法があります。

「ドキュメント」とは

Google は、内部的にはウェブ全体を膨大な「ドキュメント」のセットとして表します。各ドキュメントは 1 つ以上のウェブページから構成されます。同じドキュメント内のページは同一か非常に似ており、コンテンツは本質的に同じですが、アクセスに使う URL が異なります。ドキュメント内の異なる URL が同じページを指す(たとえば、example.com/dresses/summer/1234 と example.com?product=1234 が同じページを指すなど)場合もあれば、同じ内容のページの別デバイス向けバージョンを指す(たとえば、example.com/mypage は PC 版、m.example.com/mypage はモバイル版を指すなど)場合もあります。

Google は、ドキュメント内の URL から 1 つを選択し、それをドキュメントの「正規 URL」と定義します。そして、この正規 URL に対して、ドキュメント内で最も頻繁にクロールとインデックス登録を行います。他の URL は「重複」または「代替」と見なされ、クロールは低頻度でしか行われません。また、検索結果への表示はユーザーのリクエストに応じて行われます。たとえば、ドキュメントの正規 URL がモバイル向け URL であったとしても、パソコンで検索しているユーザーに対してはパソコン向け(代替)URL が表示されます。

Search Console のほとんどのレポートでは、データはドキュメントの正規 URL に関連付けられます。一部のツール(URL 検査ツールなど)は代替 URL のテストをサポートしていますが、正規 URL を検査すれば、代替 URL に関する情報も同時に取得できます。

どの URL を正規 URL にするかについて Google に希望を伝えることはできますが、さまざまな理由から Google が別の URL を正規 URL として選択する場合があります。

以下に主な用語を挙げ、Search Console で使われる場合の意味を概説します。

  • ドキュメント: 類似のページの集まり。正規 URL と、サイトに重複ページがある場合は代替 URL があります。ドキュメント内の URL は、異なる「組織」(ルートドメイン、たとえば www.google.com の「google」)のものである場合もあります。Google は、プラットフォーム(モバイルまたはパソコン)、ユーザーの言語や場所など、多くの変数を考慮して、検索結果に表示する URL を選択します。サイト内の関連ページの検出は、オーガニック クロールや、リダイレクトまたは <link rel=alternate/canonical> タグなど、サイトに実装された機能によって行います。サイト以外の組織の関連ページは、サイトで明示的に(リダイレクトやリンクタグを使用して)コーディングされている場合にのみ、代替として検出できます。
  • URL: サイト内の特定のコンテンツにアクセスするための URL。
  • ページ: 1 つ以上の URL でアクセスされる特定のウェブページ。ユーザーのプラットフォーム(モバイル、パソコン、タブレットなど)ごとに、異なる「バージョン」が存在する場合があります。
  • バージョン: ページのバリエーションの 1 つで、通常「モバイル」、「パソコン」、「AMP」に分類されます(AMP 自体にもモバイル版と PC 版があります)。各バージョンには、サイト設定によって、異なる URL(example.com と m.example.com など)を持たせることも、同じ URL を持たせることもできます(動的な配信レスポンシブ ウェブ デザインを使用すれば、同じ URL で同じページの異なるバージョンを表示できます)。なお、言語のバリエーションは異なるバージョンではなく、異なるドキュメントと見なされます。
  • 正規ページ(正規 URL): Google がドキュメントの代表として最もふさわしいと判断する URL。Google は通常この URL をクロールします。ドキュメント内の重複 URL もクロールしますが低頻度です。
  • 代替ページ(代替 URL)または重複ページ(重複 URL): Google が低頻度でクロールするドキュメント URL。ユーザーやリクエストによっては、こちらの URL を表示する場合もあります(たとえば、パソコンからのリクエストに対しては、正規のモバイル向け URL ではなく、パソコン ユーザー向け URL を表示します)。
  • サイト: 通常、ウェブサイト(概念的に関連するウェブページのセット)と同じ意味で使用されますが、Search Console プロパティの意味で使用されることもあります(実際には、プロパティはサイトの一部としても定義できます)。サイトは複数のサブドメインに(AMP ページが適切にリンクされている場合は複数のドメインにも)またがることができます。

検索結果の表示

ユーザーが検索クエリを入力すると、インデックスで一致するページが検索され、関連性が高いと判断された検索結果が返されます。この関連性は、何百もの要素から判断されます。Google は、アルゴリズムの改善に常に取り組んでいます。検索結果の選択とランキングにおいてはユーザー エクスペリエンスが考慮されるため、読み込みが速くモバイル フレンドリーなページを作成してください。

検索結果での表示を改善する

Google 検索でのページ コンテンツの表示は、複数の方法で改善できます。