Google 検索の仕組み

この記事では、Google 検索の仕組みについての説明を、簡易版と詳細版の 2 種類にわけて掲載しています。

Google は次のようなさまざまなソースから情報を取得しています。

  • ウェブページ
  • Google マイビジネスやマップなどでユーザーが送信するコンテンツ
  • 書籍のスキャン
  • インターネット上の公開データベース
  • その他のさまざまなソース

このページではウェブページに焦点を当てて説明します。

簡易版

Google では、次の基本的な 3 つのステップによってウェブページから検索結果を生成しています。

クロール

1 つ目のステップは、ウェブにどのようなページが存在するかを把握することです。すべてのウェブページを一か所に登録するところはないため、Google は新しいページを絶えず検出し、既知のページのリストに加える必要があります。Google がすでにアクセスしたことのあるページは、既知のページとなります。新しいページは、既知のページからリンクをたどることで検出されます。また、ウェブサイトの所有者が Google によるクロールを希望するページのリスト(サイトマップ)を提出することで、検出されるページもあります。Wix や Blogger などの管理されたウェブホストを使用している場合、更新されたページや新しいページをクロールするように、ウェブホストから Google にリクエストされることがあります。

Google は、ページの URL を検出すると、そこにアクセス(つまりクロール)して内容を確認します。つまりページを読み込んで実行(レンダリング)し、テキスト コンテンツとそれ以外のコンテンツ、および全体的な視覚的配置を分析して、そのページを検索結果のどこに表示するかを決定します。サイトが Google に理解されやすいほど、そのコンテンツを探しているユーザーに表示されやすくなります。

サイトのクローラビリティを改善する方法

  • サイトのページが Google からアクセス可能なこと、および正しく認識されることを確認します。Google は匿名ユーザー(パスワードなどの認証情報を持たないユーザー)としてウェブにアクセスします。ページ上のすべての画像やその他の要素を、Google が正しく認識し、理解できるようにしてください。モバイル フレンドリー テストツールでページの URL を入力すると、簡単に確認できます。
  • 1 つのページを作成または更新した場合は、その URL を個別に Google に送信できます。数多くの新しいページや更新されたページを一度に Google に通知する場合は、サイトマップを使用します。
  • Google によるクロールを希望するページが 1 ページのみの場合は、そのページをホームページに設定します。ホームページはサイトで最も重要なページであると Google は考えています。サイト全体がクロールされるようにするには、ホームページ(とすべてのページ)に、サイト内のすべての重要なセクションやページにリンクする適切なサイト ナビゲーション システムを組み込んでください。これにより、ユーザーは(そして Google も)サイト内を効率的に移動できるようになります。小規模なサイト(1,000 ページ未満)の場合、ホームページからリンクをたどることで他のすべてのページにアクセスできるようになっていれば、ホームページのみを Google に認識させるだけで十分です。
  • Google がすでに検出している別のページに新しいページをリンクさせます。ただし、広告内のリンク、他のサイトからの有料リンク、コメント内のリンク、Google のウェブマスター向けガイドライン(品質に関するガイドライン)を遵守していないリンクについては、Google はたどりません。
Google がサイトをより頻繁にクロールしたり、サイトの掲載順位を上げたりするためにお支払いをお願いすることはありません。これと反する内容を耳にしたとしても、それは事実ではありませんのでご注意ください。

インデックス登録

ページが検出されると、Google はそのページの内容を把握しようとします。このプロセスは「インデックス登録」と呼ばれます。Google では、ページのコンテンツを分析し、ページに埋め込まれている画像や動画ファイルのカタログを作成して、ページの内容を把握します。この情報は、「Google インデックス」に保存されます。Google インデックスは、膨大な数のコンピュータに格納された巨大なデータベースです。

より効果的なインデックス登録の方法

  • 短くわかりやすいページタイトルを作成します。
  • ページの内容が伝わる見出しを付けます。
  • 画像ではなくテキストを使用して、内容を伝達します(Google では一部の画像や動画については理解できますが、テキストの方が理解しやすくなります。少なくとも、代替テキストや他の属性を適宜使用して、動画画像にアノテーションを付けるようにしてください)。

検索結果の表示(およびランキング)

ユーザーが検索クエリを入力すると、Google はさまざまな要因に基づいて、インデックスから最も関連性の高い回答を見つけようとします。最も精度の高い回答を判断し、ユーザーにとって利便性の高い最適な回答を提供するため、他の要素も考慮します。この場合、ユーザーの所在地、言語、デバイス(パソコンかスマートフォンか)などの要素が考慮されます。たとえば「自転車修理店」を検索する場合、パリのユーザーと、香港のユーザーには異なる検索結果が表示されます。Google では、ページの掲載順位を上げるためにお支払いをお願いすることはありません。ランキングはプログラムによって決定されます。

検索結果の表示やランキングを向上させる方法

詳細版

さらに詳しい情報については、以下をご覧ください。

詳細版

クロール

クロールとは、新しいページや更新されたページを Google インデックスに登録するため、Googlebot がそれらのページにアクセスするプロセスです。

Google では、大規模なコンピュータ群を使用して、ウェブ上の数十億のページを取得(クロール)します。取得プログラムは Googlebot と呼ばれ、ロボットやボット、スパイダーとも呼ばれます。Googlebot は、アルゴリズム処理を使用して、クロールするサイト、クロールする頻度、各サイトから取得するページ数を決定します。

クロールの開始時には、これまでのクロールで生成されたウェブページ URL のリストに、ウェブサイト所有者から提供されたサイトマップ データを加えた情報が使用されます。Googlebot は、アクセスしたページ上のリンクを検出し、それらをクロール対象ページのリストに追加します。また、新しいサイト、既存のサイトへの変更、無効なリンクを検出し、Google インデックスの更新情報として使用します。

Google は、クロール中のページ レンダリングに最新版の Chrome を使用します。レンダリング処理の一環として、検出したページ スクリプトをすべて実行します。サイトに動的に生成されるコンテンツがある場合は、JavaScript SEO の基本を遵守してください。

プライマリ クロール / セカンダリ クロール

Google は、ウェブサイトのクロールに、モバイル クローラとパソコン クローラの 2 種類のクローラを使用します。各タイプのクローラは、ページにそのタイプのデバイスでアクセスするユーザーをシミュレートします。

Google は、サイトの「メインクローラ」として 1 つのクローラタイプ(モバイルまたはパソコン)を使用します。そのメインクローラで、サイト内のクロール対象ページすべてをクロールします。新しいウェブサイトのメインクローラは、モバイル クローラになります。

さらに、サイト内の 2~3 のページに対して、別のクローラタイプ(モバイルまたはパソコン)による再クロールを行います。これは、サイトが別の種類のデバイスでどのように機能するかを確認するためで、「セカンダリ クロール」と呼ばれます。

Google がページをクロール対象外と判断する方法

  • robots.txt でブロックされたページはクロールされませんが、別のページにリンクされている場合には、インデックスに登録される可能性があります(Google は、ページへのリンクをもとにページの内容を推測し、コンテンツを解析せずにそのページをインデックス登録することがあります)。
  • 匿名ユーザーがアクセスできないページはクロールできません。したがって、ログインなどの認証によって保護されたページはクロールされません。
  • ページがすでにクロールされていて、別のページの重複であると見なされた場合は、クロールの頻度が少なくなります。

クローラビリティを改善する

Google がサイトのページを適切に検出できるようにするには、以下の手法をお試しください。

インデックス登録

Googlebot は、ページのコンテンツを把握するために、クロール対象の各ページを処理します。これには、テキスト コンテンツ、主要なコンテンタグや属性(<title> タグや alt 属性)、画像、動画などの処理が含まれます。Googlebot はさまざまなコンテンツを処理できますが、すべての種類を処理できるわけではありません。たとえば、一部のリッチメディア ファイルのコンテンツは処理できません。

Google は、クロールからインデックス登録までの間に、ページが別のページの重複または正規ページかどうかを判断します。ページが重複していると見なされると、ページのクロール頻度が大幅に低下します。類似したページは 1 つの「ドキュメント」にグループ化されます。これは、1 つ以上のページからなるグループで、正規ページとその重複として検出されたすべてのページで構成されます。正規ページとは、そのグループの代表に最もふさわしいページであり、重複とは、正規ページを指す単なる代替 URL であることもあれば、正規ページのモバイル版(または PC 版)であることもあります。

noindex ディレクティブ(ヘッダーまたはタグ)が実装されたページは Google のインデックスに登録されません。ただし、クローラがディレクティブを認識できるようにする必要があります。robots.txt ファイル、ログインページ、他のデバイスなどによってページがブロックされている場合、Google がページにアクセスしていなくてもインデックスに登録されてしまう可能性があります。

より効果的なインデックス登録を行う

Google がページのコンテンツを適切に把握できるようにするには、以下のようなさまざまな手法があります。

「ドキュメント」とは

Google は、内部的にはウェブ全体を(膨大な)「ドキュメント」のセットとして表します。各ドキュメントは 1 つ以上のウェブページから構成されます。同じドキュメント内のページは同一か非常に似ており、コンテンツは本質的に同じですが、アクセスに使う URL が異なります。ドキュメント内の異なる URL が同じページを指す(たとえば、example.com/dresses/summer/1234 と example.com?product=1234 が同じページを指すなど)場合もあれば、同じ内容のページの別デバイス向けバージョンを指す(たとえば、example.com/mypage は PC 版、m.example.com/mypage はモバイル版を指すなど)場合もあります。

Google は、ドキュメント内の URL から 1 つを選択し、それをドキュメントの「正規 URL」と定義します。そして、この正規 URL に対して、ドキュメント内で最も頻繁にクロールとインデックス登録を行います。他の URL は「重複」または「代替」と見なされ、クロールは低頻度でしか行われません。また、検索結果への表示はユーザーのリクエストに応じて行われます。たとえば、ドキュメントの正規 URL がモバイル向け URL であったとしても、パソコンで検索しているユーザーに対してはパソコン向け(代替)URL が表示されます。

Search Console のほとんどのレポートでは、データはドキュメントの正規 URL に関連付けられます。一部のツール(URL 検査ツールなど)は代替 URL のテストをサポートしていますが、正規 URL を検査すれば、代替 URL に関する情報も同時に取得できます。

どの URL を正規 URL にするかについて Google に希望を伝えることはできますが、さまざまな理由から Google が別の URL を正規 URL として選択する場合があります。

以下に主な用語を挙げ、Search Console で使われる場合の意味を概説します。

  • ドキュメント: 類似のページの集まり。正規 URL と、サイトに重複ページがある場合は代替 URL があります。ドキュメント内の URL は、異なる「組織」(ルートドメイン、たとえば www.google.com の「google」)のものである場合もあります。Google は、プラットフォーム(モバイルまたはパソコン)、ユーザーの言語や場所など、多くの変数を考慮して、検索結果に表示する URL を選択します。サイト内の関連ページの検出は、オーガニック クロールや、リダイレクトまたは <link rel=alternate/canonical> タグなど、サイトに実装された機能によって行います。サイト以外の組織の関連ページは、サイトで明示的に(リダイレクトやリンクタグを使用して)コーディングされている場合にのみ、代替として検出できます。
  • URL: サイト内の特定のコンテンツにアクセスするための URL。異なる URL が同じページを指すよう解決される場合もあります。
  • ページ: 1 つ以上の URL でアクセスされる特定のウェブページ。ユーザーのプラットフォーム(モバイル、パソコン、タブレットなど)ごとに、異なる「バージョン」が存在する場合があります。
  • バージョン: ページのバリエーションの 1 つで、通常「モバイル」、「パソコン」、「AMP」に分類されます(AMP 自体にもモバイル版と PC 版があります)。各バージョンには、サイト設定によって、異なる URL(example.com と m.example.com など)を持たせることも、同じ URL を持たせることもできます(動的な配信レスポンシブ ウェブ デザインを使用すれば、同じ URL で同じページの異なるバージョンを表示できます)。なお、言語のバリエーションは異なるバージョンではなく、異なるドキュメントと見なされます。
  • 正規ページ(正規 URL): Google がドキュメントの代表として最もふさわしいと判断する URL。Google は通常この URL をクロールします。ドキュメント内の重複 URL もクロールしますが低頻度です。
  • 代替ページ(代替 URL)または重複ページ(重複 URL): Google が低頻度でクロールするドキュメント URL。ユーザーやリクエストによっては、こちらの URL を表示する場合もあります(たとえば、パソコンからのリクエストに対しては、正規のモバイル向け URL ではなく、パソコン ユーザー向け URL を表示します)。
  • サイト: 通常、ウェブサイト(概念的に関連するウェブページのセット)と同じ意味で使用されますが、Search Console プロパティの意味で使用されることもあります(実際には、プロパティはサイトの一部としても定義できます)。サイトは複数のサブドメインに(AMP ページが適切にリンクされている場合は複数のドメインにも)またがることができます。

コンテンツは同じでも言語が異なるページは別々のドキュメントに保存され、それぞれ hreflang タグを使って参照されます。翻訳されたコンテンツに hreflang タグを使用することが重要なのはこのためです。

検索結果の表示

ユーザーが検索クエリを入力すると、インデックスで一致するページが検索され、関連性が高いと判断された検索結果が返されます。この関連性は、何百もの要素から判断されます。Google は、アルゴリズムの改善に常に取り組んでいます。検索結果の選択とランキングにおいてはユーザー エクスペリエンスが考慮されるため、読み込みが速くモバイル フレンドリーなページを作成してください。

検索結果での表示を改善する

さらに詳しい説明

Google 検索の仕組みのさらに詳しい説明については、こちらをご覧ください(画像や動画付きです)。