この記事では、Google 検索の仕組みについての説明を、簡易版と詳細版の 2 種類にわけて掲載しています。
Google は次のようなさまざまなソースから情報を取得しています。
- ウェブページ
- Google マイビジネスやマップなどでユーザーが送信するコンテンツ
- 書籍のスキャン
- インターネット上の公開データベース
- その他のさまざまなソース
このページではウェブページに焦点を当てて説明します。
簡易版
Google では、次の基本的な 3 つのステップによってウェブページから検索結果を生成しています。
クロール
1 つ目のステップは、ウェブにどのようなページが存在するかを把握することです。すべてのウェブページを一か所に登録するところはないため、Google は新しいページを絶えず検出し、既知のページのリストに加える必要があります。Google がすでにアクセスしたことのあるページは、既知のページとなります。新しいページは、既知のページからリンクをたどることで検出されます。また、ウェブサイトの所有者が Google によるクロールを希望するページのリスト(サイトマップ)を提出することで、検出されるページもあります。Wix や Blogger などの管理されたウェブホストを使用している場合、更新されたページや新しいページをクロールするように、ウェブホストから Google にリクエストされることがあります。
Google は、ページの URL を検出すると、そこにアクセス(つまりクロール)して内容を確認します。つまりページを読み込んで実行(レンダリング)し、テキスト コンテンツとそれ以外のコンテンツ、および全体的な視覚的配置を分析して、そのページを検索結果のどこに表示するかを決定します。サイトが Google に理解されやすいほど、そのコンテンツを探しているユーザーに表示されやすくなります。
サイトのクローラビリティを改善する方法
- サイトのページが Google からアクセス可能なこと、および正しく認識されることを確認します。Google は匿名ユーザー(パスワードなどの認証情報を持たないユーザー)としてウェブにアクセスします。ページ上のすべての画像やその他の要素を、Google が正しく認識し、理解できるようにしてください。モバイル フレンドリー テストツールでページの URL を入力すると、簡単に確認できます。
- 1 つのページを作成または更新した場合は、その URL を個別に Google に送信できます。数多くの新しいページや更新されたページを一度に Google に通知する場合は、サイトマップを使用します。
- Google によるクロールを希望するページが 1 ページのみの場合は、そのページをホームページに設定します。ホームページはサイトで最も重要なページであると Google は考えています。サイト全体がクロールされるようにするには、ホームページ(とすべてのページ)に、サイト内のすべての重要なセクションやページにリンクする適切なサイト ナビゲーション システムを組み込んでください。これにより、ユーザーは(そして Google も)サイト内を効率的に移動できるようになります。小規模なサイト(1,000 ページ未満)の場合、ホームページからリンクをたどることで他のすべてのページにアクセスできるようになっていれば、ホームページのみを Google に認識させるだけで十分です。
- Google がすでに検出している別のページに新しいページをリンクさせます。ただし、広告内のリンク、他のサイトからの有料リンク、コメント内のリンク、Google のウェブマスター向けガイドライン(品質に関するガイドライン)を遵守していないリンクについては、Google はたどりません。
インデックス登録
ページが検出されると、Google はそのページの内容を把握しようとします。このプロセスは「インデックス登録」と呼ばれます。Google では、ページのコンテンツを分析し、ページに埋め込まれている画像や動画ファイルのカタログを作成して、ページの内容を把握します。この情報は、「Google インデックス」に保存されます。Google インデックスは、膨大な数のコンピュータに格納された巨大なデータベースです。
より効果的なインデックス登録の方法
- 短くわかりやすいページタイトルを作成します。
- ページの内容が伝わる見出しを付けます。
- 画像ではなくテキストを使用して、内容を伝達します(Google では一部の画像や動画については理解できますが、テキストの方が理解しやすくなります。少なくとも、代替テキストや他の属性を適宜使用して、動画や画像にアノテーションを付けるようにしてください)。
検索結果の表示(およびランキング)
ユーザーが検索クエリを入力すると、Google はさまざまな要因に基づいて、インデックスから最も関連性の高い回答を見つけようとします。最も精度の高い回答を判断し、ユーザーにとって利便性の高い最適な回答を提供するため、他の要素も考慮します。この場合、ユーザーの所在地、言語、デバイス(パソコンかスマートフォンか)などの要素が考慮されます。たとえば「自転車修理店」を検索する場合、パリのユーザーと、香港のユーザーには異なる検索結果が表示されます。Google では、ページの掲載順位を上げるためにお支払いをお願いすることはありません。ランキングはプログラムによって決定されます。
検索結果の表示やランキングを向上させる方法
- ページの読み込み速度を速くし、モバイル対応にします。
- 有益なコンテンツをページに掲載し、最新の状態に維持します。
- Google のウェブマスター向けガイドラインを遵守します。これは、ユーザーの利便性を確保するためのものです。
- SEO スターター ガイドでヒントやおすすめの方法を確認します。
- こちらからさらに詳しい情報を確認できます。これには、質の高い検索結果を維持するために、Google が検索品質評価者に提供しているガイドラインも含まれます。
詳細版
さらに詳しい情報については、以下をご覧ください。
詳細版
クロール
クロールとは、新しいページや更新されたページを Google インデックスに登録するため、Googlebot がそれらのページにアクセスするプロセスです。
Google では、大規模なコンピュータ群を使用して、ウェブ上の数十億のページを取得(クロール)します。取得プログラムは Googlebot と呼ばれ、ロボットやボット、スパイダーとも呼ばれます。Googlebot は、アルゴリズム処理を使用して、クロールするサイト、クロールする頻度、各サイトから取得するページ数を決定します。
クロールの開始時には、これまでのクロールで生成されたウェブページ URL のリストに、ウェブサイト所有者から提供されたサイトマップ データを加えた情報が使用されます。Googlebot は、アクセスしたページ上のリンクを検出し、それらをクロール対象ページのリストに追加します。また、新しいサイト、既存のサイトへの変更、無効なリンクを検出し、Google インデックスの更新情報として使用します。
Google は、クロール中のページ レンダリングに最新版の Chrome を使用します。レンダリング処理の一環として、検出したページ スクリプトをすべて実行します。サイトに動的に生成されるコンテンツがある場合は、JavaScript SEO の基本を遵守してください。
Google は、ウェブサイトのクロールに、モバイル クローラとパソコン クローラの 2 種類のクローラを使用します。各タイプのクローラは、ページにそのタイプのデバイスでアクセスするユーザーをシミュレートします。
Google は、サイトの「メインクローラ」として 1 つのクローラタイプ(モバイルまたはパソコン)を使用します。そのメインクローラで、サイト内のクロール対象ページすべてをクロールします。新しいウェブサイトのメインクローラは、モバイル クローラになります。
さらに、サイト内の 2~3 のページに対して、別のクローラタイプ(モバイルまたはパソコン)による再クロールを行います。これは、サイトが別の種類のデバイスでどのように機能するかを確認するためで、「セカンダリ クロール」と呼ばれます。
Google がページをクロール対象外と判断する方法
- robots.txt でブロックされたページはクロールされませんが、別のページにリンクされている場合には、インデックスに登録される可能性があります(Google は、ページへのリンクをもとにページの内容を推測し、コンテンツを解析せずにそのページをインデックス登録することがあります)。
- 匿名ユーザーがアクセスできないページはクロールできません。したがって、ログインなどの認証によって保護されたページはクロールされません。
- ページがすでにクロールされていて、別のページの重複であると見なされた場合は、クロールの頻度が少なくなります。
クローラビリティを改善する
Google がサイトのページを適切に検出できるようにするには、以下の手法をお試しください。
- サイトマップを送信します。
- 個々のページのクロール リクエストを送信します。
- ページにはシンプルで、人間が判読可能かつ論理的な URL パスを使用し、サイト内には明確で直接的な内部リンクを設定します。
- サイトでナビゲーション用に URL パラメータを使用する場合(たとえば、グローバルなショッピング サイトでユーザーの国を指定する場合)、URL パラメータ ツールを使用して、重要なパラメータについて Google に伝えます。
- robots.txt を活用します。robots.txt を使用して、Google に最初に検出またはクロールしてほしいページを知らせます。これは、Google インデックスでコンテンツをブロックするためではなく、サーバーの負荷を軽減するためのものです。
- hreflang を使用して、ページの別言語バージョンを指定します。
- 正規ページと代替ページを明確に示します。
- インデックス カバレッジ レポートを使用して、クロールやインデックス登録の対象範囲を確認します。
- Google が主要なページと、それらを適切に表示するために必要なリソース(画像、CSS ファイル、スクリプト)にアクセスできることを確認します。
- ライブページで URL 検査ツールを実行して、Google によるアクセスとレンダリングが問題なく行えることを確認します。
インデックス登録
Googlebot は、ページのコンテンツを把握するために、クロール対象の各ページを処理します。これには、テキスト コンテンツ、主要なコンテンタグや属性(<title>
タグや alt 属性)、画像、動画などの処理が含まれます。Googlebot はさまざまなコンテンツを処理できますが、すべての種類を処理できるわけではありません。たとえば、一部のリッチメディア ファイルのコンテンツは処理できません。
Google は、クロールからインデックス登録までの間に、ページが別のページの重複または正規ページかどうかを判断します。ページが重複していると見なされると、ページのクロール頻度が大幅に低下します。類似したページは 1 つの「ドキュメント」にグループ化されます。これは、1 つ以上のページからなるグループで、正規ページとその重複として検出されたすべてのページで構成されます。正規ページとは、そのグループの代表に最もふさわしいページであり、重複とは、正規ページを指す単なる代替 URL であることもあれば、正規ページのモバイル版(または PC 版)であることもあります。
noindex ディレクティブ(ヘッダーまたはタグ)が実装されたページは Google のインデックスに登録されません。ただし、クローラがディレクティブを認識できるようにする必要があります。robots.txt ファイル、ログインページ、他のデバイスなどによってページがブロックされている場合、Google がページにアクセスしていなくてもインデックスに登録されてしまう可能性があります。
より効果的なインデックス登録を行う
Google がページのコンテンツを適切に把握できるようにするには、以下のようなさまざまな手法があります。
- noindex を使用して、非表示にするページを Google がクロールまたは検出することを防ぎます。ただし、robots.txt によってブロックされているページで「noindex」を使用しても、noindex が認識されず、ページがインデックス登録される可能性があります。
- 構造化データを使用します。
- Google のウェブマスター向けガイドラインを遵守します。
- その他のヒントについては、SEO スターター ガイドと上級ユーザー向けガイドをご覧ください。
Google は、内部的にはウェブ全体を(膨大な)「ドキュメント」のセットとして表します。各ドキュメントは 1 つ以上のウェブページから構成されます。同じドキュメント内のページは同一か非常に似ており、コンテンツは本質的に同じですが、アクセスに使う URL が異なります。ドキュメント内の異なる URL が同じページを指す(たとえば、example.com/dresses/summer/1234 と example.com?product=1234 が同じページを指すなど)場合もあれば、同じ内容のページの別デバイス向けバージョンを指す(たとえば、example.com/mypage は PC 版、m.example.com/mypage はモバイル版を指すなど)場合もあります。
Google は、ドキュメント内の URL から 1 つを選択し、それをドキュメントの「正規 URL」と定義します。そして、この正規 URL に対して、ドキュメント内で最も頻繁にクロールとインデックス登録を行います。他の URL は「重複」または「代替」と見なされ、クロールは低頻度でしか行われません。また、検索結果への表示はユーザーのリクエストに応じて行われます。たとえば、ドキュメントの正規 URL がモバイル向け URL であったとしても、パソコンで検索しているユーザーに対してはパソコン向け(代替)URL が表示されます。
Search Console のほとんどのレポートでは、データはドキュメントの正規 URL に関連付けられます。一部のツール(URL 検査ツールなど)は代替 URL のテストをサポートしていますが、正規 URL を検査すれば、代替 URL に関する情報も同時に取得できます。
どの URL を正規 URL にするかについて Google に希望を伝えることはできますが、さまざまな理由から Google が別の URL を正規 URL として選択する場合があります。
以下に主な用語を挙げ、Search Console で使われる場合の意味を概説します。
- ドキュメント: 類似のページの集まり。正規 URL と、サイトに重複ページがある場合は代替 URL があります。ドキュメント内の URL は、異なる「組織」(ルートドメイン、たとえば www.google.com の「google」)のものである場合もあります。Google は、プラットフォーム(モバイルまたはパソコン)、ユーザーの言語‡や場所など、多くの変数を考慮して、検索結果に表示する URL を選択します。サイト内の関連ページの検出は、オーガニック クロールや、リダイレクトまたは
<link rel=alternate/canonical>
タグなど、サイトに実装された機能によって行います。サイト以外の組織の関連ページは、サイトで明示的に(リダイレクトやリンクタグを使用して)コーディングされている場合にのみ、代替として検出できます。 - URL: サイト内の特定のコンテンツにアクセスするための URL。異なる URL が同じページを指すよう解決される場合もあります。
- ページ: 1 つ以上の URL でアクセスされる特定のウェブページ。ユーザーのプラットフォーム(モバイル、パソコン、タブレットなど)ごとに、異なる「バージョン」が存在する場合があります。
- バージョン: ページのバリエーションの 1 つで、通常「モバイル」、「パソコン」、「AMP」に分類されます(AMP 自体にもモバイル版と PC 版があります)。各バージョンには、サイト設定によって、異なる URL(example.com と m.example.com など)を持たせることも、同じ URL を持たせることもできます(動的な配信やレスポンシブ ウェブ デザインを使用すれば、同じ URL で同じページの異なるバージョンを表示できます)。なお、言語のバリエーションは異なるバージョンではなく、異なるドキュメントと見なされます。
- 正規ページ(正規 URL): Google がドキュメントの代表として最もふさわしいと判断する URL。Google は通常この URL をクロールします。ドキュメント内の重複 URL もクロールしますが低頻度です。
- 代替ページ(代替 URL)または重複ページ(重複 URL): Google が低頻度でクロールするドキュメント URL。ユーザーやリクエストによっては、こちらの URL を表示する場合もあります(たとえば、パソコンからのリクエストに対しては、正規のモバイル向け URL ではなく、パソコン ユーザー向け URL を表示します)。
- サイト: 通常、ウェブサイト(概念的に関連するウェブページのセット)と同じ意味で使用されますが、Search Console プロパティの意味で使用されることもあります(実際には、プロパティはサイトの一部としても定義できます)。サイトは複数のサブドメインに(AMP ページが適切にリンクされている場合は複数のドメインにも)またがることができます。
‡コンテンツは同じでも言語が異なるページは別々のドキュメントに保存され、それぞれ hreflang タグを使って参照されます。翻訳されたコンテンツに hreflang タグを使用することが重要なのはこのためです。
検索結果の表示
ユーザーが検索クエリを入力すると、インデックスで一致するページが検索され、関連性が高いと判断された検索結果が返されます。この関連性は、何百もの要素から判断されます。Google は、アルゴリズムの改善に常に取り組んでいます。検索結果の選択とランキングにおいてはユーザー エクスペリエンスが考慮されるため、読み込みが速く、モバイル フレンドリーなページを作成してください。
検索結果での表示を改善する
- 検索結果の表示対象を特定の場所や言語のユーザーにする場合は、意図する表示対象を Google に伝えます。
- 読み込みが速く、モバイル フレンドリーなページにします。
- よくあるミスを回避し、サイトのランキングを上げるため、ウェブマスター向けガイドラインを遵守します。
- レシピカードや記事カードなど、検索結果機能をサイトに実装することを検討します。
- モバイル デバイスでページを高速に読み込むため、AMP を実装します。一部の AMP ページでは、トップニュース カルーセルなどの追加の検索機能も利用できます。
- Google のアルゴリズムは常に改善されています。アルゴリズムを推測して、それに合わせてページを設計しようとするのではなく、ユーザーが望む良質で新鮮なコンテンツを作成し、ガイドラインに準拠してください。
さらに詳しい説明
Google 検索の仕組みのさらに詳しい説明については、こちらをご覧ください(画像や動画付きです)。