robots.txt の概要
robots.txt ファイルとは
robots.txt ファイルは、クローラがどのページやファイルをサイトからリクエストできるか、またはできないかを検索エンジン クローラに知らせるものです。これは主に、サイトでのリクエストのオーバーロードを避けるために使用され、Google にウェブページが表示されないようにするためのメカニズムではありません。Google にウェブページが表示されないようにするには、noindex
ディレクティブを使用するか、ページをパスワードで保護する必要があります。
robots.txt の使用目的
robots.txt は、基本的にはクローラのサイトへのトラフィックを管理するために使用されますが、ファイルタイプに応じて Google でページを非表示にするために使用されることもよくあります。
ページのタイプ | トラフィック管理 | Google で非表示 | 説明 |
---|---|---|---|
ウェブページ |
|
ウェブページ(HTML や PDF、Google が認識可能なメディア以外の形式)では、Google のクローラによるリクエストによってサーバーに大きな負荷がかかっていると思われる場合に、robots.txt を使用して、クロール トラフィックを管理できます。また、サイト上の重要でないページや類似したページのクロールを回避するためにも、robots.txt を使用できます。 Google 検索結果でウェブページを非表示にすることを目的に robots.txt を使用しないでください。これは、説明テキストの付いたページが他のページで参照されている場合、このページにアクセスしなくても、ページがインデックスに登録される可能性があるためです。検索結果にページを表示しないためには、パスワード保護や ウェブページが robots.txt ファイルでブロックされている場合、検索結果には表示されますが、説明が省略されます。表示の例はこちらをご覧ください。画像ファイル、動画ファイル、PDF、その他の HTML 以外のファイルは除外されます。検索結果にページがこのように表示される場合、修正するには、このページをブロックしている robots.txt エントリを削除してください。検索でページを完全に非表示にするには、別の方法を使用します。 |
|
メディア ファイル |
クロール トラフィックを管理するだけでなく、Google 検索結果に画像ファイル、動画ファイル、音声ファイルが表示されないようにするために、robots.txt を使用できます(これにより、他のページやユーザーが画像ファイル、動画ファイル、音声ファイルにリンクできなくなるわけではありません)。 |
||
リソース ファイル | 重要でない画像、スクリプト、スタイル ファイルなどのリソースなしにページが読み込まれても、その欠如によってページが重大な影響を受けないと考えられる場合は、robots.txt を使用してそうしたリソース ファイルをブロックすることができます。ただし、それらのリソースがないと Google のクローラがページを判断しにくくなる場合は、リソースをブロックしないでください。ブロックしてしまうと、Google では、これらのリソースに依存しているページを適切に分析できなくなります。 |
サイト ホスティング サービスを使用している場合
Wix、Drupal、Blogger などのウェブサイト ホスティング サービスをご利用の場合は、robots.txt ファイルを直接編集しなくてよい、または編集できない場合があります。そのような場合、プロバイダが代わりに検索設定ページなどのメカニズムを公開して、ページをクロールするかどうかを検索エンジンに知らせます。
ページが Google によってクロールされているかどうかを確認するには、Google でそのページの URL を検索します。
ページを非表示にする場合はページログイン要件を追加し、ページの非表示を解除する場合はページログイン要件を削除します。また、検索エンジンでのページの公開設定をホスティング サービスで変更する方法について、Google で検索してください(例: Wix ページを検索エンジンで非表示にする)。
robots.txt の限界を理解する
robots.txt を作成または編集する前に、URL をブロックする手段として robots.txt を使用した場合の限界を理解する必要があります。他の方法で URL がウェブで見つからないようにすることを検討することが必要になる場合もあります。
- すべての検索エンジンが robots.txt ディレクティブに対応するとは限らない
robots.txt
ファイルの指示をサイトに対するクローラの動作に強制適用することはできません。指示に従うかどうかはクローラ次第です。Googlebot などの信頼できるウェブクローラはrobots.txt
ファイルの指示に従いますが、他のクローラも従うとは限りません。そのため、ウェブクローラから情報を保護するには、サーバー上の非公開ファイルをパスワードで保護する方法など、他のブロック方法を利用することをおすすめします。 - クローラによって構文の解釈が異なる
信頼できるウェブクローラはrobots.txt
ファイルのディレクティブに従いますが、各クローラでディレクティブの解釈が異なる可能性があります。ウェブクローラによっては、特定の指示が理解されない場合もあるので、さまざまなウェブクローラに対応する適切な構文を把握する必要があります。 - クローラをブロックしているページでも他のサイトからリンクされていればインデックス登録が可能
Google では、robots.txt
でブロックされているコンテンツをクロールしたりインデックスに登録したりすることはありませんが、ブロック対象の URL がウェブ上の他の場所からリンクされている場合、その URL を検出してインデックスに登録する可能性はあります。そのため、該当の URL アドレスや、場合によってはその他の公開情報(該当ページへのリンクのアンカー テキストなど)が、Google の検索結果に表示されることもあります。特定の URL が Google 検索結果に表示されるのを確実に防ぐには、サーバー上のファイルをパスワードで保護するか、noindex メタタグまたはレスポンス ヘッダーを使用する(もしくは該当ページを完全に削除する)必要があります。
robots.txt によるページのブロックをテストする
robots.txt ルールでページまたはリソースがブロックされているかどうかをテストすることができます。
noindex ディレクティブをテストするには、URL 検査ツールを使用します。