robots.txt の概要
robots.txt ファイルとは、検索エンジンのクローラに対して、サイトのどの URL にアクセスしてよいかを伝えるものです。
これは主に、サイトでのリクエストのオーバーロードを避けるために使用され、Google にウェブページが表示されないようにするためのメカニズムではありません。Google にウェブページが表示されないようにするには、noindex
を使用してインデックス登録をブロックするか、ページをパスワードで保護します。
robots.txt ファイルの使用目的
robots.txt ファイルは、基本的にはクローラのサイトへのトラフィックを管理するために使用されますが、ファイル形式に応じて Google でファイルを非表示にするために使用されることもよくあります。
さまざまなファイル形式に対する robots.txt の影響 | |
---|---|
ウェブページ |
Google のクローラからのリクエストによってサーバーが過負荷になっていると考えられる場合に、ウェブページ(HTML や PDF など、メディア以外で Google が読み取れる形式)に対して robots.txt ファイルを使用することで、クロール トラフィックを管理できます。また、サイト上の重要でないページや類似したページのクロールを回避することもできます。 ウェブページが robots.txt ファイルでブロックされている場合、検索結果にその URL が表示されることはありますが、説明は表示されません。 画像ファイル、動画ファイル、PDF など、HTML 以外のファイルは除外されます。検索結果にページがこのように表示される場合、修正するには、このページをブロックしている robots.txt エントリを削除してください。検索でページを完全に非表示にするには、別の方法を使用します。 |
メディア ファイル |
クロール トラフィックを管理するだけでなく、Google 検索結果に画像ファイル、動画ファイル、音声ファイルが表示されないようにするために、robots.txt ファイルを使用できます。これにより、他のページやユーザーが画像、動画、音声ファイルにリンクできなくなることはありません。 |
リソース ファイル | 重要でない画像、スクリプト、スタイル ファイルなどのリソースなしにページが読み込まれても、その欠如によってページが重大な影響を受けないと考えられる場合は、robots.txt ファイルを使用してそうしたリソース ファイルをブロックできます。ただし、それらのリソースがないと Google のクローラがページを把握しにくくなる場合は、リソースをブロックしないでください。ブロックすると、これらのリソースに依存しているページを Google が適切に分析できなくなります。 |
robots.txt ファイルの制限事項について
robots.txt ファイルを作成または編集する前に、URL をブロックする手段として robots.txt を使用した場合の制限を理解しておく必要があります。目標や状況によっては、URL がウェブで見つからないようにするために他の方法を検討することが必要になる場合もあります。
-
すべての検索エンジンが robots.txt ルールに対応するとは限らない
robots.txt ファイルの指示をサイトに対するクローラの動作に強制適用することはできません。指示に従うかどうかはクローラ次第です。Googlebot などの信頼できるウェブクローラは robots.txt ファイルの指示に従いますが、他のクローラも従うとは限りません。そのため、ウェブクローラから情報を保護するには、サーバー上の非公開ファイルをパスワードで保護する方法など、他のブロック方法を利用することをおすすめします。 -
クローラによって構文解釈が異なる
信頼できるウェブクローラは robots.txt ファイルのルールに従いますが、各クローラでルールの解釈が異なる可能性があります。ウェブクローラによっては、特定の指示が理解されない可能性があるため、さまざまなウェブクローラに対応する適切な構文を把握する必要があります。 -
robots.txt で許可されていないページを他のサイトからリンクした場合、そのページはインデックスに登録される可能性がある
Google では、robots.txt ファイルでブロックされているコンテンツをクロールしたりインデックスに登録したりすることはありませんが、ブロック対象の URL がウェブ上の他の場所からリンクされている場合、その URL を検出してインデックスに登録する可能性はあります。そのため、該当の URL アドレスや、場合によってはその他の公開情報(該当ページへのリンクのアンカー テキストなど)が、Google 検索の検索結果に表示されることもあります。Google 検索の検索結果に特定の URL が表示されるのを確実に防ぐには、サーバー上のファイルをパスワードで保護するか、noindex
meta
タグまたはレスポンス ヘッダーを使用する、もしくは該当ページを完全に削除する必要があります。
robots.txt ファイルを作成または更新する
必要な場合は、robots.txt ファイルを作成する方法をご覧ください。すでに作成している場合は、ファイルの更新方法をご確認ください。
詳しくは、次のリンクをご覧ください。