robots.txt の概要

robots.txt ファイルとは、検索エンジンのクローラに対して、サイトのどの URL にアクセスしてよいかを伝えるものです。 これは主に、サイトでのリクエストのオーバーロードを避けるために使用され、Google にウェブページが表示されないようにするためのメカニズムではありません。Google にウェブページが表示されないようにするには、noindex を使用してインデックス登録をブロックするか、ページをパスワードで保護します。

robots.txt ファイルの使用目的

robots.txt ファイルは、基本的にはクローラのサイトへのトラフィックを管理するために使用されますが、ファイル形式に応じて Google でファイルを非表示にするために使用されることもよくあります

さまざまなファイル形式に対する robots.txt の影響
ウェブページ

Google のクローラからのリクエストによってサーバーが過負荷になっていると考えられる場合に、ウェブページ(HTML や PDF など、メディア以外で Google が読み取れる形式)に対して robots.txt ファイルを使用することで、クロール トラフィックを管理できます。また、サイト上の重要でないページや類似したページのクロールを回避することもできます。

ウェブページが robots.txt ファイルでブロックされている場合、検索結果にその URL が表示されることはありますが、説明は表示されません。 画像ファイル、動画ファイル、PDF など、HTML 以外のファイルは除外されます。検索結果にページがこのように表示される場合、修正するには、このページをブロックしている robots.txt エントリを削除してください。検索でページを完全に非表示にするには、別の方法を使用します。

メディア ファイル

クロール トラフィックを管理するだけでなく、Google 検索結果に画像ファイル、動画ファイル、音声ファイルが表示されないようにするために、robots.txt ファイルを使用できます。これにより、他のページやユーザーが画像、動画、音声ファイルにリンクできなくなることはありません。

リソース ファイル 重要でない画像、スクリプト、スタイル ファイルなどのリソースなしにページが読み込まれても、その欠如によってページが重大な影響を受けないと考えられる場合は、robots.txt ファイルを使用してそうしたリソース ファイルをブロックできます。ただし、それらのリソースがないと Google のクローラがページを把握しにくくなる場合は、リソースをブロックしないでください。ブロックすると、これらのリソースに依存しているページを Google が適切に分析できなくなります。

robots.txt ファイルの制限事項について

robots.txt ファイルを作成または編集する前に、URL をブロックする手段として robots.txt を使用した場合の制限を理解しておく必要があります。目標や状況によっては、URL がウェブで見つからないようにするための他の方法を検討することが必要になる場合もあります。

  • すべての検索エンジンが robots.txt ディレクティブに対応するとは限らない
    robots.txt ファイルの指示をサイトに対するクローラの動作に強制適用することはできません。指示に従うかどうかはクローラ次第です。Googlebot などの信頼できるウェブクローラは robots.txt ファイルの指示に従いますが、他のクローラも従うとは限りません。そのため、ウェブクローラから情報を保護するには、サーバー上の非公開ファイルをパスワードで保護する方法など、他のブロック方法を利用することをおすすめします。
  • クローラによって構文解釈が異なる
    信頼できるウェブクローラは robots.txt ファイルのディレクティブに従いますが、各クローラでディレクティブの解釈が異なる可能性があります。各種のロボットに対応する適切な構文を知る必要があります。ロボットによっては、一部の指示を理解しない可能性があります。
  • robots.txt で許可されていないページを他のサイトからリンクした場合、そのページはインデックスに登録される可能性がある
    Google では、robots.txt ファイルでブロックされているコンテンツをクロールしたりインデックスに登録したりすることはありませんが、ブロック対象の URL がウェブ上の他の場所からリンクされている場合、その URL を検出してインデックスに登録する可能性はあります。そのため、該当の URL アドレスや、場合によってはその他の公開情報(該当ページへのリンクのアンカー テキストなど)が、Google 検索結果に表示されることもあります。特定の URL が Google 検索結果に表示されるのを確実に防ぐには、サーバー上のファイルをパスワードで保護するか、noindex メタタグまたはレスポンス ヘッダーを使用する、もしくは該当ページを完全に削除する必要があります。

robots.txt ファイルを作成する

必要な場合は、robots.txt ファイルを作成する方法をご覧ください。