実用的な robots.txt のルール

一般的に役に立つ robots.txt のルールは次のとおりです。

実用的なルール
サイト全体でクロールを禁止する

注意点として、クロールされていなくてもサイトの URL がインデックスに登録される場合があります。

User-agent: *
Disallow: /
サイト全体のクロールを許可する(Disallow ルールを空にする)

これにより、すべてのクローラーがサイト全体にアクセスできるようになります。これは、robots.txt ファイルがない場合や、Allow: / ルールを使用する場合と機能的に同等です。

User-agent: *
Disallow:
ディレクトリとその内容のクロールを禁止する

ディレクトリ全体のクロールを禁止するには、ディレクトリ名の後にスラッシュを付けます。

User-agent: *
Disallow: /calendar/
Disallow: /junk/
Disallow: /books/fiction/contemporary/

1 つのウェブページのみクロールを禁止する

次の例では、https://example.com/useless_file.html にある useless_file.html ページと、junk ディレクトリ内の other_useless_file.html を禁止しています。

User-agent: *
Disallow: /useless_file.html
Disallow: /junk/other_useless_file.html

1 つのサブディレクトリを除いてサイト全体のクロールを禁止する

クローラーは public サブディレクトリにのみアクセスできます。

User-agent: *
Disallow: /
Allow: /public/
1 つのクローラに対してのみアクセスを許可する

次の例では、Googlebot-News のみがサイト全体をクロールできます。

User-agent: Googlebot-News
Allow: /

User-agent: *
Disallow: /
特定の 1 クローラーを除くすべてのクローラーに対してアクセスを許可する

次の例では、Unnecessarybot はサイトをクロールできず、その他の bot はすべてできます。

User-agent: Unnecessarybot
Disallow: /

User-agent: *
Allow: /

Storebot-Google 以外によるサイト全体のクロールを禁止する

これにより、対象ページは Google 検索の検索結果に表示されなくなりますが、Storebot-Google ウェブクローラは引き続きページを分析し、Google ショッピングに商品を表示できます。

User-agent: *
Disallow: /

User-agent: Storebot-Google
Allow: /

サイト上のすべての画像を Google からブロックする(Google 画像検索や Google Discover など、Google のあらゆる場所で画像が表示されなくなります)

Google は、クロールすることなく画像や動画をインデックスに登録できません。

User-agent: Googlebot-Image
Disallow: /

特定の画像を Google 画像検索からブロックする

次の例では、dogs.jpg という画像のクロールを禁止しています。

User-agent: Googlebot-Image
Disallow: /images/dogs.jpg

特定のファイル形式のファイルに対するクロールを禁止する

次の例では、すべての .gif ファイルのクロールを禁止しています。

User-agent: Googlebot
Disallow: /*.gif$
ワイルドカードとして *$ を使用すると、特定の文字列で終わる URL を一致させることができます。

次の例では、すべての .xls ファイルのクロールを禁止しています。

User-agent: Googlebot
Disallow: /*.xls$
複数のユーザー エージェントを 1 つのグループにまとめる

複数のクローラーのルールを 1 つのグループに統合すると、グループ内のすべてのルールが、リストされているすべてのユーザー エージェントに適用されるため、ファイルが短くなり、管理が容易になります。これは、それぞれのルールでユーザー エージェントを 2 回リストするのと同じです。

User-agent: Googlebot
User-agent: Storebot-Google
Allow: /cats
Disallow: /