実用的な robots.txt のルール

一般的に役に立つ robots.txt のルールは次のとおりです。

実用的なルール
サイト全体でクロールを禁止する	注意点として、クロールされていなくてもサイトの URL がインデックスに登録される場合があります。注: これは、各種 AdsBot クローラーにはあてはまりません（AdsBot クローラーは、明示的に指定する必要があります）。 User-agent: * Disallow: /
サイト全体のクロールを許可する（`Disallow` ルールを空にする）	これにより、すべてのクローラーがサイト全体にアクセスできるようになります。これは、robots.txt ファイルがない場合や、`Allow: /` ルールを使用する場合と機能的に同等です。 User-agent: * Disallow:
ディレクトリとその内容のクロールを禁止する	ディレクトリ全体のクロールを禁止するには、ディレクトリ名の後にスラッシュを付けます。注意: 非公開コンテンツへのアクセスをブロックする場合は、robots.txt を使用するのではなく、適切な認証方法を使用してください。URL は、robots.txt ファイルで拒否にしていても、クロールされないままインデックスに登録される場合があります。さらに robots.txt ファイルは誰でも閲覧できるので、非公開コンテンツの場所が公開同然となる可能性があります。 User-agent: * Disallow: /calendar/ Disallow: /junk/ Disallow: /books/fiction/contemporary/
1 つのウェブページのみクロールを禁止する	次の例では、`https://example.com/useless_file.html` にある `useless_file.html` ページと、`junk` ディレクトリ内の `other_useless_file.html` を禁止しています。 User-agent: * Disallow: /useless_file.html Disallow: /junk/other_useless_file.html
1 つのサブディレクトリを除いてサイト全体のクロールを禁止する	クローラーは `public` サブディレクトリにのみアクセスできます。 User-agent: * Disallow: / Allow: /public/
1 つのクローラに対してのみアクセスを許可する	次の例では、`Googlebot-News` のみがサイト全体をクロールできます。 User-agent: Googlebot-News Allow: / User-agent: * Disallow: /
特定の 1 クローラーを除くすべてのクローラーに対してアクセスを許可する	次の例では、`Unnecessarybot` はサイトをクロールできず、その他の bot はすべてできます。 User-agent: Unnecessarybot Disallow: / User-agent: * Allow: /
`Storebot-Google` 以外によるサイト全体のクロールを禁止する	これにより、対象ページは Google 検索の検索結果に表示されなくなりますが、`Storebot-Google` ウェブクローラは引き続きページを分析し、Google ショッピングに商品を表示できます。 User-agent: * Disallow: / User-agent: Storebot-Google Allow: /
サイト上のすべての画像を Google からブロックする（Google 画像検索や Google Discover など、Google のあらゆる場所で画像が表示されなくなります）	Google は、クロールすることなく画像や動画をインデックスに登録できません。 User-agent: Googlebot-Image Disallow: /
特定の画像を Google 画像検索からブロックする	次の例では、`dogs.jpg` という画像のクロールを禁止しています。 User-agent: Googlebot-Image Disallow: /images/dogs.jpg
特定のファイル形式のファイルに対するクロールを禁止する	次の例では、すべての `.gif` ファイルのクロールを禁止しています。 User-agent: Googlebot Disallow: /*.gif$
ワイルドカードとして `*` と `$` を使用すると、特定の文字列で終わる URL を一致させることができます。	次の例では、すべての `.xls` ファイルのクロールを禁止しています。 User-agent: Googlebot Disallow: /.xls$ `$` ワイルドカードは URL の末尾を示します。つまり、パターンの後に文字（URL パラメータなど）が追加されている URL は一致しません。たとえば、`https://example.com/cats.xls?personality=loki` はルール `/.xls$` によってブロックされません。
複数のユーザーエージェントを 1 つのグループにまとめる	複数のクローラーのルールを 1 つのグループに統合すると、グループ内のすべてのルールが、リストされているすべてのユーザーエージェントに適用されるため、ファイルが短くなり、管理が容易になります。これは、それぞれのルールでユーザーエージェントを 2 回リストするのと同じです。 User-agent: Googlebot User-agent: Storebot-Google Allow: /cats Disallow: /