実用的な robots.txt のルール
一般的に役に立つ robots.txt のルールは次のとおりです。
| 実用的なルール | |
|---|---|
| サイト全体でクロールを禁止する |
注意点として、クロールされていなくてもサイトの URL がインデックスに登録される場合があります。 User-agent: * Disallow: / |
サイト全体のクロールを許可する(Disallow ルールを空にする) |
これにより、すべてのクローラーがサイト全体にアクセスできるようになります。これは、robots.txt ファイルがない場合や、 User-agent: * Disallow: |
| ディレクトリとその内容のクロールを禁止する |
ディレクトリ全体のクロールを禁止するには、ディレクトリ名の後にスラッシュを付けます。 User-agent: * Disallow: /calendar/ Disallow: /junk/ Disallow: /books/fiction/contemporary/ |
|
1 つのウェブページのみクロールを禁止する |
次の例では、 User-agent: * Disallow: /useless_file.html Disallow: /junk/other_useless_file.html |
|
1 つのサブディレクトリを除いてサイト全体のクロールを禁止する |
クローラーは User-agent: * Disallow: / Allow: /public/ |
| 1 つのクローラに対してのみアクセスを許可する |
次の例では、 User-agent: Googlebot-News Allow: / User-agent: * Disallow: / |
| 特定の 1 クローラーを除くすべてのクローラーに対してアクセスを許可する |
次の例では、 User-agent: Unnecessarybot Disallow: / User-agent: * Allow: / |
|
|
これにより、対象ページは Google 検索の検索結果に表示されなくなりますが、 User-agent: * Disallow: / User-agent: Storebot-Google Allow: / |
|
サイト上のすべての画像を Google からブロックする(Google 画像検索や Google Discover など、Google のあらゆる場所で画像が表示されなくなります) |
Google は、クロールすることなく画像や動画をインデックスに登録できません。 User-agent: Googlebot-Image Disallow: / |
|
特定の画像を Google 画像検索からブロックする |
次の例では、 User-agent: Googlebot-Image Disallow: /images/dogs.jpg |
|
特定のファイル形式のファイルに対するクロールを禁止する |
次の例では、すべての User-agent: Googlebot Disallow: /*.gif$ |
ワイルドカードとして * と $ を使用すると、特定の文字列で終わる URL を一致させることができます。 |
次の例では、すべての User-agent: Googlebot Disallow: /*.xls$ |
| 複数のユーザー エージェントを 1 つのグループにまとめる |
複数のクローラーのルールを 1 つのグループに統合すると、グループ内のすべてのルールが、リストされているすべてのユーザー エージェントに適用されるため、ファイルが短くなり、管理が容易になります。これは、それぞれのルールでユーザー エージェントを 2 回リストするのと同じです。 User-agent: Googlebot User-agent: Storebot-Google Allow: /cats Disallow: / |