Полезные правила для robots.txt

Ниже перечислено несколько правил, часто используемых в файлах robots.txt.

Полезные правила
Это правило запрещает сканировать весь сайт

Обратите внимание, что в некоторых случаях URL сайта могут индексироваться, даже если они не были просканированы.

User-agent: *
Disallow: /
Разрешить сканирование всего сайта (с пустым правилом Disallow)

Это означает, что всем поисковым роботам разрешено сканировать сайт целиком. По сути, это то же самое, что не иметь файла robots.txt или использовать правило Allow: /.

User-agent: *
Disallow:
Это правило запрещает сканировать каталог со всем его содержимым.

Чтобы запретить сканирование целого каталога, поставьте косую черту после его названия.

User-agent: *
Disallow: /calendar/
Disallow: /junk/
Disallow: /books/fiction/contemporary/

Это правило запрещает сканирование отдельной страницы.

Например, можно запретить сканирование страниц useless_file.html и other_useless_file.html, размещенных в каталогах https://example.com/useless_file.html и junk соответственно.

User-agent: *
Disallow: /useless_file.html
Disallow: /junk/other_useless_file.html

Это правило запрещает сканировать весь сайт за исключением определенного подкаталога.

Поисковым роботам предоставлен доступ только к подкаталогу public.

User-agent: *
Disallow: /
Allow: /public/
Это правило позволяет сканировать сайт только одному поисковому роботу.

Сканировать весь сайт может только робот Googlebot-News.

User-agent: Googlebot-News
Allow: /

User-agent: *
Disallow: /
Это правило разрешает сканирование всем поисковым роботам за исключением одного.

Робот Unnecessarybot не может сканировать сайт, а все остальные могут.

User-agent: Unnecessarybot
Disallow: /

User-agent: *
Allow: /

Это правило запрещает сканировать весь сайт, но при этом он может обрабатываться роботом Storebot-Google

В результате робот Storebot-Google сможет получить доступ к страницам, удаленным вами из результатов поиска Google, чтобы показывать ваши товары в Google Покупках.

User-agent: *
Disallow: /

User-agent: Storebot-Google
Allow: /

Это правило скрывает все изображения на сайте от робота Google (включая все сервисы, где показываются изображения, например Google Картинки и рекомендации).

Google не сможет индексировать изображения и видео, которые недоступны для сканирования.

User-agent: Googlebot-Image
Disallow: /

Это правило скрывает определенное изображение от робота Google Картинок.

Например, вы можете запретить сканировать изображение dogs.jpg.

User-agent: Googlebot-Image
Disallow: /images/dogs.jpg

Это правило запрещает сканировать все файлы определенного типа.

Например, вы можете запретить роботам доступ ко всем файлам .gif.

User-agent: Googlebot
Disallow: /*.gif$
Используйте подстановочные знаки * и $, чтобы сопоставлять URL, которые заканчиваются определенной строкой.

Например, вы можете исключить все файлы .xls.

User-agent: Googlebot
Disallow: /*.xls$
Объединяйте несколько агентов пользователя в одну группу.

Объединение правил для нескольких поисковых роботов в одну группу позволяет сократить файл и упростить управление им, так как все правила в группе применяются ко всем перечисленным агентам пользователя. Это то же самое, что указать агентов пользователя дважды с соответствующими правилами.

User-agent: Googlebot
User-agent: Storebot-Google
Allow: /cats
Disallow: /