Полезные правила для robots.txt

Ниже перечислено несколько правил, часто используемых в файлах robots.txt.

Полезные правила
Это правило запрещает сканировать весь сайт	Обратите внимание, что в некоторых случаях URL сайта могут индексироваться, даже если они не были просканированы. Примечание. Это правило не распространяется на роботов AdsBot, которых нужно указывать явно. User-agent: * Disallow: /
Разрешить сканирование всего сайта (с пустым правилом `Disallow`)	Это означает, что всем поисковым роботам разрешено сканировать сайт целиком. По сути, это то же самое, что не иметь файла robots.txt или использовать правило `Allow: /`. User-agent: * Disallow:
Это правило запрещает сканировать каталог со всем его содержимым.	Чтобы запретить сканирование целого каталога, поставьте косую черту после его названия. Внимание: не используйте файл robots.txt, чтобы ограничить доступ к определенному контенту. Вместо этого используйте аутентификацию посетителей. URL, сканирование которых запрещено в файле robots.txt, все же могут быть проиндексированы. Кроме того, злоумышленники могут посмотреть содержимое файла robots.txt и узнать, где находится контент, который вы хотите скрыть. User-agent: * Disallow: /calendar/ Disallow: /junk/ Disallow: /books/fiction/contemporary/
Это правило запрещает сканирование отдельной страницы.	Например, можно запретить сканирование страниц `useless_file.html` и `other_useless_file.html`, размещенных в каталогах `https://example.com/useless_file.html` и `junk` соответственно. User-agent: * Disallow: /useless_file.html Disallow: /junk/other_useless_file.html
Это правило запрещает сканировать весь сайт за исключением определенного подкаталога.	Поисковым роботам предоставлен доступ только к подкаталогу `public`. User-agent: * Disallow: / Allow: /public/
Это правило позволяет сканировать сайт только одному поисковому роботу.	Сканировать весь сайт может только робот `Googlebot-News`. User-agent: Googlebot-News Allow: / User-agent: * Disallow: /
Это правило разрешает сканирование всем поисковым роботам за исключением одного.	Робот `Unnecessarybot` не может сканировать сайт, а все остальные могут. User-agent: Unnecessarybot Disallow: / User-agent: * Allow: /
Это правило запрещает сканировать весь сайт, но при этом он может обрабатываться роботом `Storebot-Google`	В результате робот `Storebot-Google` сможет получить доступ к страницам, удаленным вами из результатов поиска Google, чтобы показывать ваши товары в Google Покупках. User-agent: * Disallow: / User-agent: Storebot-Google Allow: /
Это правило скрывает все изображения на сайте от робота Google (включая все сервисы, где показываются изображения, например Google Картинки и рекомендации).	Google не сможет индексировать изображения и видео, которые недоступны для сканирования. User-agent: Googlebot-Image Disallow: /
Это правило скрывает определенное изображение от робота Google Картинок.	Например, вы можете запретить сканировать изображение `dogs.jpg`. User-agent: Googlebot-Image Disallow: /images/dogs.jpg
Это правило запрещает сканировать все файлы определенного типа.	Например, вы можете запретить роботам доступ ко всем файлам `.gif`. User-agent: Googlebot Disallow: /*.gif$
Используйте подстановочные знаки `*` и `$`, чтобы сопоставлять URL, которые заканчиваются определенной строкой.	Например, вы можете исключить все файлы `.xls`. User-agent: Googlebot Disallow: /.xls$ Подстановочный знак `$` обозначает конец URL. Это означает, что URL, в которых после шаблона есть дополнительные символы (например, параметры URL), не будут соответствовать. Например, `https://example.com/cats.xls?personality=loki` правилом `/.xls$` заблокирован не будет.
Объединяйте несколько агентов пользователя в одну группу.	Объединение правил для нескольких поисковых роботов в одну группу позволяет сократить файл и упростить управление им, так как все правила в группе применяются ко всем перечисленным агентам пользователя. Это то же самое, что указать агентов пользователя дважды с соответствующими правилами. User-agent: Googlebot User-agent: Storebot-Google Allow: /cats Disallow: /