Полезные правила для robots.txt
Ниже перечислено несколько правил, часто используемых в файлах robots.txt.
| Полезные правила | |
|---|---|
| Это правило запрещает сканировать весь сайт |
Обратите внимание, что в некоторых случаях URL сайта могут индексироваться, даже если они не были просканированы. User-agent: * Disallow: / |
Разрешить сканирование всего сайта (с пустым правилом Disallow)
|
Это означает, что всем поисковым роботам разрешено сканировать сайт целиком. По сути, это то же самое, что не иметь файла robots.txt или использовать правило User-agent: * Disallow: |
| Это правило запрещает сканировать каталог со всем его содержимым. |
Чтобы запретить сканирование целого каталога, поставьте косую черту после его названия. User-agent: * Disallow: /calendar/ Disallow: /junk/ Disallow: /books/fiction/contemporary/ |
|
Это правило запрещает сканирование отдельной страницы. |
Например, можно запретить сканирование страниц User-agent: * Disallow: /useless_file.html Disallow: /junk/other_useless_file.html |
|
Это правило запрещает сканировать весь сайт за исключением определенного подкаталога. |
Поисковым роботам предоставлен доступ только к подкаталогу User-agent: * Disallow: / Allow: /public/ |
| Это правило позволяет сканировать сайт только одному поисковому роботу. |
Сканировать весь сайт может только робот User-agent: Googlebot-News Allow: / User-agent: * Disallow: / |
| Это правило разрешает сканирование всем поисковым роботам за исключением одного. |
Робот User-agent: Unnecessarybot Disallow: / User-agent: * Allow: / |
|
Это правило запрещает сканировать весь сайт, но при этом он может обрабатываться роботом |
В результате робот User-agent: * Disallow: / User-agent: Storebot-Google Allow: / |
|
Это правило скрывает все изображения на сайте от робота Google (включая все сервисы, где показываются изображения, например Google Картинки и рекомендации). |
Google не сможет индексировать изображения и видео, которые недоступны для сканирования. User-agent: Googlebot-Image Disallow: / |
|
Это правило скрывает определенное изображение от робота Google Картинок. |
Например, вы можете запретить сканировать изображение User-agent: Googlebot-Image Disallow: /images/dogs.jpg |
|
Это правило запрещает сканировать все файлы определенного типа. |
Например, вы можете запретить роботам доступ ко всем файлам User-agent: Googlebot Disallow: /*.gif$ |
Используйте подстановочные знаки * и $, чтобы сопоставлять URL, которые заканчиваются определенной строкой.
|
Например, вы можете исключить все файлы User-agent: Googlebot Disallow: /*.xls$ |
| Объединяйте несколько агентов пользователя в одну группу. |
Объединение правил для нескольких поисковых роботов в одну группу позволяет сократить файл и упростить управление им, так как все правила в группе применяются ко всем перечисленным агентам пользователя. Это то же самое, что указать агентов пользователя дважды с соответствующими правилами. User-agent: Googlebot User-agent: Storebot-Google Allow: /cats Disallow: / |