Как создать файл robots.txt
С помощью файла robots.txt вы можете указывать, какие файлы на вашем сайте будут видны поисковым роботам. Файл robots.txt находится в корневом каталоге вашего сайта. Например, на сайте www.example.com
он находится по адресу www.example.com/robots.txt
. Это обычный текстовый файл, который соответствует стандарту исключений для роботов
и содержит одно или несколько правил. Каждое из них запрещает или разрешает тому или иному поисковому роботу доступ к определенному пути на сайте. Все файлы считаются доступными для сканирования, если вы не указали иное в файле robots.txt.
Ниже приведен пример простого файла robots.txt с двумя правилами.
User-agent: Googlebot Disallow: /nogooglebot/ User-agent: * Allow: / Sitemap: http://www.example.com/sitemap.xml
Пояснения:
-
Агенту пользователя с названием Googlebot запрещено сканировать любые URL, начинающиеся с
http://example.com/nogooglebot/
. - Любым другим агентам пользователя разрешено сканировать весь сайт. Это правило можно опустить, и результат будет тем же. По умолчанию агенты пользователя могут сканировать сайт целиком.
-
Файл Sitemap этого сайта находится по адресу
http://www.example.com/sitemap.xml
.
Более подробные сведения вы найдете в разделе Синтаксис.
Основные рекомендации по созданию файла robots.txt
Работа с файлом robots.txt включает четыре этапа.
- Создайте файл robots.txt
- Добавьте в него правила
- Опубликуйте готовый файл на своем сайте
- Протестируйте свой файл robots.txt
Как создать файл robots.txt
Создать файл robots.txt можно в любом текстовом редакторе, таком как Блокнот, TextEdit, vi или Emacs. Не используйте офисные приложения, поскольку зачастую они сохраняют файлы в проприетарном формате и добавляют в них лишние символы, например фигурные кавычки, которые не распознаются поисковыми роботами. Обязательно сохраните файл в кодировке UTF-8, если вам будет предложено выбрать кодировку.
Правила в отношении формата и расположения файла
- Файл должен называться robots.txt.
- На сайте должен быть только один такой файл.
-
Файл robots.txt нужно разместить в корневом каталоге сайта. Например, на сайте
https://www.example.com/
он должен располагаться по адресуhttps://www.example.com/robots.txt
. Он не должен находиться в подкаталоге (например, по адресуhttps://example.com/pages/robots.txt
). Если вы не знаете, как получить доступ к корневому каталогу, или у вас нет соответствующих прав, обратитесь к хостинг-провайдеру. Если у вас нет доступа к корневому каталогу сайта, используйте альтернативный метод блокировки, например метатеги. - Для файлов robots.txt можно использовать URL с субдоменами (например,
https://website.example.com/robots.txt
) или нестандартными портами (например,http://example.com:8181/robots.txt
). - Файл robots.txt должен представлять собой текстовый файл в кодировке UTF-8 (которая включает коды символов ASCII). Google может проигнорировать символы, не относящиеся к UTF-8, в результате чего будут обработаны не все правила из файла robots.txt.
Как добавить правила в файл robots.txt
Правила – это инструкции для поисковых роботов, указывающие, какие разделы сайта можно сканировать. Добавляя правила в файл robots.txt, учитывайте следующее:
- Файл robots.txt состоит из одной или более групп.
-
Каждая группа может включать несколько правил, по одному на строку. Эти правила также называются директивами или инструкциями. Каждая группа начинается со строки
User-agent
, определяющей, какому роботу адресованы правила в ней. - Группа содержит следующую информацию:
- К какому агенту пользователя относятся директивы группы.
- К каким каталогам или файлам у этого агента есть доступ.
- К каким каталогам или файлам у этого агента нет доступа.
- Поисковые роботы обрабатывают группы по порядку сверху вниз. Агент пользователя может следовать только одному, наиболее подходящему для него набору правил, который будет обработан первым.
- По умолчанию агенту пользователя разрешено сканировать любые страницы и каталоги, доступ к которым не заблокирован правилом
disallow
. -
Правила должны указываться с учетом регистра. К примеру, правило
disallow: /file.asp
распространяется на URLhttps://www.example.com/file.asp
, но не наhttps://www.example.com/FILE.asp
. - Символ
#
означает начало комментария.
Директивы в файлах robots.txt, поддерживаемые роботами Google
-
user-agent:
(обязательная директива, может повторяться в пределах группы). Определяет, к какому именно автоматическому клиенту (поисковому роботу) относятся правила в группе. С такой строки начинается каждая группа правил. Названия агентов пользователя Google перечислены в этом списке. Используйте знак*
, чтобы заблокировать доступ всем поисковым роботам (кроме роботов AdsBot, которых нужно указывать отдельно). Примеры:# Example 1: Block only Googlebot User-agent: Googlebot Disallow: / # Example 2: Block Googlebot and Adsbot User-agent: Googlebot User-agent: AdsBot-Google Disallow: / # Example 3: Block all crawlers except AdsBot (AdsBot crawlers must be named explicitly) User-agent: * Disallow: /
-
disallow:
(каждое правило должно содержать не менее одной директивыallow
илиdisallow
). Указывает на каталог или страницу относительно корневого домена, которые нельзя сканировать агенту пользователя. Если правило касается страницы, должен быть указан полный путь к ней, как в адресной строке браузера. В начале строки должен быть символ/
. Если правило касается каталога, строка должна заканчиваться символом/
. -
allow:
(каждое правило должно содержать не менее одной директивыdisallow
илиallow
). Указывает на каталог или страницу относительно корневого домена, которые разрешено сканировать агенту пользователя. Используется для того, чтобы переопределить директивуdisallow
и разрешить сканирование подкаталога или страницы в закрытом для обработки каталоге. Если правило касается страницы, должен быть указан полный путь к ней, как в адресной строке браузера. Если правило касается каталога, строка должна заканчиваться символом/
. -
sitemap:
(необязательная директива, которая может повторяться несколько раз или не использоваться совсем). Указывает на расположение файла Sitemap, используемого на сайте. URL файла Sitemap должен быть полным. Google не перебирает варианты URL с префиксами http и https или с элементом www и без него. Из файлов Sitemap роботы Google получают информацию о том, какой контент нужно сканировать и как отличить его от материалов, которые можно или нельзя обрабатывать. Подробнее… Примеры:Sitemap: https://example.com/sitemap.xml Sitemap: http://www.example.com/sitemap.xml
Все директивы, кроме sitemap
, поддерживают подстановочный знак *
для обозначения префикса или суффикса пути, а также всего пути.
Строки, не соответствующие ни одной из этих директив, игнорируются.
Ознакомьтесь со спецификацией Google для файлов robots.txt, где подробно описаны все директивы.
Как загрузить файл robots.txt
Сохраненный на компьютере файл robots.txt необходимо загрузить на сайт и сделать доступным для поисковых роботов. Специального инструмента для этого не существует, поскольку способ загрузки зависит от вашего сайта и серверной архитектуры. Обратитесь к своему хостинг-провайдеру или попробуйте самостоятельно найти его документацию (пример запроса: "загрузка файлов infomaniak").
После загрузки файла robots.txt проверьте, доступен ли он для роботов и может ли Google обработать его.
Как протестировать разметку файла robots.txt
Чтобы убедиться, что загруженный файл robots.txt общедоступен, откройте в браузере окно в режиме инкогнито (или аналогичном) и перейдите по адресу файла. Пример: https://example.com/robots.txt
. Если вы видите содержимое файла robots.txt, то можно переходить к тестированию разметки.
Для этой цели Google предлагает два средства:
- Инструмент проверки файла robots.txt в Search Console. Этот инструмент можно использовать только для файлов robots.txt, которые уже доступны на вашем сайте.
- Если вы разработчик, мы рекомендуем воспользоваться библиотекой с открытым исходным кодом, которая также применяется в Google Поиске. С помощью этого инструмента файлы robots.txt можно локально тестировать прямо на компьютере.
Как отправить файл robots.txt в Google
Когда вы загрузите и протестируете файл robots.txt, поисковые роботы Google автоматически найдут его и начнут применять. С вашей стороны никаких действий не требуется. Если вы внесли в файл robots.txt изменения и хотите как можно скорее обновить кешированную копию, следуйте инструкциям в этой статье.
Полезные правила
Вот несколько часто используемых в файлах robots.txt правил.
Полезные правила | |
---|---|
Это правило запрещает сканировать весь сайт. |
Следует учесть, что в некоторых случаях URL сайта могут индексироваться, даже если они не были просканированы. User-agent: * Disallow: / |
Это правило запрещает сканировать каталог со всем его содержимым. |
Чтобы запретить сканирование целого каталога, поставьте косую черту после его названия. User-agent: * Disallow: /calendar/ Disallow: /junk/ Disallow: /books/fiction/contemporary/ |
Это правило позволяет сканировать сайт только одному поисковому роботу. |
Сканировать весь сайт может только робот User-agent: Googlebot-news Allow: / User-agent: * Disallow: / |
Это правило разрешает сканирование всем поисковым роботам за исключением одного. |
Робот User-agent: Unnecessarybot Disallow: / User-agent: * Allow: / |
Это правило запрещает сканирование отдельной страницы. |
Например, можно запретить сканирование страниц User-agent: * Disallow: /useless_file.html Disallow: /junk/other_useless_file.html |
Это правило скрывает определенное изображение от робота Google Картинок. |
Например, вы можете запретить сканировать изображение User-agent: Googlebot-Image Disallow: /images/dogs.jpg |
Это правило скрывает все изображения на сайте от робота Google Картинок. |
Google не сможет индексировать изображения и видео, которые недоступны для сканирования. User-agent: Googlebot-Image Disallow: / |
Это правило запрещает сканировать все файлы определенного типа. |
Например, вы можете запретить роботам доступ ко всем файлам User-agent: Googlebot Disallow: /*.gif$ |
Это правило запрещает сканировать весь сайт, но при этом он может обрабатываться роботом |
Робот User-agent: * Disallow: / User-agent: Mediapartners-Google Allow: / |
Воспользуйтесь подстановочными знаками * и $ , чтобы сопоставлять URL, которые заканчиваются определенной строкой.
|
Например, вы можете исключить все файлы User-agent: Googlebot Disallow: /*.xls$ |