Часто задаваемые вопросы о том, как управлять поведением роботов

Общие вопросы

Обязательно ли использовать на сайте файл robots.txt?

Нет. Когда робот Googlebot посещает сайт, сначала он пытается найти файл robots.txt. Однако отсутствие файла robots.txt, метатегов robots или HTTP-заголовков X-Robots-Tag обычно не мешает роботу сканировать и индексировать сайт.

Как лучше всего запрещать роботам сканировать страницы?

Разные методы блокировки подходят для разных ситуаций:

  • Файл robots.txt рекомендуется использовать, если при сканировании контента возникают проблемы в работе вашего сервера. Например, можно запретить сканирование скриптов, которые обеспечивают работу вечного календаря. Не используйте файл robots.txt для защиты конфиденциального контента (это рекомендуется делать с помощью аутентификации на сервере), а также для нормализации. Чтобы запретить индексирование той или иной страницы, используйте метатег robots или HTTP-заголовок X-Robots-Tag.
  • Метатег robots позволяет указать, как Google Поиску следует показывать HTML-страницу (или полностью запретить ему делать это).
  • HTTP-заголовок X-Robots-Tag можно использовать с любыми типами файлов. Он позволяет указать, как Google Поиску следует показывать контент (или полностью запретить ему делать это).

Можно ли использовать файл robots.txt, метатег robots или HTTP-заголовок X-Robots-Tag для удаления чужих сайтов из результатов поиска?

Нет. Эти методы подходят только для сайтов, на которых вы можете изменять код или добавлять файлы. Подробнее о том, как удалять информацию из Google

Как уменьшить скорость сканирования моего сайта поисковыми роботами Google?

Настроить частоту сканирования можно в аккаунте Google Search Console.

Вопросы о файле robots.txt

Я использую один файл robots.txt для нескольких сайтов. Можно ли указывать полные URL, а не относительные?

Нет. В директивах файла robots.txt (за исключением sitemap:) должны быть только относительные пути.

Можно ли разместить файл robots.txt в подкаталоге?

Нет. Этот файл должен быть размещен в корневом каталоге сайта.

Я хочу заблокировать доступ к личной папке. Можно ли сделать файл robots.txt недоступным для других пользователей?

Нет. Файл robots.txt доступен всем. Если вы не хотите, чтобы названия папок или файлов с контентом стали известны другим людям, не указывайте эти названия в файле robots.txt. Не рекомендуется передавать разные файлы robots.txt в зависимости от агента пользователя или других атрибутов.

Нужно ли указывать директиву allow, чтобы разрешить сканирование?

Нет. Сканирование будет выполняться и без директивы allow. По умолчанию все URL разрешены. Указывать allow имеет смысл только для того, чтобы переопределить директиву disallow, которая задана в том же файле robots.txt.

Что произойдет, если в файле robots.txt будет ошибка или неподдерживаемая директива?

Обычно у поисковых роботов достаточно гибкие алгоритмы и незначительные ошибки в файле robots.txt никак не сказываются на их работе. В худшем случае неправильная или неподдерживаемая директива будет просто проигнорирована. Googlebot не может угадать, что имел в виду разработчик сайта, и выполняет именно те команды, которые указаны в файле robots.txt. Поэтому, если вы знаете о каких-то ошибках, их лучше исправить.

В какой программе нужно создавать файл robots.txt?

Используйте любую программу, позволяющую создавать текстовые файлы, например Блокнот, TextEdit, vi или Emacs. Советуем сначала прочитать эту статью. Создав файл, проверьте его с помощью этого инструмента.

Если я с помощью директивы disallow файла robots.txt заблокирую роботу Googlebot доступ к странице, исчезнет ли она из результатов поиска?

Если заблокировать роботу Googlebot доступ к странице, она может быть удалена из индекса Google.

Однако даже при наличии директивы disallow в файле robots.txt система Google может показать страницу в качестве подходящего результата поиска (например, если на нее ссылаются другие сайты). Если вы хотите явным образом запретить индексирование страницы, используйте метатег robots с директивой noindex или HTTP-заголовок X-Robots-Tag. В этом случае не следует блокировать доступ к странице в файле robots.txt, поскольку робот Googlebot должен просканировать ее, чтобы обнаружить тег и выполнить директиву. Подробнее о том, как указать, какая информация должна быть доступна Google

Через какое время изменения в файле robots.txt отразятся на результатах поиска?

Прежде всего должна обновиться копия файла robots.txt в кеше (обычно Google кеширует контент не более чем на один день). Чтобы ускорить этот процесс, отправьте в Google обновленный файл robots.txt. Однако процесс сканирования и индексирования устроен достаточно сложно, и для некоторых URL обновление информации может занимать продолжительное время даже после обнаружения изменений. Поэтому мы не можем точно сказать, когда изменения отразятся на результатах поиска. Следует также иметь в виду, что URL может появляться в результатах поиска, даже если доступ к нему заблокирован в файле robots.txt и Google не может его просканировать. Если вы хотите, чтобы заблокированные страницы быстрее исчезли из результатов поиска Google, отправьте запрос на их удаление.

Как полностью приостановить сканирование моего сайта на некоторое время?

Чтобы временно остановить сканирование всех URL, возвращайте при обращении к ним (в том числе к файлу robots.txt) код ответа HTTP 503 (service unavailable). Робот Googlebot будет периодически пытаться прочитать файл robots.txt, пока он не станет вновь доступен. Не рекомендуется запрещать сканирование с помощью изменений в файле robots.txt.

Мой сервер не учитывает регистр. Как полностью запретить сканирование некоторых папок?

Директивы в файле robots.txt указываются с учетом регистра. В таком случае рекомендуется с помощью методов нормализации обеспечить индексирование только одной версии URL. Количество строк в файле robots.txt уменьшится, и вам будет проще его использовать. Если этот способ не подходит, попробуйте перечислить основные варианты написания имени папки или максимально сократить его, оставив только несколько начальных символов вместо полного имени. Например, вам не нужно перечислять все возможные сочетания строчных и прописных букв для папки /MyPrivateFolder. Вместо этого можно просто указать варианты для /MyP (если вы уверены, что других URL для сканирования с такими же начальными символами не существует). Если проблема заключается не в сканировании, можно указать метатег robots или HTTP-заголовок X-Robots-Tag.

Я возвращаю код ответа 403 Forbidden для всех URL на моем сайте, в том числе для URL файла robots.txt. Почему мой сайт по-прежнему сканируется?

Код статуса HTTP 403 Forbidden, как и остальные коды 4xx, означает, что файла robots.txt не существует. Для поисковых роботов это свидетельствует о том, что сканирование всех URL на сайте разрешено. Чтобы запретить роботам сканирование сайта, необходимо открыть им доступ к файлу robots.txt с кодом ответа HTTP 200 OK и задать в этом файле правило disallow.

Вопросы о метатеге robots

Является ли метатег robots заменой файлу robots.txt?

Нет. Файл robots.txt управляет доступностью страниц, в то время как метатег robots указывает, нужно ли индексировать страницу. И чтобы обнаружить этот тег, робот должен ее просканировать. Если нужно запретить сканирование страницы (например, когда она создает высокую нагрузку на сервер), используйте файл robots.txt. Если же просто требуется указать, должна ли страница появляться в результатах поиска, можно воспользоваться метатегом robots.

Можно ли с помощью метатега robots запретить индексирование только части страницы?

Нет, метатег robots применяется ко всей странице.

Можно ли использовать метатег robots за пределами раздела <head>?

Нет. Метатег robots можно добавлять только в раздел <head> на странице.

Можно ли с помощью метатега robots запретить сканирование?

Нет. Даже если в метатеге robots указана директива noindex, роботы будут периодически сканировать URL, чтобы проверить, не был ли этот атрибут изменен.

Чем директива nofollow в метатеге robots отличается от атрибута rel="nofollow" в теге link?

Директива nofollow в метатеге robots запрещает переходить по всем ссылкам на странице. Атрибут rel="nofollow" тега link относится только к той ссылке, в которой он указан. Дополнительная информация об атрибуте rel="nofollow" в теге link представлена в статьях, посвященных спаму в комментариях и атрибуту rel="nofollow".

Вопросы об HTTP-заголовке X-Robots-Tag

Как проверить наличие заголовка X-Robots-Tag для URL?

Заголовки ответа сервера проще всего анализировать с помощью инструмента проверки URL в Google Search Console. Чтобы проверить заголовки ответа для любого URL, попробуйте выполнить поиск по запросу server header checker.

Не удалось найти ответ?

Если вы не нашли ответ на свой вопрос на этой странице, воспользуйтесь справочными ресурсами Google для владельцев сайтов.

Кроме того, вам доступны справочные форумы Google Search Central на следующих языках: EnglishDeutschEspañolFrançaisItalianoNederlandsPolskiPortuguêsTürkçeРусскийالعربية中文(简体)日本語한국어