Часто задаваемые вопросы о том, как управлять поведением роботов

Общие вопросы

Обязательно ли использовать на сайте файл robots.txt?

Нет. Когда робот Googlebot посещает сайт, сначала он пытается найти файл robots.txt. Сканирование и индексирование сайтов, не содержащих файл robots.txt file, тег meta с атрибутом robots или HTTP-заголовок X-Robots-Tag, обычно проходит по стандартной схеме.

Как лучше всего запрещать роботам сканировать страницы?

Разные методы блокировки можно использовать в зависимости от конкретной ситуации:

  • Файл robots.txt рекомендуется использовать, если при сканировании контента возникают проблемы в работе вашего сервера. Например, можно запретить сканирование скриптов, которые обеспечивают работу вечного календаря. Не используйте файл robots.txt для защиты конфиденциального контента (это рекомендуется делать с помощью аутентификации на сервере), а также для нормализации. Чтобы запретить индексирование той или иной страницы, используйте тег meta с атрибутом robots или HTTP-заголовок X-Robots-Tag.
  • Тег meta с атрибутом robots позволяет указать, как Google Поиску следует показывать HTML-страницу (или полностью запретить ему делать это).
  • HTTP-заголовок X-Robots-Tag можно использовать с любыми типами файлов. Он позволяет указать, как Google Поиску следует показывать контент (или полностью запретить ему делать это).

Можно ли использовать файл robots.txt, тег meta с атрибутом robots или HTTP-заголовок X-Robots-Tag для удаления чужих сайтов из результатов поиска?

Нет. Эти методы подходят только для сайтов, на которых вы можете изменять код или добавлять файлы. Подробнее о том, как удалять информацию из Google

Как уменьшить скорость сканирования моего сайта поисковыми роботами Google?

Настроить частоту сканирования можно в аккаунте Google Search Console.

Вопросы о файле robots.txt

Я использую один файл robots.txt для нескольких сайтов. Можно ли указывать полные URL, а не относительные?

Нет. В правилах файла robots.txt (за исключением sitemap:) должны быть только относительные пути.

Можно ли разместить файл robots.txt в подкаталоге?

Нет. Этот файл должен быть размещен в корневом каталоге сайта.

Я хочу заблокировать доступ к личной папке. Можно ли сделать файл robots.txt недоступным для других пользователей?

Нет. Файл robots.txt доступен всем. Если вы не хотите, чтобы названия папок или файлов с контентом стали известны другим людям, не указывайте эти названия в файле robots.txt. Не рекомендуется передавать разные файлы robots.txt в зависимости от агента пользователя или других атрибутов.

Нужно ли указывать правило allow, чтобы разрешить сканирование?

Нет. Сканирование будет выполняться и без правила allow. По умолчанию все URL разрешены. Указывать правило allow имеет смысл только для того, чтобы переопределить правило disallow, которое задано в том же файле robots.txt.

Что произойдет, если в файле robots.txt будет ошибка или неподдерживаемое правило?

Обычно у поисковых роботов достаточно гибкие алгоритмы и незначительные ошибки в файле robots.txt никак не сказываются на их работе. В худшем случае неправильное или неподдерживаемое правило будет просто проигнорировано. Googlebot не может угадать, что имел в виду разработчик сайта, и выполняет именно те команды, которые указаны в файле robots.txt. Поэтому, если вы знаете о каких-то ошибках, их лучше исправить.

В какой программе нужно создавать файл robots.txt?

Используйте любую программу, позволяющую создавать текстовые файлы, например Блокнот, TextEdit, vi или Emacs. Советуем сначала прочитать эту статью. Создав файл, проверьте его с помощью этого инструмента.

Если я с помощью правила disallow файла robots.txt заблокирую роботу Googlebot доступ к странице, исчезнет ли она из результатов поиска?

Если заблокировать роботу Googlebot доступ к странице, она может быть удалена из индекса Google.

Однако даже при наличии директивы disallow в файле robots.txt система Google может показать страницу в качестве подходящего результата поиска (например, если на нее ссылаются другие сайты). Если вы хотите явным образом запретить индексирование страницы, используйте тег noindex meta с атрибутом robots или HTTP-заголовок X-Robots-Tag. В этом случае не следует блокировать доступ к странице в файле robots.txt, поскольку робот Googlebot должен просканировать ее, чтобы обнаружить тег и выполнить директиву. Подробнее о том, как указать, какая информация должна быть доступна Google

Через какое время изменения в файле robots.txt отразятся на результатах поиска?

Прежде всего должна обновиться копия файла robots.txt в кеше (обычно Google кеширует контент не более чем на один день). Чтобы ускорить этот процесс, отправьте в Google обновленный файл robots.txt. Однако процесс сканирования и индексирования устроен достаточно сложно, и для некоторых URL обновление информации может занимать продолжительное время даже после обнаружения изменений. Поэтому мы не можем точно сказать, когда изменения отразятся на результатах поиска. Следует также иметь в виду, что URL может появляться в результатах поиска, даже если доступ к нему заблокирован в файле robots.txt и Google не может его просканировать. Если вы хотите, чтобы заблокированные страницы быстрее исчезли из результатов поиска Google, отправьте запрос на их удаление.

Как полностью приостановить сканирование моего сайта на некоторое время?

Чтобы временно остановить сканирование всех URL, возвращайте при обращении к ним (в том числе к файлу robots.txt) код ответа HTTP 503 (service unavailable). Робот Googlebot будет периодически пытаться прочитать файл robots.txt, пока он не станет вновь доступен. Не рекомендуется запрещать сканирование с помощью изменений в файле robots.txt.

Мой сервер не учитывает регистр. Как полностью запретить сканирование некоторых папок?

Правила в файле robots.txt указываются с учетом регистра. В таком случае рекомендуется с помощью методов нормализации обеспечить индексирование только одной версии URL. Количество строк в файле robots.txt уменьшится, и вам будет проще его использовать. Если этот способ не подходит, попробуйте перечислить основные варианты написания имени папки или максимально сократить его, оставив только несколько начальных символов вместо полного имени. Например, вам не нужно перечислять все возможные сочетания строчных и прописных букв для папки /MyPrivateFolder. Вместо этого можно просто указать варианты для /MyP (если вы уверены, что других URL для сканирования с такими же начальными символами не существует). Если проблема заключается не в сканировании, можно указать тег meta с атрибутом robots или HTTP-заголовок X-Robots-Tag.

Я возвращаю код ответа 403 Forbidden для всех URL на моем сайте, в том числе для URL файла robots.txt. Почему мой сайт по-прежнему сканируется?

Код статуса HTTP 403 Forbidden, как и остальные коды 4xx, означает, что файла robots.txt не существует. Для поисковых роботов это свидетельствует о том, что сканирование всех URL на сайте разрешено. Чтобы запретить роботам сканирование сайта, необходимо открыть им доступ к файлу robots.txt с кодом ответа HTTP 200 OK и задать в этом файле правило disallow.

Вопросы о теге meta с атрибутом robots

Является ли тег meta с атрибутом robots заменой файлу robots.txt?

Нет. Файл robots.txt управляет доступностью страниц, а тег meta с атрибутом robots определяет, индексируется ли страница. Для того чтобы увидеть этот тег, поисковому роботу необходимо просканировать страницу. Если нужно запретить сканирование страницы (например, в случае, когда она создает высокую нагрузку на сервер), используйте файл robots.txt. Если же просто требуется указать, должна ли страница появляться в результатах поиска, можно воспользоваться тегом meta с атрибутом robots.

Можно ли с помощью тега meta с атрибутом robots запретить индексирование отдельного фрагмента страницы?

Нет, тег meta с атрибутом robots применяется ко всей странице.

Можно ли использовать тег meta с атрибутом robots за пределами раздела <head>?

Нет. Тег meta с атрибутом robots можно добавлять только в раздел <head> на странице.

Я использую тег meta с атрибутом robots. Означает ли это, что сканирование страницы не будет выполняться?

Нет. Даже если в теге meta с атрибутом robots указана директива noindex, роботы будут периодически сканировать URL, чтобы проверить, не была ли страница meta изменена.

Чем директива nofollow в теге meta с атрибутом robots отличается от атрибута rel="nofollow" в теге link?

Действие директивы nofollow тега meta с атрибутом robots распространяется на все ссылки на странице. Атрибут rel="nofollow" тега link относится только к той ссылке, в которой он указан. Дополнительная информация об атрибуте rel="nofollow" в теге link представлена в статьях, посвященных спаму в комментариях и атрибуту rel="nofollow".

Вопросы об HTTP-заголовке X-Robots-Tag

Как проверить наличие заголовка X-Robots-Tag для URL?

Заголовки ответа сервера проще всего анализировать с помощью инструмента проверки URL в Google Search Console. Чтобы проверить заголовки ответа для любого URL, попробуйте выполнить поиск по запросу server header checker.