Общие сведения о файлах robots.txt

Что такое файл robots.txt?

Файл robots.txt предоставляет поисковым роботам информацию о том, какие страницы и файлы на вашем сайте можно обрабатывать, а какие нельзя. В первую очередь это инструмент, который позволяет сократить количество запросов к сайту и тем самым снизить нагрузку на него. Файл robots.txt не предназначен для того, чтобы запрещать показ веб-страниц в результатах поиска Google. Если вы не хотите, чтобы определенные материалы с вашего сайта были представлены в Google, используйте директивы noindex. Также вы можете создать на сайте разделы, защищенные паролем.

Для чего нужен файл robots.txt?

Файл robots.txt используется прежде всего для управления трафиком поисковых роботов на вашем сайте. Как правило, с помощью этого файла также можно исключить контент из результатов поиска Google (такая возможность зависит от типа контента). Более подробные сведения приведены ниже.

Тип контента Управление трафиком Блокировка в результатах поиска Google Описание
Веб-страница

Файл robots.txt может использоваться для управления сканированием веб-страниц в форматах, которые не относятся к медийным и которые робот Googlebot может обработать (например, HTML или PDF). Эта функция позволяет уменьшить количество запросов, которые Google отправляет вашему серверу, и предотвратить сканирование маловажных или похожих разделов на вашем сайте.

Файл robots.txt не предназначен для блокировки показа веб-страниц в результатах поиска Google. Если на определенную страницу ведут ссылки с информативным текстом, размещенные на других сайтах, то робот Googlebot может добавить ее в индекс, даже не открывая. Чтобы исключить страницу из результатов поиска, следует использовать другой метод, например заблокировать доступ к ней с помощью пароля или директивы noindex.

Если файл robots.txt запрещает роботу Googlebot обрабатывать веб-страницу, она все равно может показываться в результатах поиска, но без описания, как на скриншоте в этой статье. Это относится только к контенту в формате HTML. Заблокированные материалы другого формата, например файлы PDF, изображения или видео, не будут представлены в Google. Если результат поиска со ссылкой на вашу страницу не содержит описания, удалите в файле robots.txt запись, которая препятствует обработке контента. Чтобы полностью исключить страницу из Google Поиска, следует использовать другие методы.

Медиафайл

Файл robots.txt может использоваться как для управления трафиком поисковых роботов, так и для блокировки показа изображений, видео и аудиофайлов в результатах поиска Google. Обратите внимание, что такая блокировка не помешает другим владельцам сайтов и пользователям размещать ссылки на ваш медиаконтент.

Файл ресурсов При помощи файла robots.txt вы можете запретить сканирование таких ресурсов, как маловажные изображения, скрипты и файлы стилей, если считаете, что они лишь незначительно влияют на вид страниц. Однако не следует блокировать доступ к ресурсам, если это может затруднить поисковому роботу интерпретацию контента. В противном случае анализ страниц в Google будет неэффективным.

Как использовать файл robots.txt при работе с сервисом управления хостингом сайта?

Если вы применяете сервис управления хостингом сайта, например Wix, Drupal или Blogger, вероятно, вам не понадобится редактировать файл robots.txt напрямую или у вас даже не будет такой возможности. Ваш провайдер может указывать поисковым системам, нужно ли сканировать ваш контент, с помощью страницы настроек поиска или какого-нибудь другого инструмента.

Чтобы узнать, просканирована ли ваша страница роботом Googlebot, введите запрос с ее URL в строке поиска Google.

Если вы хотите запретить или разрешить поисковым системам обработку вашей страницы, реализуйте на ней вход с использованием учетных данных или откажитесь от использования этой функции. Затем попробуйте найти в сервисе управления хостингом сайта информацию о том, как контролировать видимость представленного на сайте контента в поисковых системах. Пример запроса: wix как скрыть страницу от поисковых систем.

Ограничения при использовании файла robots.txt

Прежде чем создавать или изменять файл robots.txt, примите во внимание риски, связанные с этим методом. Иногда для запрета индексирования URL лучше выбирать другие средства.

  • Директивы robots.txt поддерживаются не всеми поисковыми системами
    Правила в файлах robots.txt не имеют обязывающей силы. Googlebot и большинство других поисковых роботов следуют инструкциям, указанным в файле robots.txt, однако некоторые системы могут игнорировать их. Чтобы надежно скрыть информацию от поисковых роботов, воспользуйтесь другими способами. Например, вы можете защитить конфиденциальные файлы на сервере паролем.
  • Разные поисковые роботы интерпретируют синтаксис файлов robots.txt по-разному
    Хотя роботы основных поисковых систем следуют директивам в файле robots.txt, каждый из них может интерпретировать эти директивы по-своему. Советуем вам узнать, какой синтаксис нужно использовать в правилах для разных роботов.
  • Если доступ к странице запрещен в файле robots.txt, она все равно может быть проиндексирована при наличии ссылок с других сайтов
    Google не будет напрямую сканировать и индексировать контент, указанный в файле robots.txt, однако URL с закрытым доступом может быть найден и добавлен в индекс из-за ссылок на других сайтах. Таким образом, запреты в файле robots.txt не исключают появление URL и других общедоступных сведений, например текстов ссылок, в результатах поиска Google. Если вас это не устраивает, рекомендуем защитить файлы на сервере паролем или использовать директиву noindex в метатеге или HTTP-заголовке ответа. Альтернативное решение – полностью удалить страницу.
Обратите внимание, что при использовании нескольких правил сканирования и индексирования одни из могут отменять действие других. Подробнее о настройке этих параметров можно узнать в статье на сайте Google Developers.

Как проверить, обеспечивает ли ваш файл robots.txt блокировку страниц

Используйте разработанный специалистами Google инструмент проверки файла robots.txt.

Чтобы узнать, корректно ли функционируют директивы noindex, используйте инструмент проверки URL.