Общие сведения о файлах robots.txt

Что такое файл robots.txt?

Файл robots.txt предоставляет поисковым роботам информацию о том, какие страницы и файлы на вашем сайте можно обрабатывать, а какие нельзя. В первую очередь это инструмент, который позволяет сократить количество запросов к сайту и тем самым снизить нагрузку на него. Файл robots.txt не предназначен для того, чтобы запрещать показ веб-страниц в результатах поиска Google. Если вы не хотите, чтобы определенные материалы с вашего сайта были представлены в Google, используйте директивы noindex. Также вы можете создать на сайте разделы, защищенные паролем.

Для чего служит файл robots.txt

Файл robots.txt используется прежде всего для управления трафиком поисковых роботов на вашем сайте. Как правило, с помощью этого файла также можно исключить контент из результатов поиска Google (такая возможность зависит от типа страницы). Более подробные сведения приведены ниже.

Тип страницы Управление трафиком Блокировка в результатах поиска Google Описание
Веб-страница

Файл robots.txt подходит для управления сканированием веб-страниц в форматах, которые не относятся к медийным и которые робот Googlebot может обработать (например, HTML или PDF). Эта функция позволяет уменьшить количество запросов, которые Google отправляет вашему серверу, и предотвратить сканирование несущественных или похожих разделов на вашем сайте.

Файл robots.txt не предназначен для блокировки показа веб-страниц в результатах поиска Google. Если на определенную страницу ведут ссылки с информативным текстом, размещенные на других сайтах, то робот Googlebot может добавить ее в индекс, даже не открывая. Чтобы исключить страницу из результатов поиска, следует использовать другой метод, например заблокировать доступ к ней с помощью пароля или директивы noindex.

Если файл robots.txt запрещает роботу Googlebot обрабатывать веб-страницу, она все равно может показываться в результатах поиска, но без описания, как на скриншоте в этой статье. Это относится только к контенту в формате HTML. Заблокированные материалы другого формата, например файлы PDF, изображения или видео, не будут представлены в Google. Если результат поиска со ссылкой на вашу страницу не содержит описания, удалите в файле robots.txt запись, которая препятствует обработке контента. Чтобы полностью исключить страницу из Google Поиска, следует использовать другие методы.

Медиафайл

Файл robots.txt может использоваться как для управления трафиком поисковых роботов, так и для блокировки показа изображений, видеороликов и аудиофайлов в результатах поиска Google. Обратите внимание, что такая блокировка не помешает другим владельцам сайтов и пользователям размещать ссылки на ваш медиаконтент.

Файл ресурсов При помощи файла robots.txt вы можете запретить сканирование таких ресурсов, как второстепенные изображения, скрипты и файлы стилей, если считаете, что они лишь в незначительной степени влияют на оформление страниц. Однако не следует блокировать доступ к ним, если это может затруднить поисковому роботу интерпретацию контента. В противном случае у Google возникнут проблемы с анализом страниц.

Как использовать файл robots.txt при работе с сервисом управления хостингом сайта?

Если вы применяете сервис управления хостингом сайта, например Wix, Drupal или Blogger, вероятно, вам не понадобится редактировать файл robots.txt напрямую или у вас даже не будет такой возможности. Ваш провайдер может указывать поисковым системам, нужно ли сканировать ваш контент, с помощью страницы настроек поиска или какого-нибудь другого инструмента.

Чтобы узнать, просканирована ли ваша страница роботом Googlebot, введите запрос с ее URL в строке поиска Google.

Если вы хотите запретить или разрешить поисковым системам обработку вашей страницы, реализуйте на ней вход с использованием учетных данных или откажитесь от использования этой функции. Затем попробуйте найти в сервисе управления хостингом сайта информацию о том, как контролировать видимость представленного на сайте контента в поисковых системах. Пример запроса: wix как скрыть страницу от поисковых систем.

Каковы ограничения при использовании файла robots.txt

Прежде чем создавать или изменять файл robots.txt, примите во внимание риски, связанные с этим методом. Иногда для запрета индексирования URL лучше выбирать другие средства.

  • Директивы robots.txt поддерживаются не всеми поисковыми системами
    Правила в файлах robots.txt не имеют обязывающей силы. Googlebot и большинство других поисковых роботов следуют этим инструкциям, однако некоторые системы могут игнорировать их. Чтобы надежно скрыть информацию от поисковых роботов, воспользуйтесь другими способами. Например, вы можете защитить конфиденциальные файлы на сервере паролем.
  • Разные поисковые роботы интерпретируют синтаксис файлов robots.txt по-разному
    Хотя роботы основных поисковых систем следуют директивам в файле robots.txt, каждый из них может интерпретировать эти директивы по-своему. Поэтому ознакомьтесь с синтаксисом для других систем.
  • Если доступ к странице запрещен в файле robots.txt, она все равно может быть проиндексирована при наличии ссылок с других сайтов
    Google не будет напрямую сканировать и индексировать контент, указанный в файле robots.txt, однако URL с закрытым доступом может быть найден и добавлен в индекс из-за ссылок на других сайтах. Таким образом, URL, а также другие общедоступные сведения, например текст ссылок на страницу, могут появиться в результатах поиска Google. Если вас это не устраивает, рекомендуем защитить файлы на сервере паролем или использовать директиву noindex в метатеге или HTTP-заголовке ответа. Альтернативное решение – полностью удалить страницу.

Как проверить, обеспечивает ли ваш файл robots.txt блокировку страниц

Используйте разработанный специалистами Google инструмент проверки файла robots.txt.

Чтобы узнать, корректно ли функционируют директивы noindex, используйте инструмент проверки URL.