Общие сведения о файлах robots.txt

В файле robots.txt содержатся инструкции, которые говорят поисковым роботам, какие URL на вашем сайте им разрешено обрабатывать. С его помощью можно ограничить количество запросов на сканирование и тем самым снизить нагрузку на сайт. Файл robots.txt не предназначен для того, чтобы запрещать показ ваших материалов в результатах поиска Google. Если вы не хотите, чтобы какие-либо страницы с вашего сайта были представлены в Google, добавьте на них директиву noindex или сделайте их доступными только после входа в аккаунт.

Для чего служит файл robots.txt

Файл robots.txt используется прежде всего для управления трафиком поисковых роботов на вашем сайте. Как правило, с помощью этого файла также можно исключить контент из результатов поиска Google (это зависит от типа контента). Более подробные сведения приведены ниже.

Как директивы из файла robots.txt обрабатываются при сканировании файлов разного типа
Веб-страница

Файл robots.txt позволяет управлять сканированием веб-страниц в форматах, которые робот Googlebot может обработать (он поддерживает, например, HTML или PDF, но не мультимедийные файлы). С его помощью вы можете уменьшить количество запросов, которые Google отправляет вашему серверу, или запретить сканировать разделы сайта, в которых содержится неважная или повторяющаяся информация.

Если файл robots.txt запрещает роботу Googlebot обрабатывать веб-страницу, она все равно может показываться в результатах поиска, но без описания. Это относится только к контенту в формате HTML. Заблокированные материалы другого формата, например файлы PDF, изображения или видео, не будут представлены в Google. Если результат поиска со ссылкой на вашу страницу не содержит описания, удалите в файле robots.txt запись, которая препятствует обработке контента. Чтобы полностью исключить страницу из Google Поиска, следует использовать другие методы.

Медиафайл

Файл robots.txt может использоваться как для управления трафиком поисковых роботов, так и для блокировки показа изображений, видеороликов и аудиофайлов в результатах поиска Google. Такая блокировка не помешает другим владельцам сайтов и пользователям размещать ссылки на ваш медиаконтент. Советуем ознакомиться со следующими статьями:

Ресурсный файл При помощи файла robots.txt вы можете запретить сканирование таких ресурсов, как второстепенные изображения, скрипты и файлы стилей, если считаете, что они лишь в незначительной степени влияют на оформление страниц. Однако не следует блокировать доступ к ним, если это может затруднить поисковому роботу интерпретацию контента. В противном случае страницы могут быть проанализированы неправильно.

Каковы ограничения при использовании файла robots.txt

Прежде чем создавать или изменять файл robots.txt, проанализируйте риски, связанные с этим методом. Иногда для запрета индексирования URL лучше выбирать другие средства.

  • Директивы robots.txt поддерживаются не всеми поисковыми системами
    Правила в файлах robots.txt не имеют обязывающей силы. Googlebot и большинство других поисковых роботов следуют этим инструкциям, однако некоторые системы могут игнорировать их. Чтобы надежно скрыть информацию от поисковых роботов, воспользуйтесь другими способами. Например, вы можете защитить конфиденциальные файлы на сервере паролем.
  • Разные поисковые роботы интерпретируют синтаксис файлов robots.txt по-разному
    Хотя роботы основных поисковых систем следуют директивам в файле robots.txt, каждый из них может интерпретировать их по-своему. Поэтому ознакомьтесь с синтаксисом для других систем.
  • Если доступ к странице запрещен в файле robots.txt, она все равно может быть проиндексирована при наличии ссылок с других сайтов
    Google не будет напрямую сканировать и индексировать контент, который заблокирован в файле robots.txt. Однако если на такой URL ссылаются другие сайты, то он все равно может быть найден и добавлен в индекс. Такой URL может появиться в результатах поиска, а иногда вместе с ним может показываться и текст ссылки, которая к нему ведет. Если вас это не устраивает, рекомендуем защитить файлы на сервере паролем или использовать директиву noindex в метатеге или HTTP-заголовке ответа. Альтернативное решение – полностью удалить страницу.

Как создать файл robots.txt

Инструкции по созданию файла robots.txt вы можете найти здесь.