Руководство по управлению лимитом на сканирование для владельцев крупных сайтов

В этом руководстве описывается, как оптимизировать сканирование роботами Google очень больших сайтов, контент на которых часто меняется.

Если на вашем сайте мало страниц, обновляемых часто, или они обычно сканируются в течение суток после публикации, вам необязательно читать это руководство. Достаточно вовремя обновлять файлы Sitemap и проверять отчет об индексировании.

Если у вас есть контент, который давно размещен на сайте и при этом ни разу не был проиндексирован, воспользуйтесь инструментом проверки URL, чтобы выяснить причины проблемы.

Для кого это руководство

Руководство предназначено для владельцев веб-ресурсов следующих типов:

  • очень большие сайты (от 1 млн уникальных страниц) с достаточно часто (раз в неделю) меняющимся контентом;
  • средние и большие сайты (от 10 тыс. уникальных страниц) с очень часто (ежедневно) меняющимся контентом;
  • сайты, большинство URL которых в Search Console имеет статус Обнаружена, не проиндексирована.

Общая информация о сканировании

Интернет практически бесконечен, и Google не успевает находить и индексировать все существующие URL. По этой причине время, которое отводится на обработку каждого отдельного сайта, ограничено. Существует лимит на сканирование, который определяет, сколько времени и ресурсов робот Googlebot может затратить на один сайт. Учитывайте, что не все просканированные страницы сайта индексируются. Google их анализирует, объединяет и определяет, нужно ли их добавлять в индекс.

Лимит на сканирование зависит от двух основных факторов: скорости сканирования и потребности в сканировании.

Скорость сканирования

Робот Googlebot сканирует сайты так, чтобы не перегружать серверы, на которых они размещены. Для этого рассчитывается скорость сканирования, которая определяется максимальным количеством параллельных подключений робота к сайту и интервалом между подключениями. Такой подход позволяет обрабатывать весь важный контент сайта, не перегружая его серверы.

На скорость сканирования влияют следующие факторы:

  • Время ответа сайта. Если в течение определенного времени сайт отправляет ответы без задержек, скорость сканирования увеличивается, то есть робот Googlebot может использовать при обработке контента больше подключений. Если ответы от сайта поступают медленно или содержат ошибки, Googlebot сканирует меньше контента.
  • Возможности Google. У Google очень много компьютеров, однако наши возможности не безграничны. Поэтому мы вынуждены оптимально распределять свои ресурсы.

Потребность в сканировании

Обычно Google отводит на сканирование столько времени, сколько необходимо с учетом размера сайта, периодичности его обновления, востребованности контента и качества страниц.

На потребность в сканировании влияют следующие факторы:

  • Количество страниц на сайте по оценке Google. Если вы не указали иное, робот Googlebot будет пытаться просканировать все обнаруженные на вашем сайте URL. Но если многие из этих URL дублируются или не должны сканироваться по другим причинам (страница удалена, не содержит важных сведений и т. д.), то Google зря потратит время на сбор информации о них. Вы можете помочь нам в оптимизации, указав страницы, которые можно пропустить.
  • Популярность. Страницы, которые просматривает больше посетителей, сканируются и индексируются чаще.
  • Давность сканирования. Google старается сканировать URL с периодичностью, которая обеспечивает актуальность контента в результатах поиска.

Потребность в сканировании обычно возрастает после существенных изменений на сайте, например при переносе контента на новые URL.

Резюме

Google определяет лимит на сканирование сайта с учетом скорости сканирования и потребности в сканировании, составляя список URL, которые можно и нужно обработать. Если потребность в сканировании невелика, то робот Googlebot будет сканировать ваш сайт менее интенсивно даже при возможности увеличить скорость.

Рекомендации

Чтобы повысить эффективность сканирования, следуйте приведенным ниже рекомендациям.

  • Управляйте количеством страниц, подлежащих сканированию. Используйте специальные инструменты, чтобы сообщать Google, какие страницы сканировать, а какие пропустить. Если слишком много времени уйдет на сканирование маловажных URL, робот Googlebot может посчитать нецелесообразным обрабатывать остальные разделы сайта или увеличивать для этого лимит на сканирование.
    • Объедините страницы с идентичным контентом. Пусть поисковые роботы сканируют уникальные материалы, а не уникальные URL.
    • Заблокируйте сканирование URL при помощи файла robots.txt. Некоторые страницы важны для пользователей, но при этом не должны появляться в результатах поиска. Это могут быть страницы с бесконечной прокруткой, которые дублируют информацию, размещенную на других страницах, или версии одной и той же страницы с разной сортировкой. Если вы не можете объединить такие неважные для поиска страницы в соответствии с первым пунктом, заблокируйте их при помощи файла robots.txt. Это значительно снизит вероятность того, что роботы Google их проиндексируют.
    • Возвращайте код ошибки 404 или 410 для окончательно удаленных страниц. Даже если такая страница уже есть в базе данных Google, код 404 будет служить четким сигналом для поискового робота не сканировать страницу снова. В то же время заблокированные URL долго не удаляются из очереди сканирования и будут сканироваться снова, если вы их разблокируете.
    • Устраняйте ошибки soft 404. Поисковый робот сканирует страницы, возвращающие ошибку soft 404, а значит, ваш лимит на сканирование будет расходоваться нерационально. Найти страницы с ошибкой soft 404 вам поможет отчет об индексировании.
    • Вовремя обновляйте файлы Sitemap. Google регулярно проверяет эти файлы, так что добавьте в них весь контент, который нужно сканировать. Если на вашем сайте есть обновленный контент, рекомендуем использовать тег <lastmod>.
    • Избегайте длинных цепочек переадресации. Они вызывают проблемы при сканировании.
  • Оптимизируйте страницы для ускорения их загрузки. Если ваши страницы будут загружаться и отрисовываться быстрее, Google сможет просканировать больше контента на вашем сайте.
  • Проверяйте, как сканируется ваш сайт. Следите за тем, доступен ли ваш сайт во время сканирования, и старайтесь оптимизировать процесс.

Как контролировать сканирование и индексирование сайта

Ниже перечислены основные шаги, которые позволяют отслеживать параметры сканирования сайта.

  1. Выясните, есть ли у робота Googlebot проблемы с доступом к вашему сайту.
  2. Узнайте, есть ли у вас страницы, которые не сканируются, хотя должны.
  3. Проверьте, нужно ли ускорить сканирование определенных разделов сайта.
  4. Повысьте эффективность сканирования сайта.
  5. Сведите к минимуму избыточное сканирование сайта.

Выясните, есть ли у робота Googlebot проблемы с доступом к вашему сайту

Если вы улучшите доступ к страницам сайта, это необязательно приведет к повышению лимита на его сканирование. Google определяет оптимальную частоту сканирования с учетом потребности в нем, как описано выше. Тем не менее при наличии проблем с доступом робот Googlebot не сможет сканировать сайт так интенсивно, как позволяет лимит.

Диагностика

Откройте отчет "Статистика сканирования", чтобы посмотреть историю сканирования вашего сайта роботом Googlebot. Так вы узнаете, когда возникали проблемы. Если в отчете есть ошибки или предупреждения, связанные с доступностью вашего сайта, найдите, где на графиках Доступность хоста запросы робота Googlebot выходят за красную линию. Нажмите на график, чтобы узнать, какие URL были недоступны, и постарайтесь выяснить, в чем причина.

Чтобы проверить небольшое количество URL, вы можете воспользоваться инструментом проверки URL. Если инструмент возвращает предупреждение Превышена нагрузка на хост, значит, робот Googlebot не может просканировать все обнаруженные URL на вашем сайте.

Устранение неполадок

  • Вы можете узнать о том, как выявлять и устранять некоторые проблемы с доступностью сайта, из статьи об отчете "Статистика сканирования".
  • Заблокируйте сканирование страниц, которые вы не хотите показывать в результатах поиска. Подробнее…
  • Сократите время загрузки и отрисовки страниц. Подробнее…
  • Увеличьте серверные мощности. Если Google регулярно сканирует ваш сайт с максимально возможной нагрузкой, но некоторые важные URL остаются неохваченными или обновляются реже, чем нужно, увеличьте серверные мощности, чтобы поисковый робот мог параллельно запрашивать больше страниц сайта. Посмотрите историю доступности хоста в отчете "Статистика сканирования" и выясните, часто ли робот Googlebot превышает максимальную частоту сканирования. При необходимости увеличьте серверные мощности на месяц и проверьте, вырастет ли за это время количество запросов на сканирование.

Проверьте, просканирован ли ваш сайт полностью

Google отводит на сканирование вашего сайта столько времени, сколько необходимо для индексирования всего полезного и доступного пользователям контента. Если робот Googlebot пропускает важные страницы, значит, их сканирование запрещено или Google не может их обнаружить, или есть проблемы с доступностью вашего сайта, или Google старается не перегружать ваши серверы.

Диагностика

В Search Console нет данных о сканировании сайта, которые можно отфильтровать по URL или пути, но вы можете узнать, какие URL сканировал робот Googlebot, из журналов сайта. Напоминаем, что добавление просканированных URL в индекс здесь не рассматривается.

В большинстве случаев Google обнаруживает новые страницы на сайте не в день их добавления, а как минимум несколько дней спустя. Исключение составляют некоторые категории ресурсов, контент которых обновляется очень часто, например новостные сайты.

Устранение неполадок

Если добавленные на сайт страницы достаточно долго не сканируются, значит: Google не может их обнаружить; вы запретили их сканировать; достигнут предел нагрузки на ваши серверы; или исчерпан лимит на сканирование.

  1. Сообщите Google о своих новых страницах: добавьте их URL в файлы Sitemap.
  2. Проверьте, не заблокировано ли случайно сканирование этих страниц в правилах файла robots.txt.
  3. Определитесь со своими приоритетами сканирования (то есть рационально расходуйте лимит на сканирование). Оптимизируйте количество страниц, подлежащих сканированию, и повысьте эффективность сканирования сайта.
  4. Убедитесь, что у вас достаточно серверных мощностей. Робот Googlebot уменьшит нагрузку на ваши серверы, если им не будет хватать ресурсов при сканировании.

Обратите внимание, что даже просканированные страницы могут не показываться в результатах поиска, если они не представляют ценности для пользователей или их контент никому не интересен.

Проверяйте, своевременно ли сканируются обновленные страницы

Если робот Googlebot пропустил новые или обновленные страницы на вашем сайте, вероятно, он их не нашел или не обнаружил изменений в них. Ниже описывается, как вы можете сообщить нам о новом контенте.

Мы стремимся выявлять изменения на страницах и индексировать их настолько быстро, насколько это возможно. Новый контент большинства сайтов сканируется и индексируется спустя трое суток или позже. Не рассчитывайте на то, что ваши страницы будут добавляться в индекс Google уже в день публикации, если, конечно, вы не размещаете быстро меняющуюся информацию, которая представляет значительную ценность для пользователей (например, новости).

Диагностика

Узнать, когда робот Googlebot сканировал тот или иной URL, можно из журналов сайта.

Чтобы узнать дату индексирования, используйте инструмент проверки URL или выполните поиск обновленных URL в Google.

Устранение неполадок

Что рекомендуется делать

  • Если на вашем сайте публикуется новостной контент, используйте файл Sitemap для Google Новостей.
  • Чтобы сообщить нам о том, что контент по индексированному URL был изменен, используйте тег <lastmod>.
  • Не усложняйте структуру URL без необходимости. Так роботу Googlebot будет проще находить ваши страницы.
  • Чтобы упростить обнаружение своих страниц, указывайте стандартные, поддающиеся сканированию ссылки в тегах <a>.

Что не рекомендуется делать

  • Не отправляйте один и тот же файл Sitemap несколько раз в день.
  • Не рассчитывайте, что робот Googlebot просканирует все указанные в файле Sitemap страницы или начнет сканирование сразу же. Файлы Sitemap – это полезные подсказки для Google, а не обязательные для выполнения требования.
  • Не добавляйте в файлы Sitemap URL, которые не нужно показывать в результатах поиска. В противном случае ваш лимит на сканирование будет впустую расходоваться на их обработку.

Сделайте сайт более удобным для сканирования

Ускорьте загрузку сайта

Способность Google сканировать ресурсы зависит от пропускной способности, времени, а также доступности роботов Googlebot. Если сервер сайта будет отвечать на запросы быстрее, мы сможем просканировать больше страниц на нем. При этом следует учитывать, что Google стремится сканировать только полезный контент. Если ваши страницы быстро загружаются, но при этом обладают низким качеством, Googlebot не станет обрабатывать ваш сайт чаще. И наоборот, если мы выясним, что роботы Google пропускают качественный контент с вашего сайта, то можем увеличить ваш лимит на сканирование, чтобы охватить этот контент.

Вот как можно оптимизировать страницы и ресурсы с точки зрения сканирования:

  • Внесите объемные и при этом не представляющие ценности для пользователей ресурсы в файл robots.txt, чтобы робот Googlebot не загружал их. Это могут быть, например, элементы графического оформления страницы, которые не важны для понимания ее содержания.
  • Обеспечьте быструю загрузку страниц.
  • Не используйте длинные цепочки переадресации, так как они вызывают проблемы при сканировании.
  • Значение имеет не только время ответа серверов на запросы, но и время, необходимое на отрисовку страниц, в том числе на загрузку изображений и выполнение скриптов. Учитывайте это, если у вас большие или медленно загружаемые ресурсы, которые необходимо проиндексировать.

Указывайте на изменения контента с помощью кодов статуса HTTP

В поисковой системе Google заголовки HTTP-запроса If-Modified-Since и If-None-Match используются не во всех сценариях сканирования. При отправке заголовков поисковые роботы Google учитывают контекст запроса: так, заголовки HTTP-запроса If-Modified-Since и If-None-Match с большей вероятностью будет отправлять робот AdsBot. В значении заголовка If-Modified-Since, отправленного нашими поисковыми роботами, указываются дата и время последнего сканирования. На основании этого значения сервер может вернуть код статуса HTTP 304 (Not Modified) без тела ответа. В этом случае Google будет повторно использовать версию контента, полученную при последнем сканировании. Если контент был обновлен после даты предыдущего сканирования, указанной поисковым роботом в заголовке If-Modified-Since, сервер может вернуть код статуса HTTP 200 (OK) с телом ответа.

Если в контент не вносились изменения с момента последнего сканирования этого URL роботом Googlebot, то в ответ на любой запрос от этого робота вы можете отправлять код статуса HTTP 304 (Not Modified) без тела ответа независимо от заголовков запроса. Так вы сэкономите время обработки и ресурсы сервера, что может косвенно повысить эффективность сканирования.

Скройте URL, которые не должны попадать в результаты поиска

Выделение серверных мощностей на сканирование ненужных страниц может замедлить анализ важных для вас страниц, и новый или обновленный контент, интересный для пользователей, может быть обнаружен со значительной задержкой.

Если на вашем сайте много открытых URL, обработка которых поисковым роботом нежелательна, это может плохо повлиять на сканирование и индексирование сайта. Обычно эти URL делятся на несколько категорий:

  • Фасетная навигация и идентификаторы сеансов. Фасетная навигация (иначе называемая многоаспектной) обычно предполагает показ страниц с идентичным контентом. Идентификаторы сеансов и другие аналогичные параметры URL используются для сортировки или фильтрации, а не для ссылок на уникальный контент. Заблокируйте страницы с фасетной навигацией при помощи файла robots.txt.
  • Страницы с идентичным контентом. Помогите Google распознать повторяющийся контент, сканировать который было бы излишним.
  • Ошибки soft 404. Если страницы больше не существует, возвращайте код ошибки 404.
  • Взломанные страницы. Изучите отчет о проблемах безопасности и восстановите или удалите взломанные страницы, указанные в нем.
  • Бесконечные пространства и прокси. Запретите их сканирование в файле robots.txt.
  • Некачественный контент и спам. Очевидно, этого следует избегать.
  • Страницы с корзиной, страницы с бесконечной прокруткой и страницы, на которых выполняется определенное действие (например, вход в аккаунт или покупка).

Что рекомендуется делать

  • Используйте файл robots.txt, чтобы полностью запретить сканирование страницы или ресурса.
  • Если на нескольких страницах используется общий ресурс (например, изображение или файл JavaScript), указывайте его везде с одним и тем же URL. Тогда Google сможет кешировать ресурс для многократного использования и не запрашивать его по нескольку раз.

Что не рекомендуется делать

  • Не нужно постоянно добавлять в файл robots.txt и удалять из него страницы или каталоги, чтобы перераспределить лимит на сканирование вашего сайта. Используйте файл robots.txt только для страниц и ресурсов, которые вы хотите исключить из результатов поиска Google на продолжительное время.
  • Не нужно часто менять файлы Sitemap или пытаться перераспределить лимит на сканирование сайта с помощью других приемов, которые позволяют временно скрыть контент.

Ограничивайте интенсивность сканирования в экстренных случаях

Google использует алгоритмы, которые ограничивают количество запросов на сканирование, чтобы не допустить перегрузки сайта. Если перегрузка все-таки случится, вы можете принять меры, описанные ниже.

Диагностика

Проверяйте, не отправляет ли робот Googlebot слишком много запросов серверу вашего сайта.

Устранение неполадок

Вот что рекомендуется делать в экстренных случаях:

  1. Если ваш сервер перегружен, временно отправляйте в ответ на запросы робота Googlebot код статуса HTTP-ответа 503 или 429. Робот будет пытаться просканировать те же страницы ещё примерно два дня. Обратите внимание, что если отправлять коды, указывающие на недоступность сайта, дольше нескольких дней, то Google полностью прекратит сканирование ваших страниц или надолго замедлит его. Поэтому выполните также указанные ниже действия.
  2. Когда частота сканирования снизится, перестаньте отправлять код статуса HTTP 503 или 429 в ответ на запросы поискового робота. Если отправлять код 503 или 429 больше двух суток, Google удалит недоступные URL из индекса.
  3. Отслеживайте, как меняются статистика сканирования и загруженность сервера.
  4. Если проблемы со сканированием возникают из-за поискового робота AdsBot, то причина, вероятно, в созданных вами на сайте целях динамических поисковых объявлений. Google сканирует такие страницы раз в три недели. Если ресурсы вашего сервера не позволяют поддерживать эту функцию, вам следует либо ограничить количество целевых страниц для таргетинга объявлений, либо увеличить пропускную способность сервера.

Сканирование: мифы и факты

Проверьте, насколько хорошо вы осведомлены о том, как Google сканирует и индексирует сайты.

Сжав файлы Sitemap, можно увеличить лимит на сканирование.
Верно
Неверно
Это не так. Сжатые файлы Sitemap все равно нужно скачать с сервера, так что значительной экономии времени или ресурсов Google это не дает.
Google предпочитает более актуальный контент, поэтому его нужно постоянно обновлять.
Верно
Неверно
Мы оцениваем качество контента, а не время его публикации или изменения. Создавайте и обновляйте контент, когда считаете нужным, но помните, что внесение мелких правок или изменение даты публикации страницы не сделают его более актуальным.
Google предпочитает старый контент и придает ему больше веса, чем новому.
Верно
Неверно
Это не так. Если страница содержит полезную информацию, то неважно, когда она была добавлена на сайт.
Google предпочитает URL без параметров запроса.
Верно
Неверно
URL с параметрами тоже обрабатываются.
Чем быстрее загружаются и отрисовываются страницы, тем больше может просканировать Google.
Верно
Это так. Наши возможности ограничены временем и количеством поисковых роботов. Чем больше страниц вы можете предоставить по запросам роботов за ограниченное время, тем больше мы просканируем. Однако мы можем уделить дополнительное время сайту с низкой скоростью загрузки, если он содержит много ценной информации. В контексте управления сайтом важнее обеспечить быструю загрузку страниц не для поискового робота (с целью расширить охват сканирования), а для посетителей. Гораздо проще указать роботу Googlebot, какой контент нужно сканировать в первую очередь, чем каждый раз ждать, пока он просканирует все ваши страницы. Обратите внимание, что сканирование сайта предполагает не только получение его страниц, но и их отрисовку. На нее поисковый робот тоже тратит время. Поэтому, оптимизируя отрисовку страниц, вы повышаете скорость их сканирования.
Неверно
Крупные сайты сканируются чаще, чем небольшие.
Верно
Неверно
Если на сайте есть важная информация, которая часто обновляется, мы сканируем его часто, какого бы размера он ни был.
Чем ближе к главной странице находится контент (в структуре сайта), тем важнее он для Google.
Верно
Отчасти верно
Главная страница сайта зачастую является самой важной. Поэтому страницы, которые напрямую с ней связаны, могут считаться более приоритетными и сканироваться чаще. Однако это не значит, что их позиции будут выше, чем у остальных страниц вашего сайта.
Неверно
Добавляя в URL параметр версии контента, можно заставить Google скорее просканировать страницу снова.
Верно
Отчасти верно
Если добавлять в URL страницы параметр версии, вы сможете побудить Google просканировать ее быстрее. Однако в этом, как правило, нет необходимости, и при отсутствии нового контента выделенные на сканирование ресурсы будут потрачены впустую. Если же вы используете с этой целью параметры версии, то изменять URL следует только при условии, что на страницу действительно был добавлен имеющий значение новый контент.
Неверно
Лимит на сканирование зависит от скорости загрузки сайта и количества ошибок сервера.
Верно
Быстрые сайты более удобны для посетителей, и частота их сканирования выше. На таком сайте робот Googlebot может обработать больше контента при одинаковом количестве подключений. А если сайт часто возвращает код статуса HTTP 5xx (ошибка сервера) или уведомления о превышении времени ожидания, частота сканирования будет снижена. Мы рекомендуем пользоваться отчетом "Статистика сканирования" в Search Console и стараться свести количество ошибок к минимуму.
Неверно
Сканирование влияет на позиции сайта в результатах поиска.
Верно
Неверно
Если вы оптимизируете частоту сканирования, это не значит, что ваш сайт займет более высокие позиции в результатах поиска Google. Положение определенной страницы зависит от множества факторов, однако сканирование к их числу не относится, хотя оно и необходимо для ее попадания в результаты поиска.
Лимит на сканирование расходуется при обработке альтернативных URL и встроенного контента.
Верно
Как правило, обработка любого URL приближает момент, когда лимит на сканирование сайта будет исчерпан. Альтернативные URL, в том числе AMP-страницы и страницы с атрибутами hreflang, a также встроенный контент, например код CSS или JavaScript, включая объекты XMLHttpRequest, могут сканироваться по необходимости, и каждый раз лимит на сканирование будет расходоваться.
Неверно
Робот Googlebot учитывает правило crawl-delay.
Верно
Неверно
Googlebot игнорирует правило crawl-delay в файле robots.txt.
Правило nofollow влияет на лимит на сканирование.
Верно
Отчасти верно
Сканирование любого URL влияет на лимит. Помеченный директивой nofollow URL на вашей странице все равно может быть просканирован, если он указан без директивы nofollow на другой странице вашего или чужого сайта.
Неверно
Для управления лимитом на сканирование можно использовать директиву noindex.
Верно
Отчасти верно
Сканирование любого URL влияет на лимит, а для поиска директивы noindex Google необходимо просканировать страницу.

Однако с помощью noindex можно избежать попадания в индекс. Если вы хотите, чтобы такие страницы не попали в индекс Google, продолжайте использовать noindex и не переживайте за лимит на сканирование. Помните: если вы уберете URL из индекса Google с помощью noindex или другим способом, робот Googlebot сможет сфокусироваться на других URL на вашем сайте, то есть в долгосрочной перспективе noindex может несколько высвободить ваш лимит на сканирование.
Неверно
Страницы, передающие коды статусов HTTP 4xx, зря расходуют лимит на сканирование.
Верно
Неверно
Страницы, передающие коды статусов HTTP 4xx (кроме 429), не расходуют зря лимит на сканирование. Робот Google попытался просканировать страницу, но получил только код статуса при отсутствующем контенте.