Руководство по управлению лимитом на сканирование для владельцев крупных сайтов
В этом руководстве описывается, как оптимизировать сканирование роботами Google очень больших сайтов, контент на которых часто меняется.
Если на вашем сайте мало страниц, обновляемых часто, или они обычно сканируются в течение суток после публикации, вам необязательно читать это руководство. Достаточно вовремя обновлять файлы Sitemap и проверять отчет об индексировании.
Если у вас есть контент, который давно размещен на сайте и при этом ни разу не был проиндексирован, воспользуйтесь инструментом проверки URL, чтобы выяснить причины проблемы.
Для кого это руководство
Руководство предназначено для владельцев веб-ресурсов следующих типов:
- очень большие сайты (от 1 млн уникальных страниц) с достаточно часто (раз в неделю) меняющимся контентом;
- средние и большие сайты (от 10 тыс. уникальных страниц) с очень часто (ежедневно) меняющимся контентом;
- сайты, большинство URL которых в Search Console имеет статус Обнаружена, не проиндексирована.
Общая информация о сканировании
Интернет практически бесконечен, и Google не успевает находить и индексировать все существующие URL. По этой причине время, которое отводится на обработку каждого отдельного сайта, ограничено. Существует так называемый лимит на сканирование, который определяет, сколько времени и ресурсов робот Googlebot может затратить на один сайт. Обратите внимание, что не все просканированные страницы сайта индексируются. Google их анализирует, объединяет и определяет, нужно ли их добавлять в индекс.
Лимит на сканирование зависит от двух основных факторов: скорости сканирования и потребности в сканировании.
Скорость сканирования
Робот Googlebot сканирует сайты так, чтобы не перегружать серверы, на которых они размещены. Для этого рассчитывается скорость сканирования, которая определяется максимальным количеством параллельных подключений робота к сайту и интервалом между подключениями. Такой подход позволяет обрабатывать весь важный контент сайта, не перегружая его серверы.
На скорость сканирования влияют следующие факторы:
- Время ответа сайта. Если в течение определенного времени сайт отправляет ответы без задержек, скорость сканирования увеличивается, то есть робот Googlebot может использовать при обработке контента больше подключений. Если ответы от сайта поступают медленно или содержат ошибки, скорость сканирования снижается.
- Ограничение, заданное в Search Console. Владельцы сайтов могут самостоятельно ограничивать скорость сканирования. Обратите внимание, что, даже если указать высокое максимальное значение скорости, робот Googlebot не обязательно станет обрабатывать ваш контент быстрее.
- Возможности Google. У Google очень много компьютеров, однако наши возможности не безграничны. Поэтому мы вынуждены оптимально распределять свои ресурсы.
Потребность в сканировании
Обычно Google отводит на сканирование столько времени, сколько необходимо с учетом размера сайта, периодичности его обновления, востребованности контента и качества страниц.
На потребность в сканировании влияют следующие факторы:
- Количество страниц на сайте по оценке Google. Если вы не указали иное, робот Googlebot будет пытаться просканировать все обнаруженные на вашем сайте URL. Но если многие из этих URL дублируются или не должны сканироваться по другим причинам (страница удалена, не содержит важных сведений и т. д.), то Google зря потратит время на сбор информации о них. Вы можете помочь нам в оптимизации, указав страницы, которые можно пропустить.
- Популярность. Страницы, которые просматривает больше посетителей, сканируются и индексируются чаще.
- Давность сканирования. Google старается сканировать URL с периодичностью, которая обеспечивает актуальность контента в результатах поиска.
Потребность в сканировании обычно возрастает после существенных изменений на сайте, например при переносе контента на новые URL.
Резюме
Google определяет лимит на сканирование сайта с учетом скорости сканирования и потребности в сканировании, составляя список URL, которые можно и нужно обработать. Если потребность в сканировании невелика, то робот Googlebot будет сканировать ваш сайт менее интенсивно даже при возможности увеличить скорость.
Рекомендации
Чтобы повысить эффективность сканирования, следуйте приведенным ниже рекомендациям.
- Управляйте сканированием своего сайта. Используйте специальные инструменты, чтобы сообщать Google, какие страницы сканировать, а какие пропускать. Если слишком много времени уйдет на сканирование маловажных URL, робот Googlebot может посчитать нецелесообразным обрабатывать остальные разделы сайта или увеличивать для этого лимит на сканирование.
- Объедините страницы с идентичным контентом. Пусть поисковые роботы сканируют уникальные материалы, а не уникальные URL.
- Заблокируйте сканирование URL при помощи файла robots.txt. Некоторые страницы важны для пользователей, но при этом не должны появляться в результатах поиска. Это могут быть страницы с бесконечной прокруткой, которые дублируют информацию, размещенную на других страницах, или версии одной и той же страницы с разной сортировкой. Если вы не можете объединить такие страницы в соответствии с первым пунктом, заблокируйте их при помощи файла robots.txt. Это значительно снизит вероятность того, что роботы Google их проиндексируют.
-
Возвращайте код ошибки
404
или410
для окончательно удаленных страниц. Даже если такая страница уже есть в базе данных Google, код404
будет для поискового робота четким сигналом не сканировать страницу снова. В то же время заблокированные URL долго не удаляются из очереди сканирования и будут сканироваться снова, если вы их разблокируете. - Устраняйте ошибки
soft 404
. Поисковый робот сканирует страницы, возвращающие ошибкуsoft 404
, а значит ваш лимит на сканирование будет расходоваться нерационально. Найти страницы с ошибкойsoft 404
вам поможет отчет об индексировании. - Вовремя обновляйте файлы Sitemap. Google регулярно проверяет эти файлы, так что добавьте в них весь контент, который нужно сканировать. Если на вашем сайте есть обновленный контент, рекомендуем использовать тег
<lastmod>
. - Избегайте длинных цепочек переадресации. Они вызывают проблемы при сканировании.
- Оптимизируйте страницы для ускорения их загрузки. Если ваши страницы будут загружаться и отрисовываться быстрее, Google сможет просканировать больше контента на вашем сайте.
- Проверяйте, как сканируется ваш сайт. Следите за тем, доступен ли ваш сайт во время сканирования, и старайтесь оптимизировать процесс.
Как контролировать сканирование и индексирование сайта
Ниже перечислены основные рекомендации, которые позволят контролировать сканирование вашего ресурса.
- Выясните, есть ли у робота Googlebot проблемы с доступом к вашему сайту
- Узнайте, есть у вас страницы, которые не сканируются, хотя должны
- Проверьте, нужно ли ускорить сканирование определенных разделов сайта
- Сделайте сайт более удобным для сканирования
- Минимизируйте избыточное сканирование сайта
Выясните, есть ли у робота Googlebot проблемы с доступом к вашему сайту
Если вы улучшите доступ к страницам сайта, это необязательно приведет к повышению лимита на его сканирование. Google определяет оптимальную частоту сканирования с учетом потребности в нем, как описано выше. Тем не менее при наличии проблем с доступом робот Googlebot не сможет сканировать сайт так интенсивно, как позволяет лимит.
Диагностика
Откройте отчет о статистике сканирования, чтобы посмотреть историю сканирования вашего сайта роботом Googlebot. Так вы узнаете, когда возникали проблемы. Если в отчете есть ошибки или предупреждения, связанные с доступностью вашего сайта, найдите, где на графиках Доступность хоста запросы робота Googlebot выходят за красную линию. Нажмите на график, чтобы увидеть, какие URL были недоступны, и постарайтесь выяснить причины этого.
Устранение неполадок
- Вы можете узнать о том, как выявлять и устранять некоторые проблемы с доступностью сайта, из статьи, посвященной отчету о статистике сканирования.
- Заблокируйте сканирование страниц, которые вы не хотите показывать в результатах поиска. Подробнее…
- Сократите время загрузки и отрисовки страниц. Подробнее…
- Увеличьте серверные мощности. Если Google регулярно сканирует ваш сайт с максимально возможной нагрузкой, но некоторые важные URL остаются неохваченными или обновляются реже, чем нужно, увеличьте серверные мощности, чтобы поисковый робот мог параллельно запрашивать больше страниц сайта. Посмотрите историю доступности хоста в отчете о статистике сканирования и выясните, часто ли робот Googlebot превышает максимальную частоту сканирования. При необходимости увеличьте серверные мощности на месяц и проверьте, увеличится ли количество запросов на сканирование за это время.
Проверьте, насколько полно просканирован ваш сайт
Google отводит на сканирование вашего сайта столько времени, сколько необходимо для индексирования всего полезного и доступного пользователям контента. Если робот Googlebot пропускает важные страницы, значит их сканирование запрещено или Google не может их обнаружить, или есть проблемы с доступностью вашего сайта, или Google старается не перегружать ваши серверы.
Диагностика
В Search Console нет данных о сканировании сайта, которые можно отфильтровать по URL или пути, но вы можете узнать, какие URL сканировал робот Googlebot, из журналов сайта. Напоминаем, что добавление просканированных URL в индекс здесь не рассматривается.
В большинстве случаев Google обнаруживает новые страницы на сайте не в день их добавления, а как минимум несколько дней спустя. Исключение составляют некоторые категории ресурсов, контент которых обновляется очень часто, например новостные сайты.
Устранение неполадок
Если добавленные на сайт страницы достаточно долго не сканируются, значит Google не может их обнаружить или вы запретили их сканировать, или достигнут предел нагрузки на ваши серверы, или исчерпан лимит на сканирование.
- Сообщите Google о своих новых страницах: добавьте их URL в файлы Sitemap.
- Проверьте, не заблокировано ли случайно сканирование этих страниц в правилах файла robots.txt.
- Определитесь со своими приоритетами сканирования (то есть рационально расходуйте лимит на сканирование). Отрегулируйте количество страниц, подлежащих сканированию, и повысьте эффективность сканирования сайта.
- Убедитесь, что у вас достаточно серверных мощностей. Робот Googlebot уменьшит нагрузку на ваши серверы, если им не будет хватать ресурсов при сканировании.
Обратите внимание, что даже просканированные страницы могут не показываться в результатах поиска, если они не представляют ценности для пользователей или их контент никому не интересен.
Проверяйте, своевременно ли сканируются обновленные страницы
Если робот Googlebot пропустил новые или обновленные страницы на вашем сайте, вероятно, он их не нашел или не заметил, что они изменились. Ниже описывается, как вы можете сообщить нам о новом контенте.
Мы стремимся выявлять изменения на страницах и индексировать их настолько быстро, насколько это возможно. Новый контент большинства сайтов сканируется и индексируется спустя трое суток или позже. Не рассчитывайте на то, что ваши страницы будут добавляться в индекс Google уже в день публикации, если, конечно, вы не размещаете быстро меняющуюся информацию, которая представляет значительную ценность для пользователей (например, новости).
Диагностика
Узнать, когда робот Googlebot сканировал тот или иной URL, можно из журналов сайта.
Чтобы узнать дату индексирования, используйте инструмент проверки URL или выполните поиск обновленных URL в Google.
Устранение неполадок
Что рекомендуется делать
- Если на вашем сайте публикуется новостной контент, используйте файл Sitemap для Google Новостей. Отправляйте Google запрос ping после добавления или изменения файла Sitemap.
- Чтобы сообщить нам об изменении контента, размещенного под уже добавленным в индекс URL, используйте тег
<lastmod>
. - Не усложняйте структуру URL без необходимости. Так роботу Googlebot будет проще находить ваши страницы.
- Чтобы упростить обнаружение своих страниц, указывайте стандартные, поддающиеся сканированию ссылки в тегах
<a>
.
Что не рекомендуется делать
- Не отправляйте один и тот же файл Sitemap несколько раз в день.
- Не рассчитывайте, что робот Googlebot просканирует все указанные в файле Sitemap страницы или начнет сканирование сразу же. Файлы Sitemap – это полезные подсказки для Google, а не обязательные для выполнения требования.
- Не добавляйте в файлы Sitemap URL, которые не нужно показывать в результатах поиска. В противном случае ваш лимит на сканирование будет впустую расходоваться на их обработку.
Сделайте сайт более удобным для сканирования
Ускорьте загрузку сайта
Способность Google сканировать ресурсы зависит от пропускной способности, времени, а также от наличия свободных экземпляров робота Googlebot. Если сервер сайта будет отвечать на запросы быстрее, мы сможем просканировать больше страниц на нем. При этом следует учитывать, что Google стремится сканировать только полезный контент. Если ваши страницы быстро загружаются, но при этом обладают низким качеством, Googlebot не станет обрабатывать ваш сайт чаще. И наоборот, если мы выясним, что роботы Google пропускают качественный контент с вашего сайта, то можем увеличить ваш лимит на сканирование, чтобы его охватить.
Вот как можно оптимизировать страницы и ресурсы с точки зрения сканирования:
- Укажите объемные и при этом не представляющие ценности для пользователей ресурсы в файле robots.txt, чтобы робот Googlebot не загружал их. Это могут быть, например, элементы графического оформления страницы, которые не важны для понимания ее содержания.
- Обеспечьте быструю загрузку страниц.
- Не используйте длинные цепочки переадресации, так как они вызывают проблемы при сканировании.
- Значение имеет не только время ответа серверов на запросы, но и время, необходимое на отрисовку страниц, в том числе на загрузку изображений и выполнение скриптов. Учитывайте это, если у вас есть большие или медленно загружаемые ресурсы, которые требуется индексировать.
Указывайте на изменения контента с помощью кодов статуса HTTP
В поисковой системе Google заголовки HTTP-запроса If-Modified-Since
и If-None-Match
используются не во всех сценариях сканирования. При отправке заголовков поисковые роботы Google учитывают контекст запроса: так, заголовки HTTP-запроса If-Modified-Since
и If-None-Match
с большей вероятностью будет отправлять робот AdsBot. В значении заголовка If-Modified-Since
, отправленного нашими поисковыми роботами, указываются дата и время последнего сканирования. На основании этого значения сервер может вернуть код статуса HTTP 304 (Not Modified)
без тела ответа. В этом случае Google будет повторно использовать версию контента, полученную при последнем сканировании. Если контент был обновлен после даты предыдущего сканирования, указанной поисковым роботом в заголовке If-Modified-Since
, сервер может вернуть код статуса HTTP 200 (OK)
с телом ответа.
Если в контент не вносились изменения с момента последнего сканирования этого URL роботом Googlebot, то в ответ на любой запрос от этого робота вы можете отправлять код статуса HTTP 304 (Not Modified)
без тела ответа, независимо от заголовков запроса. Так вы сэкономите время обработки и ресурсы сервера, что может косвенно повысить эффективность сканирования.
Скройте URL, которые не должны попадать в результаты поиска
Выделение серверных мощностей на сканирование ненужных страниц может замедлить анализ важных для вас страниц, и новый или обновленный контент, интересный для пользователей, может быть обнаружен со значительной задержкой.
Если на вашем сайте много открытых URL, обработка которых поисковым роботом нежелательна, это может плохо повлиять на сканирование и индексирование сайта. Обычно такие URL разделяются на следующие категории:
- Фасетная навигация и идентификаторы сеансов. Фасетная навигация (иначе называемая многоаспектной) обычно предполагает показ страниц с идентичным контентом. Идентификаторы сеансов и другие аналогичные параметры URL используются для сортировки или фильтрации, а не для ссылок на уникальный контент. Заблокируйте страницы с фасетной навигацией при помощи файла robots.txt.
- Страницы с идентичным контентом. Помогите Google распознать повторяющийся контент, сканировать который было бы излишним.
- Ошибки
soft 404
. Если страницы больше не существует, возвращайте код ошибки404
. - Взломанные страницы. Изучайте отчет о проблемах безопасности и восстанавливайте или удаляйте взломанные страницы, указанные в нем.
- Бесконечные пространства и прокси. Запретите их сканирование в файле robots.txt.
- Некачественный контент и спам. Очевидно, такого следует избегать.
- Страницы с корзиной, страницы с бесконечной прокруткой и страницы, на которых выполняется определенное действие (например, вход в аккаунт или покупка).
Что рекомендуется делать
- Используйте файл robots.txt, чтобы полностью запретить сканирование страницы или ресурса.
- Если на нескольких страницах используется общий ресурс (например, изображение или файл JavaScript), указывайте его везде с одним и тем же URL. Тогда Google сможет кешировать ресурс для многократного использования и не запрашивать его по нескольку раз.
Что не рекомендуется делать
- Не нужно постоянно добавлять в файл robots.txt и удалять из него страницы или каталоги, чтобы перераспределить лимит на сканирование вашего сайта. Используйте этот файл только для страниц и ресурсов, которые вы хотите исключить из результатов поиска Google на длительное время.
- Не нужно часто менять файлы Sitemap или пытаться перераспределить лимит на сканирование сайта с помощью других приемов, которые позволяют временно скрыть контент.
Ограничивайте интенсивность сканирования в экстренных случаях
Google использует алгоритмы, которые ограничивают количество запросов на сканирование, чтобы не допустить перегрузки сайта. Если перегрузка все-таки случится, вы можете принять меры, описанные ниже.
Диагностика
Проверяйте, не отправляет ли робот Googlebot слишком много запросов серверу вашего сайта.
Устранение неполадок
Вот что рекомендуется делать в экстренных случаях:
- Если ваш сервер перегружен, временно отправляйте в ответ на запросы робота Googlebot код статуса HTTP-ответа
503
или429
. Робот будет пытаться просканировать те же страницы ещё примерно два дня. Обратите внимание, что если отправлять коды, указывающие на недоступность сайта, дольше нескольких дней, то Google полностью прекратит сканирование ваших страниц или надолго снизит его скорость. Поэтому выполните также следующие шаги. - Снизьте частоту сканирования сайта роботом Googlebot. Для этого необходимо иметь права владельца ресурса. Изменение настроек вступает в силу в течение двух суток. Используйте этот метод, только если диаграмма Доступность хоста > Использование хоста в отчете о статистике сканирования показывает, что робот Googlebot перегружал ваш сервер в течение долгого времени.
-
Когда частота сканирования снизится, перестаньте отправлять код статуса HTTP
503
или429
в ответах на запросы поискового робота. Если отправлять код503
или429
больше двух суток, Google удалит недоступные URL из индекса. - Отслеживайте, как меняются статистика сканирования и загруженность сервера. При необходимости увеличьте частоту сканирования или вернитесь к используемой по умолчанию.
- Если проблемы со сканированием возникают из-за поискового робота AdsBot, то причина, вероятно, в выбранных вами на сайте страницах для таргетинга динамических поисковых объявлений. Google сканирует такие страницы раз в две недели. Если ресурсы вашего сервера не позволяют поддерживать эту функцию, вам следует либо ограничить количество целевых страниц для таргетинга объявлений, либо увеличить пропускную способность сервера.
Сканирование: мифы и факты
Проверьте, насколько хорошо вы осведомлены о том, как Google сканирует и индексирует сайты.
5xx
(ошибка сервера) или уведомления о превышении времени ожидания, частота сканирования будет снижена. Мы рекомендуем пользоваться отчетом о статистике сканирования в Search Console и стараться свести количество ошибок к минимуму.
nofollow
влияет на лимит на сканирование.nofollow
URL на вашей странице все равно может быть просканирован, если он указан без директивы nofollow
на другой странице вашего или чужого сайта.
noindex
.noindex
Google необходимо просканировать страницу.
Однако с помощью
noindex
можно избежать попадания в индекс. Если вы хотите, чтобы такие страницы не попали в индекс Google, продолжайте использовать noindex
и не переживайте за лимит на сканирование. Помните: если вы уберете URL из индекса Google с помощью noindex
или другим способом, робот Googlebot сможет сфокусироваться на других URL на вашем сайте, то есть в долгосрочной перспективе noindex
может несколько высвободить ваш лимит на сканирование.
4xx
, зря расходуют лимит на сканирование.4xx
(кроме 429
), не расходуют зря лимит на сканирование. Робот Google попытался просканировать страницу, но получил только код статуса при отсутствующем контенте.