Робот Googlebot

Googlebot – общее название двух типов поисковых роботов Google.

  • Googlebot Desktop – поисковый робот, имитирующий пользователя компьютера.
  • Googlebot Smartphone – поисковый робот, имитирующий пользователя мобильного устройства.

Определить, какой именно робот посещал страницу, можно по строке агента пользователя в запросе. Обратите внимание, что оба робота соответствуют одному и тому же токену агента пользователя (токену робота Google), поэтому в файле robots.txt для них невозможно задать разные правила.

Для большинства сайтов Google в первую очередь индексирует мобильную версию контента. Поэтому большинство запросов на сканирование будет поступать от робота Googlebot, имитирующего пользователя мобильного устройства, и лишь небольшая их часть – от робота Googlebot Desktop.

Как Googlebot работает с вашим сайтом

Робот Googlebot не может обращаться к сайту чаще, чем раз в несколько секунд (в среднем). Это относится к большинству страниц. В случае задержек частота посещения сайта нашим роботом может немного увеличиться.

Робот Googlebot предназначен для распределенной работы на тысячах компьютеров. Это необходимо для эффективности и масштабирования системы, так как количество сайтов в интернете растет. Кроме того, мы стараемся использовать компьютеры, которые находятся недалеко от серверов хостинга сайтов, чтобы поисковые роботы меньше влияли на пропускную способность сети. Поэтому может оказаться, что в ваших журналах зарегистрированы обращения с нескольких IP-адресов, а в качестве агента пользователя неизменно указан Googlebot. Мы стараемся обработать как можно больше страниц на вашем сайте за один раз, не оказывая излишней нагрузки на сервер. Если запросы от Google все-таки замедляют работу сервера, вы можете снизить частоту сканирования.

Робот Googlebot выполняет сканирование, используя в первую очередь IP-адреса, относящиеся к США. Если на том или ином сайте установлена блокировка запросов из США, он может попробовать просканировать этот ресурс при помощи IP-адресов, которые относятся к другим странам. Список IP-адресов, которые робот Googlebot может использовать при обнаружении подобных блокировок в настоящее время, доступен в формате JSON.

Googlebot проводит сканирование по протоколу HTTP/1.1, а также HTTP/2, если он поддерживается сайтом. Протокол сканирования сайта не влияет на его рейтинг, однако сканирование по протоколу HTTP/2 позволяет снизить вычислительную нагрузку (например, использование процессора и ОЗУ) для сайта и робота Googlebot.
Чтобы отказаться от сканирования по протоколу HTTP/2, настройте сервер своего сайта так, чтобы при попытке такого сканирования сервер возвращал код статуса HTTP 421. Если это невозможно, попробуйте написать команде Googlebot (это временная мера).

Googlebot сканирует только первые 15 МБ содержимого HTML-файла или текстового файла поддерживаемого формата. Извлечение кода CSS и JavaScript и иных ресурсов из HTML-файла выполняется по отдельности и в соответствии с действующим ограничением на размер файла. Спустя 15 МБ Googlebot прекращает сканирование файла и при индексировании учитывает только первые 15 МБ его содержимого. Ограничение на размер файла действует для данных в несжатом виде. Для других поисковых роботов Google, таких как Googlebot Video и Googlebot Image, могут применяться другие ограничения.

Как закрыть роботу Googlebot доступ к вашему сайту

Даже если вы сами не размещаете ссылки на свой веб-сервер, сохранить его в секрете не удастся. Как только кто-нибудь перейдет по ссылке с вашего "секретного" сервера на другой, URL, переданный в теге источника ссылки, может быть сохранен и опубликован на целевом сервере в журнале источников ссылок. Кроме того, в интернете множество устаревших и неработающих ссылок. Если на чужой странице размещена некорректная или устаревшая ссылка на ваш сайт, робот Googlebot попытается перейти по ней.

Если вы хотите предотвратить сканирование своего сайта роботом Googlebot, рассмотрите эти способы. Обратите внимание, что запрет на сканирование, запрет на индексирование и блокировку доступа к странице одновременно для поисковых роботов и пользователей следует выполнять разными методами.

Как убедиться, что ваш сайт сканирует именно робот Googlebot

Помните, что строку агента пользователя Googlebot часто имитируют другие поисковые роботы. Прежде чем блокировать доступ нашему роботу, убедитесь в том, что нежелательный запрос поступил именно от Google. Самый надежный способ – выполнить обратный DNS-запрос по IP-адресу источника или сравнить IP-адрес источника с диапазоном IP-адресов робота Googlebot.