Оптимизируйте свои подборки Сохраняйте и классифицируйте контент в соответствии со своими настройками.

Робот Googlebot

Googlebot – общее название поискового робота Google. Существует два типа таких роботов: имитирующий пользователя компьютера и имитирующий пользователя мобильного устройства.

Скорее всего, ваш сайт будет сканироваться роботами обоих типов. Определить, какой именно робот посещал страницу, можно по строке агента пользователя в запросе. Обратите внимание, что оба робота соответствуют одному и тому же токену агента пользователя (токену робота Google), поэтому в файле robots.txt для них невозможно задать разные правила.

Как Googlebot работает с вашим сайтом

Робот Googlebot не может обращаться к сайту чаще, чем раз в несколько секунд (в среднем). Это относится к большинству страниц. В случае задержек частота посещения сайта нашим роботом может немного увеличиться.

Робот Googlebot предназначен для распределенной работы на тысячах компьютеров. Это необходимо для эффективности и масштабирования системы, так как количество сайтов в интернете растет. Кроме того, мы стараемся использовать компьютеры, которые находятся недалеко от серверов хостинга сайтов, чтобы поисковые роботы меньше влияли на пропускную способность сети. Поэтому может оказаться, что в ваших журналах зарегистрированы обращения с нескольких IP-адресов, а в качестве агента пользователя неизменно указан Googlebot. Мы стараемся обработать как можно больше страниц на вашем сайте за один раз, не оказывая излишней нагрузки на сервер. Если запросы от Google все-таки замедляют работу сервера, вы можете снизить частоту сканирования.

Робот Googlebot проводит сканирование, используя IP-адреса, относящиеся к США. Если на том или ином сайте установлена блокировка запросов из США, он может попробовать просканировать этот ресурс при помощи IP-адресов, которые относятся к другим странам. Список IP-адресов, которые робот Googlebot может использовать при обнаружении подобных блокировок в настоящее время, доступен в формате JSON.

Обычно Googlebot проводит сканирование по протоколу HTTP/1.1. Однако он может выполнять сканирование и по протоколу HTTP/2, если сайт его поддерживает, поскольку оно более эффективно. Это позволит снизить вычислительную нагрузку (например, использование процессора и ОЗУ) для сайта и робота Googlebot без ущерба для индексирования и рейтинга сайта.

Чтобы отказаться от сканирования по HTTP/2, настройте сервер своего сайта так, чтобы при попытке такого сканирования сервер возвращал код статуса HTTP 421. Если это невозможно, попробуйте написать команде Googlebot (это временная мера).

Googlebot сканирует только первые 15 МБ содержимого HTML-файла или текстового файла поддерживаемого формата. Извлечение изображений, видео, кода CSS и JavaScript и иных ресурсов из HTML-файла выполняется по отдельности. Спустя 15 МБ Googlebot прекращает сканирование файла и при индексировании учитывает только первые 15 МБ его содержимого. Ограничение на размер файла действует для данных в несжатом виде. Для других поисковых роботов могут использоваться другие ограничения.

Как закрыть роботу Googlebot доступ к вашему сайту

Даже если вы сами не размещаете ссылки на свой веб-сервер, сохранить его в секрете не удастся. Как только кто-нибудь перейдет по ссылке с вашего "секретного" сервера на другой, URL, переданный в теге источника ссылки, может быть сохранен и опубликован на целевом сервере в журнале источников ссылок. Кроме того, в интернете множество устаревших и неработающих ссылок. Если на чужой странице размещена некорректная или устаревшая ссылка на ваш сайт, робот Googlebot попытается перейти по ней.

Существует несколько вариантов, позволяющих предотвратить сканирование сайта роботом Googlebot. Обратите внимание, что запрет на сканирование, запрет на индексирование и блокировку доступа к странице одновременно для поисковых роботов и пользователей следует выполнять разными методами.

Как убедиться, что ваш сайт сканирует именно робот Googlebot

Помните, что строку агента пользователя Googlebot часто имитируют другие поисковые роботы. Прежде чем блокировать доступ нашему роботу, убедитесь в том, что нежелательный запрос поступил именно от Google. Самый надежный способ – выполнить обратный DNS-запрос по IP-адресу источника или сравнить IP-адрес источника с диапазоном IP-адресов робота Googlebot.