Подробно о Googlebot: сканирование страниц, получение данных и обработка байтов

Вторник, 31 марта 2026 г.

Если вы слушали 105-й выпуск подкаста Search Off the Record, то, возможно, слышали, как мы подробно обсуждали тему, которая нам очень близка (и нашим серверам тоже): внутреннее устройство робота Googlebot.

Долгое время название "Googlebot" вызывало в воображении образ одного неутомимого робота, который систематически сканирует интернет. Но на самом деле всё чуть сложнее и намного интереснее. Сегодня мы хотим подробно рассказать о нашей инфраструктуре сканирования, уделив особое внимание тому, что заставляет нас самих поломать голову: ограничениям на размер страниц.

Во-первых, Googlebot – это не одна программа

Сначала давайте разберемся с названием, которое вызывает путаницу. В начале 2000-х годов у Google был только один продукт, поэтому нам требовался только один поисковый робот, и название "Googlebot" прижилось. Но сегодня Googlebot – это просто пользователь чего-то, что напоминает централизованную платформу сканирования.

Когда вы видите в журналах сервера упоминание Googlebot, это означает, что речь идет о Google Поиске. Десятки других клиентов, таких как Google Покупки и AdSense, направляют запросы на сканирование через ту же инфраструктуру, но под другими именами роботов. Самые крупные роботы описаны на сайте инфраструктуры роботов Google.

Что происходит с байтами, если размер файла превышает 2 МБ?

Здесь все становится немного сложнее. Каждый клиент инфраструктуры поисковых роботов должен задать определенные настройки для своих запросов. Эти настройки включают строку агента пользователя, токены агента пользователя, которые робот будут искать в файле robots.txt, и количество байтов, которые будут извлекаться из одного URL.

В настоящее время Googlebot скачивает до 2 МБ для каждого URL (кроме PDF-файлов). Это означает, что робот сканирует только первые 2 МБ ресурса, включая HTTP-заголовок. Для PDF-файлов ограничение составляет 64 МБ.

У роботов для сканирования изображений и видео обычно широкий диапазон пороговых значений, который во многом зависит от продукта, для которого собираются данные. Например, для получения значка сайта может быть установлено очень строгое ограничение, в отличие от поиска картинок.

Для всех остальных поисковых роботов, у которых нет явного ограничения, по умолчанию используется значение 15 МБ независимо от типа контента.

Что это значит для байтов, которые ваш сервер отправляет по сети?

Частичная загрузка. Если размер вашего HTML-файла превышает 2 МБ, робот Googlebot не отклонит страницу. Вместо этого скачивание прекращается, когда размер файла достигает 2 МБ. Обратите внимание, что в ограничение входят заголовки HTTP-запросов.
Обработка обрезанного файла. Скачанная часть (первые 2 МБ) передается нашим системам индексирования и сервису отрисовки веб-страниц (WRS) как полный файл.
Недоступные байты. Любые байты, которые находятся после порога в 2 МБ, полностью игнорируются. Они не скачиваются, не обрабатываются и не индексируются.
Скачивание ресурсов. Все ресурсы, на которые есть ссылки в HTML-коде (кроме медиафайлов, шрифтов и некоторых других файлов), будут извлечены сервисом WRS с помощью Googlebot, как и основной HTML-код. У этих ресурсов есть собственный счетчик байтов для каждого URL. Эти байты не учитываются при определении размера родительской страницы.

Для подавляющего большинства сайтов в интернете HTML-нагрузка размером 2 МБ является огромной, и вы вряд ли выйдете за этот предел. Однако если на странице есть большие встроенные изображения в формате base64, крупные блоки встроенного CSS/JavaScript или меню вверху, занимающие несколько мегабайт, то текстовый контент или важные структурированные данные могут оказаться за пределами лимита в 2 МБ. Если эти важные байты не будут получены, считайте, что для робота Googlebot их просто не существует.

Обработка байтов

После того как поисковый робот успешно получит байты (в пределах лимита), он передаст их WRS. WRS обрабатывает JavaScript и выполняет клиентский код так же, как современный браузер, чтобы понять, как страница будет выглядеть и что на ней будет написано. При отрисовке извлекаются и выполняются файлы JavaScript и CSS, а также обрабатываются запросы XHR, чтобы лучше понять текстовый контент и структуру страницы (изображения и видео не запрашиваются). Для каждого запрошенного ресурса также действует ограничение в 2 МБ.

Однако помните, что WRS может выполнить только тот код, который был получен поисковым роботом. Кроме того, WRS работает без отслеживания состояния – сервис очищает локальное хранилище и данные сеанса между запросами. Это может повлиять на то, как наши системы интерпретируют динамические элементы, зависящие от JavaScript.

Подробно о Googlebot: сканирование страниц, получение данных и обработка байтов

Во-первых, Googlebot – это не одна программа

Что происходит с байтами, если размер файла превышает 2 МБ?

Обработка байтов

Рекомендации по работе с байтами