Как проверить запросы от поисковых роботов и загрузчиков Google
Вы можете проверить, сканирует ли ваш сайт именно робот Googlebot (или иной поисковый робот Google). Это поможет вам, если у вас есть подозрения, что под видом робота Googlebot к вашему сайту обращаются спамеры или другие злоумышленники.
Поисковые роботы Google бывают трех категорий, которые перечислены в таблице ниже.
| Тип | Описание | Обратная маска DNS | Диапазоны IP-адресов |
|---|---|---|---|
| Основные поисковые роботы | Основные поисковые роботы, предназначенные для продуктов Google (например, Googlebot). При автоматическом сканировании такие роботы всегда соблюдают правила из файлов robots.txt. | crawl-***-***-***-***.googlebot.com или geo-crawl-***-***-***-***.geo.googlebot.com |
googlebot.json |
| Специальные поисковые роботы | Поисковые роботы, выполняющие специальные функции для продуктов Google (такие как AdsBot), при наличии договоренности между ними и сайтами, которые сканируются такими роботами. Они могут как соблюдать, так и не соблюдать правила из файла robots.txt. | rate-limited-proxy-***-***-***-***.google.com |
special-crawlers.json |
| Инструменты для сбора данных о сайте, управляемые пользователем |
Инструменты или функции в наших продуктах, позволяющие конечному пользователю запускать сбор данных о сайте. Например, Google Site Verifier действует по запросу человека. Так как сбор данных инициирует пользователь, такие инструменты игнорируют правила из файла robots.txt. Загрузчики под управлением Google относятся к IP-адресам из объекта user-triggered-fetchers-google.json и распознаются как имя хоста google.com. IP-адреса из объекта user-triggered-fetchers.json распознаются как имена хостов gae.googleusercontent.com. Такие IP-адреса используются, к примеру, если на сайте из Google Cloud (GCP) есть функция, которая предполагает извлечение внешних RSS-фидов по запросу посетителя сайта.
|
***-***-***-***.gae.googleusercontent.com или google-proxy-***-***-***-***.google.com |
user-triggered-fetchers.json и user-triggered-fetchers-google.json |
Убедиться в том, что ваш сайт посещают именно роботы Google, можно двумя способами:
- Вручную. Если нужно выполнить единичную проверку, используйте инструменты командной строки. В большинстве случаев этого достаточно для решения задачи.
- Автоматически. Если нужно выполнить масштабную проверку, используйте автоматическую систему и сопоставьте IP-адрес определенного поискового робота со списком опубликованных IP-адресов робота Googlebot.
Как использовать инструменты командной строки
-
С помощью команды
hostвыполните обратный DNS-запрос по IP-адресу, который найдете в журнале. - Убедитесь, что в результате получено доменное имя
googlebot.com,google.comилиgoogleusercontent.com. -
С помощью команды
hostвыполните прямой DNS-запрос на преобразование доменного имени, которое вы узнали на шаге 1. - Полученный IP-адрес должен совпадать с исходным.
Пример 1:
host 66.249.66.11.66.249.66.in-addr.arpa domain name pointer crawl-66-249-66-1.googlebot.com.host crawl-66-249-66-1.googlebot.comcrawl-66-249-66-1.googlebot.com has address 66.249.66.1
Пример 2:
host 35.247.243.240240.243.247.35.in-addr.arpa domain name pointer geo-crawl-35-247-243-240.geo.googlebot.com.host geo-crawl-35-247-243-240.geo.googlebot.comgeo-crawl-35-247-243-240.geo.googlebot.com has address 35.247.243.240
Пример 3:
host 66.249.90.7777.90.249.66.in-addr.arpa domain name pointer rate-limited-proxy-66-249-90-77.google.com.host rate-limited-proxy-66-249-90-77.google.comrate-limited-proxy-66-249-90-77.google.com has address 66.249.90.77
Как использовать автоматические системы
Вы можете также сопоставить IP-адрес обратившегося к сайту поискового робота со списком диапазонов IP-адресов, которые используются нашими поисковыми роботами и инструментами для сбора данных:
- IP-адреса основных поисковых роботов, таких как Googlebot
- IP-адреса специальных поисковых роботов, таких как AdsBot
- IP-адреса инструментов для сбора данных о сайте, управляемых пользователем (пользователи)
- IP-адреса инструментов для сбора данных о сайте, управляемых пользователем (Google)
Для проверки других IP-адресов Google, с которых наши инструменты могут обращаться к вашему сайту (например, Apps Scripts), сопоставьте IP-адрес, с которого выполняется доступ, со списком IP-адресов Google. Учтите, что IP-адреса из файлов JSON представлены в формате CIDR.