Поисковые роботы Google (агенты пользователей)

Поисковый робот (который иногда называют просто "робот" или "паук") – это программа, которая автоматически обнаруживает и сканирует сайты, переходя по ссылкам от страницы к странице. Основной поисковый робот Google называется Googlebot. В таблице ниже можно посмотреть, какие роботы Google обычно упоминаются в журналах переходов и как их указывать в файле robots.txt, метатегах robots и HTTP-директивах X-Robots-Tag.

Поисковые роботы обеспечивают работу различных продуктов и сервисов Google.

  • Токен агента пользователя указывается в строке User-agent: файла robots.txt и позволяет выбирать, на каких поисковых роботов будет распространяться то или иное правило сканирования. Как видно из таблицы, некоторым роботам соответствует несколько токенов, но для того, чтобы правило действовало, достаточно одного. Приведенный ниже перечень не является исчерпывающим, но содержит информацию о роботах, которые с наибольшей вероятностью будут посещать ваш сайт.
  • Полная строка агента пользователя – это подробное описание поискового робота. Оно указывается в HTTP-запросах и журналах.

Поисковые роботы

APIs-Google

Токен агента пользователя APIs-Google
Полная строка агента пользователя APIs-Google (+https://developers.google.com/webmasters/APIs-Google.html)

AdsBot Mobile Web Android

Проверяет качество рекламы на веб-страницах, предназначенных для устройств Android.

Токен агента пользователя AdsBot-Google-Mobile
Полная строка агента пользователя Mozilla/5.0 (Linux; Android 5.0; SM-G920A) AppleWebKit (KHTML, like Gecko) Chrome Mobile Safari (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)

AdsBot Mobile Web

Проверяет качество рекламы на веб-страницах, предназначенных для устройств iOS.

Токен агента пользователя AdsBot-Google-Mobile
Полная строка агента пользователя Mozilla/5.0 (iPhone; CPU iPhone OS 14_7_1 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/14.1.2 Mobile/15E148 Safari/604.1 (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)

AdsBot

Проверяет качество рекламы на веб-страницах, предназначенных для компьютеров.

Токен агента пользователя AdsBot-Google
Полная строка агента пользователя AdsBot-Google (+http://www.google.com/adsbot.html)

AdSense

Токен агента пользователя Mediapartners-Google
Полная строка агента пользователя Mediapartners-Google

Googlebot Image

Токены агента пользователя
  • Googlebot-Image
  • Googlebot
Полная строка агента пользователя Googlebot-Image/1.0

Googlebot News

Токены агента пользователя
  • Googlebot-News
  • Googlebot
Полная строка агента пользователя Агент пользователя Googlebot-News задействует самые разные строки.

Googlebot Video

Токены агента пользователя
  • Googlebot-Video
  • Googlebot
Полная строка агента пользователя Googlebot-Video/1.0

Googlebot Desktop

Токен агента пользователя Googlebot
Полные строки агента пользователя
  • Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
  • Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Googlebot/2.1; +http://www.google.com/bot.html) Chrome/W.X.Y.Z Safari/537.36
  • Googlebot/2.1 (+http://www.google.com/bot.html)

Googlebot Smartphone

Токен агента пользователя Googlebot
Полная строка агента пользователя Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

Mobile AdSense

Токен агента пользователя Mediapartners-Google
Полная строка агента пользователя (Various mobile device types) (compatible; Mediapartners-Google/2.1; +http://www.google.com/bot.html)

Mobile Apps Android

Проверяет качество рекламы в приложениях для устройств Android. Этот робот действует в соответствии с теми же правилами, что и AdsBot-Google.

Токен агента пользователя AdsBot-Google-Mobile-Apps
Полная строка агента пользователя AdsBot-Google-Mobile-Apps

Feedfetcher

Токен агента пользователя FeedFetcher-Google
Полная строка агента пользователя FeedFetcher-Google; (+http://www.google.com/feedfetcher.html)

Google Read Aloud

Токен агента пользователя Google-Read-Aloud
Полные строки агента пользователя

Текущие агенты пользователя:

  • Версия для компьютеров:
    Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.118 Safari/537.36 (compatible; Google-Read-Aloud; +https://developers.google.com/search/docs/crawling-indexing/overview-google-crawlers)
  • Версия для мобильных устройств:
    Mozilla/5.0 (Linux; Android 7.0; SM-G930V Build/NRD90M) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.125 Mobile Safari/537.36 (compatible; Google-Read-Aloud; +https://developers.google.com/search/docs/crawling-indexing/overview-google-crawlers)

Прежняя версия (больше не поддерживается):

google-speakr

Google Favicon

Токен агента пользователя
  • Googlebot-Image
  • Googlebot
Полная строка агента пользователя Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.75 Safari/537.36 Google Favicon

Google StoreBot

Токен агента пользователя Storebot-Google
Полные строки агента пользователя
  • Версия для компьютеров:

    Mozilla/5.0 (X11; Linux x86_64; Storebot-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36

  • Версия для мобильных устройств:

    Mozilla/5.0 (Linux; Android 8.0; Pixel 2 Build/OPD3.170816.012; Storebot-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Mobile Safari/537.36

Google Site Verifier

Токен агента пользователя Google-Site-Verification
Полная строка агента пользователя Mozilla/5.0 (compatible; Google-Site-Verification/1.0)

Примечание о компоненте Chrome/W.X.Y.Z в строках агентов пользователей

В строках, которые содержат элемент Chrome/W.X.Y.Z, сочетание символов W.X.Y.Z – это плейсхолдер для версии браузера Chrome, используемой агентом пользователя. Пример: 41.0.2272.96. Это значение соответствует последней версии Chromium, используемой роботом Googlebot, и поэтому со временем оно будет возрастать.

При поиске агента пользователя в журнале или на сервере не указывайте точное значение версии, а используйте подстановочные знаки.

Агенты пользователя в файлах robots.txt

Если в файле robots.txt обнаружится несколько токенов агентов пользователей, робот Google последует правилу с наиболее точно соответствующим ему токеном. Если вы хотите оставить сайт доступным для всех наших роботов, такой файл вообще не нужен. Чтобы запретить или разрешить всем поисковым роботам Google доступ к определенному контенту, укажите в правиле агент пользователя Googlebot. К примеру, чтобы все страницы сайта появлялись в Google Поиске, а на самих страницах показывались объявления AdSense, не используйте файл robots.txt. Если же вы решите полностью запретить Google сканировать некоторые страницы, правило для агента пользователя Googlebot заблокирует доступ к контенту и всем остальным нашим роботам.

Можно указать агент пользователя более точно. Предположим, вы хотите, чтобы все страницы сайта показывались в Google Поиске, но чтобы при этом не сканировались изображения из вашего личного каталога. В таком случае в файле robots.txt запретите агенту пользователя Googlebot-Image сканировать файлы в каталоге /personal. При этом робот Googlebot по-прежнему будет иметь доступ к файлам во всех каталогах. Запись должна выглядеть следующим образом:

User-agent: Googlebot
Disallow:

User-agent: Googlebot-Image
Disallow: /personal

Рассмотрим другой пример. Вы хотите разместить на всех страницах рекламу, но сами страницы не должны появляться в Google Поиске. В таком случае следует полностью заблокировать доступ роботу Googlebot, но разрешить сканирование агенту пользователя Mediapartners-Google. Запись должна выглядеть так:

User-agent: Googlebot
Disallow: /

User-agent: Mediapartners-Google
Disallow:

Агенты пользователей в метатегах robots

Некоторые страницы содержат несколько метатегов robots, в которых указаны инструкции для различных поисковых роботов. Примеры:

<meta name="robots" content="nofollow">
<meta name="googlebot" content="noindex">

В этом случае Google будет следовать всем запрещающим инструкциям, и Googlebot выполнит обе директивы: noindex и nofollow. Подробнее об управлении сканированием и индексированием сайта роботами Google

Управление скоростью сканирования

Поисковые роботы Google посещают сайты с разными целями. Периодичность их появлений тоже отличается. Чтобы определить оптимальную частоту сканирования каждого сайта, Google использует ряд алгоритмов. Если наш поисковый робот посещает ваш ресурс слишком часто, вы можете уменьшить частоту сканирования.

Устаревшие поисковые роботы Google

Указанные поисковые роботы Google больше не используются и перечислены здесь лишь для справки.

Устаревшие поисковые роботы Google

Duplex в интернете

Обеспечивал работу сервиса "Duplex в интернете".

Токен агента пользователя DuplexWeb-Google
Полная строка агента пользователя Mozilla/5.0 (Linux; Android 11; Pixel 2; DuplexWeb-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.193 Mobile Safari/537.36

Web Light

Проверял наличие заголовка no-transform, когда пользователь нажимал на ссылку на вашу страницу в результатах поиска при определенных условиях. Агент пользователя Web Light действовал, только когда посетитель явным образом запрашивал страницу в браузере. При этом правила в файле robots.txt блокируют только автоматические запросы на сканирование, поэтому они не относились к Web Light.

Токен агента пользователя googleweblight
Полная строка агента пользователя Mozilla/5.0 (Linux; Android 4.2.1; en-us; Nexus 5 Build/JOP40D) AppleWebKit/535.19 (KHTML, like Gecko; googleweblight) Chrome/38.0.1025.166 Mobile Safari/535.19