Поисковые роботы Google (агенты пользователей)

Под термином "поисковый робот" (иногда его также называют просто роботом или "пауком") понимается любая программа, которая автоматически обнаруживает и сканирует сайты, переходя по ссылкам от страницы к странице. Наш основной поисковый робот называется Googlebot. В таблице ниже приведена информация об основных поисковых роботах Google, которые могут упоминаться в журналах переходов. Также из таблицы вы узнаете, как указывать этих роботов в файле robots.txt, метатегах robots и HTTP-директивах X-Robots-Tag.

Поисковые роботы, перечисленные ниже, относятся к продуктам и сервисам Google.

  • Токен агента пользователя указывается в строке User-agent: файла robots.txt и используется при создании правил сканирования для определенных поисковых роботов. Как видно из таблицы, некоторым роботам соответствует несколько токенов, но для того, чтобы правило действовало, достаточно одного. Приведенный ниже перечень не является исчерпывающим, но содержит информацию о роботах, которые с наибольшей вероятностью будут посещать ваш сайт.
  • Полная строка агента пользователя – это полное описание поискового робота. Оно указывается в запросах и журналах.
Поисковый робот Токен агента пользователя (продукта Google) Полная строка агента пользователя
APIs-Google

APIs-Google

APIs-Google (+https://developers.google.com/webmasters/APIs-Google.html)
AdSense

Mediapartners-Google

Mediapartners-Google

AdsBot Mobile Web Android

(проверяет качество рекламы на веб-страницах, предназначенных для устройств Android)

AdsBot-Google-Mobile

Mozilla/5.0 (Linux; Android 5.0; SM-G920A) AppleWebKit (KHTML, like Gecko) Chrome Mobile Safari (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)

AdsBot Mobile Web

(проверяет качество рекламы на веб-страницах, предназначенных для устройств iOS)

AdsBot-Google-Mobile

Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1 (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)

AdsBot

(проверяет качество рекламы на веб-страницах, предназначенных для компьютеров)

AdsBot-Google

AdsBot-Google (+http://www.google.com/adsbot.html)
Googlebot Image
  • Googlebot-Image
  • Googlebot
Googlebot-Image/1.0
Googlebot News
  • Googlebot-News
  • Googlebot
Googlebot-News
Googlebot Video
  • Googlebot-Video
  • Googlebot
Googlebot-Video/1.0

Googlebot (имитирует пользователя компьютера)

Googlebot

  • Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
  • Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Googlebot/2.1; +http://www.google.com/bot.html) Chrome/W.X.Y.Z Safari/537.36

    ИЛИ (в некоторых случаях)
  • Googlebot/2.1 (+http://www.google.com/bot.html)

Googlebot (имитирует пользователя мобильного устройства)

Googlebot

Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

Mobile AdSense

Mediapartners-Google

(Могут указываться различные типы мобильных устройств) (compatible; Mediapartners-Google/2.1; +http://www.google.com/bot.html)

Mobile Apps Android

(проверяет качество рекламы в приложениях для устройств Android, действует в соответствии с теми же правилами, что и Google AdsBot)

AdsBot-Google-Mobile-Apps

AdsBot-Google-Mobile-Apps

Feedfetcher

FeedFetcher-Google

Не учитывает правила в файле robots.txt. Подробнее…

FeedFetcher-Google; (+http://www.google.com/feedfetcher.html)

Google Read Aloud

Google-Read-Aloud

Не учитывает правила в файле robots.txt. Подробнее…

Текущие агенты:

  • Версия для компьютеров: Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.118 Safari/537.36 (compatible; Google-Read-Aloud; +https://developers.google.com/search/docs/advanced/crawling/overview-google-crawlers)
  • Версия для мобильных устройств: Mozilla/5.0 (Linux; Android 7.0; SM-G930V Build/NRD90M) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.125 Mobile Safari/537.36 (compatible; Google-Read-Aloud; +https://developers.google.com/search/docs/advanced/crawling/overview-google-crawlers)

Прежняя версия (больше не поддерживается): google-speakr

Duplex on the web

DuplexWeb-Google

Может игнорировать подстановочный знак *. Подробнее…

Mozilla/5.0 (Linux; Android 11; Pixel 2; DuplexWeb-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.193 Mobile Safari/537.36

Google Favicon

Получает значки, относящиеся к различным сайтам.

Google Favicon

В случае пользовательских запросов игнорирует правила в файле robots.txt.

Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.75 Safari/537.36 Google Favicon
Web Light

googleweblight

Не учитывает правила в файле robots.txt. Подробнее…

Mozilla/5.0 (Linux; Android 4.2.1; en-us; Nexus 5 Build/JOP40D) AppleWebKit/535.19 (KHTML, like Gecko; googleweblight) Chrome/38.0.1025.166 Mobile Safari/535.19
Google StoreBot Storebot-Google

Версия для компьютеров: Mozilla/5.0 (X11; Linux x86_64; Storebot-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36

Версия для мобильных устройств: Mozilla/5.0 (Linux; Android 8.0; Pixel 2 Build/OPD3.170816.012; Storebot-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Mobile Safari/537.36

Агенты пользователей в файлах robots.txt

Если в файле robots.txt обнаружится несколько токенов агентов пользователей, робот Google последует правилу с наиболее точно соответствующим ему токеном. Если вы хотите оставить сайт доступным для всех наших роботов, такой файл вообще не нужен. Чтобы запретить или разрешить всем поисковым роботам Google доступ к определенному контенту, укажите в правиле агент пользователя Googlebot. К примеру, чтобы все страницы сайта появлялись в Google Поиске, а на самих страницах показывались объявления AdSense, не используйте файл robots.txt. Если же вы решите полностью запретить Google сканировать некоторые страницы, правило для агента пользователя Googlebot заблокирует доступ к контенту и всем остальным нашим роботам.

В случае необходимости вы можете указать агент пользователя более точно. Предположим, вы хотите, чтобы все страницы сайта показывались в Google Поиске, но чтобы при этом не сканировались изображения из вашего личного каталога. В таком случае в файле robots.txt запретите агенту пользователя Googlebot-Image сканировать файлы в каталоге /personal. При этом робот Googlebot по-прежнему будет иметь доступ к файлам во всех каталогах. Запись должна выглядеть следующим образом:

User-agent: Googlebot
Disallow:

User-agent: Googlebot-Image
Disallow: /personal

Рассмотрим другой пример. Вы хотите разместить на всех страницах рекламу, но сами они не должны появляться в Google Поиске. В таком случае следует полностью заблокировать доступ агенту пользователя Googlebot, но разрешить сканирование агенту пользователя Mediapartners-Google. Запись должна выглядеть так:

User-agent: Googlebot
Disallow: /

User-agent: Mediapartners-Google
Disallow:

Агенты пользователей в метатегах robots

Некоторые страницы содержат несколько тегов meta, в которых указаны инструкции для различных поисковых роботов. Примеры:

<meta name="robots" content="nofollow">
<meta name="googlebot" content="noindex">

В этом случае Google будет следовать всем запрещающим инструкциям, а Googlebot выполнит обе директивы: noindex и nofollow. Подробнее об управлении сканированием и индексированием сайта роботами Google