Под этим термином понимаются любые программы, которые автоматически обнаруживают и сканируют сайты, переходя по ссылкам от страницы к странице. Наш основной поисковый робот называется Googlebot. В таблице ниже приведены сведения об основных поисковых роботах Google, регистрируемых в журналах источников ссылок. Также из таблицы вы узнаете, как указывать этих роботов в файле robots.txt, в метатегах robots и в HTTP-директивах X-Robots-Tag.
Поисковые роботы, перечисленные ниже, применяются продуктами и сервисами Google:
- Токен агента пользователя указывается в строке
User-agent:
файла robots.txt и используется при создании правил сканирования для определенных поисковых роботов. Как видно из таблицы, некоторым роботам соответствует более одного токена. Для применения правила достаточно написать один вариант. Приведенный ниже перечень не является исчерпывающим, но содержит информацию о наиболее распространенным роботах. - Полная строка агента пользователя – это полное описание поискового робота. Оно указывается в запросах и журналах.
Поисковый робот | Токен агента пользователя (продукта Google) | Полная строка агента пользователя |
---|---|---|
APIs-Google |
|
APIs-Google (+https://developers.google.com/webmasters/APIs-Google.html) |
AdSense |
|
Mediapartners-Google |
(проверяет качество рекламы на веб-страницах, предназначенных для устройств Android) |
|
Mozilla/5.0 (Linux; Android 5.0; SM-G920A) AppleWebKit (KHTML, like Gecko) Chrome Mobile Safari (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html) |
(проверяет качество рекламы на веб-страницах, предназначенных для устройств iOS) |
|
Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1 (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html) |
(проверяет качество рекламы на веб-страницах, предназначенных для компьютеров) |
|
AdsBot-Google (+http://www.google.com/adsbot.html ) |
Googlebot Image |
|
Googlebot-Image/1.0 |
Googlebot News |
|
Googlebot-News |
Googlebot Video |
|
Googlebot-Video/1.0 |
Googlebot (имитирует пользователя компьютера) |
|
|
Googlebot (имитирует пользователя мобильного устройства) |
|
|
Mobile AdSense |
|
(Могут указываться различные типы мобильных устройств) (compatible; Mediapartners-Google/2.1 ; +http://www.google.com/bot.html ) |
(проверяет качество рекламы в приложениях для устройств Android, действует в соответствии с теми же правилами, что и Google AdsBot) |
|
AdsBot-Google-Mobile-Apps |
|
|
|
|
Текущие агенты
Прежняя версия (больше не поддерживается): |
|
Duplex в Интернете |
|
Mozilla/5.0 (Linux; Android 8.0; Pixel 2 Build/OPD3.170816.012; DuplexWeb-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.131 Mobile Safari/537.36 |
Google Favicon Получает значки для различных сайтов. |
В случае пользовательских запросов игнорирует правила в файле robots.txt. |
Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.75 Safari/537.36 Google Favicon |
Web Light |
|
Mozilla/5.0 (Linux; Android 4.2.1; en-us; Nexus 5 Build/JOP40D) AppleWebKit/535.19 (KHTML, like Gecko; googleweblight) Chrome/38.0.1025.166 Mobile Safari/535.19 |
Google StoreBot | Storebot-Google |
Версия для компьютеров:
Версия для мобильных устройств:
|
Агенты пользователя в файлах robots.txt
Если в файле robots.txt обнаружится несколько токенов агентов пользователя, робот Google последует правилу с наиболее точно соответствующим ему токеном. Если вы хотите оставить сайт доступным для всех наших роботов, такой файл вообще не нужен. Чтобы запретить или разрешить всем поисковым роботам Google доступ к части своих материалов, укажите в правиле агент пользователя Googlebot. К примеру, чтобы все страницы сайта появлялись в Google Поиске, а на самих страницах показывались объявления AdSense, не используйте файл robots.txt. Если же вам нужно полностью запретить Google сканировать некоторые страницы, правило для агента пользователя Googlebot
заблокирует доступ и всем остальным нашим роботам.
В случае необходимости вы можете указать агент пользователя более точно. Предположим, вы хотите, чтобы все страницы сайта показывались в Google Поиске, но чтобы при этом не сканировались изображения из вашего личного каталога. Тогда вам следует запретить сканирование файлов в личном каталоге агенту пользователя Googlebot-Image
, разрешив доступ ко всем файлам агенту пользователя Googlebot. Вот как это выглядит:
User-agent: Googlebot Disallow: User-agent: Googlebot-Image Disallow: /personalРассмотрим другой пример. Вы хотите разместить на всех страницах рекламу, но сами они не должны появляться в Google Поиске. В таком случае следует полностью заблокировать доступ агенту пользователя Googlebot, но разрешить сканирование агенту пользователя
Mediapartners-Google
:
User-agent: Googlebot Disallow: / User-agent: Mediapartners-Google Disallow:
Агенты пользователя в метатегах robots
Некоторые страницы содержат несколько тегов meta, в которых указаны инструкции для различных поисковых роботов. Примеры:
<meta name="robots" content="nofollow"> <meta name="googlebot" content="noindex">
В этом случае Google будет использовать все запрещающие инструкции, а Googlebot выполнит обе директивы: noindex
и nofollow
. Подробнее об управлении сканированием и индексированием сайта роботами Google…