Оптимизируйте свои подборки
Сохраняйте и классифицируйте контент в соответствии со своими настройками.
Поисковые роботы Google (агенты пользователей)
Поисковый робот (который иногда называют просто "робот" или "паук") – это программа, которая автоматически обнаруживает и сканирует сайты, переходя по ссылкам от страницы к странице. Основной поисковый робот Google называется Googlebot. В таблице ниже можно посмотреть, какие роботы Google обычно упоминаются в журналах переходов и как их указывать в файле robots.txt, метатегах robots и HTTP-директивах X-Robots-Tag.
Поисковые роботы обеспечивают работу различных продуктов и сервисов Google.
Токен агента пользователя указывается в строке User-agent: файла robots.txt и позволяет выбирать, на каких поисковых роботов будет распространяться то или иное правило сканирования. Как видно из таблицы, некоторым роботам соответствует несколько токенов, но для того, чтобы правило действовало, достаточно одного. Приведенный ниже перечень не является исчерпывающим, но содержит информацию о роботах, которые с наибольшей вероятностью будут посещать ваш сайт.
Полная строка агента пользователя – это подробное описание поискового робота. Оно указывается в HTTP-запросах и журналах.
Mozilla/5.0 (iPhone; CPU iPhone OS 14_7_1 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/14.1.2 Mobile/15E148 Safari/604.1 (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)
Версия для компьютеров: Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.118 Safari/537.36 (compatible; Google-Read-Aloud; +https://developers.google.com/search/docs/crawling-indexing/overview-google-crawlers)
Версия для мобильных устройств: Mozilla/5.0 (Linux; Android 7.0; SM-G930V Build/NRD90M) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.125 Mobile Safari/537.36 (compatible; Google-Read-Aloud; +https://developers.google.com/search/docs/crawling-indexing/overview-google-crawlers)
При поиске агента пользователя в журнале или на сервере не указывайте точное значение версии, а используйте подстановочные знаки.
Агенты пользователя в файлах robots.txt
Если в файле robots.txt обнаружится несколько токенов агентов пользователей, робот Google последует правилу с наиболее точно соответствующим ему токеном. Если вы хотите оставить сайт доступным для всех наших роботов, такой файл вообще не нужен. Чтобы запретить или разрешить всем поисковым роботам Google доступ к определенному контенту, укажите в правиле агент пользователя Googlebot. К примеру, чтобы все страницы сайта появлялись в Google Поиске, а на самих страницах показывались объявления AdSense, не используйте файл robots.txt. Если же вы решите полностью запретить Google сканировать некоторые страницы, правило для агента пользователя Googlebot заблокирует доступ к контенту и всем остальным нашим роботам.
Можно указать агент пользователя более точно. Предположим, вы хотите, чтобы все страницы сайта показывались в Google Поиске, но чтобы при этом не сканировались изображения из вашего личного каталога. В таком случае в файле robots.txt запретите агенту пользователя Googlebot-Image сканировать файлы в каталоге /personal. При этом робот Googlebot по-прежнему будет иметь доступ к файлам во всех каталогах. Запись должна выглядеть следующим образом:
Рассмотрим другой пример. Вы хотите разместить на всех страницах рекламу, но сами страницы не должны появляться в Google Поиске. В таком случае следует полностью заблокировать доступ роботу Googlebot, но разрешить сканирование агенту пользователя Mediapartners-Google. Запись должна выглядеть так:
Поисковые роботы Google посещают сайты с разными целями. Периодичность их появлений тоже отличается. Чтобы определить оптимальную частоту сканирования каждого сайта, Google использует ряд алгоритмов. Если наш поисковый робот посещает ваш ресурс слишком часто, вы можете уменьшить частоту сканирования.
Устаревшие поисковые роботы Google
Указанные поисковые роботы Google больше не используются и перечислены здесь лишь для справки.
Устаревшие поисковые роботы Google
Duplex в интернете
Обеспечивал работу сервиса "Duplex в интернете".
Токен агента пользователя
DuplexWeb-Google
Полная строка агента пользователя
Mozilla/5.0 (Linux; Android 11; Pixel 2; DuplexWeb-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.193 Mobile Safari/537.36
Web Light
Проверял наличие заголовка no-transform, когда пользователь нажимал на ссылку на вашу страницу в результатах поиска при определенных условиях. Агент пользователя Web Light действовал, только когда посетитель явным образом запрашивал страницу в браузере. При этом правила в файле robots.txt блокируют только автоматические запросы на сканирование, поэтому они не относились к Web Light.
Токен агента пользователя
googleweblight
Полная строка агента пользователя
Mozilla/5.0 (Linux; Android 4.2.1; en-us; Nexus 5 Build/JOP40D) AppleWebKit/535.19 (KHTML, like Gecko; googleweblight) Chrome/38.0.1025.166 Mobile Safari/535.19