Агент пользователя для сервиса "Duplex в Интернете"

DuplexWeb-Google представляет собой агент пользователя, с помощью которого Google Duplex в Интернете получает необходимые данные. Токены и полные строки для различных агентов пользователя приведены в этой статье.

Особенности и частота сканирования

  • Ни один сервис, использующий DuplexWeb-Google, не совершает покупки или другие важные действия при сканировании вашего сайта.
  • DuplexWeb-Google выполняет сканирование от нескольких раз в день до нескольких раз в час в зависимости от обучаемой функции, но с таким расчетом, чтобы не перегрузить ваш сайт и не нарушить его трафик.
  • Результаты сканирования DuplexWeb-Google не используются для индексирования в Google Поиске. Поэтому агент пользователя DuplexWeb-Google не распознает директиву noindex.
  • В отчетах Google Аналитики не регистрируются запросы страниц, поступившие от DuplexWeb-Google во время сканирования и анализа.

Как управлять сканированием с помощью правил в файле robots.txt

Если вы не хотите, чтобы робот DuplexWeb-Google сканировал ваши страницы, вам необходимо явным образом заблокировать ему доступ к ним с помощью правила Disallow в файле robots.txt. Отключить обучение в настройках ресурса в Search Console недостаточно.

Робот DuplexWeb-Google следует правилам, указанным в файле robots.txt, однако есть одно важное исключение:

  • Если Google Duplex в Интернете включен в сервисе Search Console (настройка по умолчанию), то на работу агента пользователя DuplexWeb-Google не будут влиять выражения Disallow с подстановочным знаком * в строке user-agent. Если же Google Duplex в Интернете активирован в Search Console, то такой синтаксис будет действителен для агента пользователя DuplexWeb-Google. Примеры

# Example 1: Block DuplexWeb-Google from crawling your site
User-agent: DuplexWeb-Google
Disallow: /

# Example 2:
# * If Duplex on the web is enabled for this property in Search Console,
#   block all user agents except DuplexWeb-Google.
# * If Duplex on the web is disabled for this property in Search Console,
#   block all user agents including Duplex-WebGoogle.
User-agent: *
Disallow: /