Visão geral dos rastreadores e coletores do Google (user agents)

O Google usa rastreadores e coletores para executar ações para os produtos, de forma automática ou mediante solicitação do usuário.

"Rastreador" (às vezes também chamado de "robô" ou "indexador") é um termo genérico para qualquer programa usado para descobrir e examinar sites automaticamente seguindo links entre páginas da Web. O principal rastreador do Google usado para a Pesquisa Google se chama Googlebot.

Coletores, como um navegador, são ferramentas que solicitam um único URL quando instruídas por um usuário.

As tabelas a seguir mostram os rastreadores e coletores do Google usados por vários produtos e serviços, como eles podem aparecer nos registros de referenciadores e como os especificar no robots.txt. As listas não são completas e abrangem apenas os solicitantes mais comuns que podem aparecer nos arquivos de registro.

  • O token do user agent é incluído na linha User-agent: do robots.txt ao criar regras de rastreamento do site para corresponder a um tipo de rastreador. Alguns rastreadores têm mais de um token, como indicado na tabela. Para que uma regra seja aplicada, basta que um token corresponda ao rastreador. Esta lista não está completa, mas inclui muitos dos rastreadores que podem acessar seu site.
  • A string completa do user agent é uma descrição completa do rastreador e aparece na solicitação HTTP e nos registros da Web.

Rastreadores comuns

Os rastreadores mais comuns do Google são usados para criar índices de pesquisa, realizar rastreamentos específicos de outros produtos e fazer análises. Eles sempre obedecem às regras do robots.txt e geralmente rastreiam a partir dos intervalos de IP publicados no objeto googlebot.json.

Rastreadores comuns

Googlebot para smartphones

Token do user agent Googlebot
String completa do user agent Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

Googlebot para computadores

Token do user agent Googlebot
Strings completas do user agent
  • Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Googlebot/2.1; +http://www.google.com/bot.html) Chrome/W.X.Y.Z Safari/537.36
  • Raramente:
    • Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
    • Googlebot/2.1 (+http://www.google.com/bot.html)

Googlebot Image

Usado para rastrear bytes de imagens para o Imagens do Google e produtos que dependem de imagens.

Tokens do user agent
  • Googlebot-Image
  • Googlebot
String completa do user agent Googlebot-Image/1.0

Googlebot-News

O Googlebot News usa o Googlebot para rastrear notícias, mas respeita o token histórico do user agent Googlebot-News.

Tokens do user agent
  • Googlebot-News
  • Googlebot
String completa do user agent O user agent Googlebot-News usa as várias strings de user agent do Googlebot.

Googlebot Video

Usado para rastrear bytes de vídeo para o Google e produtos que dependem de vídeos.

Tokens do user agent
  • Googlebot-Video
  • Googlebot
String completa do user agent Googlebot-Video/1.0

Google StoreBot

O Google StoreBot rastreia determinados tipos de página, por exemplo, páginas de detalhes do produto, do carrinho e de finalização da compra.

Token do user agent Storebot-Google
Strings completas do user agent
  • Agente de computador:
    Mozilla/5.0 (X11; Linux x86_64; Storebot-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Safari/537.36
  • Agente de dispositivo móvel:
    Mozilla/5.0 (Linux; Android 8.0; Pixel 2 Build/OPD3.170816.012; Storebot-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36

Google-InspectionTool

O Google-InspectionTool é o rastreador usado pelas ferramentas de teste da Pesquisa, como o teste de pesquisa aprimorada e a inspeção de URL no Search Console. Com exceção do user agent e do token do user agent, ele imita o Googlebot.

Token do user agent
  • Google-InspectionTool
  • Googlebot
String completa do user agent
  • Dispositivo móvel
    Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; Google-InspectionTool/1.0;)
  • Computador
    Mozilla/5.0 (compatible; Google-InspectionTool/1.0;)

GoogleOther

O GoogleOther é o rastreador genérico que pode ser usado por várias equipes de produto para buscar conteúdo acessível publicamente nos sites. Ele pode ser usado em rastreamentos únicos para pesquisa interna e desenvolvimento, por exemplo.

Token do user agent GoogleOther
String completa do user agent GoogleOther

Google-Extended

O Google-Extended é um token de produto independente que os editores da Web podem usar para gerenciar se os sites deles ajudam a melhorar as APIs generativas dos apps Gemini e da Vertex AI, incluindo as gerações futuras de modelos usados por esses produtos. O Google-Extended não afeta a inclusão ou classificação de um site na Pesquisa Google.

Token do user agent Google-Extended
String completa do user agent O Google-Extended não tem uma string do user agent de solicitação HTTP separada. O rastreamento é feito com strings dos user agents atuais do Google. O token do user agent do robots.txt é usado em uma capacidade de controle.

Rastreadores de casos especiais

Os rastreadores de casos especiais são usados por produtos específicos quando há um acordo entre o site rastreado e o produto sobre o processo de rastreamento. Por exemplo, AdsBot ignora o user agent global (*) do robots.txt com a permissão do editor de anúncios. Os rastreadores de casos especiais podem ignorar as regras do robots.txt. Por isso, eles operam em um intervalo de IP diferente dos rastreadores comuns. Os intervalos de IP são publicados no objeto special-crawlers.json.

Rastreadores de casos especiais

APIs-Google

Usado pelas APIs do Google para enviar mensagens de notificações push. Ignora o user agent global (*) no robots.txt.

Token do user agent APIs-Google
String completa do user agent APIs-Google (+https://developers.google.com/webmasters/APIs-Google.html)

AdsBot Mobile Web Android

Confere a qualidade dos anúncios nas páginas da Web no Android. Ignora o user agent global (*) no robots.txt.

Token do user agent AdsBot-Google-Mobile
String completa do user agent Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)

AdsBot Mobile Web

Confere a qualidade dos anúncios nas páginas da Web em iPhones. Ignora o user agent global (*) no robots.txt.

Token do user agent AdsBot-Google-Mobile
String completa do user agent Mozilla/5.0 (iPhone; CPU iPhone OS 14_7_1 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/14.1.2 Mobile/15E148 Safari/604.1 (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)

AdsBot

Confere a qualidade dos anúncios nas páginas da Web em computadores. Ignora o user agent global (*) no robots.txt.

Token do user agent AdsBot-Google
String completa do user agent AdsBot-Google (+http://www.google.com/adsbot.html)

AdSense

O rastreador do Google AdSense acessa seu site para identificar seu conteúdo com a finalidade de fornecer anúncios relevantes. Ignora o user agent global (*) no robots.txt.

Token do user agent Mediapartners-Google
String completa do user agent Mediapartners-Google

Mobile AdSense

O rastreador Mobile AdSense visita seu site para determinar seu conteúdo a fim de fornecer anúncios relevantes. Ignora o user agent global (*) no robots.txt.

Token do user agent Mediapartners-Google
String completa do user agent (Various mobile device types) (compatible; Mediapartners-Google/2.1; +http://www.google.com/bot.html)

Google-Safety

O user agent do Google-Safety processa o rastreamento específico de abuso, como a descoberta de malware em links postados publicamente nos Serviços do Google. Esse user agent ignora as regras do robots.txt.

String completa do user agent Google-Safety

Coletores acionados pelo usuário

Esses coletores são acionados pelos usuários para executar uma função específica do produto. Por exemplo, o Verificador de sites do Google age conforme a solicitação do usuário. Como a busca foi solicitada por um usuário, esses coletores geralmente ignoram as regras do robots.txt. Os intervalos de IP que os coletores acionados pelo usuário usam são publicados no objeto user-triggered-fetchers.json.

Coletores acionados pelo usuário

Feedfetcher

O Feedfetcher é usado para rastrear feeds RSS ou Atom para o Google Podcasts, o Google Notícias e o PubSubHubbub.

Token do user agent FeedFetcher-Google
String completa do user agent FeedFetcher-Google; (+http://www.google.com/feedfetcher.html)

Central do Editor do Google

Busca e processa os feeds que os editores forneceram explicitamente pela Central do Editor do Google para serem usados nas páginas de destino do Google Notícias.

String completa do user agent GoogleProducer; (+http://goo.gl/7y4SX)

Google Read Aloud

Mediante solicitação do usuário, o Google Read Aloud busca e lê páginas da Web usando a conversão de texto em voz (TTS).

Strings completas do user agent

Agentes atuais:

  • Agente de computador:
    Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.118 Safari/537.36 (compatible; Google-Read-Aloud; +https://support.google.com/webmasters/answer/1061943)
  • Agente de dispositivo móvel:
    Mozilla/5.0 (Linux; Android 7.0; SM-G930V Build/NRD90M) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.125 Mobile Safari/537.36 (compatible; Google-Read-Aloud; +https://support.google.com/webmasters/answer/1061943)

Agente antigo (descontinuado):

google-speakr

Verificador de sites do Google

O Verificador de sites do Google faz buscas quando os usuários solicitam tokens de verificação do Search Console.

String completa do user agent Mozilla/5.0 (compatible; Google-Site-Verification/1.0)

Uma observação sobre Chrome/W.X.Y.Z nos user agents

Quando a string Chrome/W.X.Y.Z for exibida nas strings do user agent na tabela, W.X.Y.Z serve como um marcador de posição que representa a versão do navegador Chrome usada por ele, como 41.0.2272.96. O número da versão aumentará com o tempo para corresponder à versão mais recente do Chromium usada pelo Googlebot.

Se você pesquisar seus registros ou filtrar seu servidor por user agent com esse padrão, use caracteres curingas para o número da versão em vez de especificar um número exato.

User agents no robots.txt

Nos casos em que diversos user agents são reconhecidos no arquivo robots.txt, o Google seguirá o mais específico. Se você quer que o Google seja capaz de rastrear suas páginas, não será necessário um arquivo robots.txt. Se você quer bloquear ou permitir que todos os rastreadores do Google acessem seu conteúdo, será possível fazer isso especificando o Googlebot como user agent. Por exemplo, se você quiser que todas as suas páginas apareçam na Pesquisa Google e que os anúncios do Google AdSense apareçam nelas, um arquivo robots.txt não será necessário. De modo semelhante, se você quiser bloquear algumas páginas do Google de uma só vez, o bloqueio do user agent Googlebot também bloqueará todos os outros user agents do Google.

É possível ter um controle maior com ações mais específicas. Por exemplo, talvez você queira que todas as suas páginas apareçam na Pesquisa Google, mas que as imagens em seu diretório pessoal não sejam rastreadas. Nesse caso, use o robots.txt para proibir que o user agent Googlebot-Image rastreie os arquivos no seu diretório pessoal (enquanto permite que o Googlebot rastreie todos os arquivos) desta maneira:

User-agent: Googlebot
Disallow:

User-agent: Googlebot-Image
Disallow: /personal

Para usar outro exemplo, digamos que você queira anúncios em todas as suas páginas, mas que essas páginas não apareçam na Pesquisa Google. Aqui você bloquearia o Googlebot, mas permitiria o user agent Mediapartners-Google, desta maneira:

User-agent: Googlebot
Disallow: /

User-agent: Mediapartners-Google
Disallow:

Como controlar a velocidade de rastreamento

Cada rastreador do Google acessa sites para uma finalidade específica e em frequências diferentes. O Google usa algoritmos para determinar a taxa de rastreamento ideal para cada site. Se um rastreador do Google rastrear seu site com muita frequência, você poderá reduzir a taxa de rastreamento.

Rastreadores do Google desativados

Os rastreadores do Google a seguir não estão mais em uso e são mencionados apenas para referência histórica.

Rastreadores do Google desativados

Duplex na Web

Era compatível com o serviço Duplex na Web.

Token do user agent DuplexWeb-Google
String completa do user agent Mozilla/5.0 (Linux; Android 11; Pixel 2; DuplexWeb-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.193 Mobile Safari/537.36

Web Light

Conferia a presença do cabeçalho no-transform sempre que um usuário clicava na página na Pesquisa sob as condições apropriadas. O user agent do Web Light era usado somente para solicitações explícitas de navegação de visitantes humanos. Portanto, ele ignorava as regras do robots.txt, que são usadas para bloquear solicitações de rastreamento automatizadas.

Token do user agent googleweblight
String completa do user agent Mozilla/5.0 (Linux; Android 4.2.1; en-us; Nexus 5 Build/JOP40D) AppleWebKit/535.19 (KHTML, like Gecko; googleweblight) Chrome/38.0.1025.166 Mobile Safari/535.19

Mobile Apps Android

Confere a qualidade dos anúncios nas páginas dos apps Android. Obedece às regras de robôs AdsBot-Google, mas ignora o user agent global (*) no robots.txt.

Token do user agent AdsBot-Google-Mobile-Apps
String completa do user agent AdsBot-Google-Mobile-Apps

Google Favicon

Token do user agent
  • Googlebot-Image
  • Googlebot
String completa do user agent Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.75 Safari/537.36 Google Favicon