Visão geral dos rastreadores do Google (user agents)

"Rastreador" é um termo genérico para qualquer programa (como um robô ou indexador) usado para detectar e examinar sites automaticamente seguindo links de uma página da Web para outra. O principal rastreador do Google se chama Googlebot. Esta tabela tem informações sobre os rastreadores mais comuns do Google que podem aparecer nos registros de referenciadores e como eles precisam ser especificados no robots.txt, nas metatags robots e nas diretivas de HTTP X-Robots-Tag.

A tabela a seguir mostra os rastreadores usados por vários produtos e serviços do Google:

  • O token do user agent é incluído na linha User-agent: do robots.txt ao criar regras de rastreamento do site e corresponde a um tipo de rastreador. Alguns rastreadores têm mais de um token, como indicado na tabela. Para que uma regra seja aplicada, basta que um token corresponda ao rastreador. Esta lista não está completa, mas inclui muitos dos rastreadores que podem acessar seu site.
  • A string completa do user agent é uma descrição completa do rastreador e aparece na solicitação e nos registros da Web.
Rastreador Token do user agent (token do produto) String completa do user agent
APIs-Google

APIs-Google

APIs-Google (+https://developers.google.com/webmasters/APIs-Google.html)
Google AdSense

Mediapartners-Google

Mediapartners-Google

AdsBot Mobile Web Android

Verifica a qualidade dos anúncios nas páginas da Web no Android.

AdsBot-Google-Mobile

Mozilla/5.0 (Linux; Android 5.0; SM-G920A) AppleWebKit (KHTML, like Gecko) Chrome Mobile Safari (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)

AdsBot Mobile Web

Verifica a qualidade dos anúncios nas páginas da Web no iPhone.

AdsBot-Google-Mobile

Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1 (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)

AdsBot

Verifica a qualidade dos anúncios nas páginas da Web em computadores.

AdsBot-Google

AdsBot-Google (+http://www.google.com/adsbot.html)
Googlebot Image
  • Googlebot-Image
  • Googlebot
Googlebot-Image/1.0
Googlebot News
  • Googlebot-News
  • Googlebot
Googlebot-News
Googlebot Video
  • Googlebot-Video
  • Googlebot
Googlebot-Video/1.0

Googlebot (computadores)

Googlebot

  • Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
  • Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Googlebot/2.1; +http://www.google.com/bot.html) Chrome/W.X.Y.Z Safari/537.36

    outra opção (pouco usada):
  • Googlebot/2.1 (+http://www.google.com/bot.html)

Googlebot (smartphones)

Googlebot

Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

Mobile AdSense

Mediapartners-Google

(Vários tipos de dispositivos móveis) (compatible; Mediapartners-Google/2.1; +http://www.google.com/bot.html)

Mobile Apps Android

Verifica a qualidade dos anúncios nas páginas da Web em aplicativos Android. Segue as regras de robôs AdsBot-Google.

AdsBot-Google-Mobile-Apps

AdsBot-Google-Mobile-Apps

Feedfetcher

FeedFetcher-Google

Não respeita as regras do robots.txt. Veja os motivos.

FeedFetcher-Google; (+http://www.google.com/feedfetcher.html)

Google Read Aloud

Google-Read-Aloud

Não respeita as regras do robots.txt. Veja os motivos.

Agentes atuais:

  • Agente de computador: Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.118 Safari/537.36 (compatible; Google-Read-Aloud; +https://developers.google.com/search/docs/advanced/crawling/overview-google-crawlers)
  • Agente de dispositivo móvel: Mozilla/5.0 (Linux; Android 7.0; SM-G930V Build/NRD90M) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.125 Mobile Safari/537.36 (compatible; Google-Read-Aloud; +https://developers.google.com/search/docs/advanced/crawling/overview-google-crawlers)

User agent antigo (uso suspenso): google-speakr

Duplex na Web

DuplexWeb-Google

Talvez ignore o caractere curinga *. Veja os motivos.

Mozilla/5.0 (Linux; Android 8.0; Pixel 2 Build/OPD3.170816.012; DuplexWeb-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.131 Mobile Safari/537.36

Google Favicon

Recupera favicons para vários serviços.

Google Favicon

Para solicitações iniciadas pelo usuário, ignora regras do robots.txt

Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.75 Safari/537.36 Google Favicon
Web Light

googleweblight

Não respeita as regras do robots.txt. Veja os motivos.

Mozilla/5.0 (Linux; Android 4.2.1; en-us; Nexus 5 Build/JOP40D) AppleWebKit/535.19 (KHTML, like Gecko; googleweblight) Chrome/38.0.1025.166 Mobile Safari/535.19
Google StoreBot Storebot-Google

Agente de computador: Mozilla/5.0 (X11; Linux x86_64; Storebot-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36

Agente de dispositivo móvel: Mozilla/5.0 (Linux; Android 8.0; Pixel 2 Build/OPD3.170816.012; Storebot-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Mobile Safari/537.36

User agents no robots.txt

Nos casos em que diversos user agents são reconhecidos no arquivo robots.txt, o Google seguirá o mais específico. Se você quer que todo o Google seja capaz de rastrear suas páginas, você não precisa de um arquivo robots.txt. Se você quer bloquear ou permitir que todos os rastreadores do Google acessem seu conteúdo, será possível fazer isso especificando o Googlebot como user agent. Por exemplo, se você quiser que todas as suas páginas apareçam na Pesquisa Google e que os anúncios do Google AdSense apareçam em suas páginas, um arquivo robots.txt não será necessário. De modo semelhante, se você quiser bloquear algumas páginas do Google de uma só vez, o bloqueio do user agent Googlebot também bloqueará todos os outros user agents do Google.

É possível ser mais específico e ter um controle maior. Por exemplo, talvez você queira que todas as suas páginas apareçam na Pesquisa Google, mas que as imagens em seu diretório pessoal não sejam rastreadas. Nesse caso, use o robots.txt para proibir que o user agent Googlebot-Image rastreie os arquivos no seu diretório pessoal (enquanto permite que o Googlebot rastreie todos os arquivos) desta maneira:

User-agent: Googlebot
Disallow:

User-agent: Googlebot-Image
Disallow: /personal

Para usar outro exemplo, digamos que você queira anúncios em todas as suas páginas, mas que essas páginas não apareçam na Pesquisa Google. Aqui você bloquearia o Googlebot, mas permitiria o user agent Mediapartners-Google, desta maneira:

User-agent: Googlebot
Disallow: /

User-agent: Mediapartners-Google
Disallow:

User agents em metatags robots

Algumas páginas usam várias metatags robots para especificar diretivas voltadas a diferentes rastreadores, desta maneira:

<meta name="robots" content="nofollow">
<meta name="googlebot" content="noindex">

Nesse caso, o Google usará a soma das diretivas negativas, e o Googlebot seguirá as diretivas noindex e nofollow. Informações mais detalhadas sobre como controlar o rastreamento e a indexação do seu site pelo Google.