Visão geral dos rastreadores do Google (user agents)
"Rastreador" (às vezes também chamado de "robô" ou "indexador") é um termo genérico para qualquer programa usado para descobrir e examinar sites automaticamente seguindo links entre páginas da Web. O principal rastreador do Google se chama
Googlebot. Esta tabela tem informações
sobre os rastreadores mais comuns do Google que podem aparecer nos registros de referenciadores e mostra como eles podem ser especificados no
robots.txt, nas
metatags robots e nas
diretivas HTTP X-Robots-Tag.
A tabela a seguir mostra os rastreadores usados por vários produtos e serviços do Google:
O token do user agent é incluído na linha User-agent: do robots.txt
ao criar regras de rastreamento do site para corresponder a um tipo de rastreador. Alguns rastreadores têm mais de
um token, como indicado na tabela. Para que uma regra seja aplicada, basta que um token corresponda
ao rastreador. Esta lista não está completa, mas inclui muitos dos rastreadores que podem acessar seu
site.
A string completa do user agent é uma descrição completa do rastreador e aparece
na solicitação HTTP e nos registros da Web.
Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1 (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)
Mozilla/5.0 (Linux; Android 4.2.1; en-us; Nexus 5 Build/JOP40D) AppleWebKit/535.19 (KHTML, like Gecko; googleweblight) Chrome/38.0.1025.166 Mobile Safari/535.19
Google StoreBot
Token do user agent
Storebot-Google
Strings completas do user agent
Agente de computador:
Mozilla/5.0 (X11; Linux x86_64; Storebot-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36
Agente de dispositivo móvel:
Mozilla/5.0 (Linux; Android 8.0; Pixel 2 Build/OPD3.170816.012; Storebot-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Mobile Safari/537.36
User agents no robots.txt
Nos casos em que diversos user agents são reconhecidos no arquivo robots.txt, o Google seguirá o mais
específico. Se você quer que o Google seja capaz de rastrear suas páginas, não será necessário um
arquivo robots.txt. Se você quer bloquear ou permitir que todos os rastreadores do Google acessem
seu conteúdo, será possível fazer isso especificando o Googlebot como user agent. Por exemplo,
se você quiser que todas as suas páginas apareçam na Pesquisa Google e que os anúncios do Google AdSense apareçam
nelas, um arquivo robots.txt não será necessário. De modo semelhante, se você quiser bloquear algumas páginas
do Google de uma só vez, o bloqueio do user agent Googlebot também bloqueará todos
os outros user agents do Google.
É possível ter um controle maior com ações mais específicas. Por exemplo, talvez você
queira que todas as suas páginas apareçam na Pesquisa Google, mas que as imagens em seu diretório
pessoal não sejam rastreadas. Nesse caso, use o robots.txt para proibir que o
user agent Googlebot-Image rastreie os arquivos no seu diretório pessoal
(enquanto permite que o Googlebot rastreie todos os arquivos) desta maneira:
Para usar outro exemplo, digamos que você queira anúncios em todas as suas páginas, mas que essas
páginas não apareçam na Pesquisa Google. Aqui você bloquearia o Googlebot, mas permitiria o
user agent Mediapartners-Google, desta maneira:
Cada rastreador do Google acessa sites para uma finalidade específica e em frequências diferentes. O Google usa algoritmos para determinar a taxa de rastreamento ideal para cada site. Se um rastreador do Google rastrear seu site com muita frequência, você poderá reduzir a taxa de rastreamento.