"Rastreador" é um termo genérico para qualquer programa (como um robô ou indexador) usado para detectar e examinar sites automaticamente seguindo links de uma página para outra. O principal rastreador do Google se chama Googlebot. Esta tabela tem informações sobre os rastreadores mais comuns do Google que podem aparecer nos registros de referenciadores e como eles devem ser especificados no robots.txt, nas metatags robots e nas diretivas de HTTP X-Robots-Tag.
A tabela a seguir mostra os rastreadores usados por vários produtos e serviços do Google:
- O token do user agent é incluído na linha
User-agent:
do robots.txt ao criar regras de rastreamento do site e corresponde a um tipo de rastreador. Alguns rastreadores têm mais de um token, como indicado na tabela. Para que uma regra seja aplicada, basta que um token corresponda ao rastreador. Esta lista não está completa, mas inclui muitos dos rastreadores que podem acessar seu site. - A string completa do user agent é uma descrição completa do rastreador e aparece na solicitação e nos registros da Web.
Rastreador | Token do user agent (token do produto) | String completa do user agent |
---|---|---|
APIs-Google |
|
APIs-Google (+https://developers.google.com/webmasters/APIs-Google.html) |
Google AdSense |
|
Mediapartners-Google |
Verifica a qualidade dos anúncios nas páginas da Web no Android. |
|
Mozilla/5.0 (Linux; Android 5.0; SM-G920A) AppleWebKit (KHTML, like Gecko) Chrome Mobile Safari (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html) |
Verifica a qualidade dos anúncios nas páginas da Web no iPhone. |
|
Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1 (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html) |
Verifica a qualidade dos anúncios nas páginas da Web em computadores. |
|
AdsBot-Google (+http://www.google.com/adsbot.html ) |
Googlebot Image |
|
Googlebot-Image/1.0 |
Googlebot News |
|
Googlebot-News |
Googlebot Video |
|
Googlebot-Video/1.0 |
Googlebot (computadores) |
|
|
Googlebot (smartphones) |
|
|
Mobile AdSense |
|
Vários tipos de dispositivos móveis (compatible; Mediapartners-Google/2.1 ; +http://www.google.com/bot.html ) |
Verifica a qualidade dos anúncios nas páginas da Web em aplicativos Android. Segue as regras de robôs AdsBot-Google. |
|
AdsBot-Google-Mobile-Apps |
|
|
|
|
Agentes atuais:
User agent antigo (uso suspenso): |
|
Duplex na Web |
|
Mozilla/5.0 (Linux; Android 8.0; Pixel 2 Build/OPD3.170816.012; DuplexWeb-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.131 Mobile Safari/537.36 |
Google Favicon Recupera favicons para vários serviços. |
Para solicitações iniciadas pelo usuário, ignora regras do robots.txt |
Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.75 Safari/537.36 Google Favicon |
Web Light |
|
Mozilla/5.0 (Linux; Android 4.2.1; en-us; Nexus 5 Build/JOP40D) AppleWebKit/535.19 (KHTML, like Gecko; googleweblight) Chrome/38.0.1025.166 Mobile Safari/535.19 |
Quando a string Chrome/W.X.Y.Z for exibida nas strings do user agent na tabela, W.X.Y.Z serve como um marcador que representa a versão do navegador Chrome usada por ele, como 41.0.2272.96. O número da versão aumentará com o tempo para corresponder à versão mais recente do Chromium usada pelo Googlebot.
Se você pesquisar seus registros ou filtrar seu servidor por user agent com esse padrão, use caracteres curingas para o número da versão em vez de especificar um número exato.
User agents no robots.txt
Nos casos em que diversos user agents são reconhecidos no arquivo robots.txt, o Google seguirá o mais específico. Se você desejar que o Google seja capaz de rastrear suas páginas, um arquivo robots.txt não será necessário. Se você desejar bloquear ou permitir que todos os rastreadores do Google acessem seu conteúdo, será possível fazer isso especificando o Googlebot como user agent. Por exemplo, se você desejar que todas as suas páginas apareçam na Pesquisa Google e que os anúncios do Google AdSense apareçam em suas páginas, um arquivo robots.txt não será necessário. De modo semelhante, se você desejar bloquear algumas páginas do Google de uma só vez, o bloqueio do user agent Googlebot também bloqueará todos os outros user agents do Google.
Se você desejar um controle maior, será possível ser mais específico. Por exemplo, talvez você queira que todas as suas páginas apareçam na Pesquisa Google, mas que as imagens em seu diretório pessoal não sejam rastreadas. Nesse caso, use o robots.txt para proibir que o user agent Googlebot-image rastreie os arquivos no seu /diretório pessoal (enquanto permite que o Googlebot rastreie todos os arquivos) desta forma:
User-agent: Googlebot Disallow: User-agent: Googlebot-Image Disallow: /personalPara usar outro exemplo, digamos que você queira anúncios em todas as suas páginas, mas essas páginas não apareçam na Pesquisa Google. Você bloquearia o Googlebot, mas permitiria o Mediapartners-Google desta forma:
User-agent: Googlebot Disallow: / User-agent: Mediapartners-Google Disallow:
User agents em metatags robots
Algumas páginas usam várias metatags robots para especificar diretivas voltadas a diferentes rastreadores desta forma:
<meta name="robots" content="nofollow"> <meta name="googlebot" content="noindex">
Nesse caso, o Google usará a soma das diretivas negativas, e o Googlebot seguirá as diretivas noindex
e nofollow
. Informações mais detalhadas sobre como controlar o rastreamento e a indexação do seu site pelo Google.