O que saber sobre o rastreamento da web do Google

O Google rastreia a web aberta há mais de 30 anos, e recebemos perguntas regularmente sobre como nossos rastreadores da web funcionam. Para responder a algumas delas, confira alguns fatos sobre os rastreadores do Google e como eles nos ajudam a organizar as informações do mundo, conectando pessoas a conteúdo de toda a web.

O que é rastreamento? Em resumo, é como o Google "vê" a web.

O rastreamento é o processo de usar um software automatizado para descobrir novas páginas da web e entendê-las. Assim, quando você usa o Google para encontrar uma página, sabemos que ela existe e podemos incluí-la nos resultados da pesquisa. Todos os mecanismos de pesquisa usam rastreamento para saber quais páginas e informações podem estar disponíveis. Assista nosso vídeo sobre como a Pesquisa Google rastreia páginas para saber mais.

Temos muitos rastreadores, e cada um com tarefas importantes

O Googlebot é nosso rastreador mais conhecido e é usado para manter os resultados da Pesquisa Google atualizados. Também temos rastreadores específicos para outras plataformas, como o Imagens e o Shopping. Oferecemos documentação completa sobre nossos rastreadores usados com frequência e para que eles servem. Nomes de user-agent facilmente identificáveis e endereços de internet conhecidos são usados nos processos, de modo que os proprietários de sites possam garantir a legitimidade dos rastreadores do Google.

Fazemos rastreamentos recorrentes para encontrar as atualizações e mostrar os resultados mais recentes da pesquisa

Podemos rastrear as páginas iniciais de meios relevantes a cada poucos minutos, visando o acesso às últimas notícias disponíveis. Em outros casos, talvez não haja atualizações há anos, então podemos aguardar um mês para um novo rastreamento. Os proprietários de sites podem influenciar essa frequência usando arquivos de sitemap que informam sobre páginas novas e atualizadas.

Rastreamento frequente é um bom sinal

Se rastrearmos seu site com frequência, isso indica que as páginas têm conteúdo novo ou altamente relevante para as pessoas, e que nossos sistemas reconhecem essa demanda. As compras on-line são um ótimo exemplo: costumamos rastrear sites de e-commerce para que nossos resultados mostrem os preços, as promoções e o status do inventário mais atualizados das lojas.

O rastreamento do Google cresceu com o tempo à medida que as páginas se tornaram mais complexas

Outro motivo para rastrearmos com frequência é entender totalmente as nuances de uma página da web e o que ela oferece. Nossos rastreadores usam uma técnica chamada renderização, que carrega um site por completo para "ver" uma página da mesma forma que uma pessoa faria. Ao longo dos anos, a sofisticação aumentou: a página móvel mediana cresceu de 816 kilobytes para 2,3 megabytes e agora tem mais de 60 arquivos para carregar, de imagens a componentes interativos. Para ter uma visão representativa e abrangente de uma página, talvez seja necessário rastreá-la várias vezes, já que novos elementos são adicionados o tempo todo.

Otimizamos o rastreamento automaticamente

Para minimizar o impacto aos proprietários de sites, nossos rastreadores visam eficiência e se ajustam ao conteúdo das páginas. Por exemplo, quando um site fica lento ou retorna erros, a taxa de rastreamento muda, evitando sobrecarga nos servidores. Tentamos limitar rastreamento desnecessário armazenando o conteúdo em cache. À medida que o processo avança no site, seções que exigem menos atividade são identificadas. Por exemplo, calendários que vão até o ano 9999 provavelmente não precisam ser rastreados por inteiro. Os proprietários podem ajudar na identificação do que pode ser ignorado. Isso ajuda os sites a economizar, reduzindo gastos com infraestrutura e tornando a internet mais eficiente como um todo.

Os rastreadores do Google nunca acessam conteúdo de paywall ou assinatura sem permissão

Por padrão, se uma página não estiver acessível na web aberta (por exemplo, se o conteúdo estiver atrás de uma página de login), nossos rastreadores também não poderão acessá-la. Temos orientações específicas para proprietários de sites que querem dar ao Google permissão explícita para acessar páginas de assinatura (por exemplo, para que o Google possa encaminhar usuários a esse conteúdo). Se você optar por isso, use dados estruturados para continuar mostrando às pessoas uma tela de login sem acionar nossas regras de spam. Você pode impedir que o conteúdo da assinatura apareça nas prévias de página usando os controles de prévia.

Os proprietários de sites podem controlar o que é rastreado e como isso é feito

Respeitamos os padrões da web aberta, como o robots.txt, um arquivo de texto simples que permite aos proprietários de sites declarar como os rastreadores devem interagir com as páginas deles. O arquivo robots.txt e as metatags robots permitem que os sites comuniquem facilmente ao Google e a outros serviços como acessar o conteúdo. É possível impedir que páginas apareçam na Pesquisa e nos informar sobre novos conteúdos a serem rastreados usando sitemaps. Também é possível gerenciar a frequência de rastreamento dos sites por meio da cota de rastreamento.

Nossos rastreadores padrão sempre respeitam as escolhas dos sites sobre como o conteúdo é acessado e usado

Depois de um rastreamento, podemos usar os dados rastreados várias vezes para reduzir a necessidade de solicitações repetidas desnecessárias em sites. Mesmo quando fazemos isso, continuamos respeitando as escolhas feitas pelos sites com o robots.txt e os controles que oferecemos por esse protocolo da web aberta. Por exemplo, os sites podem usar o Google-Extended no robots.txt para controlar, entre outras coisas, se o conteúdo deles ajuda a treinar versões futuras dos modelos do Gemini. O uso do Google-Extended não afeta a inclusão de um site na Pesquisa e não o usamos como um indicador de classificação.

Oferecemos muitas ferramentas para que os proprietários de sites gerenciem a experiência de rastreamento do Google, incluindo o Google Search Console, que está disponível sem custo financeiro para eles. Esse recurso fornece informações sobre quanto rastreamos e por quê e ajuda os sites a diagnosticar problemas, como inatividade do servidor ou questões de velocidade. Além disso, o Search Console oferece informações abrangentes sobre como as páginas de um site são visíveis na Pesquisa e como os usuários interagem com elas.

Nossos rastreadores ajudam a conectar as pessoas ao melhor da web, e estamos sempre buscando otimização e eficiência.