Como a Pesquisa funciona para proprietários de sites

A Pesquisa Google é um mecanismo de pesquisa totalmente automatizado que usa softwares conhecidos como rastreadores da Web, que exploram a Web regularmente para encontrar páginas a serem adicionadas ao nosso índice. Na realidade, a maioria das páginas listadas em nossos resultados de pesquisa não é enviada manualmente para inclusão. Elas são encontradas e adicionadas de maneira automática quando nossos rastreadores exploram a Web. Este documento explica as etapas de como a Pesquisa funciona no contexto do seu site. Esse conhecimento básico pode ajudar você a corrigir problemas de rastreamento, indexar suas páginas e saber como otimizar a exibição do seu site na Pesquisa Google.

Algumas observações antes de começar

Antes de falarmos sobre como a Pesquisa funciona, é importante observar que o Google não aceita pagamentos para rastrear um site com mais frequência nem para atribuir a ele uma classificação mais alta. Se alguém disser a você algo diferente, essa informação estará errada.

O Google não garante o rastreamento, a indexação ou a veiculação da sua página, mesmo que ela siga as diretrizes e políticas do Google para proprietários de sites.

A Pesquisa Google funciona em três etapas, e nem todas as páginas passam por todas elas:

  1. Rastreamento: o Google faz o download de textos, imagens e vídeos de páginas encontradas na Internet com programas automatizados chamados rastreadores.
  2. Indexação: o Google analisa os arquivos de texto, imagens e vídeo na página e armazena as informações no índice do Google, que é um grande banco de dados.
  3. Exibição dos resultados da pesquisa: quando um usuário faz uma pesquisa, o Google retorna informações relevantes para a consulta dele.

Rastreamento

A primeira etapa é descobrir quais páginas existem na Web. Não há um registro central de todas elas. Por isso, o Google precisa pesquisar páginas novas e atualizadas constantemente para adicionar à própria lista de páginas conhecidas. Esse processo é chamado de "descoberta de URL". Algumas páginas são conhecidas porque já foram visitadas pelo Google. Outras páginas são descobertas quando o Google segue um link de uma página conhecida para uma nova: por exemplo, uma página central, como uma página de categoria, que tem links para uma nova postagem do blog. Além disso, algumas são detectadas quando você envia uma lista de páginas (um sitemap) para o Google rastrear.

Depois que o Google descobre o URL de uma página, ele pode visitar (ou "rastrear") a página para descobrir o conteúdo dela. Usamos um grande conjunto de computadores para rastrear bilhões de páginas na Web. O programa que faz a busca é chamado de Googlebot (também conhecido como robô, bot ou indexador). O Googlebot usa um processo de algoritmos para determinar quais sites rastrear, com que frequência e quantas páginas precisam ser buscadas em cada site. Os rastreadores do Google também são programados para não rastrear o site muito rapidamente a fim de evitar sobrecargas. Esse mecanismo é baseado nas respostas do site (por exemplo, erros HTTP 500 indicam para reduzir a velocidade) e nas configurações no Search Console

No entanto, o Googlebot não rastreia todas as páginas descobertas. Algumas páginas podem estar configuradas pelo proprietário para não permitir o rastreamento, não estar acessíveis sem fazer login no site ou ser cópias de páginas já rastreadas. Por exemplo, muitos sites podem ser acessados pelas versões www (www.example.com) e não www (example.com) do nome de domínio, mesmo que o conteúdo seja idêntico nas duas.

Durante o rastreamento, o Google renderiza a página e executa qualquer JavaScript encontrado usando uma versão recente do Chrome, semelhante à forma como o navegador renderiza as páginas que você acessa. A renderização é importante porque os sites geralmente dependem do JavaScript para exibir conteúdo na página. Sem a renderização, o Google talvez não detecte esse conteúdo.

O rastreamento depende da capacidade dos rastreadores do Google de acessar o site. Veja alguns problemas comuns com o acesso do Googlebot aos sites:

Indexação

Depois que uma página é rastreada, o Google tenta identificar o conteúdo dela. Esse estágio é conhecido como indexação e inclui o processamento e a análise do conteúdo textual e das principais tags e atributos do conteúdo, como elementos <title> e atributos alternativos, imagens, vídeos e muito mais.

Durante o processo de indexação, o Google determina se a página é uma cópia de outra na Internet ou canônica. A página canônica é exibida nos resultados da pesquisa. Para selecionar a versão canônica, primeiro agrupamos as páginas encontradas na Internet com conteúdo semelhante e, em seguida, selecionamos a que representa melhor o grupo. As outras páginas do grupo são versões alternativas que podem ser exibidas em diferentes contextos. Por exemplo, se o usuário estiver pesquisando em um dispositivo móvel ou procurando uma página muito específica desse cluster.

O Google também coleta indicadores sobre a página canônica e o conteúdo dela que podem ser usados na próxima etapa, em que exibimos a página nos resultados da pesquisa. Alguns indicadores incluem o idioma da página, o país em que o conteúdo está localizado, a usabilidade da página, entre outros.

As informações coletadas sobre a página canônica e o cluster dela podem ser armazenadas no índice do Google, um grande banco de dados hospedado em milhares de computadores. A indexação não é garantida. Nem todas as páginas que o Google processa são indexadas.

A indexação também depende do conteúdo e dos metadados da página. Estes são alguns problemas comuns de indexação:

Exibição dos resultados da pesquisa

Quando um usuário faz uma consulta, nossas máquinas pesquisam o índice de páginas correspondentes e retornam os resultados com maior qualidade e mais relevantes para ele. A relevância é determinada por centenas de fatores, que podem incluir informações como a localização, o idioma e o dispositivo do usuário (computador ou smartphone). Por exemplo, em uma pesquisa por "oficinas de conserto de bicicletas", os resultados seriam diferentes para um usuário de Paris e outro de Hong Kong.

O Search Console pode informar que uma página foi indexada, mas não aparece nos resultados da pesquisa. Veja os possíveis motivos:

Este guia explica como a Pesquisa funciona, mas estamos sempre trabalhando para melhorar nossos algoritmos. Para acompanhar essas mudanças, confira o blog da Central da Pesquisa Google.