Guia detalhado sobre como a Pesquisa Google funciona

A Pesquisa Google é um mecanismo de pesquisa totalmente automatizado que usa softwares conhecidos como rastreadores da Web, que exploram a Web regularmente para encontrar páginas a serem adicionadas ao nosso índice. Na realidade, a maioria das páginas listadas em nossos resultados de pesquisa não é enviada manualmente para inclusão. Elas são encontradas e adicionadas de maneira automática quando nossos rastreadores exploram a Web. Este documento explica as etapas de como a Pesquisa funciona no contexto do seu site. Esse conhecimento básico pode ajudar você a corrigir problemas de rastreamento, indexar suas páginas e saber como otimizar a exibição do seu site na Pesquisa Google.

Algumas observações antes de começar

Antes de falarmos sobre como a Pesquisa funciona, é importante observar que o Google não aceita pagamentos para rastrear um site com mais frequência nem para atribuir a ele uma classificação mais alta. Se alguém disser a você algo diferente, essa informação estará errada.

O Google não garante que vai rastrear, indexar ou exibir a página, mesmo que ela siga os Fundamentos da Pesquisa Google.

Apresentamos os três estágios da Pesquisa Google

A Pesquisa Google funciona em três estágios, e nem todas as páginas passam por todos eles:

Rastreamento: o Google faz o download de textos, imagens e vídeos de páginas encontradas na Internet com programas automatizados chamados rastreadores.
Indexação: o Google analisa os arquivos de texto, imagens e vídeo na página e armazena as informações no índice do Google, que é um grande banco de dados.
Exibição dos resultados da pesquisa: quando um usuário faz uma pesquisa, o Google retorna informações relevantes para a consulta dele.

Rastreamento

A primeira etapa é descobrir quais páginas existem na Web. Não há um registro central de todas elas. Por isso, o Google precisa buscar páginas novas e atualizadas constantemente para adicionar à própria lista de páginas conhecidas. Esse processo é chamado de "descoberta de URL". Algumas páginas são conhecidas porque já foram visitadas pelo Google. Outras são descobertas quando o Google extrai um link de uma página conhecida para uma nova. Por exemplo, uma página principal, como uma página de categoria, que tem links para uma nova postagem do blog. Além disso, algumas são detectadas quando você envia uma lista de páginas (um sitemap) para o Google rastrear.

Depois que o Google descobre o URL de uma página, ele pode visitar (ou "rastrear") a página para verificar o conteúdo dela. Nós usamos um grande conjunto de computadores para rastrear bilhões de páginas na Web. O programa que faz a busca é chamado de Googlebot (também conhecido como rastreador, robô, bot ou indexador). O Googlebot usa um processo de algoritmos para determinar quais sites rastrear, com que frequência e quantas páginas precisam ser buscadas em cada site. Os rastreadores do Google também são programados para não rastrear o site muito rapidamente e evitar sobrecargas. Esse mecanismo é baseado nas respostas do site (por exemplo, erros HTTP 500 significam "lentidão").

No entanto, o Googlebot não rastreia todas as páginas descobertas. Algumas páginas podem ser não permitidas para rastreamento pelo proprietário, já outras podem pedir login.

Durante o rastreamento, o Google renderiza a página e executa qualquer JavaScript encontrado usando uma versão recente do Chrome, semelhante à forma como o navegador renderiza as páginas que você acessa. A renderização é importante porque os sites geralmente dependem do JavaScript para exibir conteúdo na página. Sem a renderização, o Google talvez não detecte esse conteúdo.

O rastreamento depende da capacidade dos rastreadores do Google de acessar o site. Veja alguns problemas comuns com o acesso do Googlebot aos sites:

Indexação

Depois que uma página é rastreada, o Google tenta identificar o conteúdo dela. Esse estágio é conhecido como indexação e inclui o processamento e a análise do conteúdo textual e das principais tags e atributos do conteúdo, como elementos <title> e atributos alternativos, imagens, vídeos e muito mais.

Durante o processo de indexação, o Google determina se uma página é canônica ou uma cópia de outra na Internet. A canônica é a que talvez seja exibida nos resultados da pesquisa. Para selecionar a página canônica, primeiro agrupamos as páginas encontradas na Internet que têm conteúdo semelhante, processo que se chama "clustering". Em seguida, selecionamos a que melhor representa o grupo. As outras páginas do grupo são versões alternativas que podem ser exibidas em contextos diferentes. Por exemplo, se o usuário estiver pesquisando em um dispositivo móvel ou procurando uma página muito específica do cluster.

O Google também coleta indicadores sobre a página canônica e o conteúdo dela que podem ser usados na próxima etapa, em que exibimos a página nos resultados da pesquisa. Alguns indicadores incluem o idioma da página, o país em que o conteúdo está localizado e a usabilidade da página.

As informações coletadas sobre a página canônica e o cluster dela podem ser armazenadas no índice do Google, um grande banco de dados hospedado em milhares de computadores. A indexação não é garantida. Nem todas as páginas processadas pelo Google são indexadas.

A indexação também depende do conteúdo e dos metadados da página. Estes são alguns problemas comuns de indexação:

Exibição dos resultados da pesquisa

Quando um usuário faz uma consulta, nossas máquinas pesquisam o índice de páginas correspondentes e retornam os resultados com maior qualidade e mais relevantes para a consulta dele. A relevância é determinada por centenas de fatores, que podem incluir informações como a localização, o idioma e o dispositivo do usuário (computador ou smartphone). Por exemplo, em uma pesquisa por "oficinas de conserto de bicicletas", os resultados seriam diferentes para um usuário de Paris e outro de Hong Kong.

Com base na consulta do usuário, os recursos de pesquisa que aparecem na página de resultados da pesquisa também mudam. Por exemplo, uma pesquisa por "oficinas de conserto de bicicletas" provavelmente mostrará resultados locais e nenhum resultado de imagem. No entanto, uma pesquisa por "bicicleta moderna" provavelmente mostrará resultados com imagens, mas não resultados locais. É possível explorar os elementos de IU mais comuns da Pesquisa Google na Web em nossa Galeria de elementos ilustrada.

O Search Console pode informar que uma página está indexada, mas você não a vê nos resultados da pesquisa. Confira os possíveis motivos:

Embora este guia explique como a Pesquisa funciona, estamos sempre trabalhando para melhorar nossos algoritmos. Siga o blog da Central da Pesquisa Google para acompanhar essas mudanças.