Consolidar URLs duplicados

Se você tiver uma única página que pode ser acessada por vários URLs ou páginas diferentes com conteúdo semelhante (por exemplo, uma página com uma versão para dispositivos móveis e outra para computadores), o Google entenderá que elas são versões duplicadas da mesma página, escolherá um URL como a versão canônica e fará o rastreamento dele. Todos os outros URLs serão considerados cópias e rastreados com menos frequência.

Se você não informar explicitamente ao Google qual URL é o canônico, ele fará a escolha por conta própria ou entenderá que todos têm a mesma importância, o que pode levar a um comportamento indesejado, conforme explicado na seção Motivos para escolher um URL canônico.

Como o Googlebot indexa e escolhe o URL canônico

Quando o Googlebot indexa um site, ele tenta determinar o conteúdo principal de cada página. Caso nosso bot de rastreamento encontre várias páginas no mesmo site que pareçam ser iguais, ele escolherá aquela que acredita ser a mais completa e útil e a marcará como canônica. A página canônica será rastreada com mais frequência, e as cópias, com menos, para reduzir a carga de rastreamento do Google no site.

O Google escolhe a página canônica com base em uma série de fatores (ou sinais), como a exibição da página por HTTP ou HTTPS, a qualidade da página, a presença do URL em um sitemap e a inclusão de qualquer marcação rel=canonical. É possível indicar sua preferência usando essas técnicas. No entanto, o Google pode escolher outra página como canônica por vários motivos.

As versões de uma única página em idiomas diferentes só serão consideradas cópias se o conteúdo principal estiver na mesma língua. Ou seja, se apenas o cabeçalho, o rodapé e outro texto não essencial estiverem traduzidos, mas o corpo permanecer o mesmo, as páginas serão consideradas duplicadas.

O Google usa as páginas canônicas como as principais fontes na avaliação do conteúdo e da qualidade de um site. Em geral, um resultado da pesquisa do Google direcionará a busca para a página canônica, a menos que uma das cópias seja claramente mais adequada para o usuário. Por exemplo, o resultado da pesquisa provavelmente levará a uma página para dispositivos móveis se o usuário estiver usando esse tipo de dispositivo, mesmo que a página para computadores esteja marcada como canônica.

Motivos válidos para manter páginas semelhantes ou duplicadas

Existem alguns motivos válidos para que seu site use URLs diferentes que levam à mesma página ou tenha páginas duplicadas ou muito semelhantes em URLs diferentes. Veja os mais comuns:

  • Para oferecer compatibilidade com vários tipos de dispositivos:
    https://example.com/news/koala-rampage
    https://m.example.com/news/koala-rampage
    https://amp.example.com/news/koala-rampage
  • Para ativar URLs dinâmicos em itens como parâmetros de pesquisa ou IDs de sessão:
    https://www.example.com/products?category=dresses&color=green
    https://example.com/dresses/cocktail?gclid=ABCD
    https://www.example.com/dresses/green/greendress.html
  • Caso seu sistema de blog salve vários URLs automaticamente quando você posiciona a mesma postagem em várias seções:
    https://blog.example.com/dresses/green-dresses-are-awesome/
    https://blog.example.com/green-things/green-dresses-are-awesome/
  • Caso seu servidor esteja configurado para veicular o mesmo conteúdo nas variantes http/https e www/não www:
    http://example.com/green-dresses
    https://example.com/green-dresses
    http://www.example.com/green-dresses
    
  • Caso o conteúdo que você fornece em um blog para distribuição a outros sites seja replicado em parte ou na íntegra nesses domínios:
    https://news.example.com/green-dresses-for-every-day-155672.html (postagem distribuída) e https://blog.example.com/dresses/green-dresses-are-awesome/3245/ (postagem original)

Motivos para escolher um URL canônico

Existem várias razões para escolher uma página canônica dentre um conjunto de páginas duplicadas ou semelhantes:

  • Para especificar o URL que será visto pelas pessoas nos resultados da pesquisa: talvez você prefira que as pessoas cheguem à página de vestidos verdes usando https://www.example.com/dresses/green/greendress.html em vez de https://example.com/dresses/cocktail?gclid=ABCD.
  • Para consolidar sinais de vínculo em páginas semelhantes ou duplicadas: isso ajuda os mecanismos de pesquisa a consolidar as informações que eles têm de URLs individuais (como links) em um único URL preferencial. Isso significa que os links de outros sites para http://example.com/dresses/cocktail?gclid=ABCD são consolidados com os links para https://www.example.com/dresses/green/greendress.html.
  • Para simplificar as métricas de rastreamento de um único produto ou tópico: com URLs variados, é mais difícil consolidar métricas de um tipo de conteúdo específico.
  • Para gerenciar o conteúdo distribuído: se você distribuir seu conteúdo para publicação em outros domínios, verifique se o URL preferencial aparece nos resultados da pesquisa.
  • Para poupar tempo de rastreamento em páginas duplicadas: para otimizar o rastreamento, o ideal é aproveitar o tempo do Googlebot com páginas novas ou atualizadas do site, em vez de desperdiçá-lo rastreando as versões para computadores e dispositivos móveis das mesmas páginas.

Saiba qual página o Google considera como canônica

Use a Ferramenta de inspeção de URL para saber qual página o Google considera como canônica.

Especificar uma página canônica

Para especificar um URL canônico para URLs duplicados ou páginas semelhantes, escolha um dos métodos a seguir. Siga as diretrizes gerais.

Método e descrição
Tag rel=canonical <link>

Adicione uma tag <link> ao código de todas as páginas duplicadas indicando a página canônica.

Vantagens:
  • É possível mapear um número infinito de páginas duplicadas.

Desvantagens:

  • Pode aumentar o tamanho da página.
  • Pode tornar complexa a manutenção do mapeamento em sites maiores ou sites em que os URLs mudam com frequência.
  • Só funciona para páginas HTML, não para arquivos como PDF. Nesses casos, use o cabeçalho HTTP rel=canonical.
Cabeçalho HTTP rel=canonical

Envie um cabeçalho rel=canonical na resposta da sua página.

Vantagens:

  • Não aumenta o tamanho da página.
  • É possível mapear um número infinito de páginas duplicadas.

Desvantagens:

  • Pode tornar complexa a manutenção do mapeamento em sites maiores ou sites em que os URLs mudam com frequência.
Sitemap

Especifique suas páginas canônicas em um Sitemap.

Vantagens:

  • Fácil de fazer e manter, especialmente em sites grandes.

Desvantagens:

  • O Googlebot ainda precisa determinar a cópia associada da página canônica que você declarar no sitemap.
  • A sinalização para o Googlebot é menos eficaz em comparação com o método de mapeamento rel=canonical.
Redirecionamento 301 Use os redirecionamentos 301 para informar ao Googlebot que um URL redirecionado é uma versão superior à de um URL determinado. Use essa opção somente quando desativar uma página duplicada.
Variante AMP Se uma das suas variantes for uma página AMP, siga as diretrizes de AMP para indicar a página canônica e a variante AMP.

Diretrizes gerais

Para todos os métodos de canonização, siga estas diretrizes gerais:

  • Evite usar o arquivo robots.txt para fins de canonização.
  • Não use a Ferramenta de remoção de URL para canonização, porque ela remove todas as versões de um URL da pesquisa.
  • Não especifique URLs diferentes como versões canônicas da mesma página usando uma ou mais técnicas de canonização. Por exemplo, não especifique um URL no sitemap e indique outro URL para essa mesma página usando rel="canonical".
  • Não use noindex para impedir a seleção de uma página canônica. Essa diretiva é usada para excluir a página da indexação, não para gerenciar a escolha de uma página canônica.
  • Especifique uma página canônica ao usar tags hreflang. Defina uma página canônica no mesmo idioma ou no melhor idioma substituto possível caso a página canônica não exista na primeira língua.

  • Crie um link para o URL canônico em vez de um URL duplicado ao vincular o site. Vincular o site consistentemente ao URL que você considera canônico ajuda o Google a entender sua preferência.

Dar preferência ao uso de HTTPS em vez de HTTP para URLs canônicos

O Google dá preferência a páginas HTTPS em vez das equivalentes em HTTP como canônicas, exceto quando há problemas ou sinais conflitantes, como os seguintes:

  • A página HTTPS tem um certificado SSL inválido.
  • A página HTTPS contém dependências não seguras (que não são imagens).
  • A página HTTPS redireciona os usuários para ou por uma página HTTP.
  • A página HTTPS tem um link rel="canonical" para a página HTTP.

Por padrão, nossos sistemas preferem as páginas HTTPS às HTTP, mas você pode tomar algumas medidas para garantir esse comportamento:

  • Adicionar redirecionamentos da página HTTP para a página HTTPS
  • Adicionar um link rel="canonical" da página HTTP à página HTTPS
  • Implementar HSTS

Para impedir que o Google canonize incorretamente uma página HTTP, é preciso evitar as seguintes práticas:

  • Evite usar certificados TLS/SSL inválidos e redirecionamentos de HTTPS para HTTP, já que eles fazem com que o Google tenha uma preferência muito maior por páginas HTTP. Implementar o HSTS não modifica essa preferência.
  • Evite incluir a página HTTP no sitemap ou nas entradas hreflang, e não a versão em HTTPS.
  • Evite implementar o certificado SSL/TLS para a variante errada do host. Por exemplo, example.com veiculando o certificado de www.example.com. O certificado precisa corresponder ao URL completo do site ou ser um certificado curinga que possa ser usado para vários subdomínios em um domínio.

Somente usuários avançados: fazer com que o Google ignore os parâmetros dinâmicos

Use a manipulação dos parâmetros para informar ao Googlebot quais parâmetros devem ser ignorados durante o rastreamento. Ignorar determinados parâmetros pode reduzir o conteúdo duplicado na indexação do Google e tornar o site mais rastreável. Por exemplo, se você especificar que o parâmetro sessionid precisa ser ignorado, o Googlebot considerará estes dois URLs como duplicados:

  • https://www.example.com/dresses/green.php?sessionid=273749
  • https://www.example.com/dresses/green.php

Para indicar que uma página é cópia de outra, use uma tag <link> na seção head do HTML.

Suponha que você queira que https://example.com/dresses/green-dresses seja o URL canônico, mesmo que vários URLs possam acessar esse conteúdo. Siga estas etapas para indicar esse URL como canônico:

  1. Marque todas as páginas duplicadas com um elemento do link rel="canonical".

    Adicione um elemento <link> com o atributo rel="canonical" à seção <head> de páginas duplicadas para direcionar o usuário à página canônica. Exemplo:

    <link rel="canonical" href="https://example.com/dresses/green-dresses" />
  2. Se a página canônica tiver uma variante para dispositivos móveis, adicione um link rel="alternate" a ela e direcione o usuário à versão da página para dispositivos móveis:
    <link rel="alternate" media="only screen and (max-width: 640px)"  href="http://m.example.com/dresses/green-dresses">
  3. Adicione qualquer hreflang ou outros redirecionamentos adequados à página.

Usar um cabeçalho HTTP rel="canonical"

Se for possível configurar o servidor, você poderá usar cabeçalhos HTTP rel="canonical" em vez de tags HTML para indicar o URL canônico de documentos compatíveis com a Pesquisa, mesmo que não sejam HTML, como arquivos PDF.

Se você expuser um arquivo PDF usando vários URLs, poderá retornar um cabeçalho HTTP rel="canonical" para informar ao Googlebot qual é o URL canônico do arquivo PDF:

Link: <http://www.example.com/downloads/white-paper.pdf>; rel="canonical"

Atualmente, o Google aceita esse método somente para resultados da pesquisa na Web.

Usar um sitemap

Escolha um URL canônico para cada uma das páginas e os envie em um sitemap. Todas as páginas listadas no sitemap são sugeridas como canônicas. O Googlebot decide quais páginas são duplicadas (se houver alguma) com base na semelhança do conteúdo.

Nós não garantimos que os URLs do sitemap sejam considerados como canônicos, mas essa é uma maneira simples de definir o conteúdo canônico de um site grande. Além disso, os sitemaps são úteis para dizer ao Google quais são as páginas que você considera mais importantes no site.

Não inclua páginas não canônicas em um sitemap. Se você estiver usando um sitemap, especifique somente URLs canônicos nele.

Usar os redirecionamentos 301 para URLs desativados

Use esse método quando quiser se desfazer de páginas duplicadas, mas precisar de uma transição suave antes de remover os URLs antigos.

Digamos que sua página possa ser encontrada de várias maneiras:

  • https://example.com/home
  • https://home.example.com
  • https://www.example.com

Escolha um desses URLs como canônico e use redirecionamentos 301 para enviar o tráfego dos outros URLs para o URL preferencial. Um redirecionamento 301 do servidor é a melhor forma de garantir que usuários e mecanismos de pesquisa sejam direcionados para a página correta. O código de status 301 significa que a página foi permanentemente movida para um novo local.

Se você estiver em um serviço de hospedagem de sites, faça uma pesquisa na documentação deles em busca da configuração de redirecionamentos 301.

Solução de problemas

Se um URL canônico estiver em uma propriedade que não pertence a você, não será possível ver o tráfego da sua cópia da página. Veja alguns motivos comuns para que uma página canônica esteja em uma propriedade separada:

  • Variantes de idioma marcadas incorretamente: se você tiver vários sites que veiculam basicamente o mesmo conteúdo localizado para diversos usuários do mundo todo, siga nossas diretrizes para sites localizados.
  • Tags canônicas incorretas: alguns CMS (sistemas de gerenciamento de conteúdo) ou plug-ins de CMS podem usar de maneira incorreta as técnicas de canonização para direcionar a URLs em sites externos. Verifique seu conteúdo para saber se esse é o caso. Caso o site indique uma preferência inesperada de URL canônico, talvez com o uso incorreto de rel="canonical" ou de um redirecionamento 301, corrija o problema diretamente.
  • Servidores configurados incorretamente: algumas configurações incorretas de hospedagem podem gerar uma seleção inesperada de URL entre domínios. Exemplo:
    • Um servidor pode estar configurado incorretamente para retornar conteúdo de a.com em resposta a uma solicitação de um URL em b.com.
    • Dois servidores da Web não relacionados podem retornar páginas de erro soft 404 idênticas que o Google não consegue identificar como páginas de erro.
  • Ataques maliciosos de hackers: alguns ataques a sites introduzem um código que retorna um redirecionamento 301 HTTP ou inserem um elemento do link rel="canonical" de vários domínios no <head> do HTML ou no cabeçalho HTTP, geralmente direcionando o usuário a um URL que hospeda conteúdo nocivo ou com spam. Nesses casos, nossos algoritmos poderão selecionar o URL malicioso ou com spam em vez do URL do site comprometido.
  • Site copiado: em raras situações, nosso algoritmo pode selecionar um URL de um site externo que hospeda seu conteúdo sem permissão. Caso você acredite que outro site está copiando seu conteúdo de maneira que viola a legislação de direitos autorais, entre em contato com o host do site para solicitar a remoção. Além disso, para que o Google remova a página infratora dos resultados da pesquisa, preencha uma solicitação de acordo com a Lei de Direitos Autorais do Milênio Digital.