Manter uma estrutura de URL simples

Uma estrutura de URL de um site deve ser a mais simples possível. Organize seu conteúdo de modo que os URLs sejam de fácil compreensão e elaborados de maneira lógica (quando for possível, palavras legíveis em vez de longos números de ID). Por exemplo, se você procurar informações sobre aviação, um URL como http://pt.wikipedia.org/wiki/Aviação ajudará você a decidir se clica no link. Um URL como http://www.example.com/index.php?id_sezione=360&sid=3a5ebc944f41daa6f849f730f1 é menos atraente para os usuários.

Considere o uso de pontuação nos URLs. O URL http://www.example.com/vestido-verde.html é muito mais útil para nós do que http://www.example.com/vestidoverde.html. Recomendamos que você use hifens (-) em vez de sublinhados (_) em seus URLs.

URLs muito complexos, especialmente os que contém vários parâmetros, podem causar problemas para os rastreadores, criando números desnecessariamente altos de URLs que apontam para um conteúdo idêntico ou semelhante em seu site. Como resultado, o Googlebot pode consumir mais largura de banda do que o necessário ou não indexar completamente todo o conteúdo do site.

Causas comuns do problema

Um número desnecessariamente alto de URLs pode ser causado por vários problemas. Veja alguns deles:

  • Filtragem aditiva de um conjunto de itens. Vários sites oferecem diferentes modos de visualização do mesmo conjunto de itens ou resultados da pesquisa e, muitas vezes, permitem que o usuário filtre o conjunto usando um critério definido (por exemplo: mostre hotéis na praia). Quando os filtros podem ser combinados de maneira aditiva (por exemplo: hotéis na praia e com sala de ginástica), o número de URLs (modos de exibição de dados) nos sites explodirá. A criação de um grande número de listas de hotéis com diferenças sutis é redundante, porque o Googlebot precisa ver somente um número pequeno de listas para atingir a página de cada hotel. Por exemplo:
    • Propriedades do hotel em "classificações de valor":
      http://www.example.com/hotel-search-results.jsp?Ne=292&N=461
    • Propriedades do hotel em "classificações de valor" na praia:
      http://www.example.com/hotel-search-results.jsp?Ne=292&N=461+4294967240
    • Propriedades do hotel em "classificações de valor" na praia e com sala de ginástica:
      http://www.example.com/hotel-search-results.jsp?Ne=292&N=461+4294967240+4294967270
  • Geração dinâmica de documentos. Isso pode resultar em pequenas mudanças por causa dos contadores, dos registros de hora ou dos anúncios.
  • Parâmetros problemáticos no URL. Os IDs de sessão, por exemplo, podem criar uma imensa quantidade de duplicação e um número maior ainda de URLs.
  • Parâmetros de classificação. Alguns grandes sites de compra oferecem várias maneiras de classificar os mesmos itens, o que resulta em um número muito maior de URLs. Por exemplo:
    http://www.example.com/results?search_type=search_videos&search_query=tpb&search_sort=relevance
       &search_category=25
  • Parâmetros irrelevantes no URL, como parâmetros de referência. Exemplo:
    http://www.example.com/search/noheaders?click=6EE2BF1AF6A3D705D5561B7C3564D9C2&clickPage=
       OPD+Product+Page&cat=79
    http://www.example.com/discuss/showthread.php?referrerid=249406&threadid=535913
    http://www.example.com/products/products.asp?N=200063&Ne=500955&ref=foo%2Cbar&Cn=Accessories.
  • Problemas de agenda. Uma agenda gerada de maneira dinâmica pode gerar links para datas passadas e futuras sem restrições quanto às datas de início ou final. Exemplo:
    http://www.example.com/calendar.php?d=13&m=8&y=2011
    http://www.example.com/calendar/cgi?2008&month=jan
  • Links relativos quebrados. Links relativos quebrados muitas vezes causam espaços infinitos. Geralmente, esse problema ocorre devido a elementos de caminhos repetitivos. Exemplo:
    http://www.example.com/index.shtml/discuss/category/school/061121/html/interview/
      category/health/070223/html/category/business/070302/html/category/community/070413/html/FAQ.htm
Etapas para resolver o problema

Para evitar possíveis problemas com a estrutura do URL, é recomendável fazer o seguinte:

  • Considere o uso de um arquivo robots.txt para bloquear o acesso do Googlebot a URLs problemáticos. Normalmente, deve-se considerar o bloqueio de URLs dinâmicos, como URLs que geram resultados de pesquisa ou URLs que podem criar espaços infinitos, como agendas. O uso de expressões comuns em seu arquivo robots.txt pode permitir que você bloqueie um grande número de URLs.
  • Sempre que possível, evite o uso de IDs de sessão nos URLs. Em vez disso, considere o uso de cookies. Consulte as diretrizes para webmasters para ver mais informações.
  • Sempre que possível, abrevie URLs extinguindo parâmetros desnecessários.
  • Caso o site tenha uma agenda infinita, inclua um atributo nofollow aos links para as futuras páginas de agenda criadas dinamicamente.
  • Verifique se há links relativos quebrados em seu site.