Uproszczenie struktury adresów URL

Struktura URL-i witryny powinna być jak najprostsza. Warto rozważyć uporządkowanie treści w taki sposób, by URL-e były logicznie skonstruowane i czytelne dla użytkowników (jeśli to możliwe, używaj zrozumiałych słów zamiast długich numerów identyfikacyjnych). Jeśli szukasz na przykład informacji o lotnictwie, URL w postaci http://pl.wikipedia.org/wiki/lotnictwo z pewnością pomoże Ci zdecydować, czy warto kliknąć dany link. Adres URL typu http://www.example.com/index.php?id_sezione=360&sid=3a5ebc944f41daa6f849f730f1 będzie już postrzegany jako znacznie mniej atrakcyjny.

Warto zastanowić się nad stosowaniem w adresach URL znaków interpunkcyjnych. Adres http://www.example.com/zielona-sukienka.html jest dla nas znacznie bardziej przydatny niż http://www.example.com/zielonasukienka.html. Zalecamy stosowanie w adresach URL łączników (-) zamiast podkreśleń (_).

Zbyt złożone adresy URL, a szczególnie takie, które zawierają kilka parametrów, mogą sprawiać problemy robotom ze względu na dużą liczbę adresów URL odsyłających do takich samych lub podobnych treści witryny. W związku z tym Googlebot może nadmiernie zmniejszać przepustowość lub mieć problemy z indeksowaniem całej zawartości witryny.

Najczęstsze przyczyny tego problemu

Zbyt duża liczba adresów URL może być wynikiem różnych sytuacji. Oto niektóre z nich:

  • Addytywne filtrowanie zbioru elementów. Wiele witryn wyświetla ten sam zbiór elementów lub wyników wyszukiwania na kilka różnych sposobów, pozwalając użytkownikom filtrować wyświetlane elementy w zależności od wybranych kryteriów (na przykład: pokaż mi hotele na plaży). Jeśli witryna dopuszcza addytywne łączenie filtrów (przykład: hotele na plaży z centrum fitness), liczba adresów URL (widoków danych) w witrynie rośnie lawinowo. Tworzenie dużej liczby nieznacznie zmodyfikowanych list hoteli jest niepotrzebne, bo Googlebotowi wystarczy niewielka liczba list, na podstawie których będzie w stanie dotrzeć do strony każdego hotelu. Na przykład:
    • Zwracanie listy wszystkich tanich hoteli:
      http://www.example.com/hotel-search-results.jsp?Ne=292&N=461
    • Zwracanie listy wszystkich tanich hoteli na plaży:
      http://www.example.com/hotel-search-results.jsp?Ne=292&N=461+4294967240
    • Zwracanie listy wszystkich tanich hoteli na plaży z centrum fitness:
      http://www.example.com/hotel-search-results.jsp?Ne=292&N=461+4294967240+4294967270
  • Dynamiczne generowanie dokumentów. Może to prowadzić do nieznacznych zmian w zależności od liczników, sygnatur czasowych lub reklam.
  • Problematyczne parametry w adresach URL. Identyfikatory sesji mogą na przykład prowadzić do tworzenia ogromnej liczby duplikatów stron i zwiększenia liczby adresów URL.
  • Parametry sortowania. Witryny niektórych dużych sklepów internetowych pozwalają sortować te same towary na wiele sposobów, co prowadzi do powstania bardzo dużej liczby adresów URL. Na przykład:
    http://www.example.com/results?search_type=search_videos&search_query=tpb&search_sort=relevance
       &search_category=25
  • Nieistotne parametry w adresach URL, określające na przykład, z jakiej witryny pochodzi dany użytkownik. Na przykład:
    http://www.example.com/search/noheaders?click=6EE2BF1AF6A3D705D5561B7C3564D9C2&clickPage=
       OPD+Product+Page&cat=79
    http://www.example.com/discuss/showthread.php?referrerid=249406&threadid=535913
    http://www.example.com/products/products.asp?N=200063&Ne=500955&ref=foo%2Cbar&Cn=Accessories.
  • Problemy związane z kalendarzami. Kalendarz generowany dynamicznie może zawierać linki do przyszłych i wcześniejszych dat bez żadnych ograniczeń. Na przykład:
    http://www.example.com/calendar.php?d=13&m=8&y=2011
    http://www.example.com/calendar/cgi?2008&month=jan
  • Niedziałające linki względne. Niedziałające linki względne mogą powodować tworzenie nieskończenie dużej przestrzeni. Przyczyną tego problemu są często powtarzające się fragmenty ścieżek. Na przykład:
    http://www.example.com/index.shtml/discuss/category/school/061121/html/interview/
      category/health/070223/html/category/business/070302/html/category/community/070413/html/FAQ.htm
Sposób rozwiązania problemu

Aby uniknąć potencjalnych problemów ze strukturą adresów URL, zalecamy podjęcie tych działań:

  • Rozważ użycie pliku robots.txt, by zablokować dostęp Googlebota do problematycznych URL-i. Zazwyczaj blokuje się dynamiczne URL-e, takie jak adresy generujące wyniki wyszukiwania oraz adresy tworzące nieskończenie dużą przestrzeń do indeksowania, np. kalendarze. Użycie w pliku robots.txt wyrażeń regularnych pozwala łatwo zablokować dużą liczbę URL-i.
  • Gdy tylko jest to możliwe, w adresach URL unikaj stosowania identyfikatorów sesji. Zastanów się nad zastąpieniem ich plikami cookie. Więcej informacji na ten temat znajdziesz we wskazówkach dla webmasterów.
  • Zawsze, gdy jest to możliwe, skracaj adresy URL, usuwając niepotrzebne parametry.
  • Jeśli witryna ma kalendarz bez daty końcowej, dodaj do linków tworzących kolejne strony kalendarza atrybut nofollow.
  • Sprawdź, czy w witrynie nie ma niedziałających linków względnych.