Wybór kanonicznego adresu URL spośród duplikatów stron i używanie tagu strony kanonicznej

Jeśli masz 1 stronę, którą można otworzyć przy użyciu wielu adresów URL, lub wiele stron o podobnej treści (na przykład stronę w wersji na komputery i urządzenia mobilne), dla robota Google będą to zduplikowane wersje tej samej strony. Nasz robot wybierze 1 adres URL jako wersję kanoniczną i go zindeksuje. Wszystkie pozostałe adresy URL będą traktowane jako duplikaty, które są rzadziej indeksowane.

Jeśli wyraźnie nie określisz, który adres URL jest kanoniczny, Google wybierze adres za Ciebie albo uzna oba adresy za równorzędne, co może prowadzić do niepożądanych efektów, które opisujemy w sekcji Dlaczego warto wybrać kanoniczny adres URL?.

W tym dokumencie wyjaśniamy, jak w wyszukiwarce Google działa wybór kanonicznego adresu URL, czy trzeba go określić i jak ustawić swoje preferencje w wyszukiwarce Google.

Co to jest kanoniczny URL?

Kanoniczny URL to adres strony, którą Google uznaje za najbardziej reprezentatywną spośród zbioru duplikatów stron w Twojej witrynie. Jeśli masz na przykład 2 adresy URL tej samej strony (example.com?dress=1234example.com/dresses/1234), Google wybiera jeden z nich jako kanoniczny.

Strony nie muszą być identyczne. Drobne zmiany w sortowaniu lub filtrowaniu stron z listą (na przykład sortowanie według ceny czy filtrowanie według koloru elementu) nie sprawią, że strona zostanie uznana za unikalną. Strona kanoniczna może się znajdować w innej domenie niż duplikat.

Jak Google indeksuje i wybiera kanoniczny URL

Gdy Google indeksuje witrynę, próbuje określić główny rodzaj treści na każdej stronie. Jeśli znajdzie w witrynie wiele stron i uzna, że są takie same, wybiera tę, która wyda mu się najpełniejsza i najbardziej przydatna – i ją oznacza jako kanoniczną. Strona kanoniczna będzie odtąd indeksowana najczęściej, a jej duplikaty z mniejszą częstotliwością, aby ograniczyć obciążenie witryny indeksowaniem.

Google wybiera strony kanoniczne na podstawie wielu czynników (lub sygnałów), takich jak to, czy strona jest wyświetlana przez HTTP lub HTTPS. Takim sygnałem może też być na przykład jakość strony, obecność adresu URL w mapie witryny czy etykieta rel=canonical. Korzystając z tych metod, możesz wskazać Google swoje preferencje, chociaż Google może wybrać jako kanoniczną inną stronę (z wielu powodów).

Różne wersje językowe pojedynczej strony są uważane za duplikaty tylko wtedy, gdy główna treść jest w tym samym języku (to znaczy, jeśli przetłumaczone są tylko nagłówek, stopka i inne mniej istotne fragmenty tekstu, ale główna treść pozostaje taka sama, to strony są uważane za duplikaty).

Google wykorzystuje strony kanoniczne jako główne źródło oceny treści i jakości. W wynikach wyszukiwania najczęściej wyświetlane są strony kanoniczne, chyba że w danej sytuacji bardziej odpowiedni dla użytkownika jest któryś z duplikatów. Na przykład jeśli użytkownik korzysta z komórki, w wynikach wyszukiwania najprawdopodobniej pojawi się strona mobilna – nawet gdy jako kanoniczna została wskazana strona na komputery.

Powody używania podobnych lub zduplikowanych stron

Istnieją praktyczne powody, dla których witryna może mieć różne adresy URL prowadzące do 1 strony albo do powtórzonych bądź bardzo podobnych stron. Oto najczęstsze z nich:

  • Aby obsługiwać wiele typów urządzeń:
    https://example.com/news/koala-rampage
    https://m.example.com/news/koala-rampage
    https://amp.example.com/news/koala-rampage
  • Aby włączyć dynamiczne adresy URL na przykład podczas sortowania lub filtrowania parametrów lub identyfikatorów sesji:
    https://www.example.com/products?category=dresses&color=green
    https://example.com/dresses/cocktail?gclid=ABCD
    https://www.example.com/dresses/green/greendress.html
  • Jeśli system bloga automatycznie zapisuje różne adresy URL, gdy umieścisz tego samego posta w różnych sekcjach:
    https://blog.example.com/dresses/green-dresses-are-awesome/
    https://blog.example.com/green-things/green-dresses-are-awesome/
  • Jeśli serwer jest tak skonfigurowany, aby wyświetlać te same treści na stronach www i innych niż www, http i https oraz korzystających z różnych odmian portu protokołu:
    https://example.com/green-dresses
    https://example.com/green-dresses
    https://www.example.com/green-dresses
    https://example.com:80/green-dresses
    https://example.com:443/green-dresses
  • Jeśli treści umieszczone na blogu w celu redystrybucji w innych witrynach są w nich powielane częściowo lub w całości:
    https://news.example.com/green-dresses-for-every-day-155672.html (post po redystrybucji) https://blog.example.com/dresses/green-dresses-are-awesome/3245/ (oryginalny post).

Dlaczego warto wybrać kanoniczny adres URL?

Istnieje wiele powodów, dla których spośród zbioru stron powtórzonych i podobnych warto wyraźnie wybrać stronę kanoniczną:

  • Aby określić adres URL, który ma być widoczny w wynikach wyszukiwania. Możesz skonfigurować witrynę tak, aby użytkownicy trafiali na stronę produktu, którym jest zielona sukienka, znajdującą się pod adresem https://www.example.com/dresses/green/greendress.html, a nie https://example.com/dresses/cocktail?gclid=ABCD.
  • Aby skonsolidować sygnały linków do podobnych lub zduplikowanych stron. Możliwość konsolidowania informacji o poszczególnych adresach URL (np. linków, które do nich prowadzą) w jednym preferowanym adresie URL upraszcza działanie wyszukiwarek. Oznacza to, że linki z innych witryn do strony https://example.com/dresses/cocktail?gclid=ABCD zostaną skonsolidowane z linkami do strony https://www.example.com/dresses/green/greendress.html.
  • Aby uprościć śledzenie danych w przypadku pojedynczego produktu lub tematu. W przypadku dużej liczby różnych adresów URL trudniej jest uzyskać skonsolidowane dane dla poszczególnych fragmentów treści.
  • Aby zarządzać materiałami redystrybuowanymi. Jeśli redystrybuujesz treści do publikacji w innych domenach, warto zadbać o to, aby w wynikach wyszukiwania pojawiał się preferowany URL.
  • Aby nie tracić czasu na indeksowanie duplikatów stron. Googlebot powinien skupić się na jak najdokładniejszym monitorowaniu treści w Twojej witrynie, lepiej więc, żeby indeksował nowe lub zaktualizowane strony, a nie różne ich wersje na komputery i komórki.

Sprawdzanie, którą stronę Google uznaje za kanoniczną

Użyj narzędzia do sprawdzania adresów URL, aby sprawdzić, które strony Google uznaje za kanoniczne. Nawet jeśli wyraźnie określisz stronę kanoniczną, Google może wybrać inną z różnych powodów, na przykład ze względu na jej treść lub wydajność.

Określanie strony kanonicznej

Aby określić kanoniczny URL duplikatów adresów URL lub podobnych stron, wybierz jedną z poniższych metod. Zachęcamy do korzystania z tych metod, przy czym żadna nie jest obowiązkowa. Jeśli nie określisz kanonicznego adresu URL, my wybierzemy adres, który uznamy za optymalny. Pamiętaj, aby przestrzegać ogólnych wytycznych.

Metoda i opis
Tag rel=canonical <link>

Dodaj wskazujący stronę kanoniczną tag <link> w kodzie wszystkich zduplikowanych stron.

Zalety:
  • Pozwala zmapować nieskończoną liczbę zduplikowanych stron.

Wady:

  • Może zwiększyć rozmiar strony.
  • Mapowanie może stać się zbyt skomplikowane w większych witrynach lub tam, gdzie adresy URL często się zmieniają.
  • Działa tylko w przypadku stron HTML i nie działa w przypadku plików, np. PDF. Możesz wtedy użyć nagłówka HTTP rel=canonical.
Nagłówek HTTP rel=canonical

Umieść nagłówek rel=canonical w odpowiedzi dla Googlebota.

Zalety:

  • Nie zwiększa rozmiaru strony.
  • Pozwala zmapować nieskończoną liczbę zduplikowanych stron.

Wady:

  • Mapowanie może stać się zbyt skomplikowane w większych witrynach lub tam, gdzie adresy URL często się zmieniają.
Mapa witryny

Określ strony kanoniczne w mapie witryny.

Zalety:

  • Łatwa do stosowania i utrzymywania, zwłaszcza w przypadku dużych witryn.

Wady:

  • Google nadal musi określić duplikaty powiązane ze stronami kanonicznymi zadeklarowanymi w mapie witryny.
  • Mniej wyraźny sygnał dla Google niż technika mapowania rel=canonical.
Przekierowanie 301 Użyj przekierowań 301, aby poinformować Googlebota, że adres URL przekierowania jest lepszą wersją niż adres analizowany. Używaj tej metody tylko wtedy, gdy wycofujesz duplikat strony.
Wersja AMP Jeśli 1 z wersji strony jest stroną AMP, postępuj zgodnie ze wskazówkami dotyczącymi standardu AMP, aby wskazać stronę kanoniczną i jej wersję AMP.

Ogólne wskazówki

Niezależnie od tego, którą metodę wskazywania strony kanonicznej wybierzesz, przestrzegaj tych wytycznych:

  • Do wyboru strony kanonicznej nie używaj pliku robots.txt.
  • Nie wybieraj strony kanonicznej przy użyciu narzędzia do usuwania adresów URL – ukryje ono wszystkie wersje adresu URL w wyszukiwarce.
  • Nie określaj różnych adresów URL jako kanonicznych dla tej samej strony – nie korzystaj w tym celu ani z tej samej metody wyboru strony kanonicznej, ani z różnych metod (np. nie określaj jednego adresu URL w mapie witryny, a innego dla tej samej strony przy użyciu atrybutu rel="canonical").
  • Nie używaj tagu noindex do blokowania wyboru strony kanonicznej. Ta reguła służy do wykluczania strony z indeksu, a nie do zarządzania wyborem strony kanonicznej.
  • Określ stronę kanoniczną, jeśli używasz tagów z atrybutem hreflang. Wskaż stronę kanoniczną w tym samym języku lub w najbliższym języku zastępczym, jeśli nie istnieje ona w danym języku.

  • Określ kanoniczny adres URL jako docelowy, gdy linkujesz wewnątrz strony (nie używaj duplikatów). Spójne wskazywanie tego samego adresu URL, który uważasz za kanoniczny, pomaga Google odczytać Twoje preferencje.

Pierwszeństwo protokołu HTTPS przed HTTP w URL-ach kanonicznych

Jako kanoniczne Google woli określać strony HTTPS, a nie równoważne strony HTTP, poza sytuacjami, w których – jak w poniższych przykładach – występują problemy lub sygnały wzajemnie się wykluczające:

  • Strona HTTPS ma nieprawidłowy certyfikat SSL.
  • Strona HTTPS zawiera niezabezpieczone zależności (inne niż obrazy).
  • Strona HTTPS przekierowuje użytkowników do strony HTTP lub przez taką stronę.
  • Strona HTTPS zawiera tag rel="canonical" link prowadzący do strony HTTP.

Chociaż nasze systemy domyślnie wybierają strony HTTPS zamiast stron HTTP, możesz zdecydować, żeby robiły tak zawsze. W tym celu wykonaj jedną z tych czynności:

  • Dodaj przekierowania ze strony HTTP do strony HTTPS.
  • Dodaj tag rel="canonical" link prowadzący ze strony HTTP do strony HTTPS.
  • Zaimplementuj HSTS.

Aby zapobiec nieprawidłowemu interpretowaniu przez Google strony HTTP jako kanonicznej, unikaj tych praktyk:

  • Użycie nieprawidłowych certyfikatów TLS/SSL i przekierowań HTTPS do HTTP, ponieważ powodują one, że Google zdecydowanie preferuje HTTP. Wykorzystanie mechanizmu HSTS nie umożliwia obejścia określonego w ten sposób wysokiego priorytetu strony.
  • Dodanie strony w wersji HTTP zamiast HTTPS do mapy witryny lub wpisów hreflang.
  • Użycie własnego certyfikatu SSL/TLS do złego wariantu hosta, np. adresu example.com wyświetlającego certyfikat adresu www.example.com. Certyfikat musi pasować do pełnego adresu URL witryny lub być certyfikatem typu Wildcard, którego można używać w odniesieniu do wielu subdomen domeny.

Tag link rel="canonical" (tag strony kanonicznej) to tag używany w sekcji nagłówka strony HTML, który wskazuje, że strona nakłada się na inną stronę. Aby wskazać, że dana strona jest duplikatem innej strony, możesz użyć tagu <link> w sekcji head strony HTML.

Załóżmy, że chcesz określić adres https://example.com/dresses/green-dresses jako kanoniczny URL, nawet wtedy, gdy do tej samej treści prowadzą także inne adresy URL. Aby go oznaczyć jako kanoniczny, wykonaj te czynności:

  1. Oznacz wszystkie duplikaty stron tagiem link rel="canonical".

    Dodaj element <link> z atrybutem rel="canonical" do sekcji <head> duplikatów stron, aby wskazać stronę kanoniczną, np.:

    <link rel="canonical" href="https://example.com/dresses/green-dresses" />
  2. Jeśli strona kanoniczna ma wersję na komórki, dodaj do niej tag rel="alternate" link prowadzący do jej wersji mobilnej:
    <link rel="alternate" media="only screen and (max-width: 640px)"  href="https://m.example.com/dresses/green-dresses">
  3. Dodaj dowolny parametr hreflang lub inne przekierowania odpowiednie dla strony.

Stosuj bezwzględne ścieżki dostępu zamiast ścieżek względnych z tagiem rel="canonical" link.

Dobry przykład: https://www.example.com/dresses/green/greendress.html

Zły przykład: /dresses/green/greendress.html

Jeśli używasz JavaScriptu do dodawania tagu link rel="canonical", upewnij się, że tag link canonical jest prawidłowo wstawiony.

Używanie nagłówka HTTP rel="canonical"

Jeśli możesz skonfigurować serwer, możesz użyć nagłówków HTTP rel="canonical" (zamiast tagów HTML) do wskazania kanonicznego adresu URL dokumentu obsługiwanego przez wyszukiwarkę, w tym dokumentów w formacie innym niż HTML.

Obecnie Google obsługuje tę metodę tylko w odniesieniu do wyników wyszukiwania w internecie.

Jeśli na przykład udostępniasz plik PDF przy użyciu wielu adresów URL, możesz zwrócić nagłówek HTTP rel="canonical", aby poinformować Googlebota, jaki jest adres kanoniczny tego pliku:

Link: <https://www.example.com/downloads/white-paper.pdf>; rel="canonical"

Rekomendacje dotyczące nagłówka HTTP rel="canonical" i tagu rel="canonical" link są takie same. Zgodnie z definicją RFC2616 w nagłówku HTTP rel="canonical" używaj tylko cudzysłowów podwójnych.

Używanie mapy witryny

Wybierz kanoniczne adresy URL wszystkich stron i prześlij je w mapie witryny. Wszystkie strony wymienione w mapie witryny są proponowane jako kanoniczne. Na podstawie podobieństwa ich zawartości Google decyduje, które z nich ewentualnie są duplikatami.

Nie gwarantujemy, że uznamy adresy URL z mapy witryny za kanoniczne, ale jest to prosty sposób na definiowanie adresów kanonicznych w przypadku dużych witryn. Poza tym mapy witryn pozwalają informować Google o tym, które strony są według Ciebie najważniejsze w witrynie.

Nie uwzględniaj w mapie witryny stron niekanonicznych. Jeśli używasz mapy witryny, określ w niej tylko kanoniczne adresy URL.

Używanie przekierowań 301 w przypadku wycofanych adresów URL

Skorzystaj z tej metody, jeśli chcesz się pozbyć istniejących duplikatów stron, ale nie możesz pozwolić sobie na to, aby pojawiły się problemy związane z wycofaniem starych adresów.

Powiedzmy, że na Twoją stronę można wejść przy użyciu tych adresów:

  • https://example.com/home
  • https://home.example.com
  • https://www.example.com

Wybierz jeden z tych adresów jako kanoniczny adres URL i użyj przekierowań 301, aby przesyłać na niego ruch z pozostałych adresów. Przekierowanie 301 po stronie serwera daje pewność, że zarówno użytkownicy, jak i wyszukiwarki trafią na właściwą stronę. Kod stanu 301 oznacza, że strona została na stałe przeniesiona do innej lokalizacji.

Jeśli korzystasz z usługi hostingowej, zapoznaj się z jej dokumentacją, aby dowiedzieć się, jak skonfigurować przekierowania 301.

Rozwiązywanie problemów

Jeśli kanoniczny URL znajduje się w usłudze, która nie należy do Ciebie, nie będziesz widzieć ruchu związanego z duplikatem strony. Oto kilka typowych przyczyn, dla których kanoniczny URL może znajdować się w osobnej usłudze:

  • Nieprawidłowo oznaczone wersje językowe: jeśli masz wiele witryn, które zawierają bardzo podobne treści przetłumaczone na potrzeby różnych użytkowników z całego świata, postępuj zgodnie z naszymi wytycznymi dotyczącymi zlokalizowanych witryn.
  • Nieprawidłowe tagi stron kanonicznych: w niektórych systemach zarządzania treścią (CMS) lub wtyczkach CMS techniki konwertowania kanonicznego mogą być niepoprawnie stosowane do wskazywania adresów URL w witrynach zewnętrznych. Sprawdź, czy taka sytuacja ma miejsce na Twoich stronach. Jeśli witryna ma nieoczekiwany kanoniczny URL – być może w wyniku niewłaściwego użycia atrybutu rel="canonical" lub przekierowania 301 – rozwiąż ten problem bezpośrednio.
  • Niepoprawnie skonfigurowane serwery: niektóre błędy w konfiguracji hostingu mogą powodować nieoczekiwany wybór adresu URL z innej domeny, np.:
    • Serwer może być tak skonfigurowany, aby w odpowiedzi na żądanie dotyczące adresu URL w witrynie a.com zwracać treści z witryny b.com.
    • Dwa niezależne serwery internetowe mogą zwracać identyczne strony soft 404, których Google nie rozpozna jako strony błędu.
  • Przekierowanie do złośliwego oprogramowania lub spamu: niektóre ataki na witryny polegają na wprowadzeniu kodu zwracającego przekierowanie HTTP 301 albo wstawieniu do nagłówka HTTP lub sekcji <head> w kodzie HTML tagu link z atrybutem rel="canonical", który zwykle wskazuje URL ze złośliwym oprogramowaniem lub spamem w innej domenie. Wówczas nasze algorytmy mogą wybrać fałszywy, zewnętrzny URL zamiast właściwego adresu w zaatakowanej witrynie.
  • Witryna naśladująca („copycat”): w rzadkich sytuacjach nasz algorytm może wybrać URL witryny zewnętrznej, w której bez Twojego pozwolenia umieszczono należącą do Ciebie treść. Jeśli stwierdzisz, że Twoje materiały są powielane w innej witrynie z naruszeniem praw autorskich, skontaktuj się z jej właścicielem i zażądaj ich usunięcia. Możesz też poprosić Google o usunięcie strony, która narusza Twoje prawa, z naszych wyników wyszukiwania. W tym celu prześlij prośbę na mocy ustawy Digital Millennium Copyright Act.