Rozwiązywanie problemów z błędami indeksowania w wyszukiwarce Google

Oto najważniejsze etapy rozwiązywania problemów ze skanowaniem witryny przez wyszukiwarkę Google:

  1. Sprawdź, czy Googlebot nie ma problemów z dostępnością Twojej witryny
  2. Poszukaj stron, które nie są indeksowane, choć powinny
  3. Sprawdź, czy niektóre elementy Twojej witryny wymagają szybszego indeksowania niż obecnie
  4. Zwiększ efektywność indeksowania witryny
  5. Przeciwdziałaj zbyt częstemu indeksowaniu witryny

Sprawdź, czy Googlebot nie ma problemów z dostępnością Twojej witryny

Poprawa dostępności witryny nie musi oznaczać zwiększenia budżetu indeksowania. Google określa najlepszą szybkość skanowania na podstawie zapotrzebowania, zgodnie z wcześniejszym opisem. Jednak problemy z dostępnością sprawiają, że Google nie skanuje witryny wystarczająco często.

Diagnoza:

Przejrzyj historię skanowania witryny przez Googlebota w raporcie Statystyki indeksowania. Dowiesz się z niego, kiedy wykryliśmy problemy z dostępnością Twojej witryny. Jeśli widzisz błędy lub ostrzeżenia dotyczące dostępności witryny, na wykresach dostępności hosta poszukaj przypadków, w których żądania Googlebota przekroczyły czerwoną linię limitu. Kliknij wykres, aby sprawdzić adresy URL, których dotyczą błędy, i spróbuj je dopasować do problemów w witrynie.

Możesz też przetestować kilka adresów URL w swojej witrynie za pomocą narzędzia do sprawdzania adresów URL. Jeśli narzędzie zwraca ostrzeżenia Przekroczono limit obciążenia hosta, oznacza to, że Googlebot nie może zindeksować tylu adresów URL, ile udało się wykryć w Twojej witrynie.

Postępowanie:

  • Zapoznaj się z dokumentacją raportu Statystyki indeksowania, aby dowiedzieć się, jak znaleźć i rozwiązać niektóre problemy z dostępnością.
  • Zablokuj skanowanie stron, których nie chcesz indeksować. Zobacz Zarządzanie zasobami.
  • Zwiększ szybkość wczytywania i renderowania stron. Zobacz Zwiększanie efektywności indeksowania witryny.
  • Zwiększ możliwości serwera. Jeśli uważasz, że Google stale skanuje witrynę na granicy możliwości serwera, ale nadal niektóre ważne adresy URL nie są skanowane ani aktualizowane stosownie do potrzeb, możesz zwiększyć możliwości serwera, aby pomóc Google w obsłużeniu większej liczby stron w Twojej witrynie. Przejrzyj historię dostępności hosta w raporcie Statystyki indeksowania, aby sprawdzić, czy szybkość skanowania Google często przekracza limit. Jeśli tak jest, zwiększ zasoby serwera na miesiąc i sprawdź, czy w tym samym okresie liczba żądań indeksowania wzrosła.

Sprawdź, czy jakieś części Twojej witryny nie są indeksowane, choć powinny

Google poświęca Twojej witrynie niezbędną ilość czasu, aby zindeksować wszystkie możliwe do znalezienia treści wysokiej jakości, które są wartościowe z punktu widzenia użytkowników. Jeśli uważasz, że Googlebot pomija ważne treści, to być może o nich nie wie, są one przed nim zablokowane lub ma on do nich ograniczony dostęp (albo stara się nie przeciążać witryny).

Diagnoza:

Search Console nie udostępnia historii skanowania witryny, którą można filtrować według adresu URL lub ścieżki, ale możesz przejrzeć dzienniki witryny, aby sprawdzić, czy Googlebot zeskanował konkretne adresy URL. To, czy te zeskanowane adresy URL zostały zindeksowane, to zupełnie inna sprawa.

Pamiętaj, że rozpoznanie nowych stron w większości witryn trwa co najmniej kilka dni. Dlatego nie należy oczekiwać, że adresy URL zostaną w nich zindeksowane tego samego dnia. Wyjątkiem są witryny, których treści szybko tracą aktualność, np. witryny z wiadomościami.

Postępowanie:

Jeśli strony, które dodajesz do swojej witryny, nie zostaną zindeksowane w rozsądnym czasie, oznacza to, że Google o nich nie wie, treści są blokowane, osiągnięty został limit możliwości serwera albo Twój budżet indeksowania został wyczerpany.

  1. Poinformuj Google o nowych stronach: zaktualizuj mapy witryn, aby odzwierciedlały nowe adresy URL.
  2. Sprawdź reguły w pliku robots.txt, aby się upewnić, że nie blokujesz stron przypadkowo.
  3. Sprawdź priorytety skanowania (czyli rozsądnie wykorzystaj budżet indeksowania). Zarządzaj zasobami reklamowymipopraw efektywność skanowania witryny.
  4. Sprawdź, czy nie kończą się możliwości serwera. Googlebot ograniczy skanowanie, jeśli wykryje, że Twoje serwery mają problem z obsługą żądań indeksowania.

Pamiętaj, że strony, których treści nie są dostatecznie wartościowe lub nie odpowiadają potrzebom użytkowników, mogą nie pojawiać się w wynikach wyszukiwania, nawet jeśli zostały zeskanowane.

Sprawdź, czy aktualizacje są indeksowane dostatecznie szybko

Jeśli pomijamy nowe lub zaktualizowane strony w Twojej witrynie, być może ich nie widzimy lub nie zauważyliśmy, że zostały zaktualizowane. Oto jak możesz nas poinformować o aktualizacjach stron.

Pamiętaj, że Google stara się sprawdzać i indeksować strony w miarę szybko. W przypadku większości witryn ten czas wynosi co najmniej 3 dni. Trudno oczekiwać, że Google zindeksuje strony tego samego dnia, w którym je opublikujesz, chyba że prowadzisz witrynę z wiadomościami lub publikujesz inne wartościowe treści, które szybko tracą aktualność.

Diagnoza:

Przejrzyj dzienniki witryny, aby sprawdzić, kiedy Googlebot zindeksował konkretne adresy URL.

Aby poznać datę indeksowania, użyj narzędzia do sprawdzania adresów URL lub wyszukaj zaktualizowane adresy URL.

Postępowanie:

Zalecane czynności:

Czego unikać:

  • Nie przesyłaj tej samej niezmienionej mapy witryny wielokrotnie w ciągu jednego dnia.
  • Nie oczekuj, że Googlebot zeskanuje całą zawartość mapy witryny lub zrobi to od razu. Mapy witryn stanowią przydatne sugestie dla Googlebota, ale nie są bezwzględnie konieczne.
  • Nie uwzględniaj w mapach witryn tych adresów URL, mają nie być widoczne w wyszukiwarce. Może to spowodować niepotrzebne zużycie budżetu indeksowania na strony, których nie chcesz indeksować.

Zwiększ efektywność indeksowania witryny

Zwiększanie szybkości wczytywania stron

Skanowanie przez Google podlega ograniczeniom związanym z przepustowością, czasem i dostępnością wystąpień Googlebota. Jeśli Twój serwer szybciej odpowiada na żądania, być może uda nam się zindeksować więcej stron w Twojej witrynie. Google woli indeksować tylko treści wysokiej jakości, więc przyspieszenie działania stron o niskiej jakości nie zachęci Googlebota do skanowania większej części Twojej witryny. Jeśli uznamy, że pomijamy w niej treści wysokiej jakości, prawdopodobnie zwiększymy Twój budżet, aby zindeksować te treści.

Aby zoptymalizować strony i zasoby pod kątem indeksowania:

  • Za pomocą pliku robots.txt zablokuj wczytywanie przez Googlebota dużych zasobów, które nie są ważne. Pamiętaj, aby blokować tylko mniej istotne zasoby, czyli takie, które nie mają wpływu na zrozumienie treści strony (np. obrazy, które pełnią funkcje dekoracyjne).
  • Upewnij się, że strony wczytują się szybko.
  • Uważaj na długie łańcuchy przekierowań, które mają negatywny wpływ na indeksowanie.
  • Znaczenie ma zarówno czas odpowiedzi na żądania przesyłane do serwera, jak i czas potrzebny do wyrenderowania stron, m.in. czas wczytywania i uruchomienia umieszczonych zasobów, takich jak obrazy czy skrypty. Pamiętaj o dużych lub wczytujących się powoli zasobach, które wymagają indeksowania.

Określanie zmian treści za pomocą kodów stanu HTTP

Google zwykle obsługuje nagłówki żądań HTTP If-Modified-Since i If-None-Match na potrzeby indeksowania. Roboty Google nie wysyłają nagłówków podczas wszystkich prób indeksowania. Zależy to od przypadku użycia żądania (np. AdsBot z większym prawdopodobieństwem ustawi nagłówki żądań HTTP If-Modified-Since i If-None-Match). Jeśli nasze roboty indeksujące wysyłają nagłówek If-Modified-Since, wartością tego nagłówka jest data i godzina wskazująca, kiedy zawartość została ostatnio zindeksowana. Na podstawie tej wartości serwer może zwrócić kod stanu HTTP 304 (Not Modified) bez treści odpowiedzi – w takim przypadku Google ponownie użyje ostatnio zindeksowanej wersji treści. Jeśli treści są nowsze niż data określona przez robota w nagłówku If-Modified-Since, serwer może zwrócić kod stanu HTTP 200 (OK) z treścią odpowiedzi.

Niezależnie od nagłówków żądania możesz wysłać kod stanu HTTP 304 (Not Modified) bez treści odpowiedzi na żadne żądanie Googlebota, jeśli treść nie zmieniła się od czasu ostatniego odwiedzania adresu URL przez Googlebota. Pozwoli to zaoszczędzić czas i zasoby związane z przetwarzaniem na serwerze, co może zwiększyć wydajność indeksowania.

Ukrywanie adresów URL, które mają nie być widoczne w wynikach wyszukiwania

Marnowanie zasobów serwera na niepotrzebne strony może ograniczyć skanowanie stron, które są dla Ciebie ważne. Może to spowodować znaczne opóźnienie w odkrywaniu atrakcyjnych nowych lub zaktualizowanych treści w witrynie.

Udostępnianie w witrynie wielu adresów URL, które według Ciebie nie powinny być indeksowane przez wyszukiwarki, może negatywnie wpłynąć na skanowanie i indeksowanie witryny. Zazwyczaj są to adresy URL z tych kategorii:

Zalecane czynności:

  • Użyj pliku robots.txt, jeśli uważasz, że w ogóle nie powinniśmy indeksować określonego zasobu lub danej strony.
  • Jeśli 1 zasób jest wielokrotnie używany na wielu stronach (na przykład udostępniany obraz lub plik JavaScript), odwołuj się do niego za pomocą tego samego adresu URL na każdej stronie. Umożliwi to Google przechowanie w pamięci podręcznej i ponownie wykorzystywanie tego samego zasobu bez konieczności wielokrotnego wysyłania żądań.

Czego unikać:

  • Nie dodawaj regularnie stron ani katalogów do pliku robots.txt ani ich z niego nie usuwaj w celu zmiany alokacji budżetu na indeksowanie witryny. Korzystaj z pliku robots.txt tylko w przypadku stron lub zasobów, które nie powinny pojawiać się w Google przez dłuższy czas.
  • Nie stosuj rotacji map witryn ani nie używaj innych mechanizmów tymczasowego ukrywania treści w celu zmiany alokacji budżetu.

Błędy soft 404

Błąd soft 404 to adres URL, który kieruje użytkownika na stronę z informacją, że dana strona nie istnieje. Na stronie podany jest też kod stanu 200 (success). W niektórych przypadkach może to być strona bez zawartości głównej lub pusta.

Takie strony mogą być generowane przez serwer WWW Twojej witryny, system zarządzania treścią lub przeglądarkę użytkownika z różnych powodów. Na przykład:

  • Brak pliku po stronie serwera.
  • Uszkodzone połączenie z bazą danych.
  • Pusta strona wyników wyszukiwania wewnętrznego.
  • Niewczytany lub brakujący plik JavaScript.

Zwracanie kodu stanu 200 (success), a potem wyświetlanie lub sugerowanie komunikatu o błędzie albo jakiegoś błędu na stronie nie jest rozwiązaniem wygodnym dla użytkownika. Użytkownikom może się wydawać, że strona jest dostępna online, ale potem pojawia się komunikat o błędzie. Takie strony są wykluczone z wyszukiwarki.

Jeśli algorytmy Google wykryją na podstawie zawartości strony, że tak naprawdę jest ona stroną błędu, Search Console wyświetli w raporcie Indeksowanie stron błąd soft 404.

Napraw błędy soft 404

W zależności od stanu strony i oczekiwanego wyniku możesz rozwiązać błędy soft 404 na kilka sposobów:

Spróbuj określić, które rozwiązanie będzie najlepsze dla Twoich użytkowników.

Strona i jej zawartość nie są już dostępne

Jeśli strona została usunięta i w Twojej witrynie nie ma jej strony zastępczej z podobną zawartością, ustaw zwracanie kodu stanu 404 (not found) lub 410 (gone). Te kody stanu wskazują wyszukiwarkom, że strona nie istnieje i nie chcesz, aby wyszukiwarki ją indeksowały.

Jeśli masz dostęp do plików konfiguracji serwera, możesz dostosować strony z komunikatami o błędach, aby były przydatne dla użytkowników. Dobra niestandardowa strona 404 pomoże odwiedzającym znaleźć poszukiwane informacje, a także dostarczy im przydatną treść i zachęci do dalszego przeglądania Twojej witryny. Oto kilka wskazówek dotyczących projektowania przydatnej, niestandardowej strony 404:

  • Wyraźnie poinformuj użytkowników, że nie można znaleźć strony, której szukają. Zwracaj się do nich w miły i zachęcający sposób.
  • Upewnij się, że Twoja strona 404 wygląda i działa (łącznie z nawigacją) tak samo jak reszta witryny.
  • Pomyśl o dodaniu linków do najpopularniejszych artykułów lub postów, a także do strony głównej witryny.
  • Zastanów się, czy nie warto dać użytkownikom możliwości zgłoszenia uszkodzonego linku.

Niestandardowe strony 404 są tworzone tylko dla użytkowników. Strony te są bezużyteczne z punktu widzenia wyszukiwarki, więc upewnij się, że serwer zwraca kod stanu HTTP 404, aby zapobiec ich indeksowaniu.

Strona lub jej zawartość mają inną lokalizację

Jeśli strona została przeniesiona lub zastąpiona w witrynie inną, ustaw zwracanie kodu 301 (permanent redirect), aby przekierowywać na nią użytkowników. Nie zakłóci to przeglądania Twojej witryny i będzie świetnym sposobem poinformowania wyszukiwarek o nowej lokalizacji strony. Użyj narzędzia do sprawdzania adresów URL, aby upewnić się, że URL zwraca poprawny kod.

Strona i jej zawartość nadal istnieją

Jeśli działająca strona została oznaczona kodem błędu soft 404, może to oznaczać, że nie wczytała się prawidłowo, gdy odwiedzał ją Googlebot, brakowało w niej kluczowych zasobów lub podczas renderowania pojawił się dobrze widoczny komunikat o błędzie. Użyj narzędzia do sprawdzania adresów URL, aby sprawdzić renderowane treści i zwracany kod HTTP. Jeśli wyrenderowana strona jest pusta, prawie pusta lub przy wczytywaniu treści pojawia się komunikat o błędzie, może to oznaczać, że odwołuje się do wielu zasobów, których nie można wczytać (obrazów, skryptów i innych elementów nietekstowych), co może zostać zinterpretowane jako błąd soft 404. Wczytanie zasobów może nie być możliwe, ponieważ zasoby są blokowane (przez plik robots.txt), jest ich zbyt wiele, są za duże, wolno się wczytują lub wystąpiły różnego rodzaju błędy serwera.

Przeciwdziałaj zbyt częstemu indeksowaniu witryny (nagłe wypadki)

Googlebot korzysta z algorytmów, które zapobiegają przeciążaniu witryny żądaniami indeksowania. Jeśli jednak okaże się, że Googlebot powoduje przeciążenie Twojej witryny, możesz wykonać kilka czynności.

Diagnoza:

Monitoruj serwer pod kątem nadmiernej liczby żądań Googlebota wysyłanych to Twojej witryny.

Postępowanie:

W sytuacji awaryjnej zalecamy wykonanie tych czynności, aby ograniczyć obciążanie serwera przez Googlebota:

  1. Gdy serwer jest przeciążony, ustaw tymczasowo zwracanie kodów stanu HTTP 503 lub 429 w odpowiedzi na żądania Googlebota. Googlebot spróbuje ponownie zindeksować te adresy URL za około 2 dni. Pamiętaj, że zwracanie kodów „brak dostępności” przez ponad kilka dni spowoduje trwałe spowolnienie lub zatrzymanie indeksowania adresów URL w Twojej witrynie. Dlatego wykonaj czynności dodatkowe.
  2. Gdy szybkość indeksowania spadnie, zatrzymaj zwracanie kodów stanu HTTP 503 lub 429 w odpowiedzi na żądania indeksowania. Zwracanie kodu 503 lub 429 przez ponad 2 dni spowoduje, że Google usunie z indeksu te adresy URL.
  3. Monitoruj indeksowanie i wydajność hosta na przestrzeni czasu.
  4. Jeśli robot, który stwarza problem, jest jednym z robotów AdsBot, przyczyną problemu jest prawdopodobnie utworzenie przez Ciebie dla witryny celów dynamicznych reklam w wyszukiwarce, które Google próbuje zindeksować. Indeksowanie będzie powtarzane co 3 tygodnie. Jeśli Twój serwer nie poradzi sobie z obsługą tego indeksowania, ogranicz cele reklam lub znajdź serwer o większych możliwościach.