Googlebot od kuchni: wyjaśniamy indeksowanie, pobieranie i przetwarzane przez nas bajty

Wtorek, 31 marca 2026 roku

Jeśli słuchasz 105 odcinka podcastu „Wyszukiwarka – poza protokołem”, być może słyszałeś, jak zagłębiamy się w temat, który jest nam bliski (i naszym serwerom): mechanizmy działania Googlebota.

Przez długi czas nazwa „Googlebot” przywoływała obraz jednego, niestrudzonego robota systematycznie czytającego internet. Rzeczywistość jest jednak nieco bardziej złożona i znacznie ciekawsza. Dziś chcemy zajrzeć pod maskę naszej infrastruktury indeksowania, ze szczególnym uwzględnieniem tego, co nam samym spędza sen z powiek: limitów rozmiaru w bajtach.

Po pierwsze, Googlebot nie jest jednym programem.

Najpierw wyjaśnijmy pewne historyczne nieporozumienie. Na początku XXI wieku Google miało jeden produkt, więc mieliśmy jednego robota indeksującego. Nazwa „Googlebot” się przyjęła. Obecnie Googlebot jest tylko użytkownikiem czegoś, co przypomina scentralizowaną platformę indeksowania.

Gdy w logach serwera widzisz Googlebota, oznacza to, że masz do czynienia z wyszukiwarką Google. Dziesiątki innych klientów, m.in. Zakupy Google i AdSense, kierują swoje prośby o indeksowanie przez tę samą infrastrukturę bazową pod różnymi nazwami robotów indeksujących. Większe z nich są udokumentowane na stronie infrastruktury robotów indeksujących Google.

Limit 2 MB: co się stanie z Twoimi bajtami?

W tym miejscu sytuacja trochę się komplikuje. Każdy klient infrastruktury indeksowania musi skonfigurować pewne ustawienia pobierania. Te ustawienia obejmują ciąg znaków klienta użytkownika, tokeny klienta użytkownika, których robot będzie szukać w pliku robots.txt, oraz liczbę bajtów, które robot pobierze z jednego adresu URL.

Googlebot pobiera obecnie maksymalnie 2 MB dla każdego adresu URL (z wyjątkiem plików PDF). Oznacza to, że indeksuje tylko pierwsze 2 MB zasobu, w tym nagłówek HTTP. W przypadku plików PDF limit wynosi 64 MB.

Roboty indeksujące obrazy i filmy mają zwykle szeroki zakres wartości progowych, który zależy w dużej mierze od usługi, dla której pobierają dane. Na przykład pobieranie ikony witryny może mieć bardzo niski limit w porównaniu z wyszukiwaniem obrazów.

W przypadku każdego innego robota, który nie określa limitu, domyślna wartość to 15 MB niezależnie od typu treści.

Co to oznacza dla bajtów wysyłanych przez serwer?

  1. Częściowe pobieranie: jeśli plik HTML jest większy niż 2 MB, Googlebot nie odrzuca strony. Zamiast tego zatrzymuje pobieranie dokładnie w momencie osiągnięcia limitu 2 MB. Pamiętaj, że limit obejmuje nagłówki żądań HTTP.
  2. Przetwarzanie limitu: pobrana część (pierwsze 2 MB) jest przekazywana do naszych systemów indeksowania i usługi renderowania internetowego (WRS) tak, jakby była kompletnym plikiem.
  3. Niewidoczne bajty: wszystkie bajty, które znajdują się po przekroczeniu progu 2 MB, są całkowicie ignorowane. Nie są pobierane, renderowane ani indeksowane.
  4. Pobieranie zasobów: każdy zasób, do którego odwołuje się kod HTML (z wyjątkiem multimediów, czcionek i kilku nietypowych plików), zostanie pobrany przez usługę WRS za pomocą Googlebota, tak jak nadrzędny kod HTML. Mają one własny, osobny licznik bajtów dla każdego adresu URL i nie wliczają się do rozmiaru strony nadrzędnej.

W przypadku zdecydowanej większości stron internetowych ładunek HTML o rozmiarze 2 MB jest ogromny i nigdy nie osiągniesz tego limitu. Jeśli jednak strona zawiera duże obrazy w formacie base64, obszerne bloki kodu CSS/JavaScript lub zaczyna się od menu o rozmiarze kilku megabajtów, możesz przypadkowo przekroczyć limit 2 MB dla rzeczywistej treści tekstowej lub krytycznych danych strukturalnych. Jeśli te kluczowe bajty nie zostaną pobrane, dla Googlebota po prostu nie istnieją.

Renderowanie bajtów

Gdy robot z sukcesem pobierze bajty (do limitu), przekazuje pałeczkę WRS. WRS przetwarza JavaScript i wykonuje kod po stronie klienta podobnie jak nowoczesna przeglądarka, aby poznać ostateczny wygląd strony i jej zawartość tekstową. Renderowanie pobiera i wykonuje pliki JavaScript i CSS oraz przetwarza żądania XHR, aby lepiej zrozumieć tekstową zawartość i strukturę strony (nie wysyła żądań dotyczących obrazów ani filmów). W przypadku każdego żądanego zasobu obowiązuje też limit 2 MB.

Pamiętaj jednak, że WRS może wykonać tylko kod, który został pobrany przez robota indeksującego. Ponadto WRS działa bezstanowo – między żądaniami usuwa pamięć lokalną i dane sesji. Może to mieć szczególne znaczenie dla sposobu, w jaki nasze systemy interpretują dynamiczne elementy zależne od JavaScriptu.

Sprawdzone metody dotyczące bajtów

Aby mieć pewność, że Googlebot może wydajnie pobierać i interpretować Twoje treści, pamiętaj o tych sprawdzonych metodach na poziomie bajtów:

  • Zadbaj o to, aby kod HTML był jak najprostszy: przenieś duże pliki CSS i JavaScript do plików zewnętrznych. Początkowy dokument HTML ma rozmiar ograniczony do 2 MB, ale skrypty zewnętrzne i arkusze stylów są pobierane oddzielnie (podlegają własnym limitom).
  • Kolejność ma znaczenie: umieść najważniejsze elementy, takie jak metatagi, elementy <title>, elementy <link>, kanoniczne adresy URL i podstawowe dane strukturalne, wyżej w dokumencie HTML. Dzięki temu jest mało prawdopodobne, że znajdą się poniżej progu.
  • Monitoruj dzienniki serwera: sprawdzaj czasy odpowiedzi serwera. Jeśli serwer ma problemy z przesyłaniem bajtów, nasze roboty indeksujące automatycznie zmniejszą liczbę wysyłanych próśb, aby uniknąć przeciążenia infrastruktury, co spowoduje spadek częstotliwości indeksowania.

Pamiętaj, że ten limit nie jest stały i może się zmieniać z czasem w miarę rozwoju internetu i zwiększania rozmiaru stron HTML. (Lub zmniejszania. Oby zmniejszania).

Indeksowanie nie jest magią, ale wysoce zorganizowaną i skalowaną wymianą bajtów. Dzięki zrozumieniu, w jaki sposób nasza centralna infrastruktura pobierania danych pobiera i ogranicza te bajty, możesz mieć pewność, że najważniejsze treści Twojej witryny zawsze będą uwzględniane.

Życzymy udanej optymalizacji!

Chcesz dowiedzieć się więcej o tym, co działo się za kulisami? Posłuchaj odcinka 105 podcastu Wyszukiwarka – poza protokołem w YouTube lub w innej aplikacji do podcastów.