Googlebot
Googlebot to ogólna nazwa 2 typów robotów skanujących Google:
- Googlebot komputerowy: robot symulujący użytkownika na komputerze.
- Googlebot na smartfony: robot symulujący użytkownika na urządzeniu mobilnym.
Możesz rozpoznać podtyp Googlebota, patrząc na ciąg znaków klienta użytkownika w żądaniu. Oba typy robotów podlegają jednak temu samemu tokenowi produktu (tokenowi klienta użytkownika) w pliku robots.txt, dlatego plik ten nie może przekazywać informacji tylko komórkowemu lub tylko komputerowemu Googlebotowi.
W przypadku większości witryn Google indeksuje przede wszystkim mobilną wersję treści. W związku z tym większość żądań indeksowania będzie realizowana przez robota komórkowego, a mniejszość – przez robota komputerowego.
Jak Googlebot uzyskuje dostęp do Twojej witryny?
W większości przypadków Googlebot nie powinien odwiedzać witryny częściej niż średnio co kilka sekund. Jednak wskutek opóźnień odstępy te mogą się chwilowo nieco zwiększać.
Googlebot został zaprojektowany do działania jednocześnie na tysiącach komputerów, co poprawia jego wydajność i zapewnia skalowalność w miarę rozwoju sieci. Aby zmniejszyć wykorzystanie przepustowości, wiele naszych robotów uruchamiamy na komputerach znajdujących się w pobliżu witryn, które mogą być przez nie indeksowane. Z tego względu logi mogą uwzględniać wizyty klienta użytkownika Googlebota z kilku adresów IP. Naszym celem jest zindeksowanie możliwie największej liczby stron w witrynie podczas każdej wizyty bez nadmiernego obciążania serwera. Jeśli wysyłamy do Twojej witryny zbyt dużo żądań na sekundę, możesz zmniejszyć szybkość indeksowania.
Googlebot indeksuje głównie z adresów IP w Stanach Zjednoczonych. Jeśli Googlebot wykryje, że witryna blokuje żądania pochodzące ze Stanów Zjednoczonych, może spróbować zindeksować ją z adresów IP znajdujących się w innych krajach. Lista obecnie używanych bloków adresów IP używanych przez Googlebota jest dostępna w formacie JSON.
Googlebot wykonuje indeksowanie za pomocą HTTP/1.1 i – jeśli witryna obsługuje tę opcję – HTTP/2. Wybór wersji protokołu służącej do indeksowania witryny nie wpływa na korzyści związane z rankingiem. Indeksowanie przez HTTP/2 może jednak zaoszczędzić zasoby obliczeniowe (np. CPU, RAM) Twojej witryny i Googlebota.
Jeśli chcesz zrezygnować z indeksowania z wykorzystaniem protokołu HTTP/2, poinstruuj serwer hostujący Twoją witrynę, że przy próbie indeksowania witryny przez HTTP/2 ma zwracać kod stanu HTTP 421
. Jeśli nie jest to możliwe, wyślij wiadomość do zespołu Googlebota (jest to rozwiązanie tymczasowe).
Googlebot może zindeksować pierwsze 15 MB pliku HTML lub obsługiwanego pliku tekstowego. Każdy zasób wskazany w kodzie HTML, taki jak CSS i JavaScript, jest pobierany oddzielnie, a każde pobieranie jest objęte tym samym limitem rozmiaru plików. Po przeskanowaniu pierwszych 15 MB pliku Googlebot zatrzymuje się i podczas indeksowania uwzględnia tylko te 15 MB. Limit rozmiaru pliku jest stosowany do danych nieskompresowanych. Inne roboty Google, takie jak Googlebot Video i Googlebot Image, mogą mieć różne ograniczenia.
Blokowanie Googlebotowi dostępu do treści witryny
Utrzymanie serwera internetowego w tajemnicy przez niepublikowanie do niego żadnych linków jest niemal niemożliwe. Gdy na Twoim „tajnym” serwerze ktoś skorzysta z linku prowadzącego do innego serwera internetowego, Twój „tajny” URL może pojawić się w tagu z informacją o stronie odsyłającej i zostać zapisany i opublikowany przez ten drugi serwer internetowy w jego dzienniku strony odsyłającej. W sieci jest też wiele nieaktualnych i uszkodzonych linków. Gdy ktoś opublikuje nieprawidłowy link do Twojej witryny lub nie zaktualizuje linków tak, by odzwierciedlały zmiany na Twoim serwerze, Googlebot będzie próbował zindeksować taki nieprawidłowy link z Twojej witryny.
Jeśli chcesz uniemożliwić Googlebotowi skanowanie treści w Twojej witrynie, możesz to zrobić na kilka sposobów. Pamiętaj, że uniemożliwienie Googlebotowi skanowania strony, zablokowanie indeksowania strony oraz uniemożliwienie robotom i użytkownikom dostępu do strony to różne działania.
Weryfikowanie Googlebota
Wykorzystywany przez Googlebota ciąg znaków klienta użytkownika jest często fałszowany przez inne roboty – weź to pod uwagę, zanim go zablokujesz. Warto najpierw sprawdzić, czy to rzeczywiście Googlebot wysyła podejrzane żądanie. Aby się o tym przekonać, najlepiej jest przeprowadzić odwrotne wyszukiwanie DNS źródłowego adresu IP żądania lub sprawdzić, czy ten adres mieści się w zakresach adresów IP Googlebota.