Zadbaj o dobrą organizację dzięki kolekcji
Zapisuj i kategoryzuj treści zgodnie ze swoimi preferencjami.
Przegląd robotów Google (klientów użytkownika)
„Robot” to ogólne określenie dowolnego programu służącego do automatycznego odnajdywania i skanowania witryn przez podążanie za linkami od strony do strony. Główny robot indeksujący Google nazywa się Googlebot. Ta tabela zawiera informacje na temat najpopularniejszych robotów Google, które możesz zobaczyć w dziennikach strony odsyłającej, oraz sposobu ich określania w pliku
robots.txt,
tagach robotsmeta i regułach HTTP X-Robots-Tag.
Tabela przedstawia roboty używane przez różne produkty i usługi w Google:
Token klienta użytkownika jest używany w wierszu User-agent: w pliku robots.txt i reprezentuje typ robota podczas pisania reguł indeksowania Twojej witryny. Jak pokazujemy w tabeli, niektóre roboty odpowiadają więcej niż jednemu tokenowi. Wystarczy, że użyjesz tylko jednego pasującego tokena robota, aby reguła została zastosowana. Lista nie jest kompletna, ale obejmuje większość robotów, które możesz zobaczyć w swojej witrynie.
Pełny ciąg znaków klienta użytkownika to pełny opis robota widoczny w żądaniu HTTP i dziennikach witryny.
Mozilla/5.0 (iPhone; CPU iPhone OS 14_7_1 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/14.1.2 Mobile/15E148 Safari/604.1 (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)
Uwaga dotycząca Chrome/W.X.Y.Z w klientach użytkownika
W każdym miejscu w tabeli, w którym pojawia się ciąg znaków Chrome/W.X.Y.Z, W.X.Y.Z jest w rzeczywistości symbolem zastępczym reprezentującym wersję przeglądarki Chrome używaną przez tego klienta użytkownika, na przykład 41.0.2272.96. Numer wersji zwiększa się wraz ze zmianami numeru najnowszych wersji Chromium używanych przez Googlebota.
Wyszukując dane w dziennikach lub filtrując serwer pod kątem klienta użytkownika z tym wzorcem, zamiast dokładnego numeru wersji lepiej będzie użyć symboli wieloznacznych.
Klienty użytkownika w pliku robots.txt
Jeśli w pliku robots.txt zostanie rozpoznane kilka klientów użytkownika, Google użyje najmniej ogólnego z nich. Jeśli wszystkie roboty Google mają mieć dostęp do Twoich stron, plik robots.txt nie jest w ogóle potrzebny. Jeśli chcesz zablokować lub dopuścić dostęp wszystkich robotów Google do określonej zawartości, możesz to zrobić, wskazując Googlebot jako klienta użytkownika. Jeśli na przykład chcesz, aby wszystkie Twoje strony były wyświetlane w wyszukiwarce Google i żeby pojawiały się na nich reklamy AdSense, plik robots.txt nie jest potrzebny. Jeśli chcesz całkowicie zablokować dostęp robotów Google do niektórych stron, zablokowanie klienta użytkownika Googlebot spowoduje również zablokowanie wszystkich innych klientów użytkownika Google.
Jeśli chcesz mieć większą kontrolę, możesz skorzystać z bardziej szczegółowych ustawień. Załóżmy na przykład, że chcesz, żeby wszystkie Twoje strony były wyświetlane w wyszukiwarce Google, ale nie życzysz sobie indeksowania zdjęć znajdujących się w Twoim katalogu prywatnym. W takim przypadku skorzystaj z pliku robots.txt, aby zabronić klientowi użytkownika Googlebot-Image indeksowania plików w katalogu prywatnym, ale jednocześnie zezwolić Googlebotowi na indeksowanie wszystkich plików:
Oto inny przykład. Załóżmy, że chcesz wyświetlać reklamy na wszystkich swoich stronach, ale nie chcesz, aby te strony pojawiały się w wyszukiwarce Google. W takiej sytuacji zablokuj Googlebota, ale dopuść klienta użytkownika Mediapartners-Google:
Poszczególne roboty Google uzyskują dostęp do witryn w określonym celu i z różną szybkością. Google używa algorytmów, żeby dla każdej witryny określić optymalną szybkość indeksowania. Jeśli robot Google zbyt często indeksuje Twoją witrynę, możesz zmniejszyć szybkość indeksowania.
Wycofane roboty Google
Poniższe roboty Google nie są już używane. Są one wymienione tutaj tylko jako dane historyczne.
Wycofane roboty Google
Google Duplex on the web
Obsługiwał usługę Duplex on the web.
Token klienta użytkownika
DuplexWeb-Google
Pełny ciąg znaków klienta użytkownika
Mozilla/5.0 (Linux; Android 11; Pixel 2; DuplexWeb-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.193 Mobile Safari/537.36
Web Light
Za każdym razem, gdy użytkownik kliknął Twoją stronę w wyszukiwarce przy odpowiednich warunkach, klient użytkownika Web Light sprawdzał, czy na stronie nie ma nagłówka no-transform. Klient ten był używany tylko do jednoznacznych żądań przeglądania pochodzących od użytkownika i ignorował reguły w pliku robots.txt służące do blokowania zautomatyzowanych żądań indeksowania.
Token klienta użytkownika
googleweblight
Pełny ciąg znaków klienta użytkownika
Mozilla/5.0 (Linux; Android 4.2.1; en-us; Nexus 5 Build/JOP40D) AppleWebKit/535.19 (KHTML, like Gecko; googleweblight) Chrome/38.0.1025.166 Mobile Safari/535.19