„Robot" to ogólne określenie dowolnego programu służącego do automatycznego odnajdywania i analizowania witryn przez podążanie za linkami od strony do strony. Główny robot indeksujący Google nazywa się Googlebot. Ta tabela zawiera informacje na temat najpopularniejszych robotów Google, które możesz zobaczyć w dziennikach strony odsyłającej, oraz sposobu ich określania w pliku robots.txt, metatagach robots i dyrektywach HTTP X-Robots-Tag.
Tabela przedstawia roboty używane przez różne produkty i usługi w Google:
- Token klienta użytkownika jest używany w wierszu
User-agent:
w pliku robots.txt i reprezentuje typ robota podczas pisania reguł indeksowania Twojej witryny. Jak pokazujemy w tabeli, niektóre roboty odpowiadają więcej niż 1 tokenowi. Wystarczy, że użyjesz tylko 1 pasującego tokena robota, by reguła została zastosowana. Lista nie jest kompletna, ale obejmuje większość robotów, które możesz zobaczyć na swojej stronie. - Pełny ciąg znaków klienta użytkownika to pełny opis robota widoczny w żądaniu i dziennikach witryny.
Robot | Token klienta użytkownika (token usługi) | Pełny ciąg znaków klienta użytkownika |
---|---|---|
APIs-Google |
|
APIs-Google (+https://developers.google.com/webmasters/APIs-Google.html) |
AdSense |
|
Mediapartners-Google |
Sprawdza jakość reklam na stronie internetowej na urządzeniu z Androidem. |
|
Mozilla/5.0 (Linux; Android 5.0; SM-G920A) AppleWebKit (KHTML, like Gecko) Chrome Mobile Safari (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html) |
Sprawdza jakość reklam na stronie internetowej na iPhonie. |
|
Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1 (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html) |
Sprawdza jakość reklam na stronie internetowej na komputerze. |
|
AdsBot-Google (+http://www.google.com/adsbot.html ) |
Googlebot Image |
|
Googlebot-Image/1.0 |
Googlebot News |
|
Googlebot-News |
Googlebot Video |
|
Googlebot-Video/1.0 |
Googlebot (komputery) |
|
|
Googlebot (smartfony) |
|
|
Mobile AdSense |
|
(Różne typy urządzeń mobilnych) (compatible; Mediapartners-Google/2.1 ; +http://www.google.com/bot.html ) |
Sprawdza jakość reklam na stronie aplikacji na Androida. Działa zgodnie z regułami dotyczącymi robota AdsBot-Google. |
|
AdsBot-Google-Mobile-Apps |
|
|
|
|
Obecnie używane klienty:
Wcześniej używany klient (wycofany): |
|
Duplex on the Web |
|
Mozilla/5.0 (Linux; Android 8.0; Pixel 2 Build/OPD3.170816.012; DuplexWeb-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.131 Mobile Safari/537.36 |
Google Favicon Pobiera favikony dla różnych usług. |
W przypadku żądań zainicjowanych przez użytkownika ignoruje reguły w pliku robots.txt |
Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.75 Safari/537.36 Google Favicon |
Web Light |
|
Mozilla/5.0 (Linux; Android 4.2.1; en-us; Nexus 5 Build/JOP40D) AppleWebKit/535.19 (KHTML, like Gecko; googleweblight) Chrome/38.0.1025.166 Mobile Safari/535.19 |
W każdym miejscu w tabeli, w którym pojawia się ciąg znaków Chrome/W.X.Y.Z, W.X.Y.Z jest w rzeczywistości symbolem zastępczym reprezentującym wersję przeglądarki Chrome używaną przez tego klienta użytkownika, na przykład 41.0.2272.96. Numer wersji zwiększa się z czasem, w miarę jak zmienia się numer najnowszej wersji Chromium używanej przez Googlebota.
Wyszukując dane w dziennikach lub filtrując serwer pod kątem klienta użytkownika z tym wzorcem, prawdopodobnie zamiast dokładnego numeru wersji lepiej będzie użyć symboli wieloznacznych.
Klienty użytkownika w pliku robots.txt
W przypadku rozpoznania w pliku robots.txt kilku klientów użytkownika używany będzie najmniej ogólny z nich. Jeśli wszystkie roboty Google mają mieć dostęp do Twoich stron, plik robots.txt nie jest w ogóle potrzebny. Jeśli chcesz zablokować lub dopuścić dostęp wszystkich robotów Google do określonej zawartości, możesz to zrobić poprzez podanie klienta użytkownika Googlebot. Jeśli na przykład chcesz, aby wszystkie Twoje strony były wyświetlane w wyszukiwarce Google oraz aby były na nich wyświetlane reklamy AdSense, plik robots.txt nie jest potrzebny. Natomiast jeśli chcesz całkowicie zablokować dostęp robotów Google do niektórych stron, zablokowanie klienta użytkownika Googlebot spowoduje również zablokowanie wszystkich innych klientów użytkownika Google.
Jeśli chcesz mieć bardziej precyzyjną kontrolę, możesz skorzystać z bardziej szczegółowych ustawień. Weźmy na przykład sytuację, gdy chcesz, by wszystkie Twoje strony były wyświetlane w wyszukiwarce Google, ale nie chcesz indeksowania zdjęć znajdujących się w Twoim katalogu prywatnym. W takim przypadku skorzystaj z pliku robots.txt, aby zabronić klientowi użytkownika Googlebot-Image indeksowania plików w katalogu /prywatny, jednocześnie zezwalając klientowi Googlebot na indeksowanie wszystkich plików:
User-agent: Googlebot Disallow: User-agent: Googlebot-Image Disallow: /personalZobaczmy inny przykład. Załóżmy, że chcesz wyświetlać reklamy na wszystkich swoich stronach, ale nie chcesz, by te strony pojawiały się w wyszukiwarce Google. W takiej sytuacji zablokuj klienta Googlebot, ale dopuść klienta Mediapartners-Google:
User-agent: Googlebot Disallow: / User-agent: Mediapartners-Google Disallow:
Klienty użytkownika w metatagach robots
Na niektórych stronach używanych jest wiele metatagów robots, które określają dyrektywy dla różnych robotów. Na przykład:
<meta name="robots" content="nofollow"> <meta name="googlebot" content="noindex">
W takich przypadkach roboty Google będą przestrzegać wszystkich podanych dyrektyw wykluczających, a Googlebot będzie przestrzegać zarówno dyrektywy noindex
, jak i nofollow
. Więcej informacji o tym, jak kontrolować sposób indeksowania stron przez Google