Ringkasan crawler Google (agen pengguna)

"Crawler" adalah istilah umum untuk program apa pun (seperti robot atau spider) yang digunakan untuk menemukan dan memindai situs secara otomatis dengan mengikuti link dari satu halaman ke halaman lainnya. Crawler utama Google disebut Googlebot. Tabel ini mencantumkan informasi tentang crawler Google umum yang mungkin Anda lihat di log perujuk, dan cara crawler tersebut harus ditentukan dalam robots.txt, tag meta robots, dan perintah HTTP X-Robots-Tag.

Tabel berikut menampilkan crawler yang digunakan oleh berbagai produk dan layanan di Google:

  • Token agen pengguna digunakan di baris User-agent: dalam robots.txt agar cocok dengan jenis crawler saat menulis aturan crawl untuk situs Anda. Crawler tertentu memiliki lebih dari satu token, seperti yang ditampilkan pada tabel; Anda hanya perlu mencocokkan satu token crawler untuk menerapkan aturan. Daftar ini tidak lengkap, tetapi mencakup sebagian besar crawler yang dapat ditemukan di situs Anda.
  • String agen pengguna lengkap adalah deskripsi lengkap crawler, serta muncul di permintaan dan log web Anda.
Nilai ini dapat dipalsukan. Jika perlu memverifikasi bahwa pengunjung adalah Googlebot, Anda harus menggunakan pencarian DNS terbalik.
Crawler Token agen pengguna (token produk) String agen pengguna lengkap
APIs-Google

APIs-Google

APIs-Google (+https://developers.google.com/webmasters/APIs-Google.html)
AdSense

Mediapartners-Google

Mediapartners-Google

AdsBot Mobile Web Android

(Memeriksa kualitas iklan pada halaman web Android)

AdsBot-Google-Mobile

Mozilla/5.0 (Linux; Android 5.0; SM-G920A) AppleWebKit (KHTML, like Gecko) Chrome Mobile Safari (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)

AdsBot Mobile Web

(Memeriksa kualitas iklan pada halaman web iPhone)

AdsBot-Google-Mobile

Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1 (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)

AdsBot

Memeriksa kualitas iklan pada halaman web desktop)

AdsBot-Google

AdsBot-Google (+http://www.google.com/adsbot.html)
Googlebot Image
  • Googlebot-Image
  • Googlebot
Googlebot-Image/1.0
Googlebot News
  • Googlebot-News
  • Googlebot
Googlebot-News
Googlebot Video
  • Googlebot-Video
  • Googlebot
Googlebot-Video/1.0

Googlebot (Desktop)

Googlebot

  • Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
  • Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Googlebot/2.1; +http://www.google.com/bot.html) Chrome/W.X.Y.Z Safari/537.36

    atau (jarang digunakan):
  • Googlebot/2.1 (+http://www.google.com/bot.html)

Googlebot (Smartphone)

Googlebot

Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

AdSense Seluler

Mediapartners-Google

(Berbagai jenis perangkat seluler) (compatible; Mediapartners-Google/2.1; +http://www.google.com/bot.html)

Mobile Apps Android

(Memeriksa kualitas iklan pada halaman aplikasi Android. Mematuhi aturan robots AdsBot-Google.)

AdsBot-Google-Mobile-Apps

AdsBot-Google-Mobile-Apps

Feedfetcher

FeedFetcher-Google

Tidak mematuhi aturan robots.txt - berikut alasannya

FeedFetcher-Google; (+http://www.google.com/feedfetcher.html)

Google Read Aloud

Google-Read-Aloud

Tidak mematuhi aturan robots.txt - berikut alasannya

Agen saat ini:

  • Agen desktop: Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.118 Safari/537.36 (compatible; Google-Read-Aloud; +/search/docs/advanced/crawling/overview-google-crawlers)
  • Agen seluler: Mozilla/5.0 (Linux; Android 7.0; SM-G930V Build/NRD90M) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.125 Mobile Safari/537.36 (compatible; Google-Read-Aloud; +/search/docs/advanced/crawling/overview-google-crawlers)

Agen lama (tidak digunakan lagi): google-speakr

Duplex on the web

DuplexWeb-Google

Dapat mengabaikan karakter pengganti agen-pengguna * - berikut alasannya

Mozilla/5.0 (Linux; Android 8.0; Pixel 2 Build/OPD3.170816.012; DuplexWeb-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.131 Mobile Safari/537.36

Google Favicon

(Mengambil favicon untuk berbagai layanan)

Google Favicon

Untuk permintaan yang dimulai pengguna, mengabaikan aturan robots.txt

Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.75 Safari/537.36 Google Favicon
Web Light

googleweblight

Tidak mematuhi aturan robots.txt - berikut alasannya

Mozilla/5.0 (Linux; Android 4.2.1; en-us; Nexus 5 Build/JOP40D) AppleWebKit/535.19 (KHTML, like Gecko; googleweblight) Chrome/38.0.1025.166 Mobile Safari/535.19
Google StoreBot Storebot-Google

Agen desktop: Mozilla/5.0 (X11; Linux x86_64; Storebot-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36

Agen seluler: Mozilla/5.0 (Linux; Android 8.0; Pixel 2 Build/OPD3.170816.012; Storebot-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Mobile Safari/537.36

Chrome/W.X.Y.Z di agen pengguna

Di mana pun Anda melihat string Chrome/W.X.Y.Z pada string agen pengguna dalam tabel, W.X.Y.Z sebenarnya adalah placeholder yang mewakili versi browser Chrome yang digunakan oleh agen pengguna tersebut: misalnya, 41.0.2272.96. Nomor versi ini akan bertambah dari waktu ke waktu untuk mencocokkan dengan versi rilis Chromium terbaru yang digunakan oleh Googlebot.

Jika menelusuri log atau memfilter server untuk menemukan agen pengguna dengan pola ini, Anda mungkin harus menggunakan karakter pengganti untuk nomor versi, bukan menentukan nomor versi yang tepat.

Agen pengguna dalam robots.txt

Saat beberapa agen-pengguna dikenali dalam file robots.txt, Google akan mengikuti yang paling spesifik. Jika ingin semua crawler Google dapat meng-crawl halaman Anda, file robots.txt sama sekali tidak diperlukan. Jika ingin memblokir atau mengizinkan semua crawler Google mengakses sejumlah konten Anda, lakukan dengan menentukan Googlebot sebagai agen-pengguna. Misalnya, jika ingin semua halaman Anda muncul di Google Penelusuran, dan jika ingin iklan AdSense muncul di halaman Anda, file robots.txt tidak diperlukan. Demikian pula, jika Anda ingin memblokir beberapa halaman dari Google sekaligus, pemblokiran agen-pengguna Googlebot juga akan memblokir semua agen-pengguna Google lainnya.

Namun, jika Anda menginginkan kontrol yang lebih mendetail, Anda dapat mengaturnya secara lebih spesifik. Misalnya, Anda ingin semua halaman Anda muncul di Google Penelusuran, tetapi tidak ingin gambar dalam direktori pribadi Anda di-crawl. Dalam hal ini, gunakan robots.txt untuk melarang agen-pengguna Googlebot-image meng-crawl file dalam direktori /personal (sekaligus mengizinkan Googlebot meng-crawl semua file), seperti ini:

User-agent: Googlebot
Disallow:

User-agent: Googlebot-Image
Disallow: /personal
Contoh lainnya, anggap Anda ingin menayangkan iklan di semua halaman, tetapi tidak ingin halaman tersebut muncul di Google Penelusuran. Di sini, Anda perlu memblokir Googlebot, tetapi mengizinkan Mediapartners-Google, seperti ini:
User-agent: Googlebot
Disallow: /

User-agent: Mediapartners-Google
Disallow:

Agen pengguna dalam tag meta robots

Halaman tertentu menggunakan beberapa tag meta robots untuk menentukan perintah bagi crawler yang berbeda, seperti ini:

<meta name="robots" content="nofollow">
<meta name="googlebot" content="noindex">

Dalam hal ini, Google akan menggunakan jumlah perintah negatif, dan Googlebot akan mengikuti perintah noindex dan nofollow. Lihat informasi lebih mendetail tentang mengontrol cara Google meng-crawl dan mengindeks situs Anda.