"Crawler" adalah istilah umum untuk program apa pun (seperti robot atau spider) yang digunakan untuk menemukan dan memindai situs secara otomatis dengan mengikuti link dari satu halaman ke halaman lainnya. Crawler utama Google disebut Googlebot. Tabel ini mencantumkan informasi tentang crawler Google umum yang mungkin Anda lihat di log perujuk, dan cara crawler tersebut harus ditentukan dalam robots.txt, tag meta robots, dan perintah HTTP X-Robots-Tag.
Tabel berikut menampilkan crawler yang digunakan oleh berbagai produk dan layanan di Google:
- Token agen pengguna digunakan di baris
User-agent:
dalam robots.txt agar cocok dengan jenis crawler saat menulis aturan crawl untuk situs Anda. Crawler tertentu memiliki lebih dari satu token, seperti yang ditampilkan pada tabel; Anda hanya perlu mencocokkan satu token crawler untuk menerapkan aturan. Daftar ini tidak lengkap, tetapi mencakup sebagian besar crawler yang dapat ditemukan di situs Anda. - String agen pengguna lengkap adalah deskripsi lengkap crawler, serta muncul di permintaan dan log web Anda.
Crawler | Token agen pengguna (token produk) | String agen pengguna lengkap |
---|---|---|
APIs-Google |
|
APIs-Google (+https://developers.google.com/webmasters/APIs-Google.html) |
AdSense |
|
Mediapartners-Google |
(Memeriksa kualitas iklan pada halaman web Android) |
|
Mozilla/5.0 (Linux; Android 5.0; SM-G920A) AppleWebKit (KHTML, like Gecko) Chrome Mobile Safari (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html) |
(Memeriksa kualitas iklan pada halaman web iPhone) |
|
Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1 (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html) |
Memeriksa kualitas iklan pada halaman web desktop) |
|
AdsBot-Google (+http://www.google.com/adsbot.html ) |
Googlebot Image |
|
Googlebot-Image/1.0 |
Googlebot News |
|
Googlebot-News |
Googlebot Video |
|
Googlebot-Video/1.0 |
Googlebot (Desktop) |
|
|
Googlebot (Smartphone) |
|
|
AdSense Seluler |
|
(Berbagai jenis perangkat seluler) (compatible; Mediapartners-Google/2.1 ; +http://www.google.com/bot.html ) |
(Memeriksa kualitas iklan pada halaman aplikasi Android. Mematuhi aturan robots AdsBot-Google.) |
|
AdsBot-Google-Mobile-Apps |
|
|
|
|
Agen saat ini:
Agen lama (tidak digunakan lagi): |
|
Duplex on the web |
|
Mozilla/5.0 (Linux; Android 8.0; Pixel 2 Build/OPD3.170816.012; DuplexWeb-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.131 Mobile Safari/537.36 |
Google Favicon (Mengambil favicon untuk berbagai layanan) |
Untuk permintaan yang dimulai pengguna, mengabaikan aturan robots.txt |
Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.75 Safari/537.36 Google Favicon |
Web Light |
|
Mozilla/5.0 (Linux; Android 4.2.1; en-us; Nexus 5 Build/JOP40D) AppleWebKit/535.19 (KHTML, like Gecko; googleweblight) Chrome/38.0.1025.166 Mobile Safari/535.19 |
Google StoreBot | Storebot-Google |
Agen desktop:
Agen seluler:
|
Di mana pun Anda melihat string Chrome/W.X.Y.Z pada string agen pengguna dalam tabel, W.X.Y.Z sebenarnya adalah placeholder yang mewakili versi browser Chrome yang digunakan oleh agen pengguna tersebut: misalnya, 41.0.2272.96. Nomor versi ini akan bertambah dari waktu ke waktu untuk mencocokkan dengan versi rilis Chromium terbaru yang digunakan oleh Googlebot.
Jika menelusuri log atau memfilter server untuk menemukan agen pengguna dengan pola ini, Anda mungkin harus menggunakan karakter pengganti untuk nomor versi, bukan menentukan nomor versi yang tepat.
Agen pengguna dalam robots.txt
Saat beberapa agen-pengguna dikenali dalam file robots.txt, Google akan mengikuti yang paling spesifik. Jika ingin semua crawler Google dapat meng-crawl halaman Anda, file robots.txt sama sekali tidak diperlukan. Jika ingin memblokir atau mengizinkan semua crawler Google mengakses sejumlah konten Anda, lakukan dengan menentukan Googlebot sebagai agen-pengguna. Misalnya, jika ingin semua halaman Anda muncul di Google Penelusuran, dan jika ingin iklan AdSense muncul di halaman Anda, file robots.txt tidak diperlukan. Demikian pula, jika Anda ingin memblokir beberapa halaman dari Google sekaligus, pemblokiran agen-pengguna Googlebot juga akan memblokir semua agen-pengguna Google lainnya.
Namun, jika Anda menginginkan kontrol yang lebih mendetail, Anda dapat mengaturnya secara lebih spesifik. Misalnya, Anda ingin semua halaman Anda muncul di Google Penelusuran, tetapi tidak ingin gambar dalam direktori pribadi Anda di-crawl. Dalam hal ini, gunakan robots.txt untuk melarang agen-pengguna Googlebot-image meng-crawl file dalam direktori /personal (sekaligus mengizinkan Googlebot meng-crawl semua file), seperti ini:
User-agent: Googlebot Disallow: User-agent: Googlebot-Image Disallow: /personalContoh lainnya, anggap Anda ingin menayangkan iklan di semua halaman, tetapi tidak ingin halaman tersebut muncul di Google Penelusuran. Di sini, Anda perlu memblokir Googlebot, tetapi mengizinkan Mediapartners-Google, seperti ini:
User-agent: Googlebot Disallow: / User-agent: Mediapartners-Google Disallow:
Agen pengguna dalam tag meta robots
Halaman tertentu menggunakan beberapa tag meta robots untuk menentukan perintah bagi crawler yang berbeda, seperti ini:
<meta name="robots" content="nofollow"> <meta name="googlebot" content="noindex">
Dalam hal ini, Google akan menggunakan jumlah perintah negatif, dan Googlebot akan mengikuti perintah noindex
dan nofollow
. Lihat informasi lebih mendetail tentang mengontrol cara Google meng-crawl dan mengindeks situs Anda.