Ringkasan tentang crawler Google (agen pengguna)

"Crawler" adalah istilah umum untuk program apa pun (seperti robot atau spider) yang digunakan untuk menemukan dan memindai situs secara otomatis dengan mengikuti link dari satu halaman web ke halaman web lainnya. Crawler utama Google disebut Googlebot. Tabel ini mencantumkan informasi tentang crawler Google umum yang mungkin Anda lihat di log perujuk, dan cara menentukan crawler tersebut di robots.txt, tag meta robot, dan perintah HTTP X-Robots-Tag.

Tabel berikut menampilkan crawler yang digunakan oleh berbagai produk dan layanan di Google:

  • Token agen pengguna digunakan di baris User-agent: dalam robots.txt agar cocok dengan jenis crawler saat menulis aturan crawl untuk situs Anda. Crawler tertentu memiliki lebih dari satu token, seperti yang ditunjukkan pada tabel; Anda hanya perlu mencocokkan satu token crawler untuk menerapkan satu aturan. Daftar ini tidak lengkap, tetapi mencakup sebagian besar crawler yang dapat ditemukan di situs Anda.
  • String agen pengguna lengkap adalah deskripsi lengkap crawler, yang muncul di log web dan permintaan Anda.

Crawler

APIs-Google

Token agen pengguna APIs-Google
String agen pengguna lengkap APIs-Google (+https://developers.google.com/webmasters/APIs-Google.html)

AdSense

Token agen pengguna Mediapartners-Google
String agen pengguna lengkap Mediapartners-Google

AdsBot Mobile Web Android

Memeriksa kualitas iklan pada halaman web Android.

Token agen pengguna AdsBot-Google-Mobile
String agen pengguna lengkap Mozilla/5.0 (Linux; Android 5.0; SM-G920A) AppleWebKit (KHTML, like Gecko) Chrome Mobile Safari (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)

AdsBot Mobile Web

Memeriksa kualitas iklan pada halaman web iPhone.

Token agen pengguna AdsBot-Google-Mobile
String agen pengguna lengkap Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1 (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)

AdsBot

Memeriksa kualitas iklan pada halaman web desktop.

Token agen pengguna AdsBot-Google
String agen pengguna lengkap AdsBot-Google (+http://www.google.com/adsbot.html)

Googlebot Image

Token agen pengguna
  • Googlebot-Image
  • Googlebot
String agen pengguna lengkap Googlebot-Image/1.0

Googlebot News

Token agen pengguna
  • Googlebot-News
  • Googlebot
String agen pengguna lengkap String agen pengguna Googlebot-News tidak digunakan lagi pada 2011.

Googlebot Video

Token agen pengguna
  • Googlebot-Video
  • Googlebot
String agen pengguna lengkap Googlebot-Video/1.0

Googlebot Desktop

Token agen pengguna Googlebot
String agen pengguna lengkap
  • Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
  • Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Googlebot/2.1; +http://www.google.com/bot.html) Chrome/W.X.Y.Z Safari/537.36
  • Googlebot/2.1 (+http://www.google.com/bot.html)

Googlebot Smartphone

Token agen pengguna Googlebot
String agen pengguna lengkap Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

Mobile AdSense

Token agen pengguna Mediapartners-Google
String agen pengguna lengkap (Various mobile device types) (compatible; Mediapartners-Google/2.1; +http://www.google.com/bot.html)

Mobile Apps Android

Memeriksa kualitas iklan pada halaman aplikasi Android. Mematuhi aturan robot AdsBot-Google.

Token agen pengguna AdsBot-Google-Mobile-Apps
String agen pengguna lengkap AdsBot-Google-Mobile-Apps

Feedfetcher

Token agen pengguna FeedFetcher-Google
String agen pengguna lengkap FeedFetcher-Google; (+http://www.google.com/feedfetcher.html)

Google Read Aloud

Token agen pengguna Google-Read-Aloud
String agen pengguna lengkap

Agen saat ini:

  • Agen desktop:
    Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.118 Safari/537.36 (compatible; Google-Read-Aloud; +https://developers.google.com/search/docs/advanced/crawling/overview-google-crawlers)
  • Agen seluler:
    Mozilla/5.0 (Linux; Android 7.0; SM-G930V Build/NRD90M) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.125 Mobile Safari/537.36 (compatible; Google-Read-Aloud; +https://developers.google.com/search/docs/advanced/crawling/overview-google-crawlers)

Agen lama (tidak digunakan lagi):

google-speakr

Duplex on the web

Token agen pengguna DuplexWeb-Google
String agen pengguna lengkap Mozilla/5.0 (Linux; Android 11; Pixel 2; DuplexWeb-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.193 Mobile Safari/537.36

Google Favicon

Token agen pengguna Google Favicon
String agen pengguna lengkap Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.75 Safari/537.36 Google Favicon

Web Light

Token agen pengguna googleweblight
String agen pengguna lengkap Mozilla/5.0 (Linux; Android 4.2.1; en-us; Nexus 5 Build/JOP40D) AppleWebKit/535.19 (KHTML, like Gecko; googleweblight) Chrome/38.0.1025.166 Mobile Safari/535.19

Google StoreBot

Token agen pengguna Storebot-Google
String agen pengguna lengkap
  • Agen desktop:

    Mozilla/5.0 (X11; Linux x86_64; Storebot-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36

  • Agen seluler:

    Mozilla/5.0 (Linux; Android 8.0; Pixel 2 Build/OPD3.170816.012; Storebot-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Mobile Safari/537.36

Agen pengguna dalam robots.txt

Jika ada beberapa agen pengguna yang dikenali dalam file robots.txt, Google akan mengikuti yang paling spesifik. Jika ingin semua crawler Google dapat meng-crawl halaman Anda, file robots.txt sama sekali tidak diperlukan. Anda dapat memblokir atau mengizinkan semua crawler Google mengakses sejumlah konten Anda sesuai keinginan, dengan menentukan Googlebot sebagai agen pengguna. Misalnya, jika ingin semua halaman Anda muncul di Google Penelusuran, dan jika ingin iklan AdSense muncul di halaman Anda, file robots.txt tidak diperlukan. Demikian pula, jika Anda ingin memblokir beberapa halaman sekaligus agar tidak diakses oleh Google, pemblokiran agen pengguna Googlebot juga akan memblokir semua agen pengguna Google lainnya.

Namun, jika Anda menginginkan kontrol yang lebih mendetail, Anda dapat mengaturnya secara lebih spesifik. Misalnya, Anda ingin semua halaman Anda muncul di Google Penelusuran, tetapi tidak ingin gambar dalam direktori pribadi Anda di-crawl. Dalam kasus ini, gunakan robots.txt untuk melarang agen pengguna Googlebot-Image meng-crawl file dalam direktori pribadi Anda (sekaligus mengizinkan Googlebot meng-crawl semua file), seperti ini:

User-agent: Googlebot
Disallow:

User-agent: Googlebot-Image
Disallow: /personal

Contoh lainnya, anggap Anda ingin menayangkan iklan di semua halaman, tetapi tidak ingin halaman tersebut muncul di Google Penelusuran. Di sini, Anda harus memblokir Googlebot, tetapi mengizinkan agen pengguna Mediapartners-Google, seperti ini:

User-agent: Googlebot
Disallow: /

User-agent: Mediapartners-Google
Disallow:

Agen pengguna dalam tag meta robot

Halaman tertentu menggunakan beberapa tag meta robot untuk menentukan perintah bagi berbagai crawler, seperti ini:

<meta name="robots" content="nofollow">
<meta name="googlebot" content="noindex">

Dalam hal ini, Google akan menggunakan jumlah perintah negatif, dan Googlebot akan mengikuti perintah noindex dan nofollow. Informasi selengkapnya tentang mengontrol cara Google meng-crawl dan mengindeks situs Anda.