Memverifikasi permintaan dari pengambil dan crawler Google
Anda dapat memverifikasi apakah permintaan ke server Anda benar-benar berasal dari Google. Verifikasi dapat dilakukan untuk crawler seperti Googlebot serta permintaan lainnya. Tindakan ini berguna jika Anda khawatir terhadap spammer atau pembuat masalah lainnya yang mengakses situs Anda dengan mengaku berasal dari Google.
Crawler dan pengambil Google dibagi menjadi tiga kategori:
| Jenis | Deskripsi | Mask DNS terbalik | Rentang IP |
|---|---|---|---|
| Crawler umum | Crawler umum yang digunakan untuk produk Google (seperti Googlebot). Crawler ini selalu mematuhi aturan robots.txt untuk crawl otomatis. |
crawl-***-***-***-***.googlebot.com atau
geo-crawl-***-***-***-***.geo.googlebot.com
|
common-crawlers.json |
| Crawler kasus khusus | Crawler atau pengambil yang menjalankan fungsi tertentu untuk produk Google (seperti AdsBot) saat ada perjanjian antara situs yang di-crawl dan produk tersebut tentang akses atau untuk crawl atau pengambilan data khusus penyalahgunaan. Crawler atau pengambil ini mungkin mematuhi atau tidak mematuhi aturan robots.txt. | rate-limited-proxy-***-***-***-***.google.com |
special-crawlers.json |
| Pengambil yang dipicu pengguna |
Alat dan fungsi produk tempat pengambilan dipicu pengguna akhir. Misalnya,
Pemverifikasi Situs Google
bertindak atas permintaan pengguna. Karena pengambilan diminta oleh pengguna, pengambil ini
mengabaikan aturan robots.txt. Pengambil yang dikontrol oleh Google berasal dari IP di objek user-triggered-fetchers-google.json dan di-resolve ke
nama host google.com. IP dalam objek user-triggered-fetchers.json
akan di-resolve ke nama host gae.googleusercontent.com. IP ini digunakan, misalnya,
jika situs yang berjalan di Google Cloud (GCP) memiliki fitur yang memerlukan pengambilan feed RSS
eksternal atas permintaan pengguna situs tersebut.
|
***-***-***-***.gae.googleusercontent.com atau
google-proxy-***-***-***-***.google.com
|
user-triggered-fetchers.json, user-triggered-fetchers-google.json, dan user-triggered-agents.json |
Ada dua metode untuk memverifikasi permintaan dari Google:
- Secara manual: Untuk pencarian satu kali, gunakan alat command line. Metode ini sudah cukup bagi sebagian besar kasus penggunaan.
- Secara otomatis: Untuk pencarian skala besar, gunakan solusi otomatis untuk mencocokkan alamat IP crawler dengan daftar alamat IP Google yang dipublikasikan.
Menggunakan alat command line
-
Jalankan pencarian balik DNS di alamat IP pengaksesan dari log Anda, menggunakan
perintah
host. -
Verifikasi bahwa nama domainnya adalah
googlebot.com,google.com, ataugoogleusercontent.com. -
Jalankan pencarian DNS maju pada nama domain yang diambil di langkah pertama menggunakan
perintah
hostpada nama domain yang diambil. - Verifikasi bahwa alamat tersebut sama dengan alamat IP pengaksesan asli dari log Anda.
Contoh 1:
host 66.249.66.11.66.249.66.in-addr.arpa domain name pointer crawl-66-249-66-1.googlebot.com.host crawl-66-249-66-1.googlebot.comcrawl-66-249-66-1.googlebot.com has address 66.249.66.1
Contoh 2:
host 35.247.243.240240.243.247.35.in-addr.arpa domain name pointer geo-crawl-35-247-243-240.geo.googlebot.com.host geo-crawl-35-247-243-240.geo.googlebot.comgeo-crawl-35-247-243-240.geo.googlebot.com has address 35.247.243.240
Contoh 3:
host 66.249.90.7777.90.249.66.in-addr.arpa domain name pointer rate-limited-proxy-66-249-90-77.google.com.host rate-limited-proxy-66-249-90-77.google.comrate-limited-proxy-66-249-90-77.google.com has address 66.249.90.77
Menggunakan solusi otomatis
Atau, Anda dapat mengidentifikasi Googlebot berdasarkan alamat IP dengan mencocokkan alamat IP crawler dengan daftar rentang IP crawler dan pengambil Google:
- Crawler umum seperti Googlebot
- Crawler khusus seperti AdsBot
- Pengambil yang dipicu pengguna (pengguna)
- Pengambil yang dipicu pengguna (Google)
- Agen yang dipicu pengguna
Untuk alamat IP Google lain tempat situs Anda dapat diakses (misalnya Apps Script), cocokkan alamat IP pengaksesan dengan daftar umum alamat IP Google. Perhatikan bahwa alamat IP dalam file JSON ditampilkan dalam format CIDR.