Hal-hal yang perlu diketahui tentang crawling web Google

Google telah meng-crawl web terbuka selama lebih dari 30 tahun, dan kami sering menerima pertanyaan tentang cara kerja crawler web kami. Untuk menjawab beberapa pertanyaan tersebut, berikut beberapa fakta tentang crawler Google dan cara crawler tersebut membantu kami mengelola informasi dunia, serta menghadirkan konten dari seluruh web kepada para pengguna.

Apa itu crawling? Singkatnya, crawling adalah cara Google "melihat" web

Crawling adalah proses penggunaan software otomatis untuk menemukan sekaligus memahami halaman web baru. Dengan begitu, saat Anda membuka Google untuk menemukan halaman web, kami tahu bahwa halaman tersebut memang ada dan kami dapat menyertakannya dalam hasil penelusuran Anda. Semua mesin telusur mengandalkan crawling untuk mengetahui halaman dan informasi apa saja yang mungkin ada di web. Anda dapat menonton video kami tentang cara Google Penelusuran meng-crawl halaman untuk mempelajari info ini lebih lanjut.

Kami memiliki banyak crawler; masing-masing memiliki tugas penting

Googlebot adalah crawler kami yang paling populer dan digunakan untuk menjaga keterkinian dan keaktualan hasil di Google Penelusuran. Kami juga memiliki crawler yang ditujukan khusus untuk platform kami yang lain, seperti Google Gambar dan Google Shopping. Kami menyediakan dokumentasi lengkap tentang crawler yang paling umum digunakan beserta tujuannya. Crawler kami menggunakan nama agen pengguna yang mudah diidentifikasi dan alamat internet yang sudah diketahui. Dengan begitu, pemilik situs dapat yakin bahwa crawler Google yang mereka lihat adalah crawler resmi.

Kami melakukan crawl berulang untuk menemukan info terbaru dan memberikan hasil penelusuran yang paling aktual

Untuk menemukan artikel berita penting, kami mungkin meng-crawl ulang halaman beranda berita setiap beberapa menit. Dalam kasus lain, kami bisa saja melihat bahwa tidak ada perubahan selama bertahun-tahun, jadi kami mungkin menunggu satu bulan untuk meng-crawl ulang halaman. Pemilik situs dapat memengaruhi seberapa sering crawling ulang terjadi menggunakan file peta situs yang memberi tahu kami tentang halaman baru dan yang diperbarui.

Situs yang sering di-crawl itu bagus

Jika kami sering meng-crawl situs Anda, hal ini menunjukkan bahwa halaman Anda memiliki konten baru atau sangat relevan yang ingin ditemukan pengguna, dan sistem kami mendeteksi permintaan tersebut. Belanja online adalah contoh yang bagus: kami sering meng-crawl situs e-commerce sehingga hasil kami akan menampilkan harga, promosi, dan status inventaris terbaru dari retailer.

Crawling Google telah berkembang dari waktu ke waktu seiring makin kompleksnya halaman

Alasan lain yang mendorong kami sering melakukan crawl ulang adalah untuk sepenuhnya memahami keragaman konten halaman web dan apa yang ditawarkannya. Crawler kami menggunakan teknik yang disebut rendering untuk memuat situs sepenuhnya dan "melihat" halaman dalam sudut orang sungguhan. Dari tahun ke tahun, halaman web menjadi makin canggih; median halaman seluler telah bertambah ukurannya dari 816 kilobyte menjadi 2,3 megabyte, dan kini memiliki lebih dari 60 file berbeda untuk dimuat, mulai dari gambar hingga komponen interaktif. Jadi, untuk mendapatkan gambaran yang dapat mewakili suatu halaman web dengan segala kemegahannya, kami mungkin perlu meng-crawl halaman yang sama beberapa kali atau bahkan lebih, karena ditambahkannya berbagai elemen baru setiap saat.

Kami mengoptimalkan crawling secara otomatis

Crawler kami dirancang untuk efisiensi, dan crawler ini mampu beradaptasi untuk meminimalkan dampak bagi pemilik situs. Misalnya, saat situs melambat atau menampilkan error, frekuensi crawling kami akan otomatis berubah untuk menghindari kelebihan beban pada server situs. Kami berupaya membatasi crawling yang tidak perlu dengan menyimpan konten yang di-crawl dalam cache. Selain itu, seiring makin banyaknya informasi yang ditemukan tentang suatu situs, crawler kami juga dapat mengenali bagian yang porsi crawling-nya bisa dikurangi; misalnya, kalender yang berlaku hingga tahun 9999 mungkin tidak perlu di-crawl secara keseluruhan. Pemilik situs dapat membantu dengan mengidentifikasi konten yang tidak perlu di-crawl, sehingga akan menghemat dana pengeluaran situs dengan menurunkan biaya infrastruktur, serta menjadikan internet lebih efisien secara keseluruhan.

Crawler Google tidak pernah mengakses penghalang konten berbayar atau konten langganan tanpa izin

Secara default, jika halaman tidak dapat diakses di web terbuka—misalnya, jika konten berada di balik halaman login—crawler kami juga tidak dapat mengaksesnya. Kami memiliki panduan khusus untuk pemilik situs jika mereka ingin memberi Google izin eksplisit untuk mengakses halaman langganan (misalnya, agar Google dapat mengarahkan pengguna ke konten tersebut). Jika memilih untuk memberikan akses langganan kepada crawler kami, Anda dapat menggunakan data terstruktur untuk terus menampilkan layar login kepada pengunjung manusia tanpa memicu pelanggaran aturan kami tentang spam. Anda juga dapat mencegah konten langganan muncul di pratinjau halaman dengan memanfaatkan kontrol pratinjau.

Pemilik situs dapat menentukan konten yang di-crawl beserta caranya

Kami mematuhi standar web terbuka seperti robots.txt, yaitu file teks sederhana yang memungkinkan pemilik situs menyatakan cara crawler seperti crawler kami berinteraksi dengan halaman mereka. Dengan robots.txt dan tag meta robots, situs dapat secara mudah mengomunikasikan cara mengakses konten mereka kepada Google dan layanan lainnya. Kedua elemen tersebut dapat memblokir halaman agar tidak muncul di Penelusuran. Keduanya dapat memberi tahu kami tentang konten baru yang ingin di-crawl menggunakan peta situs. Selain itu, keduanya dapat mengelola seberapa sering kami meng-crawl situs melalui anggaran crawling.

Crawler standar kami senantiasa mematuhi pilihan situs tentang cara kontennya diakses dan digunakan

Setelah proses crawl, kami dapat menggunakan data yang sudah di-crawl beberapa kali sehingga permintaan berulang tidak perlu dilakukan di situs. Meskipun kami menggunakan kembali data ini, kami akan tetap mematuhi pilihan yang dibuat situs melalui robots.txt dan kontrol yang kami tawarkan melalui protokol web terbuka tersebut. Misalnya, situs dapat menggunakan Google-Extended di robots.txt untuk mengontrol berbagai hal, antara lain, apakah konten mereka akan digunakan untuk membantu melatih versi model Gemini yang akan datang. Penggunaan Google-Extended tidak memengaruhi penyertaan situs di Penelusuran, dan kami tidak menggunakan Google-Extended sebagai sinyal penentu peringkat di Penelusuran.

Kami menyediakan banyak alat bagi pemilik situs untuk mengelola pengalaman crawling Google mereka, termasuk Google Search Console, yang tersedia tanpa biaya bagi pemilik situs. Layanan ini memberikan informasi tentang seberapa banyak konten yang telah kami crawl beserta alasannya. Layanan ini juga membantu situs mendiagnosis berbagai masalah seperti waktu non-operasional server atau masalah kecepatan. Selain itu, Search Console memberikan informasi komprehensif tentang bagaimana halaman situs terlihat di Penelusuran dan bagaimana pengguna berinteraksi dengan halaman tersebut.

Crawler kami membantu menghadirkan konten terbaik di web kepada para pengguna, dan kami senantiasa mencari cara untuk meningkatkan kapabilitas serta efisiensinya.