Jangan menggunakan 403 atau 404 untuk pembatasan kapasitas

Jumat, 17 Februari 2023

Selama beberapa bulan terakhir, kami melihat peningkatan jumlah pemilik situs dan beberapa jaringan penayangan konten (CDN) yang mencoba menggunakan 404 dan error klien 4xx lainnya (tetapi bukan 429) dalam upaya mengurangi frekuensi crawling Googlebot.

Singkatnya, postingan blog ini meminta agar jangan melakukan hal tersebut; kami memiliki dokumentasi tentang cara mengurangi frekuensi crawling Googlebot. Baca dokumentasi tersebut dan pelajari cara mengelola frekuensi crawling Googlebot secara efektif.

Kembali ke dasar: Error 4xx adalah untuk error klien

Server error 4xx yang ditampilkan kepada klien adalah sinyal dari server yang menunjukkan bahwa permintaan klien tampaknya tidak valid. Sebagian besar error dalam kategori ini tidak begitu serius: error "not found", "forbidden", "I'm a teapot" (ya, ada error semacam ini). Error tersebut tidak menunjukkan adanya masalah yang terjadi pada server itu sendiri.

Satu-satunya pengecualian adalah 429, yang berarti "too many requests". Error ini merupakan sinyal yang jelas bagi semua robot yang berperilaku baik, termasuk Googlebot tercinta kami, yang harus memperlambat frekuensi crawling-nya karena membebani server.

Alasan mengapa error 4xx berdampak buruk terhadap pembatasan kapasitas Googlebot (kecuali 429)

Error klien itu artinya error klien. Umumnya, error klien tidak menunjukkan adanya error pada server: tidak menunjukkan bahwa server kelebihan beban, mengalami error kritis, dan tidak dapat merespons permintaan. Error tersebut hanya menunjukkan bahwa permintaan klien tampak tidak valid. Penggunaan, misalnya, error 404 untuk menunjukkan bahwa server kelebihan beban sama sekali bukanlah cara yang tepat. Bayangkan jika hal ini dilakukan: Anda akan mendapatkan banyak error 404 dari teman yang tidak sengaja menautkan ke halaman yang salah di situs Anda dan akibatnya, Googlebot akan memperlambat crawling. Dampaknya akan sangat buruk. Hal yang sama berlaku untuk 403, 410, 418.

Sekali lagi, ada pengecualian penting yaitu kode status 429, yang berarti "too many requests".

Pengaruh pembatasan kapasitas dengan 4xx terhadap Googlebot

Semua kode status HTTP 4xx (sekali lagi, kecuali 429) akan menyebabkan konten Anda dihapus dari Google Penelusuran. Yang lebih buruk lagi, jika Anda juga menayangkan file robots.txt dengan kode status HTTP 4xx, file tersebut akan diperlakukan seolah-olah tidak ada. Jika Anda memiliki aturan yang melarang crawling apa pun itu yang menjadi rahasia Anda, kini Googlebot juga mengetahuinya; hal ini tidak baik untuk setiap pihak yang terlibat.

Cara yang tepat untuk mengurangi frekuensi crawling Googlebot

Kami memiliki dokumentasi lengkap tentang cara mengurangi frekuensi crawling Googlebot dan juga tentang cara Googlebot (dan pengindeksan Penelusuran) menangani berbagai kode status HTTP; pastikan untuk membaca dokumentasi tersebut. Singkatnya, sebaiknya lakukan salah satu hal berikut:

Jika Anda memerlukan tips atau klarifikasi lebih lanjut, hubungi kami di Twitter atau kirim postingan di forum bantuan kami.