Memecahkan masalah error crawling Google Penelusuran

Berikut adalah langkah-langkah utama untuk memecahkan dan memperbaiki masalah crawling Google Penelusuran untuk situs Anda:

  1. Lihat apakah Googlebot mengalami masalah ketersediaan di situs Anda.
  2. Lihat apakah Anda memiliki halaman yang tidak di-crawl, tetapi seharusnya di-crawl.
  3. Lihat apakah ada bagian dari situs Anda yang perlu di-crawl lebih cepat daripada yang sudah dilakukan.
  4. Tingkatkan efisiensi crawling situs Anda.
  5. Tangani crawling berlebihan di situs Anda.

Lihat apakah Googlebot mengalami masalah ketersediaan di situs Anda

Meningkatkan ketersediaan situs tidak selalu menaikkan anggaran crawling; Google menentukan frekuensi crawling terbaik berdasarkan permintaan crawl, seperti yang dijelaskan sebelumnya. Namun, masalah ketersediaan mencegah Google meng-crawl situs Anda terlalu sering.

Diagnosis:

Gunakan laporan Statistik Crawling untuk melihat histori crawling Googlebot untuk situs Anda. Laporan ditampilkan saat Google mengalami masalah ketersediaan di situs Anda. Jika error atau peringatan ketersediaan dilaporkan untuk situs Anda, cari instance dalam grafik Ketersediaan host yang permintaan Googlebot-nya melebihi garis batas merah, klik grafik untuk melihat URL mana yang gagal, dan coba hubungkan dengan yang bermasalah di situs Anda.

Selain itu, Anda juga dapat menggunakan Alat Inspeksi URL untuk menguji beberapa URL di situs Anda. Jika alat ini menampilkan peringatan Beban host terlampaui, berarti Googlebot tidak dapat meng-crawl URL sebanyak yang ditemukan di situs Anda.

Penanganan:

  • Baca dokumentasi laporan Statistik Crawling untuk mempelajari cara menemukan dan menangani beberapa masalah ketersediaan.
  • Blokir halaman agar tidak di-crawl jika tidak ingin halaman tersebut di-crawl. (Lihat mengelola inventaris Anda)
  • Tingkatkan kecepatan pemuatan dan rendering halaman. (Lihat Meningkatkan efisiensi crawling situs)
  • Tingkatkan kapasitas server Anda. Jika Google tampak secara konsisten meng-crawl situs Anda sesuai batas kapasitas penayangannya, tetapi masih ada URL penting yang tidak di-crawl atau diperbarui sebanyak yang dibutuhkan, cobalah untuk mendapatkan lebih banyak resource penayangan yang memungkinkan Google meminta lebih banyak halaman di situs Anda. Periksa histori ketersediaan host Anda di laporan Statistik Crawling untuk mengetahui apakah frekuensi crawling Google tampak sering melewati batas. Jika ya, tingkatkan resource penayangan Anda selama satu bulan dan lihat apakah permintaan crawl meningkat selama periode tersebut.

Lihat apakah ada bagian situs Anda yang tidak di-crawl, tetapi seharusnya di-crawl

Google menghabiskan waktu sebanyak yang diperlukan di situs Anda untuk mengindeks semua konten berkualitas tinggi dan bernilai bagi pengguna yang dapat ditemukannya. Jika Anda merasa Googlebot melewatkan konten penting, mungkin Googlebot tidak mengetahui tentang konten tersebut, konten diblokir dari Google, atau ketersediaan situs Anda membatasi akses Google (atau Google mencoba untuk tidak membebani situs Anda).

Diagnosis:

Search Console tidak menyediakan histori crawl untuk situs yang dapat difilter menurut URL atau jalur, tetapi Anda dapat memeriksa log situs untuk melihat apakah URL tertentu telah di-crawl oleh Googlebot. Pengindeksan URL yang di-crawl adalah persoalan lain.

Ingat bahwa untuk sebagian besar situs, halaman baru akan membutuhkan waktu minimal beberapa hari agar dapat dilihat; sebagian besar situs seharusnya tidak mengharapkan crawling URL di hari yang sama, dengan pengecualian situs yang terbatas waktu seperti situs berita.

Penanganan:

Jika Anda menambahkan halaman ke situs dan halaman tersebut tidak di-crawl dalam jangka waktu yang wajar, mungkin Google tidak mengetahuinya, konten diblokir, situs telah mencapai kapasitas penayangan maksimum, atau Anda kehabisan anggaran crawling.

  1. Beri tahu Google tentang halaman baru Anda: perbarui peta situs Anda untuk mencerminkan URL baru.
  2. Periksa aturan robots.txt untuk memastikan bahwa halaman tidak diblokir secara tidak sengaja.
  3. Tinjau prioritas crawling Anda (gunakan anggaran crawling dengan bijak). Kelola inventaris Anda dan tingkatkan efisiensi crawling situs Anda.
  4. Pastikan Anda masih memiliki kapasitas penayangan. Googlebot akan mengurangi crawling jika mendeteksi bahwa server Anda mengalami masalah dalam merespons permintaan crawl.

Perhatikan bahwa halaman mungkin tidak ditampilkan dalam hasil penelusuran, meskipun di-crawl, jika tidak ada nilai atau permintaan pengguna yang memadai untuk konten tersebut.

Lihat apakah pembaruan di-crawl dengan cukup cepat

Jika halaman baru atau yang diperbarui di situs Anda tidak ditemukan, mungkin karena kami belum melihatnya atau belum menyadari bahwa halaman tersebut diperbarui. Berikut ini cara untuk membantu kami mengetahui pembaruan halaman.

Perhatikan bahwa Google berusaha memeriksa dan mengindeks halaman secara tepat waktu. Untuk sebagian besar situs, diperlukan waktu tiga hari atau lebih. Jangan berharap Google mengindeks halaman pada hari yang sama saat Anda memublikasikannya, kecuali jika situs Anda adalah situs berita atau memiliki konten bernilai tinggi lainnya yang sangat terbatas oleh waktu.

Diagnosis:

Periksa log situs Anda untuk melihat kapan URL tertentu di-crawl oleh Googlebot.

Untuk mempelajari tanggal pengindeksan, gunakan Alat Inspeksi URL atau lakukan penelusuran untuk URL yang telah Anda perbarui.

Penanganan:

Lakukan:

  • Gunakan peta situs berita jika situs Anda memiliki konten berita.
  • Gunakan tag <lastmod> di peta situs untuk menunjukkan kapan URL yang diindeks telah diperbarui.
  • Gunakan struktur URL yang dapat di-crawl untuk membantu Google menemukan halaman Anda.
  • Berikan link <a> standar yang dapat di-crawl untuk membantu Google menemukan halaman Anda.
  • Jika situs Anda menggunakan HTML terpisah untuk versi seluler dan desktop, berikan kumpulan link yang sama di versi seluler seperti yang Anda miliki di versi desktop. Jika tidak dapat memberikan kumpulan link yang sama di versi seluler, pastikan link tersebut disertakan dalam file peta situs. Google hanya mengindeks halaman versi seluler, dan membatasi link yang ditampilkan di sana dapat memperlambat penemuan halaman baru.

Hindari:

  • Mengirimkan peta situs yang sama dan tidak berubah berkali-kali setiap hari.
  • Mengharapkan Googlebot akan meng-crawl semua yang ada dalam peta situs, atau langsung meng-crawlnya. Peta situs adalah saran yang berguna bagi Googlebot, bukan persyaratan mutlak.
  • Menyertakan URL di peta situs Anda yang tidak ingin ditampilkan di Penelusuran. Hal ini dapat membuang anggaran crawling Anda di halaman yang tidak ingin diindeks.

Tingkatkan efisiensi crawling situs Anda

Meningkatkan kecepatan pemuatan halaman Anda

Crawling Google dibatasi oleh bandwidth, waktu, dan ketersediaan instance Googlebot. Jika server Anda merespons permintaan lebih cepat, kami mungkin dapat meng-crawl lebih banyak halaman di situs Anda. Artinya, Google hanya ingin meng-crawl konten berkualitas tinggi. Jadi, sekadar membuat halaman berkualitas rendah menjadi lebih cepat tidak akan mendorong Googlebot untuk meng-crawl lebih banyak bagian situs Anda. Sebaliknya, jika kami menilai ada konten berkualitas tinggi di situs Anda yang belum di-crawl, kami kemungkinan akan meningkatkan anggaran Anda untuk meng-crawl konten tersebut.

Berikut cara mengoptimalkan halaman dan resource untuk crawling:

  • Cegah pemuatan resource yang besar tetapi tidak penting oleh Googlebot menggunakan robots.txt. Pastikan untuk hanya memblokir resource yang tidak penting—yaitu, resource yang tidak penting untuk memahami arti halaman (seperti gambar dekorasi).
  • Pastikan halaman Anda dapat dimuat dengan cepat.
  • Perhatikan rantai pengalihan yang panjang, yang berdampak negatif pada crawling.
  • Waktu untuk merespons permintaan server, maupun waktu yang diperlukan untuk merender halaman adalah hal yang penting, termasuk waktu pemuatan dan waktu proses untuk resource yang disematkan seperti gambar dan skrip. Perhatikan resource besar atau lambat yang diperlukan untuk pengindeksan.

Menentukan perubahan konten dengan kode status HTTP

Google umumnya mendukung header permintaan HTTP If-Modified-Since dan If-None-Match untuk crawling. Crawler Google tidak mengirimkan header dengan semua upaya crawling; hal ini bergantung pada kasus penggunaan permintaan (misalnya, AdsBot lebih berpeluang untuk menetapkan header permintaan HTTP If-Modified-Since dan If-None-Match). Jika crawler kami mengirimkan header If-Modified-Since, nilai headernya adalah tanggal dan waktu saat konten terakhir kali di-crawl. Berdasarkan nilai tersebut, server mungkin memilih untuk menampilkan kode status HTTP 304 (Not Modified) tanpa isi respons, yang dalam hal ini Google akan menggunakan kembali versi konten yang terakhir kali di-crawl. Jika konten lebih baru dari tanggal yang ditentukan oleh crawler dalam header If-Modified-Since, server dapat menampilkan kode status HTTP 200 (OK) dengan isi respons.

Terlepas dari header permintaannya, Anda dapat mengirimkan kode status HTTP 304 (Not Modified) dan tanpa isi respons untuk permintaan Googlebot jika kontennya belum diubah sejak terakhir kali Googlebot mengunjungi URL tersebut. Tindakan ini akan menghemat resource dan waktu pemrosesan server, yang mungkin secara tidak langsung dapat meningkatkan efisiensi crawling.

Menyembunyikan URL yang tidak Anda inginkan di hasil penelusuran

Menghabiskan resource server untuk halaman yang tidak diperlukan dapat mengurangi aktivitas crawling dari halaman yang penting bagi Anda, yang mungkin menyebabkan penundaan signifikan dalam menemukan konten bermutu yang baru atau yang diperbarui di situs.

Mengekspos banyak URL yang tidak ingin di-crawl di situs Anda oleh Penelusuran dapat berdampak negatif pada crawling dan pengindeksan situs. Biasanya URL ini termasuk dalam kategori berikut:

Lakukan:

  • Gunakan robots.txt jika Anda tidak ingin Google meng-crawl resource atau halaman sama sekali.
  • Jika resource umum digunakan kembali di beberapa halaman (seperti gambar bersama atau file JavaScript), rujuk resource dari URL yang sama di setiap halaman, sehingga Google dapat menyimpan cache dan menggunakan kembali resource yang sama tanpa perlu meminta resource yang sama beberapa kali.

Hindari:

  • Jangan menambahkan atau menghapus halaman atau direktori dari robots.txt secara teratur sebagai cara untuk mengalokasikan ulang anggaran crawling untuk situs Anda. Gunakan robots.txt hanya untuk halaman atau resource yang tidak ingin Anda tampilkan di Google untuk jangka panjang.
  • Jangan menukar peta situs atau menggunakan mekanisme tersembunyi sementara untuk mengalokasikan ulang anggaran.

soft 404 error

Error soft 404 terjadi saat URL menampilkan halaman yang memberi tahu pengguna bahwa halaman tersebut tidak ada dan memiliki kode status 200 (success). Dalam beberapa kasus, halaman tersebut mungkin tidak memiliki konten utama atau halaman kosong.

Halaman tersebut dapat dibuat karena berbagai alasan oleh sistem pengelolaan konten atau server web situs Anda, atau browser pengguna. Contoh:

  • File server-side includes tidak ada.
  • Koneksi ke database terputus.
  • Halaman hasil penelusuran internal kosong.
  • File JavaScript yang tidak dimuat atau tidak ada.

Pengalaman pengguna yang buruk akan memunculkan kode status 200 (success), tetapi kemudian menampilkan atau menyarankan pesan error atau suatu jenis error di halaman. Pengguna mungkin menganggap halaman tersebut adalah halaman yang masih ditayangkan, tetapi ternyata ada error. Halaman tersebut dikecualikan dari Penelusuran.

Saat algoritma Google mendeteksi bahwa halaman tersebut sebenarnya adalah halaman error berdasarkan kontennya, Search Console akan menampilkan error soft 404 di Laporan Pengindeksan Halaman situs.

Memperbaiki error soft 404

Bergantung pada status halaman dan hasil yang Anda inginkan, Anda dapat memperbaiki error soft 404 dengan beberapa cara:

Coba tentukan solusi terbaik untuk pengguna Anda.

Halaman dan konten tidak lagi tersedia

Jika Anda menghapus halaman dan tidak ada halaman pengganti dengan konten yang mirip di situs Anda, tampilkan kode (status) respons 404 (not found) atau 410 (gone) untuk halaman tersebut. Kode status ini menunjukkan kepada mesin telusur bahwa halaman tersebut tidak ada dan Anda tidak ingin mesin telusur mengindeks halaman tersebut.

Jika memiliki akses ke file konfigurasi server, Anda dapat membuat halaman error ini bermanfaat bagi pengguna dengan menyesuaikannya. Halaman 404 kustom yang baik akan membantu orang menemukan informasi yang mereka cari, dan memberikan konten yang bermanfaat lainnya yang mendorong orang untuk menjelajahi situs Anda lebih lanjut. Berikut adalah beberapa tips untuk merancang halaman 404 kustom yang bermanfaat:

  • Beri tahu secara jelas kepada pengunjung bahwa halaman yang mereka cari tidak dapat ditemukan. Gunakan bahasa yang ramah dan mengundang.
  • Pastikan halaman 404 Anda memiliki tampilan dan nuansa yang sama (termasuk navigasinya) dengan seluruh situs Anda.
  • Pertimbangkan menambahkan link ke artikel atau postingan yang paling populer, serta link ke halaman beranda situs Anda.
  • Pertimbangkan untuk memberi pengguna cara untuk melaporkan link rusak.

Halaman 404 kustom dibuat hanya untuk pengguna. Karena halaman ini tidak berguna dari perspektif mesin telusur, pastikan server menampilkan kode status HTTP 404 agar halaman tidak diindeks.

Halaman atau konten sekarang berada di tempat lain

Jika halaman telah dipindahkan atau memiliki pengganti yang jelas di situs Anda, tampilkan 301 (permanent redirect) untuk mengalihkan pengguna. Pengalihan ini tidak akan mengganggu pengalaman penjelajahan pengguna dan juga merupakan cara yang bagus untuk memberi tahu mesin telusur tentang lokasi baru halaman tersebut. Gunakan Alat Inspeksi URL untuk memverifikasi apakah URL Anda benar-benar menampilkan kode yang tepat.

Halaman dan konten masih ada

Jika halaman yang baik ditandai dengan error soft 404, halaman tersebut mungkin tidak dimuat dengan benar oleh Googlebot, tidak memiliki resource penting, atau menampilkan pesan error yang jelas selama proses rendering. Gunakan Alat Inspeksi URL untuk memeriksa konten yang dirender dan kode HTTP yang ditampilkan. Jika halaman yang dirender kosong, hampir kosong, atau kontennya memiliki pesan error, mungkin halaman Anda mereferensikan banyak resource yang tidak dapat dimuat (gambar, skrip, dan elemen non-tekstual lainnya), yang dapat dianggap sebagai soft 404. Alasan resource tidak dapat dimuat meliputi resource diblokir (oleh robots.txt), ada terlalu banyak resource dalam satu halaman, terjadi berbagai error server, pemuatan yang lambat, atau resource berukuran sangat besar.

Tangani crawling berlebihan di situs Anda (keadaan darurat)

Googlebot memiliki algoritme untuk mencegahnya membebani situs Anda dengan permintaan crawl. Namun, jika Anda menemukan bahwa Googlebot membebani situs Anda, ada beberapa hal yang dapat dilakukan.

Diagnosis:

Pantau server Anda untuk permintaan Googlebot yang berlebihan ke situs Anda.

Penanganan:

Dalam keadaan darurat, sebaiknya lakukan langkah-langkah berikut untuk memperlambat crawling yang berlebihan dari Googlebot:

  1. Tampilkan kode status respons HTTP 503 atau 429 untuk sementara di permintaan Googlebot saat server Anda kelebihan beban. Googlebot akan mencoba kembali URL ini selama sekitar 2 hari. Perhatikan bahwa menampilkan kode "tidak tersedia" selama lebih dari beberapa hari akan menyebabkan Google memperlambat atau menghentikan crawling URL secara permanen di situs Anda, jadi ikuti langkah tambahan berikutnya.
  2. Saat frekuensi crawling turun, berhentilah menampilkan kode status respons HTTP 503 atau 429 untuk permintaan crawl; menampilkan 503 atau 429 selama lebih dari 2 hari akan menyebabkan Google menghapus URL tersebut dari indeks.
  3. Pantau crawling dan kapasitas host Anda dari waktu ke waktu.
  4. Jika crawler yang bermasalah adalah salah satu dari crawler AdsBot, mungkin masalahnya terjadi karena Anda membuat target Iklan Penelusuran Dinamis untuk situs yang akan di-crawl Google. Crawl ini akan terjadi lagi setiap 3 minggu. Jika Anda tidak memiliki kapasitas server untuk menangani crawl ini, batasi target iklan atau tingkatkan kapasitas penayangan.