robots.txt tidak valid

File robots.txt memberi tahu mesin telusur halaman situs mana yang dapat di-crawl. Konfigurasi robots.txt yang tidak valid dapat menyebabkan dua jenis masalah:

  • Parameter ini dapat mencegah mesin telusur meng-crawl halaman publik, sehingga menyebabkan konten Anda lebih jarang muncul di hasil penelusuran.
  • Tindakan ini dapat menyebabkan mesin telusur meng-crawl halaman yang mungkin tidak ingin Anda tampilkan di hasil penelusuran.

Kegagalan audit robots.txt Lighthouse

Lighthouse menandai file robots.txt yang tidak valid:

Audit Lighthouse menampilkan robots.txt yang tidak valid

Perluas audit robots.txt tidak valid dalam laporan Anda untuk mempelajari masalah pada robots.txt.

Error umum mencakup:

  • No user-agent specified
  • Pattern should either be empty, start with "/" or "*"
  • Unknown directive
  • Invalid sitemap URL
  • $ should only be used at the end of the pattern

Lighthouse tidak memeriksa apakah file robots.txt Anda berada di lokasi yang benar. Agar berfungsi dengan benar, file harus berada di root domain atau subdomain Anda.

Cara memperbaiki masalah pada robots.txt

Pastikan robots.txt tidak menampilkan kode status HTTP 5XX

Jika server Anda menampilkan error server (kode status HTTP dalam 500-an) untuk robots.txt, mesin telusur tidak akan mengetahui halaman mana yang harus di-crawl. Situs tersebut dapat berhenti meng-crawl seluruh situs Anda, yang akan mencegah pengindeksan konten baru.

Untuk memeriksa kode status HTTP, buka robots.txt di Chrome, lalu periksa permintaan di Chrome DevTools.

Pertahankan robots.txt lebih kecil dari 500 KiB

Mesin telusur dapat berhenti memproses robots.txt di tengah-tengah jika file lebih besar dari 500 KiB. Hal ini dapat membingungkan mesin telusur, sehingga menyebabkan situs Anda salah di-crawl.

Agar robots.txt tetap kecil, fokuslah sedikit pada halaman yang dikecualikan satu per satu, dan fokuskan pada pola yang lebih luas. Misalnya, jika Anda perlu memblokir crawling file PDF, jangan larang setiap file. Sebagai gantinya, larang semua URL yang berisi .pdf menggunakan disallow: /*.pdf.

Perbaiki error format

  • Hanya baris, komentar, dan perintah kosong yang cocok dengan format "name: value" yang diizinkan di robots.txt.
  • Pastikan nilai allow dan disallow kosong atau diawali dengan / atau *.
  • Jangan menggunakan $ di tengah nilai (misalnya allow: /file$html).

Pastikan ada nilai untuk user-agent

Nama agen pengguna untuk memberi tahu crawler mesin telusur perintah mana yang harus diikuti. Anda harus memberikan nilai untuk setiap instance user-agent agar mesin telusur mengetahui apakah akan mengikuti rangkaian perintah terkait.

Untuk menentukan crawler mesin telusur tertentu, gunakan nama agen pengguna dari daftar yang dipublikasikan. (Misalnya, berikut adalah daftar agen pengguna Google yang digunakan untuk crawling.)

Gunakan * untuk cocok dengan semua crawler yang tidak cocok.

Larangan
user-agent:
disallow: /downloads/

Tidak ada agen pengguna yang ditentukan.

Anjuran
user-agent: *
disallow: /downloads/

user-agent: magicsearchbot
disallow: /uploads/

Agen pengguna umum dan agen pengguna magicsearchbot ditentukan.

Pastikan tidak ada perintah allow atau disallow sebelum user-agent

Nama agen pengguna menentukan bagian file robots.txt Anda. Crawler mesin telusur menggunakan bagian tersebut untuk menentukan perintah yang akan diikuti. Dengan menempatkan perintah sebelum nama agen pengguna pertama, tidak ada crawler yang akan mengikutinya.

Larangan
# start of file
disallow: /downloads/

user-agent: magicsearchbot
allow: /

Tidak ada crawler mesin telusur yang akan membaca perintah disallow: /downloads.

Anjuran
# start of file
user-agent: *
disallow: /downloads/

Semua mesin telusur tidak diizinkan meng-crawl folder /downloads.

Crawler mesin telusur hanya mengikuti perintah di bagian dengan nama agen pengguna yang paling spesifik. Misalnya, jika Anda memiliki perintah untuk user-agent: * dan user-agent: Googlebot-Image, Googlebot Image hanya akan mengikuti perintah di bagian user-agent: Googlebot-Image.

Berikan URL absolut untuk sitemap

File Peta situs adalah cara yang bagus untuk memberi tahu mesin telusur tentang halaman di situs Anda. File peta situs umumnya menyertakan daftar URL di situs Anda, beserta informasi tentang kapan URL terakhir diubah.

Jika Anda memilih untuk mengirimkan file peta situs di robots.txt, pastikan untuk menggunakan URL absolut.

Larangan
sitemap: /sitemap-file.xml
Anjuran
sitemap: https://example.com/sitemap-file.xml

Referensi