File robots.txt
memberi tahu mesin telusur halaman situs mana yang dapat
di-crawl. Konfigurasi robots.txt
yang tidak valid dapat menyebabkan dua jenis masalah:
- Parameter ini dapat mencegah mesin telusur meng-crawl halaman publik, sehingga menyebabkan konten Anda lebih jarang muncul di hasil penelusuran.
- Tindakan ini dapat menyebabkan mesin telusur meng-crawl halaman yang mungkin tidak ingin Anda tampilkan di hasil penelusuran.
Kegagalan audit robots.txt
Lighthouse
Lighthouse menandai file
robots.txt
yang tidak valid:
Perluas audit robots.txt
tidak valid dalam laporan Anda
untuk mempelajari masalah pada robots.txt
.
Error umum mencakup:
No user-agent specified
Pattern should either be empty, start with "/" or "*"
Unknown directive
Invalid sitemap URL
$ should only be used at the end of the pattern
Lighthouse tidak memeriksa apakah file robots.txt
Anda berada
di lokasi yang benar. Agar berfungsi dengan benar, file harus berada di root domain atau subdomain Anda.
Cara memperbaiki masalah pada robots.txt
Pastikan robots.txt
tidak menampilkan kode status HTTP 5XX
Jika server Anda menampilkan error server (kode status HTTP
dalam 500-an) untuk robots.txt
, mesin telusur tidak akan mengetahui halaman mana yang harus
di-crawl. Situs tersebut dapat berhenti meng-crawl seluruh situs Anda, yang akan mencegah pengindeksan konten baru.
Untuk memeriksa kode status HTTP, buka robots.txt
di Chrome, lalu
periksa permintaan di Chrome DevTools.
Pertahankan robots.txt
lebih kecil dari 500 KiB
Mesin telusur dapat berhenti memproses robots.txt
di tengah-tengah jika file lebih besar dari 500 KiB. Hal ini dapat membingungkan mesin telusur, sehingga
menyebabkan situs Anda salah di-crawl.
Agar robots.txt
tetap kecil, fokuslah sedikit pada halaman yang dikecualikan satu per satu, dan fokuskan pada pola yang lebih luas. Misalnya, jika Anda perlu memblokir crawling file PDF, jangan larang setiap file. Sebagai gantinya, larang semua URL yang berisi
.pdf
menggunakan disallow: /*.pdf
.
Perbaiki error format
- Hanya baris, komentar, dan perintah kosong yang cocok dengan format "name: value" yang
diizinkan di
robots.txt
. - Pastikan nilai
allow
dandisallow
kosong atau diawali dengan/
atau*
. - Jangan menggunakan
$
di tengah nilai (misalnyaallow: /file$html
).
Pastikan ada nilai untuk user-agent
Nama agen pengguna untuk memberi tahu crawler mesin telusur perintah mana yang harus diikuti. Anda
harus memberikan nilai untuk setiap instance user-agent
agar mesin telusur mengetahui
apakah akan mengikuti rangkaian perintah terkait.
Untuk menentukan crawler mesin telusur tertentu, gunakan nama agen pengguna dari daftar yang dipublikasikan. (Misalnya, berikut adalah daftar agen pengguna Google yang digunakan untuk crawling.)
Gunakan *
untuk cocok dengan semua crawler yang tidak cocok.
user-agent: disallow: /downloads/
Tidak ada agen pengguna yang ditentukan.
user-agent: * disallow: /downloads/ user-agent: magicsearchbot disallow: /uploads/
Agen pengguna umum dan agen pengguna magicsearchbot
ditentukan.
Pastikan tidak ada perintah allow
atau disallow
sebelum user-agent
Nama agen pengguna menentukan bagian file robots.txt
Anda. Crawler mesin telusur
menggunakan bagian tersebut untuk menentukan perintah yang akan diikuti. Dengan menempatkan perintah sebelum nama agen pengguna pertama, tidak ada crawler yang akan mengikutinya.
# start of file disallow: /downloads/ user-agent: magicsearchbot allow: /
Tidak ada crawler mesin telusur yang akan membaca perintah disallow: /downloads
.
# start of file user-agent: * disallow: /downloads/
Semua mesin telusur tidak diizinkan meng-crawl folder /downloads
.
Crawler mesin telusur hanya mengikuti perintah di bagian dengan nama agen pengguna yang paling spesifik. Misalnya, jika Anda memiliki perintah untuk
user-agent: *
dan user-agent: Googlebot-Image
, Googlebot Image hanya akan
mengikuti perintah di bagian user-agent: Googlebot-Image
.
Berikan URL absolut untuk sitemap
File Peta situs adalah cara yang bagus untuk memberi tahu mesin telusur tentang halaman di situs Anda. File peta situs umumnya menyertakan daftar URL di situs Anda, beserta informasi tentang kapan URL terakhir diubah.
Jika Anda memilih untuk mengirimkan file peta situs di robots.txt
, pastikan untuk
menggunakan URL absolut.
sitemap: /sitemap-file.xml
sitemap: https://example.com/sitemap-file.xml