Aturan robots.txt yang berguna
Berikut adalah beberapa aturan robots.txt umum yang berguna:
| Aturan yang berguna | |
|---|---|
| Larang crawling keseluruhan situs |
Perlu diingat bahwa dalam beberapa situasi, URL dari situs masih dapat diindeks, meskipun jika situs belum di-crawl. User-agent: * Disallow: / |
Izinkan crawling seluruh situs (dengan aturan Disallow kosong)
|
Aturan ini secara eksplisit mengizinkan semua crawler mengakses seluruh situs. Secara fungsional,
hal ini setara dengan tidak memiliki file robots.txt sama sekali, atau
menggunakan aturan User-agent: * Disallow: |
| Larang crawling direktori beserta isinya |
Tambahkan garis miring ke nama direktori untuk melarang crawling keseluruhan direktori. User-agent: * Disallow: /calendar/ Disallow: /junk/ Disallow: /books/fiction/contemporary/ |
|
Larang crawling satu halaman |
Misalnya, larang halaman User-agent: * Disallow: /useless_file.html Disallow: /junk/other_useless_file.html |
|
Larang crawling keseluruhan situs kecuali subdirektori |
Crawler hanya dapat mengakses subdirektori User-agent: * Disallow: / Allow: /public/ |
| Izinkan akses ke satu crawler |
Hanya User-agent: Googlebot-News Allow: / User-agent: * Disallow: / |
| Izinkan akses ke semua kecuali satu crawler |
User-agent: Unnecessarybot Disallow: / User-agent: * Allow: / |
|
Larang crawling keseluruhan situs, tetapi izinkan |
Penerapan ini menyembunyikan halaman Anda dari hasil Google Penelusuran, tetapi
web crawler User-agent: * Disallow: / User-agent: Storebot-Google Allow: / |
|
Blokir semua gambar di situs Anda dari Google (termasuk tempat gambar ditampilkan di Google, termasuk Google Gambar dan Discover) |
Google tidak dapat mengindeks gambar dan video tanpa meng-crawl media tersebut. User-agent: Googlebot-Image Disallow: / |
|
Blokir gambar tertentu dari Google Gambar |
Misalnya, larang gambar User-agent: Googlebot-Image Disallow: /images/dogs.jpg |
|
Larang crawling file untuk jenis file tertentu |
Misalnya, larang crawling semua file User-agent: Googlebot Disallow: /*.gif$ |
Gunakan karakter pengganti * dan $ untuk mencocokkan URL yang diakhiri dengan
string tertentu
|
Misalnya, larang semua file User-agent: Googlebot Disallow: /*.xls$ |
| Gabungkan beberapa agen pengguna dalam satu grup |
Menggabungkan aturan untuk beberapa crawler ke dalam satu grup membuat file lebih pendek dan lebih mudah dikelola, karena semua aturan dalam grup berlaku untuk setiap agen pengguna yang tercantum. Tindakan ini sama dengan mencantumkan agen pengguna dua kali dengan aturan masing-masing. User-agent: Googlebot User-agent: Storebot-Google Allow: /cats Disallow: / |