Aturan robots.txt yang berguna

Berikut adalah beberapa aturan robots.txt umum yang berguna:

Aturan yang berguna
Larang crawling keseluruhan situs

Perlu diingat bahwa dalam beberapa situasi, URL dari situs masih dapat diindeks, meskipun jika situs belum di-crawl.

User-agent: *
Disallow: /
Izinkan crawling seluruh situs (dengan aturan Disallow kosong)

Aturan ini secara eksplisit mengizinkan semua crawler mengakses seluruh situs. Secara fungsional, hal ini setara dengan tidak memiliki file robots.txt sama sekali, atau menggunakan aturan Allow: /.

User-agent: *
Disallow:
Larang crawling direktori beserta isinya

Tambahkan garis miring ke nama direktori untuk melarang crawling keseluruhan direktori.

User-agent: *
Disallow: /calendar/
Disallow: /junk/
Disallow: /books/fiction/contemporary/

Larang crawling satu halaman

Misalnya, larang halaman useless_file.html yang berada di https://example.com/useless_file.html, dan other_useless_file.html yang berada di direktori junk.

User-agent: *
Disallow: /useless_file.html
Disallow: /junk/other_useless_file.html

Larang crawling keseluruhan situs kecuali subdirektori

Crawler hanya dapat mengakses subdirektori public.

User-agent: *
Disallow: /
Allow: /public/
Izinkan akses ke satu crawler

Hanya Googlebot-News yang boleh meng-crawl seluruh situs.

User-agent: Googlebot-News
Allow: /

User-agent: *
Disallow: /
Izinkan akses ke semua kecuali satu crawler

Unnecessarybot tidak boleh meng-crawl situs, tetapi bot lain diperbolehkan.

User-agent: Unnecessarybot
Disallow: /

User-agent: *
Allow: /

Larang crawling keseluruhan situs, tetapi izinkan Storebot-Google

Penerapan ini menyembunyikan halaman Anda dari hasil Google Penelusuran, tetapi web crawler Storebot-Google tetap dapat menganalisisnya untuk menampilkan produk Anda di Google Shopping.

User-agent: *
Disallow: /

User-agent: Storebot-Google
Allow: /

Blokir semua gambar di situs Anda dari Google (termasuk tempat gambar ditampilkan di Google, termasuk Google Gambar dan Discover)

Google tidak dapat mengindeks gambar dan video tanpa meng-crawl media tersebut.

User-agent: Googlebot-Image
Disallow: /

Blokir gambar tertentu dari Google Gambar

Misalnya, larang gambar dogs.jpg.

User-agent: Googlebot-Image
Disallow: /images/dogs.jpg

Larang crawling file untuk jenis file tertentu

Misalnya, larang crawling semua file .gif.

User-agent: Googlebot
Disallow: /*.gif$
Gunakan karakter pengganti * dan $ untuk mencocokkan URL yang diakhiri dengan string tertentu

Misalnya, larang semua file .xls:

User-agent: Googlebot
Disallow: /*.xls$
Gabungkan beberapa agen pengguna dalam satu grup

Menggabungkan aturan untuk beberapa crawler ke dalam satu grup membuat file lebih pendek dan lebih mudah dikelola, karena semua aturan dalam grup berlaku untuk setiap agen pengguna yang tercantum. Tindakan ini sama dengan mencantumkan agen pengguna dua kali dengan aturan masing-masing.

User-agent: Googlebot
User-agent: Storebot-Google
Allow: /cats
Disallow: /