Membuat file robots.txt

Anda dapat mengontrol file mana yang dapat diakses crawler yang meng-crawl situs Anda dengan file robots.txt. File robots.txt berada pada root situs Anda. Jadi, untuk situs www.example.com, file robots.txt berada di www.example.com/robots.txt. robots.txt adalah file teks biasa yang mengikuti Standar Pengecualian Robot. File robots.txt terdiri dari satu aturan atau lebih. Setiap aturan memblokir atau mengizinkan akses crawler tertentu ke jalur file yang telah ditentukan di situs tersebut. Kecuali jika Anda menentukan sebaliknya di file robots.txt Anda, semua file secara implisit diizinkan untuk di-crawl.

Berikut adalah file robots.txt sederhana dengan dua aturan:

User-agent: Googlebot
Disallow: /nogooglebot/

User-agent: *
Allow: /

Sitemap: http://www.example.com/sitemap.xml

Berikut maksud dari file robots.txt tersebut:

  1. Agen pengguna yang bernama Googlebot tidak diizinkan meng-crawl URL apa pun yang diawali dengan http://example.com/nogooglebot/.
  2. Semua agen pengguna lainnya diizinkan untuk meng-crawl seluruh situs. Hal ini dapat dihilangkan dan hasilnya akan sama, karena perilaku default-nya adalah agen pengguna diizinkan meng-crawl seluruh situs.
  3. File peta situs pada situs terletak di http://www.example.com/sitemap.xml.

Lihat bagian sintaksis untuk contoh lainnya.

Panduan dasar membuat file robots.txt

Ada empat langkah yang perlu dijalani dalam membuat file robots.txt yang dapat diakses secara umum dan bermanfaat:

  1. Buat file yang bernama robots.txt.
  2. Tambahkan aturan ke file robots.txt.
  3. Upload file robots.txt ke situs Anda.
  4. Uji file robots.txt.

Membuat file robots.txt

Anda dapat menggunakan hampir semua editor teks untuk membuat file robots.txt. Misalnya, Notepad, TextEdit, vi, dan emacs dapat membuat file robots.txt yang valid. Jangan gunakan pengolah kata karena program semacam ini sering kali menyimpan file dalam format eksklusif dan dapat menambahkan karakter yang tidak diharapkan, seperti tanda petik, yang dapat menyebabkan masalah bagi crawler. Pastikan untuk menyimpan file dengan encoding UTF-8 jika diminta selama dialog menyimpan file.

Aturan format dan lokasi:

  • File harus diberi nama robots.txt.
  • Situs hanya boleh memiliki satu file robots.txt.
  • File robots.txt harus berada di root host situs tempat file tersebut akan diberlakukan. Misalnya, untuk mengontrol crawling di semua URL pada https://www.example.com/, file robots.txt harus berada di https://www.example.com/robots.txt. File tersebut tidak boleh ditempatkan di subdirektori (misalnya di https://example.com/pages/robots.txt). Jika Anda tidak yakin dengan cara mengakses root situs, atau memerlukan izin untuk melakukannya, hubungi penyedia layanan hosting web Anda. Jika Anda tidak dapat mengakses root situs, gunakan metode pemblokiran alternatif seperti tag meta.
  • File robots.txt dapat diterapkan ke subdomain (misalnya https://website.example.com/robots.txt) atau port non-standar (misalnya http://example.com:8181/robots.txt).
  • File robots.txt harus berupa file teks berenkode UTF-8 (yang mencakup ASCII). Google dapat mengabaikan karakter yang bukan bagian dari rentang UTF-8, yang berpotensi membuat aturan robots.txt tidak valid.

Menambahkan aturan ke file robots.txt

Aturan adalah petunjuk yang menginformasikan bagian situs mana saja yang dapat di-crawl oleh crawler. Ikuti panduan berikut saat menambahkan aturan ke file robots.txt:

  • File robots.txt terdiri dari satu atau beberapa grup.
  • Setiap grup terdiri dari beberapa aturan atau perintah (petunjuk), satu perintah per baris. Setiap grup diawali dengan baris User-agent yang menentukan target grup.
  • Grup memberikan informasi berikut:
    • Untuk siapa grup berlaku (agen pengguna).
    • Direktori atau file mana yang dapat diakses oleh agen.
    • Direktori atau file mana yang tidak dapat diakses oleh agen.
  • Crawler memproses grup dari atas ke bawah. Satu agen pengguna hanya boleh cocok dengan satu kumpulan aturan, yaitu grup yang pertama dan paling spesifik yang cocok dengan agen pengguna tertentu.
  • Asumsi default-nya adalah agen pengguna dapat meng-crawl semua halaman atau direktori yang tidak diblokir oleh aturan disallow.
  • Aturan peka huruf besar/kecil. Misalnya, disallow: /file.asp berlaku untuk https://www.example.com/file.asp, tetapi tidak untuk https://www.example.com/FILE.asp.
  • Karakter # menandai awal dari komentar.

Crawler Google mendukung perintah berikut di file robots.txt:

  • user-agent: [Wajib, satu atau beberapa per grup] Perintah ini menentukan nama klien otomatis yang dikenal sebagai crawler mesin telusur menjadi sasaran penerapan aturan. Ini adalah baris pertama untuk grup aturan apa pun. Nama agen pengguna Google tercantum dalam daftar agen pengguna Google. Penggunaan tanda bintang (*) sesuai dengan semua crawler kecuali dengan berbagai crawler AdsBot, yang harus dinamai secara eksplisit. Contoh:
    # Example 1: Block only Googlebot
    User-agent: Googlebot
    Disallow: /
    
    # Example 2: Block Googlebot and Adsbot
    User-agent: Googlebot
    User-agent: AdsBot-Google
    Disallow: /
    
    # Example 3: Block all but AdsBot crawlers
    User-agent: *
    Disallow: /
  • disallow: [Minimal satu atau beberapa entri disallow atau allow per aturan] Direktori atau halaman, yang terkait dengan domain root, yang tidak boleh di-crawl oleh agen pengguna. Jika aturan mengacu pada halaman, nama tersebut harus berupa nama halaman lengkap seperti yang ditampilkan di browser. Nama harus diawali dengan tanda / dan jika nama mengacu pada direktori, nama harus diakhiri dengan tanda /.
  • allow: [Minimal satu atau beberapa entri disallow atau allow per aturan] Direktori atau halaman, yang terkait dengan domain root, yang mungkin di-crawl oleh agen pengguna sebagaimana disebutkan di artikel bantuan ini. Ini digunakan untuk mengganti perintah disallow guna mengizinkan crawling subdirektori atau halaman dalam direktori yang tidak diizinkan. Untuk satu halaman, tentukan nama halaman lengkap seperti yang ditampilkan di browser. Untuk direktori, akhiri aturan dengan tanda /.
  • sitemap: [Opsional, nol atau lebih per file] Lokasi peta situs untuk situs ini. URL peta situs harus berupa URL yang sepenuhnya memenuhi syarat; Google tidak menganggap atau memeriksa alternatif http/https/www.non-www. Peta situs adalah cara yang baik untuk menunjukkan konten mana yang boleh di-crawl oleh Google, bukan konten mana yang dapat atau tidak dapat di-crawl. Pelajari peta situs lebih lanjut. Contoh:
    Sitemap: https://example.com/sitemap.xml
    Sitemap: http://www.example.com/sitemap.xml

Semua perintah, kecuali sitemap, mendukung karakter pengganti * untuk awalan jalur, akhiran, atau string secara keseluruhan.

Baris yang tidak cocok dengan perintah tersebut akan diabaikan.

Baca halaman kami tentang interpretasi Google terkait spesifikasi robots.txt untuk mengetahui deskripsi lengkap dari setiap perintah.

Mengupload file robots.txt

Setelah menyimpan file robots.txt ke komputer, Anda sudah siap menjadikan file tersebut tersedia untuk crawler mesin telusur. Tidak ada alat yang dapat membantu Anda menyelesaikan langkah ini, karena cara Anda mengupload file robots.txt ke situs Anda bergantung pada arsitektur server dan situs Anda. Hubungi perusahaan hosting Anda atau telusuri dokumentasi perusahaan hosting Anda, seperti telusuri "mengupload file ke infomaniak".

Setelah Anda mengupload file robots.txt, uji apakah file tersebut dapat diakses secara publik dan apakah Google dapat mengurainya.

Menguji markup robots.txt

Untuk menguji apakah file robots.txt yang baru diupload dapat diakses secara publik, buka jendela penjelajahan rahasia (atau yang setara) di browser Anda dan buka lokasi file robots.txt. Contohnya https://example.com/robots.txt. Jika Anda melihat konten file robots.txt, berarti markup file siap diuji.

Google menawarkan dua opsi untuk menguji markup robots.txt:

  1. Penguji robots.txt di Search Console. Anda hanya dapat menggunakan alat ini untuk file robots.txt yang sudah dapat diakses di situs Anda.
  2. Jika Anda adalah developer, lihat dan buat library robots.txt open source Google, yang juga digunakan di Google Penelusuran. Anda dapat menggunakan alat ini untuk menguji file robots.txt secara lokal di komputer.

Mengirim file robots.txt ke Google

Setelah Anda mengupload dan menguji file robots.txt Anda, crawler Google secara otomatis akan menemukan dan mulai menggunakan file robots.txt Anda. Anda tidak perlu melakukan apa pun. Jika Anda sudah memperbarui file robots.txt dan harus memperbarui salinan yang di-cache Google sesegera mungkin, pelajari cara mengirimkan file robots.txt yang sudah diperbarui.

Aturan robots.txt yang berguna

Berikut adalah beberapa aturan robots.txt umum yang berguna:

Aturan yang berguna
Larang crawling keseluruhan situs

Perlu diingat bahwa dalam beberapa situasi, URL dari situs masih dapat diindeks, meskipun jika situs belum di-crawl.


User-agent: *
Disallow: /
Larang crawling direktori beserta isinya

Tambahkan garis miring ke nama direktori untuk melarang crawling keseluruhan direktori.


User-agent: *
Disallow: /calendar/
Disallow: /junk/
Izinkan akses ke satu crawler

Hanya googlebot-news yang boleh meng-crawl seluruh situs.


User-agent: Googlebot-news
Allow: /

User-agent: *
Disallow: /
Izinkan akses ke semua kecuali satu crawler

Unnecessarybot tidak boleh meng-crawl situs, tetapi bot lain diperbolehkan.


User-agent: Unnecessarybot
Disallow: /

User-agent: *
Allow: /

Larang crawling satu halaman

Misalnya, larang halaman useless_file.html.


User-agent: *
Disallow: /useless_file.html

Blokir gambar tertentu dari Google Gambar

Misalnya, larang gambar dogs.jpg.


User-agent: Googlebot-Image
Disallow: /images/dogs.jpg

Blokir semua gambar di situs Anda dari Google Gambar

Google tidak dapat mengindeks gambar dan video tanpa meng-crawl media tersebut.


User-agent: Googlebot-Image
Disallow: /

Larang crawling file untuk jenis file tertentu

Misalnya, larang crawling semua file .gif.


User-agent: Googlebot
Disallow: /*.gif$

Larang crawling keseluruhan situs, tetapi izinkan Mediapartners-Google

Penerapan ini menyembunyikan halaman Anda dari hasil penelusuran, tetapi web crawler Mediapartners-Google tetap dapat menganalisis halaman untuk menentukan iklan yang akan ditampilkan kepada pengunjung di situs Anda.


User-agent: *
Disallow: /

User-agent: Mediapartners-Google
Allow: /
Gunakan $ untuk mencocokkan URL yang diakhiri dengan string tertentu

Misalnya, larang semua file .xls.


User-agent: Googlebot
Disallow: /*.xls$