Pengantar robots.txt

Apa itu file robots.txt?

File robots.txt memberi tahu crawler mesin telusur halaman atau file mana yang dapat atau tidak dapat diminta oleh crawler dari situs Anda. File ini digunakan terutama agar situs Anda terhindar dari beban permintaan yang terlampau banyak; file ini bukanlah mekanisme untuk menyembunyikan halaman web dari Google. Untuk menyembunyikan halaman web dari Google, gunakan perintah noindex, atau lindungi halaman Anda dengan sandi.

Untuk apa file robots.txt digunakan?

File robots.txt digunakan terutama untuk mengelola traffic crawler ke situs Anda, dan biasanya menyembunyikan halaman dari Google, bergantung pada jenis halamannya:

Jenis Halaman Pengelolaan traffic Sembunyikan dari Google Deskripsi
Halaman web

Untuk halaman web (HTML, PDF, atau format nonmedia lain yang dapat dibaca Google), file robots.txt dapat digunakan untuk mengelola traffic crawling jika menurut Anda server akan kewalahan menangani permintaan dari crawler Google, atau untuk menghindari crawling pada halaman yang tidak penting atau serupa di situs Anda.

Sebaiknya jangan gunakan file robots.txt untuk menyembunyikan halaman web dari hasil Google Penelusuran. Ini karena jika halaman lain mengarah ke halaman Anda dengan teks deskriptif, halaman Anda masih dapat diindeks tanpa mengunjunginya. Jika Anda ingin memblokir halaman dari hasil penelusuran, gunakan metode lain seperti perlindungan dengan sandi atau perintah noindex.

Jika halaman web Anda diblokir dengan file robots.txt, halaman tersebut masih dapat muncul dalam hasil penelusuran, tetapi hasil penelusuran tidak akan memiliki deskripsi dan tampak seperti ini. File gambar, video, PDF, dan file non-HTML lainnya tidak akan disertakan. Jika Anda melihat hasil penelusuran ini untuk halaman Anda dan ingin memperbaikinya, hapus entri robots.txt yang memblokirnya. Jika ingin menyembunyikan halaman sepenuhnya dari penelusuran, gunakan metode lain.

File media

Gunakan file robots.txt untuk mengelola traffic crawling, serta untuk mencegah file gambar, video, dan audio muncul dalam hasil penelusuran Google. (Perhatikan bahwa robots.txt tidak akan mencegah halaman lain atau pengguna menautkan ke file gambar/video/audio Anda.)

File resource Anda dapat menggunakan file robots.txt untuk memblokir file resource seperti file gambar, skrip, atau gaya yang tidak penting, jika Anda merasa bahwa halaman yang dimuat tanpa resource ini tidak akan terpengaruh secara signifikan oleh ketaktersediaan resource tersebut. Namun, jika ketaktersediaan resource ini mempersulit crawler Google memahami halaman, sebaiknya jangan memblokirnya. Jika diblokir, Google tidak akan bekerja dengan baik saat menganalisis halaman yang bergantung pada resource tersebut.

Saya menggunakan layanan hosting situs

Jika Anda menggunakan layanan hosting situs, seperti Wix, Drupal, atau Blogger, Anda mungkin tidak perlu (atau dapat) mengedit file robots.txt secara langsung. Sebaliknya, penyedia layanan mungkin mengekspos halaman setelan penelusuran atau beberapa mekanisme lain untuk memberi tahu mesin telusur agar meng-crawl halaman atau tidak.

Untuk melihat apakah halaman Anda telah di-crawl oleh Google, telusuri URL halaman di Google.

Jika ingin menyembunyikan (atau memperlihatkan) halaman Anda dari mesin telusur, tambahkan (atau hapus) semua persyaratan login halaman yang mungkin ada, dan telusuri petunjuk tentang cara mengubah visibilitas halaman di mesin telusur pada layanan hosting Anda, misalnya: cara wix menyembunyikan halaman dari mesin telusur

Memahami batasan file robots.txt

Sebelum membuat atau mengedit file robots.txt, Anda harus mengetahui batas metode pemblokiran URL ini. Terkadang, Anda dapat mempertimbangkan mekanisme lain untuk memastikan URL tidak dapat ditemukan di web.

  • Perintah robots.txt mungkin tidak didukung oleh semua mesin telusur
    Petunjuk dalam file robots.txt tidak dapat memaksakan perilaku crawler ke situs Anda; crawler-lah yang memilih apakah akan mematuhinya atau tidak. Meski Googlebot dan web crawler ternama lainnya mematuhi petunjuk dalam file robots.txt, crawler lainnya mungkin tidak. Oleh karena itu, jika Anda ingin menjaga informasi tetap aman dari web crawler, sebaiknya gunakan metode pemblokiran lainnya, seperti file pribadi yang dilindungi sandi pada server Anda.
  • Crawler yang berbeda menafsirkan sintaksis dengan cara yang berbeda
    Meskipun web crawler ternama mengikuti perintah dalam file robots.txt, tiap crawler mungkin menafsirkan perintah dengan cara yang berbeda. Anda perlu mengetahui sintaksis yang sesuai untuk menangani web crawler yang berbeda karena beberapa di antaranya mungkin tidak memahami petunjuk tertentu.
  • Halaman yang diblokir oleh file robots.txt tetap dapat diindeks jika ditautkan dari situs lain
    Meskipun Google tidak akan meng-crawl atau mengindeks konten yang diblokir oleh file robots.txt, kami mungkin masih menemukan dan mengindeks URL yang tidak diizinkan jika ditautkan dari tempat lain di web. Akibatnya, alamat URL dan, kemungkinan, informasi lain yang tersedia secara publik seperti teks link pada link ke halaman masih dapat muncul di hasil penelusuran Google. Agar URL tidak muncul dalam hasil Google Penelusuran, Anda harus melindungi file dengan sandi di server atau menggunakan tag meta noindex atau header respons (atau menghapus halaman sekaligus).

Menguji halaman untuk pemblokiran robots.txt

Anda dapat menguji apakah halaman atau resource diblokir oleh aturan robots.txt.

Untuk menguji perintah noindex, gunakan Alat Inspeksi URL.