FAQ Robot

Pertanyaan umum tentang robot

Apakah situs saya memerlukan file robots.txt?

Tidak. Saat Googlebot mengunjungi situs, pertama-tama kami akan meminta izin untuk meng-crawl dengan mencoba mengambil file robots.txt. Situs tanpa file robots.txt, tag meta robot, atau header HTTP X-Robots-Tag umumnya akan di-crawl dan diindeks secara normal.

Metode apa yang harus saya gunakan untuk memblokir crawler?

Tergantung. Singkatnya, Anda dapat menggunakan salah satu metode berikut:

  • robots.txt: Gunakan metode ini jika crawling konten menyebabkan masalah pada server Anda. Misalnya, Anda tidak ingin mengizinkan crawling skrip kalender yang tidak terbatas. Anda tidak boleh menggunakan robots.txt untuk memblokir konten pribadi (gunakan autentikasi sisi server), atau kanonikalisasi penanganan. Untuk memastikan URL tidak diindeks, sebaiknya gunakan tag meta robot atau header HTTP X-Robots-Tag.
  • Tag meta robot: Gunakan metode ini jika Anda perlu mengontrol cara menampilkan suatu halaman HTML di hasil penelusuran (atau untuk memastikan bahwa halaman tersebut tidak ditampilkan).
  • Header HTTP X-Robots-Tag: Gunakan metode ini jika Anda perlu mengontrol cara menampilkan konten non-HTML di hasil penelusuran (atau untuk memastikan bahwa konten tersebut tidak ditampilkan).

Dapatkah saya menggunakan metode ini untuk menghapus situs orang lain dari hasil penelusuran?

Tidak. Metode tersebut hanya berlaku untuk situs yang mengizinkan Anda mengubah kode atau menambahkan file. Pelajari cara menghapus informasi dari Google lebih lanjut.

Bagaimana cara memperlambat crawling Google di situs saya?

Umumnya, Anda dapat menyesuaikan setelan kecepatan crawling di akun Google Search Console Anda.

Pertanyaan terkait robots.txt

Saya menggunakan robots.txt yang sama untuk beberapa situs. Dapatkah saya menggunakan URL lengkap sebagai ganti jalur relatif?

Tidak. Perintah di file robots.txt (dengan pengecualian kode Sitemap:) hanya berlaku untuk jalur relatif.

Dapatkah saya menempatkan file robots.txt di subdirektori?

Tidak. File harus ditempatkan di direktori paling atas pada situs.

Saya ingin memblokir folder pribadi. Dapatkah saya mencegah orang lain membaca file robots.txt saya?

Tidak. File robots.txt dapat dibaca oleh berbagai pengguna. Jika folder atau nama file konten tidak seharusnya bersifat publik, folder atau nama file tersebut tidak boleh dicantumkan di file robots.txt. Sebaiknya Anda tidak mengirim file robots.txt yang berbeda berdasarkan agen pengguna atau atribut lainnya.

Apakah saya harus menyertakan perintah allow untuk mengizinkan crawling?

Tidak, Anda tidak perlu menyertakan perintah allow. Perintah allow digunakan untuk menggantikan perintah disallow pada file robots.txt yang sama.

Apa yang terjadi jika ada kesalahan di file robots.txt atau jika saya menggunakan perintah yang tidak didukung?

Web crawler umumnya sangat fleksibel dan biasanya tidak akan terpengaruh oleh kesalahan kecil di file robots.txt. Umumnya, hal terburuk yang dapat terjadi adalah perintah yang salah/tidak didukung akan diabaikan. Perlu diingat bahwa Google tidak dapat membaca pikiran Anda saat menafsirkan file robots.txt; sehingga kami harus menafsirkan file robots.txt yang kami ambil. Meskipun demikian, jika Anda menyadari masalah di file robots.txt, masalah tersebut biasanya mudah diperbaiki.

Program apa yang harus saya gunakan untuk membuat file robots.txt?

Anda dapat menggunakan program apa pun yang mampu membuat file teks yang valid. Program yang umumnya digunakan untuk membuat file robots.txt adalah Notepad, TextEdit, vi, atau emacs. Baca informasi selengkapnya terkait cara membuat file robots.txt. Setelah dibuat, validasi file menggunakan penguji robots.txt.

Jika saya memblokir crawling halaman oleh Google menggunakan perintah disallow, apakah halaman tidak akan ditampilkan di hasil penelusuran?

Memblokir crawling halaman oleh Google cenderung akan menghapus halaman tersebut dari indeks Google.

Namun, Disallow robots.txt tidak menjamin bahwa halaman tidak akan ditampilkan di hasil penelusuran: Google mungkin tetap memutuskan bahwa halaman tersebut relevan berdasarkan informasi eksternal, seperti link masuk. Jika Anda ingin secara eksplisit memblokir halaman agar tidak diindeks, sebaiknya gunakan tag meta robot noindex atau header HTTP X-Robots-Tag. Dalam hal ini, sebaiknya Anda tidak melarang halaman dalam robots.txt, karena halaman tersebut harus di-crawl agar tag dapat dilihat dan dipatuhi.

Berapa lama waktu yang dibutuhkan agar perubahan di file robots.txt memengaruhi hasil penelusuran saya?

Pertama, cache file robots.txt harus dimuat ulang (umumnya kami menyimpan konten dalam cache hingga selama satu hari). Meskipun perubahan telah ditemukan, crawling dan pengindeksan adalah proses rumit yang terkadang membutuhkan waktu untuk setiap URL, linimasa yang tepat tidak bisa ditentukan. Perlu diingat, meskipun file robots.txt Anda melarang akses ke URL, URL tersebut tetap dapat terlihat di hasil penelusuran, meskipun kami tidak bisa meng-crawlnya. Jika Anda ingin mempercepat penghapusan halaman yang telah diblokir dari Google, kirimkan permintaan penghapusan melalui Google Search Console.

Bagaimana cara menangguhkan semua crawling dari situs saya untuk sementara?

Anda dapat menangguhkan semua crawling untuk sementara dengan menampilkan kode hasil HTTP 503 untuk semua URL, termasuk file robots.txt. File robots.txt tersebut akan dicoba ulang secara berkala hingga dapat diakses kembali. Sebaiknya Anda tidak mengubah file robots.txt untuk melarang crawling.

Server saya tidak peka terhadap huruf besar dan kecil. Bagaimana cara melarang crawling sepenuhnya untuk beberapa folder?

Perintah dalam file robots.txt peka terhadap huruf besar dan kecil. Dalam hal ini, sebaiknya pastikan bahwa hanya ada satu versi URL yang diindeks menggunakan metode kanonikalisasi. Tindakan ini memungkinkan Anda memiliki baris yang lebih sedikit dalam file robots.txt, sehingga Anda lebih mudah mengelolanya. Jika hal ini tidak mungkin dilakukan, sebaiknya Anda mencantumkan kombinasi umum dari nama folder, atau menyingkatnya semaksimal mungkin dengan hanya menggunakan beberapa karakter pertama, bukan nama lengkapnya. Misalnya, alih-alih mencantumkan semua permutasi huruf besar dan kecil dari /MyPrivateFolder, Anda dapat mencantumkan permutasi dari "/MyP" (jika Anda yakin bahwa tidak ada URL lain yang dapat di-crawl dengan beberapa karakter pertama tersebut). Sebagai alternatif, sebaiknya gunakan tag meta robot atau header HTTP X-Robots-Tag, jika crawling dapat dilakukan.

Situs saya menampilkan 403 Forbidden untuk semua URL, termasuk file robots.txt. Mengapa situs ini masih di-crawl?

Kode status HTTP 403 Forbidden (dan semua kode status HTTP 4xx lainnya) ditafsirkan sebagai tidak adanya file robots.txt. Oleh sebab itu, crawler umumnya akan menganggap bahwa semua URL di situs dapat di-crawl. Untuk memblokir crawling situs, robots.txt harus ditampilkan dengan kode status HTTP 200 OK, dan harus berisi aturan disallow yang sesuai.

Pertanyaan terkait tag meta robot

Apakah tag meta robot menjadi pengganti file robots.txt?

Tidak. File robots.txt mengontrol halaman mana yang diakses. Tag meta robot mengontrol apakah halaman diindeks atau tidak, tetapi halaman harus di-crawl agar tag ini dapat dilihat. Jika crawling halaman bermasalah (misalnya jika halaman menyebabkan pemuatan yang berat pada server), Anda harus menggunakan file robots.txt. Jika hanya ragu terkait apakah halaman ditampilkan atau tidak di hasil penelusuran, Anda dapat menggunakan tag meta robot.

Dapatkah tag meta robot digunakan untuk memblokir pengindeksan sebagian halaman?

Tidak, tag meta robot adalah setelan tingkat halaman.

Dapatkah saya menggunakan tag meta robot selain di bagian <head>?

Tidak, tag meta robot saat ini harus berada di bagian <head> pada halaman.

Apakah tag meta robot melarang crawling?

Tidak. Meskipun tag meta robots saat ini menunjukkan noindex, terkadang kami harus meng-crawl ulang URL tersebut untuk memeriksa apakah tag meta mengalami perubahan.

Apa perbedaan tag meta robots nofollow dengan atribut link rel="nofollow"?

Tag meta robots nofollow berlaku untuk semua link pada halaman. Atribut link rel="nofollow" hanya berlaku untuk link tertentu pada halaman. Untuk informasi selengkapnya terkait atribut link rel="nofollow", lihat dokumentasi kami tentang spam yang dibuat oleh pengguna dan rel="nofollow".

Pertanyaan terkait header HTTP X-Robots-Tag

Bagaimana cara memeriksa URL pada X-Robots-Tag?

Cara mudah untuk melihat header server adalah menggunakan pemeriksa header server berbasis web atau menggunakan fitur Alat Inspeksi URL di Google Search Console.

Tidak dapat menemukan jawabannya?

Jika Anda tidak dapat menemukan jawaban atas pertanyaan Anda di halaman ini, lihat referensi bantuan Google untuk pemilik situs.

Kami juga menyediakan komunitas bantuan Pusat Google Penelusuran resmi dalam bahasa berikut: EnglishDeutschEspañolFrançaisItalianoNederlandsPolskiPortuguêsTürkçeРусскийالعربية中文(简体)日本語한국어