Spesifikasi tag meta robots, data-nosnippet, dan X-Robots-Tag

Abstrak

Dokumen ini menjelaskan penggunaan setelan tingkat halaman dan tingkat teks untuk menyesuaikan cara Google menampilkan konten Anda di hasil penelusuran. Anda dapat menentukan setelan tingkat halaman dengan menyertakan tag meta di halaman HTML atau di header HTTP. Anda dapat menentukan setelan tingkat teks dengan atribut data- nosnippet pada elemen HTML dalam sebuah halaman.

Menggunakan tag meta robots

Tag meta robots memungkinkan Anda memanfaatkan pendekatan khusus halaman yang terperinci untuk mengontrol bagaimana setiap halaman diindeks dan ditayangkan kepada pengguna di hasil Google Penelusuran. Tempatkan tag meta robots di bagian <head> pada halaman tertentu, seperti ini:

<!DOCTYPE html>
<html><head>
<meta name="robots" content="noindex" />
(…)
</head>
<body>(…)</body>
</html>

Tag meta robots dalam contoh di atas menginstruksikan mesin telusur untuk tidak menampilkan halaman dalam hasil penelusuran. Nilai atribut name (robots) menentukan bahwa perintah tersebut berlaku untuk semua crawler. Untuk menangani crawler tertentu, ganti nilai robots pada atribut name dengan nama crawler yang Anda tangani. Crawler tertentu juga disebut agen pengguna (crawler menggunakan agen penggunanya untuk meminta halaman). Crawler web standar Google memiliki nama agen-pengguna Googlebot. Agar Googlebot saja yang tidak meng-crawl halaman Anda, perbarui tagnya seperti di bawah:

<meta name="googlebot" content="noindex" />

Tag ini sekarang menginstruksikan Google secara khusus untuk tidak menampilkan halaman ini dalam hasil penelusurannya. Baik atribut name maupun content tidak peka huruf besar kecil.

Setiap mesin telusur dapat memiliki crawler yang berbeda untuk properti atau keperluan yang berbeda. Lihat daftar lengkap crawler Google. Misalnya, untuk menunjukkan sebuah halaman dalam hasil penelusuran web Google, tetapi tidak di Google Berita, gunakan tag meta berikut:

<meta name="googlebot-news" content="noindex" />

Untuk menentukan beberapa crawler secara terpisah, gunakan beberapa tag meta robots:

<meta name="googlebot" content="noindex">
<meta name="googlebot-news" content="nosnippet">

Menggunakan header HTTP X-Robots-Tag

X-Robots-Tag dapat digunakan sebagai elemen respons header HTTP untuk URL tertentu. Setiap perintah yang dapat digunakan dalam tag meta robots juga dapat ditetapkan sebagai X-Robots-Tag. Berikut adalah contoh respons HTTP dengan X-Robots-Tag yang memerintahkan crawler untuk tidak mengindeks sebuah halaman:

HTTP/1.1 200 OK
Date: Tue, 25 May 2010 21:42:43 GMT
(…)
X-Robots-Tag: noindex
(…)

Beberapa header X-Robots-Tag dapat digabungkan dalam respons HTTP, atau Anda dapat menentukan daftar perintah yang dipisahkan koma. Berikut adalah contoh respons header HTTP yang menggabungkan noarchive X-Robots-Tag dengan unavailable_after X-Robots-Tag.

HTTP/1.1 200 OK
Date: Tue, 25 May 2010 21:42:43 GMT
(…)
X-Robots-Tag: noarchive
X-Robots-Tag: unavailable_after: 25 Jun 2010 15:00:00 PST
(…)

Secara opsional, X-Robots-Tag dapat menentukan agen-pengguna sebelum perintah. Misalnya, rangkaian header HTTP X-Robots-Tag berikut dapat digunakan untuk secara kondisional mengizinkan ditampilkannya sebuah halaman dalam hasil penelusuran untuk mesin telusur berbeda:

HTTP/1.1 200 OK
Date: Tue, 25 May 2010 21:42:43 GMT
(…)
X-Robots-Tag: googlebot: nofollow
X-Robots-Tag: otherbot: noindex, nofollow
(…)

Perintah yang ditentukan tanpa agen-pengguna akan berlaku untuk semua crawler. Header HTTP, nama agen-pengguna, dan nilai yang ditentukan tidak peka huruf besar kecil.

Perintah pengindeksan & penyajian yang valid

Perintah berikut dapat digunakan untuk mengontrol pengindeksan dan penyajian dengan tag meta robots dan X-Robots-Tag. Setiap nilai mewakili perintah tertentu. Tabel berikut menampilkan semua perintah yang diakui oleh Google dan artinya. Beberapa perintah dapat digabungkan dalam daftar yang dipisahkan koma. Perintah ini tidak peka terhadap huruf besar kecil. Dalam hasil penelusuran, cuplikan adalah rangkuman singkat dari teks yang digunakan untuk menunjukkan relevansi dokumen dengan kueri pengguna.

Perintah

all
Tidak ada batasan untuk pengindeksan atau penyajian. Perintah ini adalah nilai default dan tidak berpengaruh jika dicantumkan secara eksplisit.
noindex
Jangan tampilkan halaman ini dalam hasil penelusuran.
nofollow
Jangan ikuti link di halaman ini.
none
Setara dengan noindex, nofollow.
noarchive
Jangan tampilkan link cache dalam hasil penelusuran.
nosnippet
Jangan tampilkan cuplikan teks atau pratinjau video dalam hasil penelusuran untuk halaman ini. Thumbnail statis (jika ada) mungkin tetap terlihat, jika thumbnail tersebut memberikan pengalaman pengguna yang lebih baik. Ini berlaku untuk semua bentuk hasil penelusuran (di Google Penelusuran Web, Google Gambar, Discover).
max-snippet:[number]

Gunakan maksimal [number] karakter sebagai cuplikan tekstual untuk hasil penelusuran ini. (Perhatikan bahwa sebuah URL dapat ditampilkan sebagai beberapa hasil penelusuran dalam halaman hasil penelusuran.) Hal ini tidak memengaruhi pratinjau gambar atau video. Ini berlaku untuk semua bentuk hasil penelusuran (seperti Google Penelusuran Web, Google Gambar, Discover, Asisten). Namun, batas ini tidak berlaku jika penayang telah memberikan izin penggunaan konten secara terpisah. Misalnya, jika penayang menyediakan konten dalam bentuk data terstruktur dalam halaman atau memiliki perjanjian lisensi dengan Google, setelan ini tidak akan mengganggu penggunaan lebih spesifik yang diizinkan tersebut. Perintah ini akan diabaikan jika [number] yang dapat diurai tidak ditentukan.

Nilai khusus:

  • 0: Cuplikan tidak akan ditampilkan. Setara dengan nosnippet.
  • -1: Tidak ada batas panjang cuplikan.
  • Contoh:

    <meta name="robots" content="max-snippet:20">
    max-image-preview:[setting]

    Tetapkan ukuran maksimum pratinjau gambar untuk halaman ini dalam hasil penelusuran.

    Nilai setting yang diterima:

  • none: Pratinjau gambar tidak akan ditampilkan.
  • standard: Pratinjau gambar default mungkin ditampilkan.
  • large: Pratinjau gambar ukuran besar, hingga selebar area pandang, mungkin ditampilkan.
  • Ini berlaku untuk semua bentuk hasil penelusuran (seperti Google Penelusuran Web, Google Gambar, Discover, Asisten). Namun, batas ini tidak berlaku jika penayang telah memberikan izin penggunaan konten secara terpisah. Misalnya, jika penayang menyediakan konten dalam bentuk data terstruktur dalam halaman atau memiliki perjanjian lisensi dengan Google, setelan ini tidak akan mengganggu penggunaan lebih spesifik yang diizinkan tersebut.

    Contoh:

    <meta name="robots" content="max-image-preview:standard">
    max-video-preview:[number]

    Gunakan maksimum [number] detik sebagai cuplikan video untuk video di halaman ini dalam hasil penelusuran.

    Nilai lain yang didukung:

  • 0: Maksimal, gambar statis dapat digunakan, sesuai dengan setelan pratinjau gambar maksimum.
  • -1: Tidak ada batas.
  • Ini berlaku untuk semua bentuk hasil penelusuran (di Google Penelusuran Web, Google Gambar, Google Video, Discover, Asisten). Perintah ini akan diabaikan jika [number] yang dapat diurai tidak ditentukan.

    Contoh:

    <meta name="robots" content="max-video-preview:-1">
    notranslate
    Jangan menawarkan terjemahan halaman ini dalam hasil penelusuran.
    noimageindex
    Jangan indeks gambar di halaman ini.
    unavailable_after: [RFC-850 date/time]

    Jangan tampilkan halaman ini dalam hasil penelusuran setelah tanggal/waktu yang ditentukan. Tanggal/waktu harus ditentukan dalam format RFC 850. Perintah ini akan diabaikan jika [date/time] yang valid tidak ditentukan. Secara default, tidak ada tanggal habis masa berlaku untuk konten.

    Contoh:

    <meta name="robots" content="unavailable_after: Sunday, 01-Sep-24 01:00:00 PDT">

    Menangani gabungan perintah pengindeksan dan penyajian

    Anda dapat membuat instruksi multiperintah dengan menggabungkan perintah tag meta robot dan koma. Berikut adalah contoh dari tag meta robots yang menginstruksikan crawler web untuk tidak mengindeks halaman dan tidak meng-crawl link apa pun di halaman itu:

    <meta name="robots" content="noindex, nofollow">
    

    Berikut adalah contoh yang membatasi cuplikan teks ke maksimal 20 karakter, dan mengizinkan pratinjau gambar ukuran besar:

    <meta name="robots" content="max-snippet:20, max-image-preview:large">
    

    Jika beberapa crawler ditentukan dengan perintah yang berbeda, mesin telusur akan menggunakan gabungan perintah negatif. Contoh:

    <meta name="robots" content="nofollow">
    <meta name="googlebot" content="noindex">
    

    Halaman yang berisi tag meta ini akan ditafsirkan seolah-olah memiliki perintah noindex, nofollow saat di-crawl oleh Googlebot.

    Menggunakan atribut HTML data-nosnippet

    Anda dapat menetapkan bagian-bagian tekstual dari sebuah halaman HTML agar tidak digunakan sebagai cuplikan. Hal ini dapat dilakukan di tingkat elemen HTML dengan atribut HTML data-nosnippet pada elemen span , div, dan section. data-nosnippet dianggap sebagai atribut boolean , yang valid dengan atau tanpa nilai. Untuk memastikan keterbacaan oleh komputer, bagian HTML ini harus berupa HTML yang valid dan semua tag yang sesuai harus ditutup.

    Contoh:

    <p>This text can be shown in a snippet
     <span data-nosnippet>and this part would not be shown</span>.</p>
    
    <div data-nosnippet>not in snippet</div>
    <div data-nosnippet="true">also not in snippet</div>
    
    <div data-nosnippet>some text</html>
    <!-- unclosed "div" will include all content afterwards -->
    
    <mytag data-nosnippet>some text</mytag>
    <!-- NOT VALID: not a span, div, or section -->
    

    Google biasanya merender halaman agar dapat mengindeksnya, tetapi perenderan tidak dijamin. Oleh karena itu, ekstraksi data-nosnippet dapat terjadi sebelum dan sesudah rendering. Untuk menghindari ketidakpastian rendering, jangan menambahkan atau menghapus atribut data-nosnippet dari node yang ada melalui JavaScript. Saat menambahkan elemen DOM melalui JavaScript, sertakan atribut data-nosnippet seperlunya saat pertama kali menambahkan elemen itu ke DOM halaman. Jika elemen kustom digunakan, gabung atau render elemen tersebut bersama elemen div, span, atau section jika Anda perlu menggunakan data- nosnippet.

    Menggunakan data terstruktur

    Tag meta robots mengatur banyaknya konten yang otomatis diekstrak oleh Google dari halaman web untuk ditampilkan sebagai hasil penelusuran. Namun, banyak penayang juga menggunakan data terstruktur schema.org untuk membuat informasi spesifik tersedia melalui presentasi penelusuran. Batasan tag meta robots tidak memengaruhi penggunaan data terstruktur tersebut. Untuk mengelola penggunaan data terstruktur di halaman web Anda, cukup modifikasi jenis dan nilai data terstruktur tersebut, dengan menambah atau menghapus informasi untuk menyediakan hanya data yang memang ingin Anda sediakan. Perhatikan juga bahwa data terstruktur tetap dapat digunakan untuk hasil penelusuran jika dideklarasikan dalam elemen data-nosnippet.

    Implementasi praktis dari X-Robots-Tag

    Anda dapat menambahkan X-Robots-Tag ke respons HTTP situs melalui file konfigurasi untuk software server web situs Anda. Misalnya, pada server web berbasis Apache, Anda dapat menggunakan file .htaccess dan httpd.conf. Manfaat penggunaan X-Robots-Tag dengan respons HTTP adalah Anda dapat menentukan perintah crawling yang diterapkan secara global di seluruh situs. Dukungan ekspresi reguler memungkinkan tingkat fleksibilitas yang tinggi.

    Misalnya, untuk menambahkan noindex, nofollow X-Robots-Tag ke respons HTTP untuk semua file .PDF di seluruh situs, tambahkan cuplikan berikut ke file .htaccess atau httpd.conf root situs di Apache, atau ke file .conf situs di NGINX.

    Apache:

    <Files ~ "\.pdf$">
      Header set X-Robots-Tag "noindex, nofollow"
    </Files>
    

    NGINX:

    location ~* \.pdf$ {
      add_header X-Robots-Tag "noindex, nofollow";
    }
    

    Anda dapat menggunakan X-Robots-Tag untuk file non-HTML seperti file gambar yang tidak memungkinkan penggunaan tag meta robot. Berikut adalah contoh penambahan perintah noindex X-Robots-Tag untuk file gambar (.png, .jpeg, .jpg, .gif) di seluruh situs:

    Apache:

    <Files ~ "\.(png|jpe?g|gif)$">
      Header set X-Robots-Tag "noindex"
    </Files>
    

    NGINX:

    location ~* \.(png|jpe?g|gif)$ {
      add_header X-Robots-Tag "noindex";
    }
    

    Menggabungkan crawling dengan perintah pengindeksan/penyajian

    Tag meta robots dan header HTTP X-Robots-Tag ditemukan saat URL di-crawl. Jika crawling sebuah halaman tidak diizinkan melalui file robots.txt, maka informasi tentang perintah pengindeksan atau penyajian tidak akan ditemukan dan akan diabaikan. Jika perintah pengindeksan atau penyajian harus diikuti, crawling atas URL yang berisi perintah tersebut harus diizinkan.