Kanonikalisasi URL halaman duplikat dan penggunaan tag kanonis

Jika Anda memiliki satu halaman yang dapat diakses dengan beberapa URL, atau beberapa halaman dengan konten yang mirip (misalnya halaman dengan versi seluler dan desktop), Google melihatnya sebagai versi duplikat dari halaman yang sama. Google akan memilih satu URL sebagai versi kanonis dan meng-crawl-nya, serta menganggap semua URL lainnya sebagai URL duplikat dan jarang meng-crawl-nya.

Jika Anda tidak secara eksplisit menyebutkan URL mana yang kanonis, Google yang akan menentukan pilihannya, atau mungkin keduanya dianggap valid, yang berisiko menimbulkan perilaku yang tidak diinginkan, seperti yang dijelaskan di Alasan Anda perlu memilih URL kanonis.

Dokumen ini menjelaskan cara kerja kanonikalisasi URL di Google Penelusuran, apakah Anda perlu menentukan URL kanonis, dan cara menentukan preferensi Anda ke Google.

Apa itu URL kanonis?

URL kanonis adalah URL halaman yang dianggap Google sebagai URL paling representatif dari sekumpulan halaman duplikat di situs Anda. Misalnya, jika Anda memiliki beberapa URL untuk halaman yang sama (example.com?dress=1234 dan example.com/dresses/1234), Google akan memilih salah satu URL sebagai kanonis.

Halaman tidak harus benar-benar identik; perubahan kecil dalam pengurutan atau pemfilteran halaman daftar tidak membuat halaman menjadi unik (misalnya mengurutkan berdasarkan harga atau memfilter berdasarkan warna item). URL kanonis dapat berada di domain yang berbeda dari URL duplikat.

Cara Google mengindeks dan memilih URL kanonis

Saat mengindeks sebuah situs, Google mencoba menentukan konten utama dalam setiap halaman. Jika Google menemukan beberapa halaman yang serupa pada situs yang sama, Google akan memilih halaman yang dianggap paling lengkap dan berguna, lalu menandainya sebagai kanonis. Halaman yang paling sering di-crawl adalah halaman kanonis, sedangkan duplikat tidak terlalu sering di-crawl untuk mengurangi beban crawling pada situs Anda.

Google memilih halaman kanonis berdasarkan sejumlah faktor (atau sinyal), seperti apakah halaman ditayangkan melalui HTTP atau HTTPS, bagaimana kualitasnya, keberadaan URL dalam peta situs, dan apakah ada pemberian label rel=canonical. Anda dapat menunjukkan preferensi Anda ke Google menggunakan teknik ini, tetapi Google dapat memilih halaman kanonis yang berbeda dengan pilihan Anda karena berbagai alasan.

Versi bahasa yang berbeda pada satu halaman akan dianggap duplikat hanya jika konten utamanya menggunakan bahasa yang sama (yaitu, jika hanya header, footer, dan teks non-kritis lainnya yang diterjemahkan, tetapi isinya tetap sama, halaman akan dianggap duplikat).

Google menggunakan halaman kanonis sebagai sumber utama untuk mengevaluasi konten dan kualitas. Hasil Google Penelusuran biasanya mengarah ke halaman kanonis, kecuali jika salah satu duplikat secara eksplisit lebih cocok untuk pengguna. Misalnya, hasil penelusuran mungkin akan mengarah ke halaman seluler jika pengguna menggunakan perangkat seluler, meskipun halaman yang ditandai sebagai kanonis adalah halaman desktop.

Alasan memiliki halaman duplikat atau halaman yang mirip

Ada alasan yang valid mengapa situs Anda mungkin memiliki URL yang berbeda, tetapi mengarah ke halaman yang sama, atau memiliki halaman duplikat atau yang sangat mirip di URL yang berbeda. Berikut alasan yang paling umum:

  • Untuk mendukung berbagai jenis perangkat:
    https://example.com/news/koala-rampage
    https://m.example.com/news/koala-rampage
    https://amp.example.com/news/koala-rampage
  • Untuk mengaktifkan URL dinamis bagi beberapa hal seperti parameter pengurutan atau pemfilteran, atau ID sesi:
    https://www.example.com/products?category=dresses&color=green
    https://example.com/dresses/cocktail?gclid=ABCD
    https://www.example.com/dresses/green/greendress.html
  • Jika sistem blog Anda otomatis menyimpan beberapa URL saat Anda menempatkan postingan yang sama pada beberapa bagian.
    https://blog.example.com/dresses/green-dresses-are-awesome/
    https://blog.example.com/green-things/green-dresses-are-awesome/
  • Jika server dikonfigurasi agar menayangkan konten yang sama untuk varian www/non-www http/https dan port protokol:
    https://example.com/green-dresses
    https://example.com/green-dresses
    https://www.example.com/green-dresses
    https://example.com:80/green-dresses
    https://example.com:443/green-dresses
  • Jika konten yang Anda sajikan di blog untuk sindikasi ke situs lain direplikasi sebagian atau seluruhnya pada domain tersebut:
    https://news.example.com/green-dresses-for-every-day-155672.html (postingan bersindikasi) https://blog.example.com/dresses/green-dresses-are-awesome/3245/ (postingan asli)

Alasan Anda perlu memilih URL kanonis

Ada sejumlah alasan mengapa Anda perlu memilih halaman kanonis secara eksplisit dalam kumpulan halaman duplikat atau yang mirip:

  • Untuk menentukan URL yang ingin dilihat orang dalam hasil penelusuran. Anda mungkin lebih suka orang membuka halaman produk gaun hijau Anda melalui https://www.example.com/dresses/green/greendress.html daripada melalui https://example.com/dresses/cocktail?gclid=ABCD.
  • Untuk mengonsolidasikan sinyal link untuk halaman yang serupa atau duplikat. Tindakan ini membantu mesin telusur agar dapat mengonsolidasikan informasi yang dimiliki untuk URL individual (misalnya link ke URL individual tersebut) pada sebuah URL pilihan. Artinya, link dari situs lain ke https://example.com/dresses/cocktail?gclid=ABCD dikonsolidasikan dengan link ke https://www.example.com/dresses/green/greendress.html.
  • Untuk menyederhanakan pelacakan metrik dari satu produk atau topik. Dengan berbagai variasi URL, akan lebih sulit untuk mendapatkan metrik hasil konsolidasi untuk bagian konten tertentu.
  • Untuk mengelola konten bersindikasi. Jika Anda menyediakan konten melalui sindikasi untuk publikasi di domain lain, pastikan bahwa URL pilihan Anda muncul di hasil penelusuran.
  • Untuk menghindari crawling yang tidak diperlukan pada halaman duplikat. Jika ingin mendapatkan hasil maksimal dari situs Anda, sebaiknya minta Googlebot untuk meng-crawl halaman baru (atau yang telah diperbarui) pada situs Anda, daripada meng-crawl halaman yang sama pada versi desktop dan seluler.

Mempelajari halaman yang dianggap Google sebagai kanonis

Gunakan Alat Inspeksi URL untuk mempelajari halaman yang dianggap Google sebagai kanonis. Meskipun Anda secara eksplisit menentukan halaman kanonis, Google mungkin memilih halaman lain sebagai kanonis karena berbagai alasan seperti performa atau kontennya.

Menentukan halaman kanonis

Untuk menentukan URL kanonis bagi URL duplikat atau halaman yang mirip, pilih salah satu metode berikut. Meskipun sebaiknya Anda menggunakan salah satu metode berikut, tidak satu pun di antaranya yang bersifat wajib. Jika Anda tidak menentukan URL kanonis, kami akan mengidentifikasi URL atau versi yang terbaik menurut kami. Pastikan untuk mengikuti pedoman umum.

Metode dan deskripsi
Tag rel=canonical <link>

Menambahkan tag <link> dalam kode untuk semua halaman duplikat, yang mengarah ke halaman kanonis.

Kelebihan:
  • Dapat memetakan halaman duplikat dalam jumlah yang tidak terbatas.

Kekurangan:

  • Dapat menambah ukuran halaman.
  • Pengelolaan pemetaan dapat menjadi kompleks pada situs yang besar atau situs dengan URL yang sering berubah.
  • Hanya berfungsi untuk halaman HTML, bukan untuk file seperti PDF. Untuk itu, Anda dapat menggunakan header HTTP rel=canonical.
Header HTTP rel=canonical

Mengirimkan header rel=canonical di respons halaman Anda.

Kelebihan:

  • Tidak meningkatkan ukuran halaman.
  • Dapat memetakan halaman duplikat dalam jumlah yang tidak terbatas.

Kekurangan:

  • Pengelolaan pemetaan dapat menjadi kompleks pada situs yang besar atau situs dengan URL yang sering berubah.
Peta Situs

Menentukan halaman kanonis Anda di peta situs.

Kelebihan:

  • Mudah dilakukan dan dikelola, terutama di situs besar.

Kekurangan:

  • Google masih harus menentukan duplikat terkait untuk setiap kanonis yang Anda nyatakan di peta situs.
  • Sinyal yang kurang kuat untuk Google dibandingkan teknik pemetaan rel=canonical.
Pengalihan 301 Menggunakan pengalihan 301 untuk memberi tahu Googlebot bahwa URL yang dialihkan adalah versi yang lebih baik daripada URL yang diberikan. Gunakan pengalihan ini hanya jika halaman duplikat tidak digunakan lagi.
Varian AMP Jika salah satu varian Anda adalah halaman AMP, ikuti pedoman AMP untuk menunjukkan halaman kanonis dan varian AMP.

Pedoman umum

Untuk semua metode kanonikalisasi, ikuti pedoman umum berikut:

  • Jangan gunakan file robots.txt untuk tujuan kanonikalisasi.
  • Jangan gunakan alat penghapusan URL untuk kanonikalisasi. Alat ini menyembunyikan semua versi URL dari Penelusuran.
  • Jangan menentukan URL lain sebagai kanonis untuk halaman yang sama menggunakan teknik kanonikalisasi yang serupa atau berbeda (misalnya jangan menentukan satu URL di peta situs, lalu menentukan URL lain untuk halaman yang sama menggunakan rel="canonical").
  • Jangan gunakan noindex untuk mencegah pemilihan halaman kanonis. Aturan ini dimaksudkan untuk mengecualikan halaman dari indeks, bukan untuk mengelola pemilihan halaman kanonis.
  • Tentukan halaman kanonis saat menggunakan tag hreflang. Tentukan halaman kanonis dalam bahasa yang sama, atau bahasa pengganti terbaik jika kanonis tidak tersedia untuk bahasa yang sama.

  • Tautkan ke URL kanonis, bukan URL duplikat, saat melakukan penautan di situs Anda. Dengan menautkan secara konsisten ke URL yang Anda anggap kanonis, Google akan lebih mudah memahami preferensi Anda.

Lebih memilih HTTPS daripada HTTP untuk URL kanonis

Google lebih memilih halaman HTTPS sebagai kanonis daripada halaman HTTP yang setara, kecuali jika ada masalah atau sinyal bentrok seperti berikut:

  • Halaman HTTPS memiliki sertifikat SSL yang tidak valid.
  • Halaman HTTPS memiliki dependensi yang tidak aman (selain gambar).
  • Halaman HTTPS mengalihkan pengguna ke atau melalui halaman HTTP.
  • Halaman HTTPS memiliki link rel="canonical" ke halaman HTTP.

Meskipun sistem kami secara default lebih memilih halaman HTTPS daripada halaman HTTP, Anda dapat memastikan perilaku ini dengan melakukan salah satu tindakan berikut:

  • Menambahkan pengalihan dari halaman HTTP ke halaman HTTPS.
  • Menambahkan link rel="canonical" dari halaman HTTP ke halaman HTTPS.
  • Menerapkan HSTS.

Untuk mencegah Google salah membuat halaman HTTP menjadi kanonis, hindari praktik berikut:

  • Hindari sertifikat TLS/SSL yang buruk dan pengalihan HTTPS ke HTTP karena keduanya menyebabkan Google benar-benar lebih memilih HTTP. Anda tidak dapat menimpa preferensi yang kuat ini dengan menerapkan HSTS.
  • Hindari menyertakan halaman HTTP di peta situs atau entri hreflang Anda selain versi HTTPS.
  • Jangan terapkan sertifikat SSL/TLS untuk varian host yang salah. Misalnya, example.com menyediakan sertifikat untuk www.example.com. Sertifikat tersebut harus sesuai dengan URL situs lengkap Anda, atau menjadi sertifikat karakter pengganti yang dapat digunakan untuk beberapa subdomain dalam suatu domain.

Tag link rel=”canonical” (tag kanonis) adalah tag yang digunakan di bagian head HTML untuk menunjukkan bahwa suatu halaman tumpang-tindih dengan halaman lain. Untuk menunjukkan bahwa suatu halaman merupakan duplikat halaman lain, Anda dapat menggunakan tag <link> di bagian head HTML.

Misalnya Anda ingin https://example.com/dresses/green-dresses menjadi URL kanonis, meskipun berbagai URL dapat mengakses konten ini. Tunjukkan URL ini sebagai kanonis melalui langkah-langkah berikut:

  1. Tandai semua halaman duplikat dengan tag link rel="canonical".

    Tambahkan elemen <link> dengan atribut rel="canonical" ke bagian <head> di halaman duplikat, yang mengarah ke halaman kanonis. Misalnya:

    <link rel="canonical" href="https://example.com/dresses/green-dresses" />
  2. Jika halaman kanonis memiliki varian seluler, tambahkan link rel="alternate" ke halaman tersebut untuk mengarahkan ke versi selulernya:
    <link rel="alternate" media="only screen and (max-width: 640px)"  href="https://m.example.com/dresses/green-dresses">
  3. Tambahkan pengalihan hreflang atau pengalihan lain yang sesuai untuk halaman.

Gunakan jalur mutlak, bukan jalur relatif dengan tag link rel="canonical".

Contoh yang baik: https://www.example.com/dresses/green/greendress.html

Contoh yang buruk: /dresses/green/greendress.html

Jika Anda menggunakan JavaScript untuk menambahkan tag link rel="canonical", pastikan untuk memasukkan tag link kanonis dengan benar.

Menggunakan header HTTP rel="canonical"

Jika dapat mengonfigurasi server, Anda dapat menggunakan header HTTP rel="canonical" (bukan tag HTML) guna menunjukkan URL kanonis untuk dokumen yang didukung oleh Penelusuran, termasuk dokumen non-HTML seperti file PDF.

Saat ini Google mendukung metode ini untuk hasil penelusuran web saja.

Jika mengekspos file PDF melalui beberapa URL, Anda dapat menampilkan header HTTP rel="canonical" untuk memberi tahu Googlebot tentang URL kanonis mana yang digunakan untuk file PDF:

Link: <https://www.example.com/downloads/white-paper.pdf>; rel="canonical"

Rekomendasi untuk header HTTP rel="canonical" sama dengan tag link rel="canonical". Sesuai dengan RFC2616, Anda hanya boleh menggunakan tanda kutip ganda dalam header HTTP rel="canonical".

Menggunakan peta situs

Pilih URL kanonis untuk setiap halaman, lalu kirimkan URL tersebut dalam peta situs. Semua halaman yang tercantum dalam peta situs sebaiknya berupa kanonis; Google akan menentukan halaman mana (jika ada) yang merupakan duplikat, berdasarkan kemiripan kontennya.

Kami tidak menjamin bahwa kami akan menganggap URL dalam peta situs sebagai kanonis, tetapi ini adalah cara termudah guna menentukan kanonis untuk situs besar, dan peta situs adalah cara yang tepat untuk memberi tahu Google halaman mana yang Anda anggap paling penting di situs Anda.

Jangan sertakan halaman non-kanonis dalam peta situs. Anda hanya boleh menentukan URL kanonis dalam peta situs yang digunakan.

Menggunakan pengalihan 301 untuk URL yang tidak aktif

Gunakan metode ini jika Anda ingin menghapus halaman duplikat yang sudah ada, tetapi Anda perlu memastikan transisinya berjalan lancar sebelum menonaktifkan URL lama.

Misalnya, halaman Anda dapat dijangkau dengan beberapa cara:

  • https://example.com/home
  • https://home.example.com
  • https://www.example.com

Pilih salah satu URL tersebut sebagai URL kanonis, dan gunakan pengalihan 301 untuk mengirim traffic dari URL lain ke URL pilihan Anda. Pengalihan 301 sisi server adalah cara terbaik untuk memastikan bahwa pengguna dan mesin telusur diarahkan ke halaman yang tepat. Kode status 301 berarti halaman telah dipindahkan secara permanen ke lokasi baru.

Jika Anda menggunakan layanan hosting situs, telusuri dokumentasi tentang penyiapan pengalihan 301.

Pemecahan masalah

Jika URL kanonis berada di properti yang bukan milik Anda, traffic untuk halaman duplikat tidak akan dapat Anda lihat. Berikut ini beberapa alasan umum mengapa URL kanonis dapat berada di properti terpisah:

  • Varian bahasa yang salah ditandai: Jika Anda memiliki beberapa situs yang pada dasarnya menayangkan konten serupa yang dilokalkan bagi berbagai pengguna di seluruh dunia, pastikan Anda mengikuti pedoman kami untuk situs yang dilokalkan.
  • Tag kanonis salah: Beberapa sistem pengelolaan konten (CMS) atau plugin CMS dapat menggunakan teknik kanonikalisasi dengan tidak benar untuk mengarahkan ke URL di situs eksternal. Periksa konten Anda untuk melihat apakah ini permasalahannya. Jika situs Anda menunjukkan preferensi URL kanonis yang tidak terduga, yang mungkin disebabkan penggunaan rel="canonical" atau pengalihan 301 yang salah, segera perbaiki masalah tersebut.
  • Server yang salah dikonfigurasi: Beberapa kesalahan konfigurasi hosting dapat menyebabkan pemilihan URL lintas domain yang tidak terduga. Contoh:
    • Server mungkin salah dikonfigurasi sehingga menampilkan konten dari a.com sebagai respons atas permintaan untuk URL di b.com.
    • Dua server web yang tidak berkaitan dapat menampilkan halaman soft 404 identik yang gagal diidentifikasi Google sebagai halaman error.
  • Peretasan berbahaya: Beberapa serangan di situs menunjukkan kode yang menampilkan pengalihan 301 HTTP atau menyisipkan tag link rel="canonical" lintas domain dalam <head> HTML atau header HTTP, yang biasanya mengarah ke URL yang menghosting konten berbahaya atau berisi spam. Dalam hal ini, algoritme kami dapat memilih URL yang berbahaya atau berisi spam tersebut, bukan URL situs yang disusupi.
  • Situs peniru: Dalam situasi yang jarang terjadi, algoritme kami dapat memilih URL dari situs eksternal yang menghosting konten Anda tanpa izin dari Anda. Jika Anda yakin bahwa situs lain menggandakan konten Anda dengan cara yang melanggar undang-undang hak cipta, hubungi host situs untuk meminta penghapusan. Selain itu, Anda dapat meminta Google menghapus halaman yang melakukan pelanggaran dari hasil penelusuran kami dengan mengajukan permintaan berdasarkan Digital Millennium Copyright Act.