Mengonsolidasikan URL duplikat

Jika Anda memiliki satu halaman yang dapat diakses dengan beberapa URL, atau beberapa halaman dengan konten yang mirip (misalnya halaman dengan versi seluler dan desktop), Google melihatnya sebagai versi duplikat dari halaman yang sama. Google akan memilih satu URL sebagai versi kanonis dan meng-crawl-nya, serta menganggap semua URL lainnya sebagai URL duplikat dan jarang meng-crawl-nya.

Jika Anda tidak secara eksplisit menyebutkan URL mana yang kanonis, Google yang akan menentukan pilihannya, atau mungkin keduanya dianggap valid, yang berisiko menimbulkan perilaku yang tidak diinginkan, seperti yang dijelaskan di Alasan Anda perlu memilih URL kanonis.

Cara Googlebot mengindeks dan memilih URL kanonis

Saat mengindeks sebuah situs, Googlebot mencoba menentukan konten utama dalam setiap halaman. Jika Googlebot menemukan beberapa halaman yang serupa pada situs yang sama, Googlebot akan memilih halaman yang dianggap paling lengkap dan berguna, lalu menandainya sebagai kanonis. Halaman yang paling sering di-crawl adalah halaman kanonis, sedangkan duplikat tidak terlalu sering di-crawl untuk mengurangi beban crawling Google pada situs Anda.

Google memilih halaman kanonis berdasarkan sejumlah faktor (atau sinyal), seperti apakah halaman ditayangkan melalui HTTP atau HTTPS, bagaimana kualitasnya, keberadaan URL dalam peta situs, dan apakah ada pemberian label rel=canonical. Anda dapat menunjukkan preferensi Anda ke Google menggunakan teknik ini, tetapi Google dapat memilih halaman kanonis yang berbeda dengan pilihan Anda karena berbagai alasan.

Versi bahasa yang berbeda pada satu halaman akan dianggap duplikat hanya jika konten utamanya menggunakan bahasa yang sama (yaitu, jika hanya header, footer, dan teks non-kritis lainnya yang diterjemahkan, tetapi isinya tetap sama, halaman akan dianggap duplikat).

Google menggunakan halaman kanonis sebagai sumber utama untuk mengevaluasi konten dan kualitas. Hasil Google Penelusuran biasanya mengarah ke halaman kanonis, kecuali jika salah satu duplikat secara eksplisit lebih cocok untuk pengguna. Misalnya, hasil penelusuran mungkin akan mengarah ke halaman seluler jika pengguna menggunakan perangkat seluler, meskipun halaman yang ditandai sebagai kanonis adalah halaman desktop.

Alasan valid untuk mempertahankan halaman duplikat atau halaman yang mirip

Ada alasan yang valid mengapa situs Anda mungkin memiliki URL yang berbeda tetapi mengarah ke halaman yang sama, atau memiliki halaman duplikat atau yang sangat mirip di URL yang berbeda. Berikut alasan yang paling umum:

  • Untuk mendukung berbagai jenis perangkat:
    https://example.com/news/koala-rampage
    https://m.example.com/news/koala-rampage
    https://amp.example.com/news/koala-rampage
  • Untuk mengaktifkan URL dinamis bagi beberapa hal seperti parameter penelusuran atau ID sesi:
    https://www.example.com/products?category=dresses&color=green
    https://example.com/dresses/cocktail?gclid=ABCD
    https://www.example.com/dresses/green/greendress.html
  • Jika sistem blog Anda otomatis menyimpan beberapa URL saat Anda menempatkan postingan yang sama pada beberapa bagian.
    https://blog.example.com/dresses/green-dresses-are-awesome/
    https://blog.example.com/green-things/green-dresses-are-awesome/
  • Jika server dikonfigurasi agar menayangkan konten yang sama untuk varian www/non-www http/https:
    http://example.com/green-dresses
    https://example.com/green-dresses
    http://www.example.com/green-dresses
    
  • Jika konten yang Anda sajikan di blog untuk distribusi offline ke situs lain direplikasi sebagian atau seluruhnya pada domain tersebut:
    https://news.example.com/green-dresses-for-every-day-155672.html (postingan yang dapat didistribusikan offline) https://blog.example.com/dresses/green-dresses-are-awesome/3245/ (postingan asli)

Alasan Anda perlu memilih URL kanonis

Ada sejumlah alasan mengapa Anda perlu memilih halaman kanonis secara eksplisit dalam kumpulan halaman duplikat atau yang mirip:

  • Untuk menentukan URL yang ingin dilihat orang dalam hasil penelusuran. Anda mungkin lebih suka orang membuka halaman produk gaun hijau Anda melalui https://www.example.com/dresses/green/greendress.html daripada melalui https://example.com/dresses/cocktail?gclid=ABCD.
  • Untuk mengonsolidasikan sinyal link untuk halaman yang serupa atau duplikat. Tindakan ini membantu mesin telusur agar dapat mengonsolidasikan informasi yang dimiliki untuk URL individual (misalnya link ke URL individual tersebut) pada sebuah URL pilihan. Artinya, link dari situs lain ke http://example.com/dresses/cocktail?gclid=ABCD dikonsolidasikan dengan link ke https://www.example.com/dresses/green/greendress.html.
  • Untuk menyederhanakan pelacakan metrik untuk satu produk atau topik. Dengan berbagai variasi URL, akan lebih sulit untuk mendapatkan metrik hasil konsolidasi untuk bagian konten tertentu.
  • Untuk mengelola konten bersindikasi. Jika Anda mendistribusikan secara offline konten untuk publikasi di domain lain, pastikan bahwa URL pilihan Anda muncul di hasil penelusuran.
  • Untuk menghindari crawling yang tidak diperlukan pada halaman duplikat. Jika ingin mendapatkan hasil maksimal dari situs Anda, sebaiknya minta Googlebot untuk meng-crawl halaman baru (atau yang telah diperbarui) pada situs Anda, daripada meng-crawl halaman yang sama pada versi desktop dan seluler.

Mempelajari halaman yang dianggap Google sebagai kanonis

Gunakan Alat Inspeksi URL untuk mempelajari halaman yang dianggap Google sebagai kanonis.

Menentukan halaman kanonis

Untuk menentukan URL kanonis bagi URL duplikat atau halaman yang mirip, pilih salah satu metode berikut. Pastikan untuk mengikuti panduan umum.

Metode dan deskripsi
Tag rel=canonical <link>

Tambahkan tag <link> dalam kode untuk semua halaman duplikat, yang mengarah ke halaman kanonis.

Kelebihan:
  • Dapat memetakan halaman duplikat dalam jumlah yang tidak terbatas.

Kekurangan:

  • Dapat menambah ukuran halaman.
  • Pengelolaan pemetaan dapat menjadi kompleks pada situs yang besar atau situs dengan URL yang sering berubah.
  • Hanya berfungsi untuk halaman HTML, bukan untuk file seperti PDF. Untuk itu, Anda dapat menggunakan header HTTP rel=canonical.
Header HTTP rel=canonical

Kirimkan header rel=canonical di respons halaman Anda.

Kelebihan:

  • Tidak meningkatkan ukuran halaman.
  • Dapat memetakan halaman duplikat dalam jumlah yang tidak terbatas.

Kekurangan:

  • Pengelolaan pemetaan dapat menjadi kompleks pada situs yang besar atau situs dengan URL yang sering berubah.
Peta Situs

Tentukan halaman kanonis Anda di peta situs.

Kelebihan:

  • Mudah dilakukan dan dikelola, terutama di situs besar.

Kekurangan:

  • Googlebot masih harus menentukan duplikat terkait untuk setiap kanonis yang Anda deklarasikan di peta situs.
  • Sinyal yang kurang kuat untuk Googlebot dibandingkan teknik pemetaan rel=canonical.
Pengalihan 301 Gunakan pengalihan 301 untuk memberi tahu Googlebot bahwa URL yang dialihkan adalah versi yang lebih baik daripada URL yang diberikan. Gunakan pengalihan ini hanya jika halaman duplikat tidak digunakan lagi.
Varian AMP Jika salah satu varian Anda adalah halaman AMP, ikuti panduan AMP untuk menunjukkan halaman kanonis dan varian AMP.

Panduan umum

Untuk semua metode kanonikalisasi, ikuti panduan umum berikut:

  • Jangan gunakan file robots.txt untuk tujuan kanonikalisasi.
  • Jangan gunakan alat penghapusan URL untuk kanonikalisasi. Alat ini menghapus semua versi URL dari Penelusuran.
  • Jangan menentukan URL lain sebagai kanonis untuk halaman yang sama menggunakan teknik kanonikalisasi yang serupa atau berbeda (misalnya jangan menentukan satu URL di peta situs lalu menentukan URL lain untuk halaman yang sama menggunakan rel="canonical").
  • Jangan gunakan noindex untuk mencegah pemilihan halaman kanonis. Petunjuk ini dimaksudkan untuk mengecualikan halaman dari indeks, bukan untuk mengelola pemilihan halaman kanonis.
  • Tentukan halaman kanonis saat menggunakan tag hreflang. Tentukan halaman kanonis dalam bahasa yang sama, atau bahasa pengganti terbaik jika kanonis tidak tersedia untuk bahasa yang sama.

  • Tautkan ke URL kanonis, bukan URL duplikat, saat melakukan penautan di situs Anda. Dengan menautkan secara konsisten ke URL yang Anda anggap kanonis, Google akan lebih mudah memahami preferensi Anda.

Lebih memilih HTTPS daripada HTTP untuk URL kanonis

Google lebih memilih halaman HTTPS daripada halaman HTTP yang setara sebagai kanonis, kecuali jika ada masalah atau sinyal bentrok seperti berikut:

  • Halaman HTTPS memiliki sertifikat SSL yang tidak valid.
  • Halaman HTTPS memiliki dependensi yang tidak aman (selain gambar).
  • Halaman HTTPS mengalihkan pengguna ke atau melalui halaman HTTP.
  • Halaman HTTPS memiliki link rel="canonical" ke halaman HTTP.

Meskipun sistem kami secara default lebih memilih halaman HTTPS daripada halaman HTTP, Anda dapat memastikan perilaku ini dengan melakukan salah satu tindakan berikut:

  • Menambahkan pengalihan dari halaman HTTP ke halaman HTTPS.
  • Menambahkan link rel="canonical" dari halaman HTTP ke halaman HTTPS.
  • Menerapkan HSTS.

Untuk mencegah Google salah membuat halaman HTTP menjadi kanonis, hindari praktik berikut:

  • Hindari sertifikat TLS/SSL yang buruk dan pengalihan HTTPS ke HTTP karena keduanya menyebabkan Google benar-benar lebih memilih HTTP. Anda tidak dapat menimpa preferensi yang kuat ini dengan menerapkan HSTS.
  • Hindari menyertakan halaman HTTP di peta situs atau entri hreflang Anda selain versi HTTPS.
  • Jangan terapkan sertifikat SSL/TLS untuk varian host yang salah. Misalnya, example.com menyediakan sertifikat untuk www.example.com. Sertifikat tersebut harus sesuai dengan URL situs lengkap Anda, atau menjadi sertifikat karakter pengganti yang dapat digunakan untuk beberapa subdomain dalam suatu domain.

Khusus pengguna lanjutan: Beri tahu Google untuk mengabaikan parameter dinamis

Gunakan Penanganan Parameter untuk memberi tahu Googlebot tentang parameter apa pun yang perlu diabaikan saat crawling. Mengabaikan parameter tertentu dapat mengurangi konten duplikat dalam indeks Google dan membuat situs Anda lebih dapat di-crawl. Misalnya, jika Anda menentukan bahwa parameter sessionid harus diabaikan, Googlebot akan menganggap dua URL berikut sebagai duplikat:

  • https://www.example.com/dresses/green.php?sessionid=273749
  • https://www.example.com/dresses/green.php

Untuk menunjukkan bahwa suatu halaman merupakan duplikat halaman lain, Anda dapat menggunakan tag <link> di bagian head HTML.

Misalnya Anda ingin https://example.com/dresses/green-dresses menjadi URL kanonis, meskipun berbagai URL dapat mengakses konten ini. Tunjukkan URL ini sebagai kanonis melalui langkah-langkah berikut:

  1. Tandai semua halaman duplikat dengan elemen link rel="canonical".

    Tambahkan elemen <link> dengan atribut rel="canonical" ke bagian <head> di halaman duplikat, yang mengarah ke halaman kanonis. Contoh:

    <link rel="canonical" href="https://example.com/dresses/green-dresses" />
  2. Jika halaman kanonis memiliki varian seluler, tambahkan link rel="alternate" ke halaman tersebut untuk mengarahkan ke versi selulernya:
    <link rel="alternate" media="only screen and (max-width: 640px)"  href="http://m.example.com/dresses/green-dresses">
  3. Tambahkan pengalihan hreflang atau pengalihan lain yang sesuai untuk halaman.

Menggunakan header HTTP rel="canonical"

Jika dapat mengonfigurasi server, Anda dapat menggunakan rel="canonical" header HTTP (bukan tag HTML) guna menunjukkan URL kanonis untuk dokumen yang didukung oleh Penelusuran, termasuk dokumen non-HTML seperti file PDF.

Jika mengekspos file PDF melalui beberapa URL, Anda dapat menampilkan header HTTP rel="canonical" untuk memberi tahu Googlebot tentang URL kanonis mana yang digunakan untuk file PDF:

Link: <http://www.example.com/downloads/white-paper.pdf>; rel="canonical"

Saat ini Google mendukung metode ini untuk hasil penelusuran web saja.

Menggunakan peta situs

Pilih URL kanonis untuk setiap halaman, lalu kirimkan URL tersebut dalam peta situs. Semua halaman yang tercantum dalam peta situs sebaiknya berupa kanonis; Googlebot akan menentukan halaman mana (jika ada) yang merupakan duplikat, berdasarkan kemiripan kontennya.

Kami tidak menjamin bahwa kami akan menganggap URL dalam peta situs sebagai kanonis, tetapi ini adalah cara termudah guna menentukan kanonis untuk situs besar, dan peta situs adalah cara yang tepat untuk memberi tahu Google halaman mana yang Anda anggap paling penting di situs Anda.

Jangan sertakan halaman non-kanonis dalam peta situs. Anda hanya boleh menentukan URL kanonis dalam peta situs yang digunakan.

Menggunakan pengalihan 301 untuk URL yang tidak aktif

Gunakan metode ini jika Anda ingin menghapus halaman duplikat yang sudah ada, tetapi Anda perlu memastikan transisinya berjalan lancar sebelum menonaktifkan URL lama.

Misalnya, halaman Anda dapat dijangkau dengan beberapa cara:

  • https://example.com/home
  • https://home.example.com
  • https://www.example.com

Pilih salah satu URL tersebut sebagai URL kanonis, dan gunakan pengalihan 301 untuk mengirim traffic dari URL lain ke URL pilihan Anda. Pengalihan 301 sisi server adalah cara terbaik untuk memastikan bahwa pengguna dan mesin telusur diarahkan ke halaman yang tepat. Kode status 301 berarti halaman telah dipindahkan secara permanen ke lokasi baru.

Jika Anda menggunakan layanan hosting situs, telusuri dokumentasi tentang penyiapan pengalihan 301.

Pemecahan masalah

Jika URL kanonis berada di properti yang bukan milik Anda, traffic untuk halaman duplikat tidak akan dapat Anda lihat. Berikut ini beberapa alasan umum mengapa URL kanonis bisa berada di properti terpisah:

  • Varian bahasa yang salah ditandai: Jika Anda memiliki beberapa situs yang pada dasarnya menayangkan konten serupa yang dilokalkan bagi berbagai pengguna di seluruh dunia, pastikan Anda mengikuti pedoman kami untuk situs yang dilokalkan.
  • Tag kanonis salah: Beberapa sistem pengelolaan konten (CMS) atau plugin CMS dapat menggunakan teknik kanonikalisasi dengan tidak benar untuk mengarahkan ke URL di situs eksternal. Periksa konten Anda untuk melihat apakah ini permasalahannya. Jika situs Anda menunjukkan preferensi URL kanonis yang tidak terduga, yang mungkin disebabkan penggunaan rel="canonical" atau pengalihan 301 yang tidak benar, segera perbaiki masalah tersebut.
  • Server yang salah dikonfigurasi: Beberapa kesalahan konfigurasi hosting dapat menyebabkan pemilihan URL lintas domain yang tidak terduga. Contoh:
    • Server mungkin salah dikonfigurasi sehingga menampilkan konten dari a.com sebagai respons atas permintaan untuk URL di b.com.
    • Dua server web yang tidak berkaitan dapat menampilkan halaman soft 404 serupa, yang gagal diidentifikasi Google sebagai halaman error.
  • Peretasan berbahaya: Beberapa serangan di situs menunjukkan kode yang menampilkan pengalihan 301 HTTP atau menyisipkan elemen link rel="canonical" lintas domain dalam <head> HTML atau header HTTP, yang biasanya mengarah ke URL yang menghosting konten berbahaya atau berisi spam. Dalam hal ini, algoritme kami dapat memilih URL yang berbahaya atau berisi spam tersebut, bukan URL situs yang disusupi.
  • Situs peniru: Dalam situasi yang jarang terjadi, algoritme kami dapat memilih URL dari situs eksternal yang menghosting konten Anda tanpa izin dari Anda. Jika Anda yakin bahwa situs lain menggandakan konten Anda dengan cara yang melanggar undang-undang hak cipta, hubungi host situs untuk meminta penghapusan. Selain itu, Anda dapat meminta Google menghapus halaman yang melakukan pelanggaran dari hasil penelusuran kami dengan mengajukan permintaan berdasarkan Digital Millennium Copyright Act.