Hợp nhất các URL trùng lặp

Nếu bạn có một trang có thể truy cập qua nhiều URL hoặc nhiều trang có nội dung tương tự nhau (ví dụ: một trang có cả phiên bản dành cho thiết bị di động và phiên bản dành cho máy tính), thì Google sẽ xem những trang như vậy là các phiên bản trùng lặp của cùng một trang. Google sẽ chọn một URL làm phiên bản chính tắc và thu thập dữ liệu của URL đó, đồng thời coi những URL còn lại là URL trùng lặp và thu thập dữ liệu của các URL này ít lần hơn.

Nếu bạn không nêu rõ cho Google biết đâu là URL chính tắc, thì Google sẽ tự chọn URL chính tắc cho bạn hoặc có thể coi những trang này có tầm quan trọng như nhau. Điều này có thể dẫn đến những hành vi không mong muốn như được trình bày dưới đây, trong phần Tại sao tôi nên chọn một URL chính tắc?.

URL chính tắc là gì?

URL chính tắc là URL của trang mà Google đánh giá là tiêu biểu nhất trong số những trang trùng lặp trên trang web của bạn. Ví dụ: Nếu bạn có nhiều URL cho cùng một trang (ví dụ: example.com?dress=1234example.com/dresses/1234), Google sẽ chọn một URL trong số đó làm URL chính tắc. Hãy lưu ý rằng những trang này không nhất thiết giống nhau hoàn toàn. Đối với trang chứa danh sách, những thay đổi nhỏ về cách sắp xếp hay lọc danh sách sẽ không giúp trang đó trở thành trang độc nhất (ví dụ: sắp xếp theo giá hoặc lọc theo màu của sản phẩm).

Trang chuẩn có thể nằm trên miền khác với trang trùng lặp.

Chi tiết khác

Khi lập chỉ mục một trang web, Googlebot luôn cố gắng xác định nội dung chính trên mỗi trang. Nếu tìm thấy nhiều trang có vẻ giống nhau trên cùng một trang web, Googlebot sẽ chọn trang mà Googlebot nghĩ là hoàn chỉnh và hữu ích nhất rồi đánh dấu trang đó là trang chuẩn. Trang chính tắc sẽ được thu thập dữ liệu thường xuyên nhất. Các trang trùng lặp sẽ ít được thu thập dữ liệu hơn để giảm tải cho quá trình Google thu thập dữ liệu trên trang web của bạn.

Google chọn trang chính tắc dựa trên một số yếu tố (hay tín hiệu), chẳng hạn như việc trang được phân phối qua http hay https; chất lượng của trang; URL có trong sơ đồ trang web hay không và trang có nhãn rel=canonical hay không. Bạn có thể dùng những kỹ thuật này để cho Google biết trang chính tắc mà bạn chọn, nhưng Google có thể chọn một trang khác làm trang chính tắc vì nhiều lý do.

Nếu một trang có nhiều phiên bản theo ngôn ngữ, thì các phiên bản đó chỉ bị coi là trùng lặp khi nội dung chính trên những trang đó chỉ được thể hiện bằng một ngôn ngữ (nghĩa là nếu bạn chỉ dịch phần đầu trang, chân trang và những văn bản không quan trọng khác còn phần nội dung chính vẫn giữ nguyên, thì những trang như vậy bị coi là trùng lặp).

Google dùng các trang chuẩn làm nguồn chính để đánh giá nội dung và chất lượng. Kết quả trên Google Tìm kiếm thường trỏ đến trang chuẩn, trừ trường hợp rõ ràng là một trong những trang trùng lặp phù hợp hơn cho người dùng. Ví dụ: kết quả tìm kiếm có thể sẽ trỏ đến trang dành cho thiết bị di động nếu người dùng đang sử dụng thiết bị di động, ngay cả khi trang dành cho máy tính được đánh dấu là trang chuẩn.

Tại sao tôi có các trang tương tự/trùng lặp?

Có nhiều lý do xác đáng khiến trang web của bạn có thể có nhiều URL trỏ đến cùng một trang hoặc có các trang trùng lặp/rất giống nhau tại nhiều URL. Sau đây là những lý do phổ biến nhất:

  • Để hỗ trợ nhiều loại thiết bị:
    https://example.com/news/koala-rampage
    https://m.example.com/news/koala-rampage
    https://amp.example.com/news/koala-rampage
  • Để dùng URL động cho thông số tìm kiếm, mã nhận dạng của phiên hoạt động, v.v.:
    https://www.example.com/products?category=dresses&color=green
    https://example.com/dresses/cocktail?gclid=ABCD
    https://www.example.com/dresses/green/greendress.html
  • Hệ thống blog của bạn tự động lưu nhiều URL khi bạn đặt một bài đăng trong nhiều mục.
    https://blog.example.com/dresses/green-dresses-are-awesome/
    https://blog.example.com/green-things/green-dresses-are-awesome/
  • Máy chủ của bạn được định cấu hình để phân phối cùng một nội dung cho cả biến thể http/https có www và không có www:
    http://example.com/green-dresses
    https://example.com/green-dresses
    http://www.example.com/green-dresses
    
  • Miền của các trang web khác sao chép một phần hoặc toàn bộ nội dung bạn cung cấp trên blog khi bạn phân phối nội dung đến những trang web đó:
    https://news.example.com/green-dresses-for-every-day-155672.html (bài đăng được phân phối) https://blog.example.com/dresses/green-dresses-are-awesome/3245/ (bài đăng gốc)

Tại sao tôi nên chọn một URL chính tắc?

Bạn nên chọn rõ ràng một trang chính tắc trong tập hợp các trang trùng lặp/tương tự vì một số lý do sau:

  • Để chỉ định URL mà bạn muốn mọi người nhìn thấy trong kết quả tìm kiếm. Bạn muốn mọi người truy cập vào trang sản phẩm bán váy màu xanh lục thông qua https://www.example.com/dresses/green/greendress.html thay vì https://example.com/dresses/cocktail?gclid=ABCD.
  • Để hợp nhất tín hiệu liên kết của các trang tương tự hoặc trùng lặp. Cách này giúp các công cụ tìm kiếm hợp nhất thông tin thu thập được qua các URL đơn lẻ (chẳng hạn như các đường liên kết đến những URL đó) thành một URL chính và duy nhất. Có nghĩa là các đường liên kết từ các trang web khác đến http://example.com/dresses/cocktail?gclid=ABCD sẽ hợp nhất với các đường liên kết đến https://www.example.com/dresses/green/greendress.html.
  • Để đơn giản hóa hoạt động theo dõi chỉ số cho một sản phẩm/chủ đề. Khi bạn có nhiều URL, thao tác hợp nhất các chỉ số cho một nội dung cụ thể trở nên khó khăn hơn.
  • Để quản lý nội dung tổng hợp. Nếu phân phối nội dung xuất bản trên các miền khác, thì bạn nên đảm bảo URL chính của mình xuất hiện trong kết quả tìm kiếm.
  • Để tránh tốn thời gian thu thập dữ liệu trên các trang trùng lặp. Bạn muốn Googlebot khai thác tối đa trang web của mình. Vậy thì Googlebot nên dành thời gian thu thập dữ liệu các trang mới (hoặc vừa cập nhật) trên trang web của bạn thay vì thu thập dữ liệu cả phiên bản dành cho máy tính và phiên bản dành cho thiết bị di động của cùng một trang.

URL chính tắc mà Google chọn cho tôi là URL nào?

Hãy dùng Công cụ kiểm tra URL để tìm hiểu xem Google chọn trang nào làm trang chuẩn. Hãy lưu ý rằng ngay cả khi bạn đã chỉ định rõ trang chuẩn, Google vẫn có thể chọn một trang khác làm trang chuẩn vì nhiều lý do, chẳng hạn như về hiệu suất hoặc nội dung.

Khắc phục sự cố

Nếu một URL chuẩn nằm trong một sản phẩm mà bạn không sở hữu, bạn sẽ không thấy lưu lượng truy cập cho trang trùng lặp của mình. Sau đây là một số lý do phổ biến khiến một trang chuẩn có thể nằm trong một tài sản riêng biệt:

  • Các biến thể ngôn ngữ được đánh dấu không chính xác: Nếu bạn có nhiều trang web phân phát cùng một nội dung đã bản địa hóa cho người dùng trên khắp thế giới, hãy đảm bảo bạn tuân thủ nguyên tắc của chúng tôi đối với các trang web đã bản địa hóa.
  • Thẻ chuẩn không chính xác: Một số hệ thống quản lý nội dung (CMS) hoặc trình bổ trợ của CMS có thể dùng sai kỹ thuật chuẩn hóa để trỏ đến URL trên các trang web bên ngoài. Hãy kiểm tra nội dung của bạn để xem đây có phải là nguyên nhân không. Nếu trang web của bạn chỉ định một URL chính tắc mà bạn không mong muốn, thì đây có thể là do bạn dùng rel="canonical" chưa đúng cách hoặc do lệnh chuyển hướng 301. Hãy khắc phục trực tiếp vấn đề đó.
  • Máy chủ bị định cấu hình sai: Một số lỗi về cách định cấu hình máy chủ có thể dẫn đến việc lựa chọn nhầm URL trên miền khác. Ví dụ:
    • Nếu bị định cấu hình không chính xác, máy chủ có thể trả về nội dung trên a.com khi phản hồi yêu cầu cho một URL trên b.com
    • Hai máy chủ web không liên quan đến nhau có thể trả về các trang gặp lỗi 404 mềm giống hệt nhau mà Google không xác định được là trang lỗi.
  • Bị tấn công bằng mã độc: Một số cuộc tấn công vào các trang web sẽ chèn mã trả về một lệnh chuyển hướng 301 dạng HTTP hoặc chèn một yếu tố liên kết rel="canonical" cho nhiều tên miền vào <head> HTML hay tiêu đề HTTP, thường là trỏ đến một URL lưu trữ nội dung vi phạm hoặc nội dung độc hại. Trong những trường hợp như vậy, thuật toán của chúng tôi có thể chọn URL vi phạm hay URL độc hại đó thay vì chọn URL trên trang web bị xâm phạm.
  • Trang web sao chép trái phép: Trong một số trường hợp hiếm gặp, thuật toán của chúng tôi có thể chọn URL của một trang web bên ngoài đang lưu trữ nội dung của bạn khi chưa được bạn cho phép. Nếu bạn tin rằng một trang web khác đang sao chép nội dung của bạn theo cách vi phạm luật bản quyền, bạn có thể liên hệ với nhà cung cấp dịch vụ lưu trữ của trang web đó để yêu cầu xóa nội dung. Ngoài ra, bạn có thể yêu cầu Google xóa trang vi phạm đó khỏi kết quả tìm kiếm của chúng tôi bằng cách gửi một yêu cầu theo Đạo luật bản quyền kỹ thuật số thiên niên kỷ.

Chỉ định một trang chính tắc

Có một vài cách để chỉ định trang chính tắc trong một tập hợp các trang trùng lặp, tùy thuộc cách sử dụng của bạn:

Phương pháp và mô tả
Nguyên tắc chung Làm theo những nguyên tắc này cho tất cả phương pháp chuẩn hóa.
thẻ rel=canonical <link>

Thêm một thẻ <link> vào mã cho mọi trang trùng lặp và trỏ đến trang chính tắc.

Ưu điểm:

  • Có thể liên kết vô số các trang trùng lặp.

Nhược điểm:

  • Có thể làm tăng kích thước trang.
  • Việc duy trì sơ đồ liên kết trên các trang web lớn hoặc các trang mà URL thay đổi thường xuyên có thể sẽ phức tạp.
  • Chỉ áp dụng cho các trang HTML chứ không áp dụng cho các tệp (chẳng hạn như PDF). Trong những trường hợp như vậy, bạn có thể dùng tiêu đề HTTP rel=canonical.
Tiêu đề HTTP rel=canonical

Gửi một tiêu đề rel=canonical trong phản hồi trang của bạn.

Ưu điểm:

  • Không làm tăng kích thước trang.
  • Có thể liên kết vô số các trang trùng lặp.

Nhược điểm:

  • Việc duy trì sơ đồ liên kết trên các trang web lớn hoặc các trang mà URL thay đổi thường xuyên có thể sẽ phức tạp.
Sơ đồ trang web

Chỉ định trang chuẩn của bạn trong sơ đồ trang web.

Ưu điểm:

  • Dễ dàng thực hiện và duy trì, đặc biệt là trên các trang web lớn.

Nhược điểm:

  • Googlebot vẫn phải xác định các trang trùng lặp của mọi trang chính tắc mà bạn khai báo trong sơ đồ trang web.
  • Tín hiệu gửi tới Googlebot sẽ không hữu ích bằng kỹ thuật bản đồ rel=canonical.
Lệnh chuyển hướng 301 Sử dụng lệnh chuyển hướng 301 để cho Googlebot biết rằng URL chuyển hướng là phiên bản tốt hơn so với một URL nhất định. Chỉ sử dụng tính năng này khi ngừng sử dụng một trang trùng lặp.
Biến thể AMP Nếu một trong các biến thể của bạn là một trang AMP, bạn sẽ cần thực hiện theo các nguyên tắc AMP để chỉ định trang chuẩn và biến thể AMP.

Chúng tôi khuyến khích bạn sử dụng bất kỳ phương pháp nào trong số này, nhưng không phương pháp nào là bắt buộc. Nếu bạn không chỉ định URL chuẩn, chúng tôi sẽ xác định URL mà chúng tôi nghĩ là phiên bản tốt nhất của URL đó.

Nguyên tắc chung

Đối với tất cả các phương pháp chuẩn hóa, hãy thực hiện theo các nguyên tắc chung sau.

Nguyên tắc chung

  • Không dùng tệp robots.txt cho mục đích chuẩn hóa.
  • Không dùng công cụ xóa URL để chuẩn hóa: công cụ này xóa mọi phiên bản của một URL khỏi kết quả tìm kiếm.
  • Không chỉ định nhiều URL làm URL chính tắc cho cùng một trang bằng cách dùng một hay nhiều kỹ thuật chuẩn hóa (ví dụ: không chỉ định một URL trong một sơ đồ trang web nhưng lại chỉ định một URL khác cho cùng trang đó bằng cách dùng rel="canonical").
  • Không dùng lệnh noindex để ngăn việc lựa chọn trang chính tắc. Lệnh này dùng để loại trừ trang khỏi chỉ mục chứ không phải để quản lý việc lựa chọn trang chuẩn.
  • Chỉ định một trang chuẩn khi dùng thẻ hreflang. Hãy chỉ định trang chuẩn bằng cùng một ngôn ngữ, hoặc ngôn ngữ thay thế tốt nhất trong trường hợp không có trang chuẩn cho ngôn ngữ đó.

  • Liên kết đến URL chính tắc thay vì đến URL trùng lặp khi liên kết trong trang web của bạn. Việc duy trì liên kết với URL mà bạn chọn là URL chính tắc sẽ giúp Google biết được lựa chọn ưu tiên của bạn.

Ưu tiên chọn HTTPS thay vì chọn HTTP để làm URL chính tắc

Khi chọn trang chuẩn, Google ưu tiên các trang HTTPS hơn các trang HTTP, trừ trường hợp có vấn đề hoặc tín hiệu xung đột, ví dụ:

  • Trang HTTPS có một chứng chỉ SSL không hợp lệ.
  • Trang HTTPS chứa yếu tố phụ thuộc không an toàn (ngoài hình ảnh).
  • Trang HTTPS chuyển hướng người dùng đến hoặc qua một trang HTTP.
  • Trang HTTPS có đường liên kết chứa rel="canonical" đến trang HTTP.

Theo mặc định, hệ thống của chúng tôi ưu tiên trang HTTPS hơn trang HTTP. Tuy vậy, bạn có thể đảm bảo việc này bằng cách thực hiện một trong những thao tác sau đây:

  • Thêm lệnh chuyển hướng từ trang HTTP đến trang HTTPS.
  • Thêm đường liên kết rel="canonical" từ trang HTTP sang trang HTTPS.
  • Triển khai HSTS.

Để ngăn Google đặt nhầm trang HTTP làm trang chuẩn, bạn nên tránh các phương pháp sau đây:

  • Chứng chỉ SSL không hợp lệ và lệnh chuyển hướng từ HTTPS đến HTTP khiến chúng tôi thường ưu tiên cho trang HTTP. Việc triển khai HSTS cũng không thể ghi đè tùy chọn thường trực này.
  • Đưa trang HTTP vào sơ đồ trang web hoặc mục hreflang của bạn thay vì dùng phiên bản HTTPS.
  • Triển khai chứng chỉ SSL/TLS cho biến thể máy chủ không chính xác, ví dụ: example.com phân phối chứng chỉ cho www.example.com. Chứng chỉ phải khớp với URL trang web hoàn chỉnh của bạn hoặc phải là chứng chỉ ký tự đại diện có thể dùng được cho nhiều miền con trên cùng một miền.

Chỉ dành cho người dùng nâng cao: Yêu cầu Google bỏ qua các thông số động

Hãy dùng tính năng Xử lý thông số để cho Google biết những thông số nên bỏ qua khi thu thập dữ liệu. Việc bỏ qua một số thông số nhất định có thể làm giảm lượng nội dung trùng lặp trong chỉ mục của Google và giúp Google dễ dàng hơn trong việc thu thập dữ liệu trang web của bạn. Ví dụ: nếu bạn chỉ định rằng thông số sessionid nên được bỏ qua, Googlebot sẽ xem hai URL dưới đây là các trang trùng lặp:

  • https://www.example.com/dresses/green.php?sessionid=273749
  • https://www.example.com/dresses/green.php

Phương pháp cụ thể

Chọn một trong những phương pháp sau để xác định URL chính tắc cho các URL trùng lặp hay các trang trùng lặp/tương tự.

Đảm bảo tuân thủ những nguyên tắc chung nêu trên đối với mọi phương pháp.

Bạn có thể dùng một thẻ <link> trong tiêu đề trang để thông báo rằng trang này trùng với một trang khác.

Giả sử bạn muốn https://example.com/dresses/green-dresses là URL chính tắc, dù có nhiều URL có thể truy cập vào cùng nội dung. Hãy chỉ định URL này làm URL chính tắc qua những bước sau:

  1. Đánh dấu tất cả trang trùng lặp bằng một yếu tố liên kết rel="canonical". Hãy thêm phần tử <link> có thuộc tính rel="canonical" vào phần <head> của các trang trùng lặp, trong đó trỏ đến trang chuẩn, ví dụ:
    <link rel="canonical" href="https://example.com/dresses/green-dresses" />

  2. Nếu trang chuẩn có biến thể dành cho thiết bị di động, hãy thêm một đường liên kết rel="alternate" vào biến thể đó, trong đó trỏ đến phiên bản trang dành cho điện thoại di động:
    <link rel="alternate" media="only screen and (max-width: 640px)" href="http://m.example.com/dresses/green-dresses">

  3. Thêm hreflang bất kỳ hoặc lệnh chuyển hướng khác thích hợp cho trang đó.

Dùng tiêu đề HTTP rel="canonical"

Nếu bạn có thể định cấu hình máy chủ của mình, bạn có thể dùng các tiêu đề HTTP rel="canonical" (thay vì dùng các thẻ HTML) để biểu thị URL chính tắc cho các tài liệu không phải dạng HTML (chẳng hạn như tệp PDF).

Ví dụ: nếu bạn cung cấp một tệp PDF thông qua nhiều URL, bạn có thể trả lại tiêu đề HTTP rel="canonical" như sau cho các URL trùng lặp để Googlebot biết đâu là URL chính tắc của tệp PDF đó:

Link: <http://www.example.com/downloads/white-paper.pdf>; rel="canonical"

Hiện Google chỉ hỗ trợ phương pháp này cho các kết quả tìm kiếm trên web.

Dùng một sơ đồ trang web

Chọn một URL chính tắc cho mỗi trang của bạn và gửi các URL đó trong một sơ đồ trang web. Tất cả những trang có trong sơ đồ trang web đều được đề xuất là trang chuẩn. Googlebot sẽ quyết định trang nào (nếu có) là trang trùng lặp, dựa trên mức độ giống nhau của nội dung.

Chúng tôi không đảm bảo chúng tôi sẽ xem các URL trong sơ đồ trang web là URL chính tắc, nhưng đây là một cách đơn giản để xác định các trang chuẩn cho một trang web lớn. Sơ đồ trang web cũng là một cách hữu ích để cho Google biết đâu là các trang mà bạn coi trọng nhất trên trang web của mình.

Không đưa các trang không phải là trang chuẩn vào sơ đồ trang web. Nếu sử dụng sơ đồ trang web, hãy chỉ xác định các URL chuẩn trong sơ đồ trang web.

Sử dụng lệnh chuyển hướng 301 cho các URL đã ngừng sử dụng

Hãy sử dụng phương pháp này khi bạn muốn loại bỏ các trang trùng lặp hiện tại, nhưng cần đảm bảo rằng quá trình di chuyển xảy ra suôn sẻ trước khi bạn ngừng sử dụng các URL cũ.

Giả sử người dùng có thể truy cập vào trang của bạn bằng nhiều cách:

  • https://example.com/home
  • https://home.example.com
  • https://www.example.com

Hãy chọn một trong những URL đó làm URL chính tắc và dùng lệnh chuyển hướng 301 để chuyển lưu lượng truy cập từ những URL khác đến URL được bạn ưu tiên. Lệnh chuyển hướng 301 phía máy chủ là cách tốt nhất để đảm bảo người dùng và công cụ tìm kiếm được chuyển hướng đến đúng trang. Mã trạng thái 301 có nghĩa là một trang đã được di chuyển vĩnh viễn tới một vị trí mới.

Nếu bạn đang dùng một dịch vụ lưu trữ trang web, hãy tìm tài liệu hướng dẫn của dịch vụ đó về cách thiết lập lệnh chuyển hướng 301.