Tránh tạo nội dung trùng lặp

Thường thì nội dung trùng lặp là những khối nội dung lớn trên một hoặc nhiều miền, hoàn toàn trùng khớp hoặc rất giống với nội dung khác trong cùng một ngôn ngữ. Trong hầu hết trường hợp, khi xét về nguồn gốc thì đây không phải là nội dung lừa đảo. Ví dụ về nội dung trùng lặp không gây hại có thể bao gồm:

  • Các diễn đàn thảo luận có thể tạo cả trang thông thường và trang đơn giản dành cho thiết bị di động
  • Các mặt hàng trong một cửa hàng trực tuyến xuất hiện trên hoặc liên kết tới nhiều URL riêng biệt
  • Phiên bản trang web chỉ dành cho máy in

Nếu trang web của bạn chứa nhiều trang có nội dung gần như giống hệt nhau, có nhiều cách để bạn cho Google biết URL ưu tiên của bạn. (Việc này được gọi là "chuẩn hoá".) Tìm hiểu thêm thông tin về quá trình chuẩn hóa.

Tuy nhiên, trong một số trường hợp, nội dung trùng lặp trên nhiều miền là việc làm cố ý nhằm thao túng thứ hạng trong công cụ tìm kiếm hoặc tăng lưu lượng truy cập. Những hành động lừa dối như vậy có thể dẫn đến trải nghiệm người dùng kém vì khách truy cập chỉ nhìn thấy những nội dung về cơ bản là giống nhau và lặp đi lặp lại trong một loạt kết quả tìm kiếm.

Google đang nỗ lực để lập chỉ mục và hiển thị những trang có thông tin riêng biệt. Một ví dụ giải thích cho quá trình thanh lọc này là nếu trang web của bạn có phiên bản "thông thường" và "bản in" cho mỗi bài viết và bạn không dùng thẻ noindex để chặn một trong hai phiên bản, thì chúng tôi sẽ chọn một phiên bản để đưa vào kết quả. Trong một số ít trường hợp, nếu Google nhận thấy rằng nội dung trùng lặp có thể được xuất hiện với mục đích thao túng thứ hạng trong công cụ tìm kiếm của chúng tôi và lừa gạt người dùng, thì chúng tôi cũng sẽ thực hiện những điều chỉnh phù hợp trong quá trình lập chỉ mục và xếp hạng các trang web có liên quan. Do đó, thứ hạng của trang web có thể bị ảnh hưởng hoặc trang web có thể bị xóa bỏ hoàn toàn khỏi chỉ mục của Google. Trong trường hợp đó, trang web sẽ không còn xuất hiện trong các kết quả tìm kiếm.

Bạn có thể chủ động giải quyết vấn đề về nội dung trùng lặp theo một số bước và đảm bảo rằng khách truy cập sẽ thấy nội dung mà bạn muốn họ thấy.

  • Sử dụng lệnh chuyển hướng 301: Nếu bạn đã sắp xếp lại cấu trúc trang web của mình, hãy sử dụng lệnh chuyển hướng 301 ("RedirectPermanent") trong tệp .htaccess để chuyển hướng nhanh người dùng, Googlebot và các trình thu thập dữ liệu khác. (Trong Apache, bạn có thể thực hiện việc này bằng một tệp .htaccess; trong IIS, bạn có thể thực hiện việc này thông qua bảng điều khiển quản trị.)
  • Thống nhất: Hãy cố gắng thống nhất hệ thống liên kết nội bộ của bạn. Ví dụ: đừng liên kết đến http://www.example.com/page/, http://www.example.com/pagehttp://www.example.com/page/index.htm.
  • Sử dụng miền cấp cao nhất: Để giúp chúng tôi hiển thị phiên bản phù hợp nhất của một tài liệu, hãy sử dụng các miền cấp cao nhất bất cứ khi nào có thể để quản lý nội dung dành riêng cho từng quốc gia. Ví dụ: chúng tôi sẽ dễ cho rằng http://www.example.de chứa nội dung dành cho thị trường Đức hơn là http://www.example.com/de hoặc http://de.example.com.
  • Thận trọng khi phân phối nội dung: Nếu bạn phân phối nội dung của mình cho nhiều trang web khác, Google sẽ luôn hiển thị phiên bản mà chúng tôi cho là phù hợp nhất đối với người dùng trong mỗi lượt tìm kiếm nhất định. Phiên bản này chưa chắc là phiên bản mà bạn ưu tiên. Tuy nhiên, sẽ rất hữu ích nếu bạn đảm bảo rằng mỗi trang web được bạn phân phối nội dung đều chứa một đường liên kết quay trở lại bài viết gốc của bạn. Bạn cũng có thể yêu cầu những người sử dụng tài liệu do bạn phân phối dùng thẻ meta noindex để ngăn công cụ tìm kiếm lập chỉ mục phiên bản nội dung của họ.
  • Giảm thiểu việc lặp lại nội dung soạn sẵn: Ví dụ, thay vì đặt một đoạn văn bản dài về nội dung bản quyền ở cuối mỗi trang, hãy chèn một đoạn tóm tắt ngắn rồi liên kết tới một trang có nhiều chi tiết hơn.
  • Tránh xuất bản trang giữ chỗ: Người dùng không thích nhìn thấy các trang "trống", do đó, hãy tránh dùng trang giữ chỗ nếu có thể. Ví dụ: đừng xuất bản trang mà bạn chưa có nội dung thực để đưa vào. Nếu bạn tạo trang giữ chỗ, hãy sử dụng thẻ noindex để chặn Google lập chỉ mục những trang này.
  • Hiểu hệ thống quản lý nội dung của bạn: Đảm bảo rằng bạn biết rõ cách thức nội dung xuất hiện trên trang web của bạn. Blog, diễn đàn và các hệ thống liên quan thường hiển thị cùng một nội dung theo nhiều định dạng. Ví dụ: một bài blog có thể xuất hiện trên trang chủ của một blog, trong một trang lưu trữ và trong một trang chứa những bài khác có cùng nhãn.
  • Giảm thiểu nội dung tương tự nhau: Nếu bạn có nhiều trang tương tự nhau, hãy cân nhắc việc mở rộng nội dung mỗi trang hoặc hợp nhất những trang đó thành một. Ví dụ: nếu bạn có một trang web du lịch với các trang riêng biệt cho hai thành phố nhưng trên hai trang lại có cùng thông tin, bạn có thể nhập hai trang này thành một trang giới thiệu về cả hai thành phố hoặc bạn có thể mở rộng mỗi trang để thêm nội dung riêng về mỗi thành phố.

Bạn không nên ngăn trình thu thập dữ liệu truy cập nội dung trùng lặp trên trang web của mình, dù bằng tệp robots.txt hay các phương pháp khác. Nếu không thể thu thập dữ liệu các trang có nội dung trùng lặp, công cụ tìm kiếm không thể tự động phát hiện được rằng những URL này trỏ đến cùng một nội dung và vì thế sẽ phải xem các URL này là các trang riêng biệt. Một giải pháp hay hơn là cho phép công cụ tìm kiếm thu thập dữ liệu những URL này, nhưng đánh dấu chúng là bản trùng lặp bằng cách sử dụng yếu tố liên kết rel="canonical" hoặc lệnh chuyển hướng 301. Trong trường hợp nội dung trùng lặp khiến chúng tôi thu thập quá nhiều dữ liệu trên trang web của bạn, bạn cũng có thể điều chỉnh chế độ cài đặt về tốc độ thu thập dữ liệu trong Search Console.

Nội dung trùng lặp trên một trang web không phải là lý do để áp dụng biện pháp xử lý đối với trang web đó, trừ phi nội dung trùng lặp thể hiện rõ ràng mục đích là lừa dối và thao túng kết quả của công cụ tìm kiếm. Nếu trang web của bạn gặp phải vấn đề về nội dung trùng lặp và bạn không làm theo lời khuyên trong tài liệu này, chúng tôi sẽ làm tốt việc lựa chọn một phiên bản nội dung để hiển thị trong kết quả tìm kiếm của chúng tôi.

Tuy nhiên, nếu kết quả đánh giá của chúng tôi cho thấy bạn có dính líu đến hành vi lừa đảo và trang web của bạn đã bị xoá khỏi kết quả tìm kiếm của chúng tôi, thì hãy rà soát lại trang web thật cẩn thận. Nếu trang web của bạn đã bị xóa khỏi kết quả tìm kiếm của chúng tôi, hãy xem Nguyên tắc quản trị trang web của chúng tôi để biết thêm thông tin. Khi bạn thực hiện xong thay đổi và tin rằng trang web của mình không còn vi phạm nguyên tắc của chúng tôi, hãy gửi trang web của bạn để chúng tôi xem xét lại.

Trong một số trường hợp hiếm gặp, thuật toán của chúng tôi có thể chọn URL trên một trang web bên ngoài đang lưu trữ nội dung của bạn mà không được bạn cho phép. Nếu bạn cho rằng một trang web khác đang sao chép nội dung của bạn theo cách vi phạm luật bản quyền, bạn có thể liên hệ với nhà cung cấp dịch vụ lưu trữ của trang web đó để yêu cầu xóa nội dung. Ngoài ra, bạn có thể yêu cầu Google xóa trang vi phạm khỏi phần kết quả tìm kiếm bằng cách gửi một yêu cầu theo Đạo luật bản quyền kỹ thuật số thiên niên kỷ.