Cách chúng tôi ngăn chặn nội dung rác trên Google Tìm kiếm năm 2022

Thứ Ba, ngày 11 tháng 4 năm 2023

googlebot và crawly giải thích cách chúng tôi ngăn chặn nội dung rác trên Google Tìm kiếm năm 2022

Mỗi ngày, chúng tôi phát hiện, lập chỉ mục và phân phát hàng tỷ trang web, trong đó có một phần đáng kể các trang chúng tôi phát hiện được là nội dung rác. Năm 2022, chúng tôi triển khai nhiều bản cập nhật cho các hệ thống của mình nhằm ngăn chặn các cuộc tấn công và đảm bảo người dùng Google Tìm kiếm không gặp phải nội dung rác.

Cải tiến đối với SpamBrain

SpamBrain là trọng tâm trong nỗ lực của chúng tôi trong cuộc chiến chống nội dung rác. Năm 2022, chúng tôi đã có nhiều cải tiến để mở rộng phạm vi áp dụng. SpamBrain phát hiện trang web vi phạm nhiều hơn 5 lần so với năm 2021 và 200 lần so với thời điểm lần đầu ra mắt. Nhờ SpamBrain, chúng tôi có thể đảm bảo rằng hơn 99% lượt truy cập qua Tìm kiếm không gặp phải nội dung rác.

Chúng tôi cũng cải thiện SpamBrain để trở thành một nền tảng mạnh mẽ và linh hoạt, đồng thời ra mắt nhiều giải pháp giúp mở rộng phạm vi xử lý nhiều loại hình vi phạm. Chẳng hạn như mánh khoé về đường liên kết Như chia sẻ hồi tháng 12, chúng tôi đã huấn luyện SpamBrain để phát hiện các trang web tạo đường liên kết vi phạm, cũng như các trang web được tạo để chuyển đường liên kết vi phạm vào các trang web khác. Nhờ khả năng học của SpamBrain, chúng tôi đã phát hiện gấp 50 lần số lượng trang web sử dụng mánh khoé về đường liên kết so với bản cập nhật trước đó về mánh khoé về đường liên kết. Tương tự như vậy, nỗ lực của chúng tôi nhằm trau dồi cho SpamBrain thêm kiến thức về nội dung rác của tin tặc đã giúp cải thiện khả năng phát hiện trang web bị tấn công gấp 10 lần.

Xử lý nội dung rác nhanh hơn

SpamBrain cũng là một yếu tố quan trọng giúp phát hiện nội dung rác hiệu quả hơn tại thời điểm thu thập dữ liệu. Tức là chúng tôi có thể xác định nội dung rác hiệu quả hơn trong lần đầu truy cập một trang và hoàn toàn không lập chỉ mục trang đó. Nhờ đó, tài nguyên của chúng tôi có thể được sử dụng hiệu quả hơn để lập chỉ mục các trang hữu ích.

Tăng phạm vi bảo vệ an toàn cho người dùng

Ngoài việc đẩy lùi nội dung rác, chúng tôi cũng ra mắt các giải pháp chống lừa đảo mới để cải thiện mức độ an toàn cho người dùng trên Tìm kiếm. Những giải pháp mới này giúp gia tăng phạm vi bảo vệ an toàn và lần đầu tiên mở rộng phạm vi áp dụng các biện pháp bảo vệ chống lừa đảo cho tất cả ngôn ngữ. So với năm 2021, chúng tôi đã giúp làm giảm 50% số lượt nhấp vào các trang web lừa đảo.

Bộ nguyên tắc mới sửa đổi dành cho chủ sở hữu trang web

Ngoài việc chống nội dung rác, chúng tôi cũng cập nhật chính sách về nội dung rác trong Nguyên tắc cơ bản của Tìm kiếm. Các chính sách này về nội dung rác quy định những loại nội dung rác và hành vi sai trái phổ biến nhất, loại hành vi có thể khiến trang web bị giảm thứ hạng hoặc hoàn toàn không xuất hiện trong kết quả của Tìm kiếm. Chúng tôi đã cập nhật chính sách về nội dung rác bằng nội dung chính xác và phù hợp hơn, đồng thời bổ sung ví dụ mới để giúp chủ sở hữu trang web tránh tạo nội dung gây hại.

Chúng tôi cũng nhận thấy có nhiều người quan tâm đến nội dung do AI (trí tuệ nhân tạo) tạo ra và hỗ trợ, đồng thời công bố hướng dẫn về nội dung do AI tạo. Chúng tôi hy vọng hướng dẫn này hữu ích trong việc giải thích vì sao AI và chế độ tự động hóa có thể là một công cụ hữu ích để tạo nội dung hữu ích. Tuy nhiên, nếu AI được dùng cho mục đích chính là thao túng thứ hạng trong kết quả tìm kiếm, thì đó là hành vi vi phạm chính sách lâu nay của chúng tôi về việc chống lại nội dung rác được tạo tự động.

Chúng tôi không ngừng nỗ lực để phát hiện và vô hiệu hoá nội dung rác sao cho người dùng có thể tìm thấy nội dung hữu ích nhất thông qua Tìm kiếm. Chúng tôi không thể tự mình làm được việc này. Xin cảm ơn các bạn đã tạo ra nội dung hữu ích và các trang web thiết thực cho người dùng, cũng như phản hồi và báo cáo chi tiết cho chúng tôi về nội dung rác và vi phạm. Nếu bạn bắt gặp nội dung rác hoặc hành vi thao túng, vui lòng báo cáo cho chúng tôi hoặc truy cập cộng đồng trợ giúp của Trung tâm Tìm kiếm.