Ngăn nội dung bị loại bỏ xuất hiện trong Google Tìm kiếm

Khi xuất bản tài liệu và hình ảnh trên web, bạn có thể vô tình xuất bản những thông tin mà người dùng không trực tiếp nhìn thấy. Cụ thể là có một số thông tin mà bạn có thể không nhìn thấy (hoặc muốn loại bỏ) được đưa vào một số định dạng tài liệu và công cụ tìm kiếm có thể nhìn thấy những thông tin như vậy.

Do các công cụ tìm kiếm lập chỉ mục các tài liệu công khai trên web (bao gồm hình ảnh), nên có thể người dùng vẫn tìm được những nội dung chưa bị loại bỏ hoàn toàn trong các công cụ tìm kiếm. Các công nghệ hỗ trợ như trình đọc màn hình có thể khiến những nội dung dường như bị "ẩn" này trở nên dễ tiếp cận hơn. Tương tự như vậy, các kỹ thuật phân tích hình ảnh phổ biến như công nghệ nhận dạng ký tự quang học (OCR) có thể giúp người dùng tìm được những nội dung như vậy. 

Tuy một số nội dung có thể không nhìn được bằng mắt thường do bạn chọn phông chữ nhỏ cho văn bản, dùng màu phông chữ giống với màu nền văn bản hoặc che phủ văn bản bằng một hình ảnh, nhưng những phương pháp này không thực sự loại bỏ nội dung để ngăn chặn các công cụ tìm kiếm lập chỉ mục và hiển thị những nội dung đó trong kết quả tìm kiếm.

Tương tự như vậy, có một số loại tài liệu trình bày thông tin theo những cách khiến người dùng không thể nhìn thấy ngay. Những tài liệu như vậy có thể chứa thông tin về các lần thay đổi của chính tài liệu đó, cho phép người dùng xem những văn bản đã bị loại bỏ hoặc thay đổi. Những tài liệu này cũng có thể giữ lại phiên bản đầy đủ của những hình ảnh chứa thông tin bị cắt hoặc bị che khuất. Ngoài ra, một tệp cũng có thể chứa những siêu dữ liệu mà người dùng không nhìn thấy ngay, trong đó có thể nêu tên của những người đã truy cập vào hoặc chỉnh sửa tệp.

Toàn bộ những thông tin như vậy có thể vẫn tồn tại ngay cả khi tài liệu đã được xuất hoặc chuyển đổi từ định dạng này sang định dạng khác. Nếu bạn cần xóa thông tin khỏi một tệp, điều quan trọng là bạn phải xóa hoàn toàn thông tin đó khỏi tệp trước khi đặt tệp đó ở chế độ hiển thị công khai.

Sau đây là một số phương pháp hay nhất về cách thức loại bỏ thông tin khỏi các tài liệu trong trường hợp bạn không muốn Google lập chỉ mục thông tin đó cũng như không muốn người dùng có thể tìm được thông tin đó qua Google Tìm kiếm.

Chỉnh sửa và xuất hình ảnh trước khi nhúng

Google Tìm kiếm liệt kê những hình ảnh mà chúng tôi tìm thấy trên web, trong đó có cả những hình ảnh trên các trang web hoặc hình ảnh được nhúng vào các định dạng tài liệu khác nhau. Hình ảnh dạng nhúng đôi khi chỉ chỉnh sửa được bằng các công cụ chỉnh sửa của tài liệu chứa hình ảnh. Vì thế, khi hình ảnh được lập chỉ mục ngoài phạm vi tài liệu ban đầu, phương thức loại bỏ này có thể không thành công. Đó là lý do bạn nên chỉnh sửa hình ảnh trước (thay vì sau) khi nhúng vào tài liệu. Cụ thể, bạn nên làm như sau:

  • Loại bỏ thông tin không mong muốn khỏi hình ảnh trước khi nhúng vào tài liệu. Một số công cụ chỉnh sửa tài liệu (chẳng hạn như trình xử lý văn bản hoặc công cụ tạo trang trình bày) sẽ giữ lại mọi hình ảnh chưa bị cắt mà bạn dùng trong phiên bản công khai của tài liệu, do đó, hãy nhớ xem kỹ tài liệu của công cụ đó.
  • Xóa hoàn toàn hoặc che khuất mọi văn bản hoặc các phần không công khai khác của hình ảnh, do các hệ thống OCR có thể chuyển đổi văn bản trong hình ảnh thành văn bản có thể tìm và đọc được.
  • Xóa mọi siêu dữ liệu không mong muốn.

Sau khi làm theo những đề xuất nêu trên, hãy xuất hoặc lưu hình ảnh vừa cập nhật dưới những định dạng tệp hình ảnh không phải vectơ hoặc đã làm phẳng như PNG hoặc WEBP. Khi làm như vậy, những phần liên quan của hình ảnh sẽ không bị đưa nhầm vào tài liệu công khai.

Chỉnh sửa hoặc xóa văn bản không mong muốn trước khi chuyển sang một định dạng tệp công khai

Trước khi bạn tạo tài liệu công khai, hãy xoá mọi văn bản bạn không muốn hiển thị trong phiên bản cuối cùng của tệp. Hãy chuyển sang một định dạng công khai và không lưu những nội dung thay đổi trước đây của bạn. Sau đây là những mẹo cụ thể hơn:

  • Dùng những công cụ thích hợp để loại bỏ thông tin trong tài liệu nếu bạn cần loại bỏ một số thông tin trong một tệp. Ví dụ: Đừng loại bỏ thông tin bằng cách đặt các hình chữ nhật màu đen lên văn bản vì văn bản đó vẫn có thể bị đưa vào tài liệu công khai.
  • Kiểm tra kỹ siêu dữ liệu dạng tài liệu trong tệp công khai.
  • Làm theo các phương pháp hay nhất để loại bỏ thông tin dạng tài liệu cho định dạng mà bạn đang dùng (PDF, hình ảnh, v.v.)
  • Xem xét cả thông tin trong URL hoặc tên tệp. Ngay cả khi một phần trang web bị tệp robots.txt chặn không cho thu thập dữ liệu, Google vẫn có thể lập chỉ mục những URL đó trong kết quả tìm kiếm (không kèm theo nội dung trên những URL đó). Hãy dùng hàm băm trong tham số URL thay cho địa chỉ email hoặc tên.
  • Cân nhắc việc dùng tính năng xác thực để hạn chế quyền truy cập vào nội dung bị loại bỏ. Phân phát trang đăng nhập bằng một thẻ meta noindex trong tệp robots.txt để ngăn hoạt động lập chỉ mục.
  • Khi bạn xuất bản, hãy đảm bảo trang web đã được xác minh trong Google Search Console. Thao tác này giúp bạn xóa thông tin một cách nhanh chóng khi cần.
  1. Xóa tài liệu đã xuất bản khỏi trang web hoặc vị trí xuất bản.
  2. Dùng Công cụ xóa cho trang web đã được xác minh để xóa tài liệu liên quan khỏi Tìm kiếm. Hãy dùng một tiền tố URL nếu bạn cần xóa nhiều tài liệu. Đối với những trang web đã xác minh, quá trình xóa URL thường mất chưa đến một ngày. Thao tác này ngăn không cho tài liệu liên quan xuất hiện trong kết quả tìm kiếm cho nội dung bị loại bỏ. 
  3. Lưu trữ tài liệu đã loại bỏ thông tin đúng cách trong một URL khác. Khi đó, mọi phiên bản mới được lập chỉ mục đều là của tài liệu mới chứ không phải là một phiên bản cũ của tài liệu đó (do quá trình thu thập lại dữ liệu và cập nhật các URL trong chỉ mục tìm kiếm có thể mất một chút thời gian). Cập nhật mọi đường liên kết đến những tài liệu đó.
  4. Liên hệ với những trang web có thể đang lưu trữ những tài liệu bị loại bỏ thông tin không đúng cách và yêu cầu họ gỡ những tài liệu đó xuống. Hãy yêu cầu họ dùng Công cụ xóa trong tài khoản Search Console của họ hoặc bạn có thể dùng Công cụ xóa nội dung đã lỗi thời để yêu cầu hệ thống của Google cập nhật kết quả tìm kiếm.
  5. Cho phép các yêu cầu xoá URL hết hạn sau một thời điểm nào đó (việc này xảy ra sau khi các URL đã được cập nhật trong chỉ mục tìm kiếm của chúng tôi hoặc sau khoảng 90 ngày).