Xác minh Googlebot và các trình thu thập dữ liệu khác của Google

Bạn có thể xác minh liệu một trình thu thập dữ liệu web truy cập vào máy chủ của bạn có thật sự là một trình thu thập dữ liệu của Google (chẳng hạn như Googlebot) hay không. Cách này hữu ích trong trường hợp bạn lo ngại rằng những kẻ gây rối hoặc kẻ gửi nội dung không liên quan đang giả mạo Googlebot để truy cập trang web của bạn.

Sau đây là hai phương thức để xác minh trình thu thập dữ liệu của Google:

  • Thủ công: Nếu bạn chỉ muốn tra cứu một lần, hãy sử dụng công cụ dòng lệnh. Trong hầu hết các trường hợp sử dụng, bạn chỉ cần phương thức này là đủ.
  • Tự động: Khi cần tra cứu quy mô lớn, hãy sử dụng một giải pháp tự động để so khớp địa chỉ IP của một trình thu thập dữ liệu với danh sách các địa chỉ IP của Googlebot đã xuất bản.

Dùng công cụ dòng lệnh

  1. Chạy quy trình tra cứu DNS ngược trên địa chỉ IP truy cập trong nhật ký của bạn bằng lệnh host.
  2. Xác minh rằng tên miền đó là googlebot.com hoặc google.com.
  3. Chạy quy trình tra cứu DNS tiến trên tên miền truy xuất được trong bước 1 bằng cách dùng lệnh host đối với tên miền đã truy xuất.
  4. Xác minh rằng địa chỉ này giống với địa chỉ IP truy cập ban đầu trong nhật ký của bạn.

Ví dụ 1:

host 66.249.66.1
1.66.249.66.in-addr.arpa domain name pointer crawl-66-249-66-1.googlebot.com.

host crawl-66-249-66-1.googlebot.com
crawl-66-249-66-1.googlebot.com has address 66.249.66.1

Ví dụ 2:

host 66.249.90.77
77.90.249.66.in-addr.arpa domain name pointer rate-limited-proxy-66-249-90-77.google.com.

host rate-limited-proxy-66-249-90-77.google.com
rate-limited-proxy-66-249-90-77.google.com has address 66.249.90.77

Dùng giải pháp tự động

Ngoài ra, bạn có thể xác định Googlebot theo địa chỉ IP bằng cách so khớp địa chỉ IP của trình thu thập dữ liệu với danh sách địa chỉ IP của Googlebot. Đối với các địa chỉ IP khác của Google có thể dùng để truy cập vào trang web của bạn (ví dụ: theo yêu cầu của người dùng hoặc Apps Script), hãy so khớp địa chỉ IP truy cập với danh sách địa chỉ IP của Google.