Tổng quan về trình thu thập thông tin và trình tìm nạp của Google (tác nhân người dùng)

Google sử dụng trình thu thập thông tin và trình tìm nạp để thực hiện hành động cho các sản phẩm của Google, theo cách tự động hoặc kích hoạt theo yêu cầu của người dùng. Trình thu thập thông tin (đôi khi còn gọi là "robot" hoặc "spider") là thuật ngữ chung để chỉ mọi chương trình có chức năng tự động phát hiện và quét các trang web. Trình tìm nạp đóng vai trò như một chương trình giống như wget, thường thay mặt người dùng thực hiện một yêu cầu. Ứng dụng khách của Google được chia thành ba loại:

Các trình thu thập thông tin chung	Các trình thu thập thông tin chung dùng cho các sản phẩm của Google (chẳng hạn như Googlebot). Các trình thu thập thông tin này luôn tuân thủ các quy tắc trong tệp robots.txt đối với hoạt động thu thập thông tin tự động.
Trình thu thập thông tin theo trường hợp đặc biệt	Trình thu thập thông tin theo trường hợp đặc biệt tương tự như trình thu thập thông tin chung, tuy nhiên sẽ được một số sản phẩm cụ thể sử dụng trong trường hợp có thoả thuận về quá trình thu thập thông tin giữa trang web được thu thập dữ tin và sản phẩm của Google. Ví dụ: `AdsBot` bỏ qua tác nhân người dùng chung trong tệp robots.txt (`*`) khi có sự cho phép của nhà xuất bản quảng cáo.
Trình tìm nạp do người dùng kích hoạt	Trình tìm nạp do người dùng kích hoạt là một trong số các công cụ và chức năng sản phẩm mà người dùng cuối kích hoạt hoạt động tìm nạp. Ví dụ: Google Site Verifier thực hiện hành động theo yêu cầu của người dùng.

Thuộc tính kỹ thuật của các trình thu thập thông tin và trình tìm nạp của Google

Chúng tôi đã thiết kế để có thể cho phép hàng nghìn máy chạy các trình thu thập thông tin và trình tìm nạp của Google cùng lúc nhằm cải thiện hiệu suất và quy mô tương ứng với sự phát triển của môi trường web. Để tối ưu hoá mức sử dụng băng thông, các ứng dụng khách này được phân phối trên nhiều trung tâm dữ liệu trên toàn thế giới để được ở gần những trang web mà chúng có thể truy cập. Do đó, nhật ký của bạn có thể cho thấy các lượt truy cập từ một vài địa chỉ IP. Google chủ yếu truy cập từ các địa chỉ IP ở Hoa Kỳ. Trong trường hợp phát hiện thấy một trang web chặn yêu cầu từ Hoa Kỳ, có thể Google sẽ cố gắng thu thập thông tin qua địa chỉ IP ở các quốc gia khác.

Các giao thức truyền dữ liệu được hỗ trợ

Các trình thu thập thông tin và trình tìm nạp của Google hỗ trợ HTTP/1.1 và HTTP/2. Trình thu thập thông tin sẽ sử dụng phiên bản giao thức mang lại hiệu suất thu thập thông tin tốt nhất và có thể chuyển đổi giao thức giữa các phiên thu thập thông tin tuỳ thuộc vào số liệu thống kê thu thập thông tin trước đó. Phiên bản giao thức mặc định mà trình thu thập thông tin của Google sử dụng là HTTP/1.1; việc thu thập thông tin qua HTTP/2 có thể giúp tiết kiệm tài nguyên điện toán (ví dụ: CPU, RAM) cho trang web của bạn và Googlebot, nhưng trang web sẽ không nhận được lợi ích cụ thể nào về sản phẩm của Google (ví dụ: không tăng thứ hạng trên Google Tìm kiếm). Để chọn không cho phép thu thập thông tin qua HTTP/2, hãy hướng dẫn máy chủ lưu trữ trang web của bạn phản hồi bằng mã trạng thái HTTP 421 khi Google tìm cách thu thập thông tin trên trang web của bạn qua HTTP/2. Nếu việc này không khả thi, bạn có thể gửi tin nhắn cho nhóm thu thập thông tin (mặc dù giải pháp này chỉ là tạm thời).

Cơ sở hạ tầng của trình thu thập thông tin của Google cũng hỗ trợ hoạt động thu thập thông tin thông qua FTP (được định nghĩa trong RFC959 và các nội dung cập nhật của tài liệu này) và FTPS (được định nghĩa trong RFC4217 và các nội dung cập nhật của tài liệu này). Tuy nhiên, hoạt động thu thập thông tin thông qua các giao thức này rất hiếm khi xảy ra.

Các định dạng mã hoá nội dung được hỗ trợ

Trình thu thập thông tin và trình tìm nạp của Google hỗ trợ các phương thức mã hoá (nén) nội dung sau: gzip, deflate và Brotli (br). Các phương thức mã hoá nội dung mà từng tác nhân người dùng của Google hỗ trợ sẽ được giới thiệu trong tiêu đề Accept-Encoding của từng yêu cầu mà chúng thực hiện. Ví dụ: Accept-Encoding: gzip, deflate, br.

Giới hạn kích thước tệp

Theo mặc định, các trình thu thập thông tin và trình tìm nạp của Google chỉ thu thập thông tin 15 MB đầu tiên của một tệp, đồng thời mọi nội dung vượt quá giới hạn này sẽ bị bỏ qua. Tuy nhiên, các dự án riêng lẻ có thể thiết lập những giới hạn khác nhau đối với trình thu thập thông tin và trình tìm nạp, cũng như đối với các loại tệp khác nhau. Ví dụ: một trình thu thập thông tin của Google như Googlebot có thể đặt giới hạn kích thước nhỏ hơn (ví dụ: 2 MB) hoặc chỉ định giới hạn kích thước tệp lớn hơn cho tệp PDF so với tệp HTML.

Tốc độ thu thập dữ liệu và mức tải của máy chủ lưu trữ

Mục tiêu của chúng tôi là thu thập thông tin nhiều trang nhất có thể trên trang web của bạn trong mỗi lần truy cập mà không làm máy chủ của bạn quá tải. Nếu trang web của bạn không đáp ứng được các yêu cầu thu thập thông tin của Google, thì bạn có thể giảm tốc độ thu thập thông tin. Xin lưu ý rằng việc gửi mã phản hồi HTTP không phù hợp đến trình thu thập thông tin của Google có thể ảnh hưởng đến cách trang web của bạn xuất hiện trong các sản phẩm của Google.

Hoạt động lưu vào bộ nhớ cache HTTP

Cơ sở hạ tầng thu thập thông tin của Google hỗ trợ tính năng lưu vào bộ nhớ cache HTTP theo phương thức phỏng đoán được định nghĩa trong tiêu chuẩn lưu vào bộ nhớ cache HTTP, cụ thể là thông qua tiêu đề của yêu cầu phản hồi ETag và If-None-Match, cũng như tiêu đề của yêu cầu phản hồi Last-Modified và If-Modified-Since.

Lưu ý: Hãy cân nhắc việc thiết lập cả giá trị Etag và Last-Modified bất kể trình thu thập thông tin của Google ưu tiên giá trị nào. Các tiêu đề này cũng được nhiều ứng dụng khác sử dụng, chẳng hạn như CMS.

Nếu cả hai trường ETag và Last-Modified của tiêu đề phản hồi đều có trong phản hồi HTTP, thì trình thu thập thông tin của Google sẽ sử dụng giá trị ETag theo yêu cầu của tiêu chuẩn HTTP. Đối với trình thu thập dữ tin của Google, bạn nên sử dụng ETag thay vì tiêu đề Last-Modified để cho biết lựa chọn ưu tiên về hoạt động lưu vào bộ nhớ cache vì ETag không gặp vấn đề về định dạng ngày.

Các lệnh khác để lưu vào bộ nhớ cache HTTP không được hỗ trợ.

Các trình thu thập thông tin và trình tìm nạp riêng lẻ của Google có thể sử dụng hoặc không sử dụng tính năng lưu vào bộ nhớ cache, tuỳ thuộc vào nhu cầu của sản phẩm mà các trình thu thập và trình tìm nạp này liên kết. Ví dụ: Googlebot hỗ trợ lưu vào bộ nhớ cache khi thu thập lại dữ liệu trên các URL cho Google Tìm kiếm và Storebot-Google chỉ hỗ trợ lưu vào bộ nhớ cache trong một số điều kiện nhất định.

Để triển khai tính năng lưu vào bộ nhớ cache HTTP cho trang web, hãy liên hệ với nhà cung cấp dịch vụ lưu trữ hoặc hệ thống quản lý nội dung.

`ETag` và `If-None-Match`

Cơ sở hạ tầng thu thập thông tin của Google hỗ trợ ETag và If-None-Match được định nghĩa trong Tiêu chuẩn lưu vào bộ nhớ cache HTTP. Tìm hiểu thêm về tiêu đề phản hồi ETag và tiêu đề của yêu cầu tương ứng If-None-Match.

Last-Modified và If-Modified-Since

Cơ sở hạ tầng thu thập thông tin của Google hỗ trợ Last-Modified và If-Modified-Since được định nghĩa trong Tiêu chuẩn lưu vào bộ nhớ cache HTTP với các lưu ý sau:

Ngày trong tiêu đề Last-Modified phải được định dạng theo tiêu chuẩn HTTP. Để tránh các vấn đề về phân tích cú pháp, bạn nên sử dụng định dạng ngày sau: "Ngày trong tuần, DD Mon YYYY HH:MM:SS Múi giờ". Ví dụ: "Fri, 4 Sep 1998 19:15:56 GMT".
Mặc dù không bắt buộc, nhưng bạn cũng nên cân nhắc việc thiết lập trường max-age của tiêu đề phản hồi Cache-Control nhằm giúp trình thu thập thông tin xác định thời điểm thu thập thông tin lại đối với một URL cụ thể. Thiết lập giá trị của trường max-age thành số giây dự kiến mà nội dung sẽ không thay đổi. Ví dụ: Cache-Control: max-age=94043.

Tìm hiểu thêm về tiêu đề phản hồi Last-Modified và tiêu đề của yêu cầu tương ứng If-Modified-Since.

Xác minh trình thu thập thông tin và trình tìm nạp của Google

Các trình thu thập thông tin của Google tự xác định mình theo 3 cách:

Tiêu đề yêu cầu HTTP user-agent.
Địa chỉ IP nguồn của yêu cầu.
Tên máy chủ DNS ngược của IP nguồn.

Tìm hiểu cách sử dụng những thông tin này để xác minh trình thu thập thông tin và trình tìm nạp của Google.

Tổng quan về trình thu thập thông tin và trình tìm nạp của Google (tác nhân người dùng)

Thuộc tính kỹ thuật của các trình thu thập thông tin và trình tìm nạp của Google

Các giao thức truyền dữ liệu được hỗ trợ

Các định dạng mã hoá nội dung được hỗ trợ

Giới hạn kích thước tệp

Tốc độ thu thập dữ liệu và mức tải của máy chủ lưu trữ

Hoạt động lưu vào bộ nhớ cache HTTP

ETag và If-None-Match

Last-Modified và If-Modified-Since

Xác minh trình thu thập thông tin và trình tìm nạp của Google

`ETag` và `If-None-Match`