Sử dụng bộ sưu tập để sắp xếp ngăn nắp các trang
Lưu và phân loại nội dung dựa trên lựa chọn ưu tiên của bạn.
Thông tin tổng quan về trình thu thập dữ liệu của Google (tác nhân người dùng)
"Trình thu thập dữ liệu" (đôi khi còn được gọi là "robot" hoặc "spider") là một thuật ngữ chung để chỉ mọi chương trình có
chức năng tự động phát hiện và quét các trang web bằng cách đi theo các đường liên kết từ trang web này đến
trang web khác. Trình thu thập dữ liệu chính của Google có tên là Googlebot. Bảng này liệt kê thông tin về
các trình thu thập dữ liệu phổ biến của Google mà bạn có thể thấy trong nhật ký liên kết giới thiệu, đồng thời hướng dẫn cách chỉ định những trình thu thập dữ liệu đó trong
tệp robots.txt,
thẻ metarobots và
lệnh HTTP X-Robots-Tag.
Bảng sau đây cho thấy những trình thu thập dữ liệu mà nhiều sản phẩm và dịch vụ của Google sử dụng:
Mã tác nhân người dùng ở dòng User-agent: trong tệp robots.txt được dùng để liên kết với một loại trình thu thập dữ liệu khi viết quy tắc thu thập dữ liệu cho trang web. Một số trình thu thập dữ liệu có nhiều hơn một mã (như trình bày trong bảng). Bạn cần sử dụng duy nhất một mã trình thu thập dữ liệu cho mỗi quy tắc để quy tắc đó có hiệu lực. Danh sách này tuy không đầy đủ nhưng bao gồm hầu hết trình thu thập dữ liệu bạn có thể thấy trên trang web của mình.
Chuỗi tác nhân người dùng đầy đủ là phần mô tả đầy đủ về trình thu thập dữ liệu. Chuỗi này xuất hiện trong yêu cầu HTTP và nhật ký web của bạn.
Mozilla/5.0 (iPhone; CPU iPhone OS 14_7_1 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/14.1.2 Mobile/15E148 Safari/604.1 (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)
Tác nhân cho máy tính: Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.118 Safari/537.36 (compatible; Google-Read-Aloud; +https://developers.google.com/search/docs/crawling-indexing/overview-google-crawlers)
Tác nhân cho thiết bị di động: Mozilla/5.0 (Linux; Android 7.0; SM-G930V Build/NRD90M) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.125 Mobile Safari/537.36 (compatible; Google-Read-Aloud; +https://developers.google.com/search/docs/crawling-indexing/overview-google-crawlers)
Nếu bạn thấy chuỗi Chrome/W.X.Y.Z trong chuỗi tác nhân người dùng nêu trong bảng trên, thì W.X.Y.Z thực ra là phần giữ chỗ đại diện cho phiên bản trình duyệt Chrome mà tác nhân người dùng đó sử dụng, ví dụ: 41.0.2272.96. Mã số phiên bản này sẽ tăng theo thời gian để khớp với phiên bản phát hành Chromium mới nhất mà Googlebot sử dụng.
Nếu bạn đang lọc hoặc tìm tác nhân người dùng có mẫu này trong nhật ký máy chủ, hãy sử dụng ký tự đại diện cho mã số phiên bản thay vì chỉ định một mã số phiên bản chính xác.
Tác nhân người dùng trong tệp robots.txt
Trong trường hợp tệp robots.txt ghi nhận nhiều tác nhân người dùng, Google sẽ tuân theo tác nhân cụ thể nhất. Nếu bạn muốn mọi trình thu thập dữ liệu của Google đều có thể thu thập dữ liệu các trang của bạn, thì bạn hoàn toàn không cần dùng tệp robots.txt. Nếu bạn muốn chặn hoặc cho phép mọi trình thu thập dữ liệu của Google truy cập một số nội dung, bạn có thể thực hiện bằng cách chỉ định Googlebot làm tác nhân người dùng. Ví dụ: nếu bạn muốn tất cả các trang của bạn xuất hiện trên Google Tìm kiếm và muốn quảng cáo AdSense xuất hiện trên các trang của mình thì bạn không cần dùng tệp robots.txt. Tương tự như vậy, nếu bạn muốn chặn hoàn toàn một số trang khỏi Google, việc chặn tác nhân người dùng Googlebot cũng sẽ chặn mọi tác nhân người dùng khác của Google.
Tuy nhiên, bạn có thể thiết lập chi tiết hơn nếu muốn kiểm soát cụ thể hơn. Ví dụ: có thể bạn muốn toàn bộ các trang của mình xuất hiện trên Google Tìm kiếm, nhưng lại không muốn Google thu thập dữ liệu hình ảnh trong thư mục cá nhân của bạn. Trong trường hợp này, hãy sử dụng tệp robots.txt để không cho phép tác nhân người dùng Googlebot-Image thu thập dữ liệu các tệp trong thư mục cá nhân của bạn (nhưng vẫn cho phép Googlebot thu thập dữ liệu mọi tệp), chẳng hạn như sau:
Trong một ví dụ khác, giả sử bạn muốn có quảng cáo trên tất cả các trang của bạn, nhưng bạn không muốn những trang đó xuất hiện trong Google Tìm kiếm. Trong trường hợp này, bạn cần chặn Googlebot trong khi vẫn cho phép tác nhân người dùng Mediapartners-Google, chẳng hạn như sau:
Mỗi trình thu thập dữ liệu của Google lại truy cập các trang web cho một mục đích cụ thể và với tốc độ riêng. Google sử dụng các thuật toán để xác định tốc độ thu thập dữ liệu tối ưu cho từng trang web. Nếu trình thu thập dữ liệu của Google thu thập dữ liệu quá thường xuyên trên trang web của bạn, thì bạn có thể giảm tốc độ thu thập dữ liệu.
Trình thu thập dữ liệu mà Google đã gỡ bỏ
Các trình thu thập dữ liệu sau đây của Google không còn được sử dụng nữa mà chỉ được ghi chú tại đây để tham khảo thông tin theo thời gian.
Trình thu thập dữ liệu mà Google đã gỡ bỏ
Duplex trên web
Từng trợ dịch vụ Duplex trên web.
Mã tác nhân người dùng
DuplexWeb-Google
Chuỗi tác nhân người dùng đầy đủ
Mozilla/5.0 (Linux; Android 11; Pixel 2; DuplexWeb-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.193 Mobile Safari/537.36
Web Light
Từng kiểm tra sự hiện diện của tiêu đề no-transform mỗi khi người dùng nhấp vào trang của bạn trong kết quả tìm kiếm trong điều kiện thích hợp. Tác nhân người dùng Web Light chỉ được sử dụng cho các yêu cầu duyệt web rõ ràng của khách truy cập là người thật. Vì thế, tác nhân này có thể bỏ qua các quy tắc trong tệp robots.txt (dùng để chặn các yêu cầu thu thập dữ liệu tự động).
Mã tác nhân người dùng
googleweblight
Chuỗi tác nhân người dùng đầy đủ
Mozilla/5.0 (Linux; Android 4.2.1; en-us; Nexus 5 Build/JOP40D) AppleWebKit/535.19 (KHTML, like Gecko; googleweblight) Chrome/38.0.1025.166 Mobile Safari/535.19