Tổng quan về trình thu thập thông tin và trình tìm nạp của Google (tác nhân người dùng)

Google sử dụng trình thu thập thông tin và trình tìm nạp để thực hiện hành động cho các sản phẩm của Google, theo cách tự động hoặc kích hoạt theo yêu cầu của người dùng.

"Trình thu thập thông tin" (đôi khi còn gọi là "robot" hoặc "spider") là thuật ngữ chung để chỉ mọi chương trình có chức năng tự động phát hiện và quét các trang web bằng cách đi theo các đường liên kết từ trang web này đến trang web khác. Trình thu thập thông tin chính mà Google dùng cho Google Tìm kiếm có tên là Googlebot.

Trình tìm nạp, giống như trình duyệt, là công cụ yêu cầu một URL khi được người dùng yêu cầu.

Các bảng sau cho thấy cách các sản phẩm và dịch vụ của Google sử dụng trình thu thập thông tin và trình tìm nạp, cách chúng hiển thị trong nhật ký liên kết giới thiệu và cách chỉ định chúng trong tệp robots.txt. Những danh sách này chưa đầy đủ mà chỉ bao gồm những trình yêu cầu phổ biến nhất có thể xuất hiện trong các tệp nhật ký.

  • Mã thông báo tác nhân người dùng ở dòng User-agent: trong tệp robots.txt dùng để so khớp với một loại trình thu thập thông tin khi viết quy tắc thu thập dữ liệu cho trang web của bạn. Một số trình thu thập thông tin có nhiều hơn một mã thông báo (như trình bày trong bảng). Với mỗi quy tắc, bạn chỉ cần khớp với một mã trình thu thập thông tin để quy tắc đó có hiệu lực. Danh sách này tuy không đầy đủ nhưng bao gồm hầu hết các trình thu thập thông tin bạn có thể thấy trên trang web của mình.
  • Chuỗi tác nhân người dùng đầy đủ là phần mô tả đầy đủ về trình thu thập thông tin. Chuỗi này xuất hiện trong yêu cầu HTTP và nhật ký web của bạn.

Các trình thu thập thông tin chung

Các trình thu thập thông tin chung của Google dùng để tìm thông tin nhằm xây dựng chỉ mục tìm kiếm của Google, thực hiện các hoạt động thu thập dữ liệu khác theo sản phẩm cụ thể và để phân tích. Chúng luôn tuân theo các quy tắc trong tệp robots.txt và thường thu thập dữ liệu từ các dải IP được xuất bản trong đối tượng googlebot.json.

Các trình thu thập thông tin chung
Mã thông báo tác nhân người dùng Googlebot
Chuỗi tác nhân người dùng đầy đủ Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
Mã thông báo tác nhân người dùng Googlebot
Chuỗi tác nhân người dùng đầy đủ
  • Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Googlebot/2.1; +http://www.google.com/bot.html) Chrome/W.X.Y.Z Safari/537.36
  • Hiếm gặp:
    • Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
    • Googlebot/2.1 (+http://www.google.com/bot.html)

Dùng để thu thập dữ liệu các URL hình ảnh cho Google Hình ảnh và các sản phẩm phụ thuộc vào hình ảnh.

Mã thông báo tác nhân người dùng
  • Googlebot-Image
  • Googlebot
Chuỗi tác nhân người dùng đầy đủ Googlebot-Image/1.0

Googlebot News sử dụng Googlebot để thu thập dữ liệu tin bài, nhưng có tuân theo mã thông báo tác nhân người dùng Googlebot-News trước đây.

Mã thông báo tác nhân người dùng
  • Googlebot-News
  • Googlebot
Chuỗi tác nhân người dùng đầy đủ Tác nhân người dùng Googlebot-News sử dụng nhiều chuỗi tác nhân người dùng Googlebot.

Dùng để thu thập dữ liệu các URL video cho Google Video và các sản phẩm phụ thuộc vào video.

Mã thông báo tác nhân người dùng
  • Googlebot-Video
  • Googlebot
Chuỗi tác nhân người dùng đầy đủ Googlebot-Video/1.0

Google StoreBot thu thập thông tin trên một số loại trang, bao gồm nhưng không giới hạn ở trang chi tiết sản phẩm, trang giỏ hàng và trang thanh toán.

Mã thông báo tác nhân người dùng Storebot-Google
Chuỗi tác nhân người dùng đầy đủ
  • Tác nhân cho máy tính:
    Mozilla/5.0 (X11; Linux x86_64; Storebot-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Safari/537.36
  • Tác nhân cho thiết bị di động:
    Mozilla/5.0 (Linux; Android 8.0; Pixel 2 Build/OPD3.170816.012; Storebot-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36

Google-InspectionTool là trình thu thập thông tin mà các công cụ kiểm tra của Tìm kiếm sử dụng, chẳng hạn như Kiểm tra kết quả nhiều định dạngKiểm tra URL trong Search Console. Ngoài tác nhân người dùng và mã thông báo tác nhân người dùng, tác nhân người dùng này cũng bắt chước Googlebot.

Mã thông báo tác nhân người dùng
  • Google-InspectionTool
  • Googlebot
Chuỗi tác nhân người dùng đầy đủ
  • Thiết bị di động
    Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; Google-InspectionTool/1.0;)
  • Máy tính
    Mozilla/5.0 (compatible; Google-InspectionTool/1.0;)

GoogleOther là một trình thu thập thông tin chung có thể được nhiều nhóm sản phẩm sử dụng để tìm nạp nội dung có thể truy cập công khai trên các trang web. Ví dụ: có thể dùng để thu thập dữ liệu một lần cho mục đích nghiên cứu và phát triển nội bộ.

Mã thông báo tác nhân người dùng GoogleOther
Chuỗi tác nhân người dùng đầy đủ
  • Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; GoogleOther)
  • Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GoogleOther) Chrome/W.X.Y.Z Safari/537.36
  • GoogleOther

GoogleOther-Image là phiên bản được tối ưu hoá của GoogleOther để tìm nạp các URL hình ảnh có thể truy cập công khai.

Mã thông báo tác nhân người dùng
  • GoogleOther-Image
  • GoogleOther
Chuỗi tác nhân người dùng đầy đủ GoogleOther-Image/1.0

GoogleOther-Video là phiên bản được tối ưu hoá của GoogleOther để tìm nạp các URL video có thể truy cập công khai.

Mã thông báo tác nhân người dùng
  • GoogleOther-Video
  • GoogleOther
Chuỗi tác nhân người dùng đầy đủ GoogleOther-Video/1.0

Google-CloudVertexBot thu thập dữ liệu trên trang web theo yêu cầu của chủ sở hữu trang web khi xây dựng Tác nhân Vertex AI.

Mã thông báo tác nhân người dùng
  • Google-CloudVertexBot
  • Googlebot
Chuỗi con của tác nhân người dùng Google-CloudVertexBot

Google-Extended là một mã thông báo sản phẩm độc lập mà các nhà xuất bản web có thể dùng để quản lý việc trang web của họ có giúp cải thiện các API tạo sinh của các ứng dụng Gemini và Vertex AI hay không, kể cả những thế hệ mô hình sau này có hỗ trợ các sản phẩm đó. Google-Extended không ảnh hưởng đến việc đưa vào hoặc xếp hạng một trang web trên Google Tìm kiếm.

Mã thông báo tác nhân người dùng Google-Extended
Chuỗi tác nhân người dùng đầy đủ Google-Extended không có chuỗi tác nhân người dùng yêu cầu HTTP riêng. Việc thu thập dữ liệu được thực hiện bằng các chuỗi tác nhân người dùng hiện có của Google; mã thông báo tác nhân người dùng robots.txt được dùng trong phạm vi có kiểm soát.

Trình thu thập thông tin theo trường hợp đặc biệt

Trình thu thập thông tin theo trường hợp đặc biệt được một số sản phẩm cụ thể sử dụng khi có thoả thuận giữa trang web được thu thập dữ liệu và sản phẩm về quá trình thu thập thông tin. Ví dụ: AdsBot bỏ qua tác nhân người dùng chung trong tệp robots.txt (*) khi có sự cho phép của nhà xuất bản quảng cáo. Các trình thu thập thông tin theo trường hợp đặc biệt có thể bỏ qua các quy tắc trong tệp robots.txt. Do đó, chúng hoạt động trong một dải IP khác với các trình thu thập thông tin chung. Dải IP được xuất bản trong đối tượng special-crawlers.json.

Trình thu thập thông tin theo trường hợp đặc biệt

Được Google API sử dụng để gửi thông báo đẩy. Bỏ qua tác nhân người dùng chung (*) trong tệp robots.txt.

Mã thông báo tác nhân người dùng APIs-Google
Chuỗi tác nhân người dùng đầy đủ APIs-Google (+https://developers.google.com/webmasters/APIs-Google.html)

Kiểm tra chất lượng quảng cáo trên trang web cho thiết bị di động. Bỏ qua tác nhân người dùng chung (*) trong tệp robots.txt.

Mã thông báo tác nhân người dùng AdsBot-Google-Mobile
Chuỗi tác nhân người dùng đầy đủ Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)

Kiểm tra chất lượng quảng cáo trên trang web cho máy tính. Bỏ qua tác nhân người dùng chung (*) trong tệp robots.txt.

Mã thông báo tác nhân người dùng AdsBot-Google
Chuỗi tác nhân người dùng đầy đủ AdsBot-Google (+http://www.google.com/adsbot.html)

Trình thu thập thông tin của AdSense truy cập trang web của bạn để xác định nội dung của trang web nhằm cung cấp quảng cáo phù hợp. Bỏ qua tác nhân người dùng chung (*) trong tệp robots.txt.

Mã thông báo tác nhân người dùng Mediapartners-Google
Chuỗi tác nhân người dùng đầy đủ Mediapartners-Google

Trình thu thập thông tin của Mobile AdSense truy cập trang web của bạn để xác định nội dung trên trang web nhằm cung cấp quảng cáo phù hợp. Bỏ qua tác nhân người dùng chung (*) trong tệp robots.txt.

Mã thông báo tác nhân người dùng Mediapartners-Google
Chuỗi tác nhân người dùng đầy đủ (Various mobile device types) (compatible; Mediapartners-Google/2.1; +http://www.google.com/bot.html)

Tác nhân người dùng Google-Safety sẽ xử lý hoạt động thu thập dữ liệu liên quan đến hành vi sai trái, chẳng hạn như phát hiện phần mềm độc hại trên các đường liên kết được đăng công khai trên các sản phẩm của Google. Tác nhân người dùng này bỏ qua các quy tắc trong tệp robots.txt.

Chuỗi tác nhân người dùng đầy đủ Google-Safety

Trình tìm nạp do người dùng kích hoạt

Trình tìm nạp do người dùng kích hoạt được người dùng yêu cầu để thực hiện một chức năng tìm nạp theo sản phẩm cụ thể. Ví dụ: Google Site Verifier hoạt động theo yêu cầu của người dùng, hoặc một trang web được lưu trữ trên Google Cloud (GCP) có một tính năng cho phép người dùng trang web này truy xuất một Nguồn cấp dữ liệu RSS bên ngoài. Do người dùng yêu cầu tìm nạp, những trình tìm nạp này thường bỏ qua những quy tắc trong tệp robots.txt. Dải IP mà trình tìm nạp do người dùng kích hoạt sử dụng được xuất bản trong đối tượng user-triggered-fetchers.jsonuser-triggered-fetchers-google.json.

Trình tìm nạp do người dùng kích hoạt

Feedfetcher được dùng để thu thập dữ liệu của nguồn cấp dữ liệu RSS hoặc Atom cho Google Podcasts, Google News và PubSubHubbub.

Mã thông báo tác nhân người dùng FeedFetcher-Google
Chuỗi tác nhân người dùng đầy đủ FeedFetcher-Google; (+http://www.google.com/feedfetcher.html)

Tìm nạp và xử lý nguồn cấp dữ liệu mà nhà xuất bản đã cung cấp một cách rõ ràng thông qua Trung tâm xuất bản của Google để dùng trong trang đích trên Google News.

Chuỗi tác nhân người dùng đầy đủ GoogleProducer; (+https://developers.google.com/search/docs/crawling-indexing/overview-google-crawlers#googleproducer)

Khi có yêu cầu của người dùng, Google Read Aloud tìm nạp và đọc các trang web bằng tính năng chuyển văn bản sang lời nói (TTS).

Chuỗi tác nhân người dùng đầy đủ

Những tác nhân hiện có:

  • Tác nhân cho máy tính:
    Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.118 Safari/537.36 (compatible; Google-Read-Aloud; +https://support.google.com/webmasters/answer/1061943)
  • Tác nhân cho thiết bị di động:
    Mozilla/5.0 (Linux; Android 7.0; SM-G930V Build/NRD90M) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.125 Mobile Safari/537.36 (compatible; Google-Read-Aloud; +https://support.google.com/webmasters/answer/1061943)

Tác nhân cũ (không dùng nữa):

google-speakr

Google Site Verifier tìm nạp mã xác minh trong Search Console theo yêu cầu của người dùng.

Chuỗi tác nhân người dùng đầy đủ Mozilla/5.0 (compatible; Google-Site-Verification/1.0)

Lưu ý về Chrome/W.X.Y.Z trong tác nhân người dùng

Nếu bạn thấy chuỗi Chrome/W.X.Y.Z trong chuỗi tác nhân người dùng nêu trong bảng trên, thì W.X.Y.Z thực ra là phần giữ chỗ đại diện cho phiên bản trình duyệt Chrome mà tác nhân người dùng đó sử dụng, ví dụ: 41.0.2272.96. Mã số phiên bản này sẽ tăng theo thời gian để khớp với phiên bản phát hành Chromium mới nhất mà Googlebot sử dụng.

Nếu bạn đang tìm/lọc tác nhân người dùng có mẫu này trong nhật ký/máy chủ, hãy sử dụng ký tự đại diện cho mã số phiên bản thay vì chỉ định một mã số phiên bản chính xác.

Tác nhân người dùng trong tệp robots.txt

Trong trường hợp tệp robots.txt ghi nhận nhiều tác nhân người dùng, Google sẽ tuân theo tác nhân cụ thể nhất. Nếu bạn muốn tất cả trình thu thập thông tin của Google đều có thể thu thập dữ liệu các trang của bạn, thì bạn hoàn toàn không cần dùng tệp robots.txt. Nếu bạn muốn chặn hoặc cho phép mọi trình thu thập thông tin của Google truy cập một số nội dung, bạn có thể thực hiện bằng cách chỉ định Googlebot làm tác nhân người dùng. Ví dụ: nếu bạn muốn tất cả các trang của bạn xuất hiện trên Google Tìm kiếm và muốn quảng cáo AdSense xuất hiện trên các trang của mình thì bạn không cần dùng tệp robots.txt. Tương tự như vậy, nếu bạn muốn chặn hoàn toàn một số trang khỏi Google, việc chặn tác nhân người dùng Googlebot cũng sẽ chặn mọi tác nhân người dùng khác của Google.

Tuy nhiên, bạn có thể thiết lập chi tiết hơn nếu muốn kiểm soát nhiều hơn. Ví dụ: có thể bạn muốn toàn bộ các trang của mình xuất hiện trên Google Tìm kiếm, nhưng lại không muốn Google thu thập dữ liệu hình ảnh trong thư mục cá nhân của bạn. Trong trường hợp này, hãy sử dụng tệp robots.txt để không cho phép tác nhân người dùng Googlebot-Image thu thập dữ liệu các tệp trong thư mục cá nhân của bạn (nhưng vẫn cho phép Googlebot thu thập dữ liệu mọi tệp), chẳng hạn như sau:

User-agent: Googlebot
Disallow:

User-agent: Googlebot-Image
Disallow: /personal

Trong một ví dụ khác, giả sử bạn muốn có quảng cáo trên tất cả các trang của bạn, nhưng bạn không muốn những trang đó xuất hiện trong Google Tìm kiếm. Trong trường hợp này, bạn cần chặn Googlebot nhưng cho phép tác nhân người dùng Mediapartners-Google, chẳng hạn như sau:

User-agent: Googlebot
Disallow: /

User-agent: Mediapartners-Google
Disallow:

Kiểm soát tốc độ thu thập dữ liệu

Mỗi trình thu thập thông tin của Google lại truy cập các trang web cho một mục đích cụ thể và với tốc độ riêng. Google sử dụng các thuật toán để xác định tốc độ thu thập dữ liệu tối ưu cho từng trang web. Nếu trình thu thập thông tin của Google thu thập dữ liệu quá thường xuyên trên trang web của bạn, thì bạn có thể giảm tốc độ thu thập dữ liệu.

Trình thu thập thông tin mà Google đã gỡ bỏ

Các trình thu thập thông tin sau đây của Google không còn được sử dụng nữa mà chỉ được ghi chú tại đây để tham khảo thông tin theo thời gian.

Trình thu thập thông tin mà Google đã gỡ bỏ

Duplex trên web

Hỗ trợ dịch vụ Duplex trên web.

Mã thông báo tác nhân người dùng DuplexWeb-Google
Chuỗi tác nhân người dùng đầy đủ Mozilla/5.0 (Linux; Android 11; Pixel 2; DuplexWeb-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.193 Mobile Safari/537.36

Web Light

Kiểm tra sự hiện diện của tiêu đề no-transform mỗi khi người dùng nhấp vào trang của bạn trong kết quả tìm kiếm trong điều kiện thích hợp. Tác nhân người dùng Web Light chỉ được sử dụng cho các yêu cầu duyệt web rõ ràng của khách truy cập là người thật. Vì thế, tác nhân này bỏ qua các quy tắc trong tệp robots.txt (dùng để chặn các yêu cầu thu thập dữ liệu tự động).

Mã thông báo tác nhân người dùng googleweblight
Chuỗi tác nhân người dùng đầy đủ Mozilla/5.0 (Linux; Android 4.2.1; en-us; Nexus 5 Build/JOP40D) AppleWebKit/535.19 (KHTML, like Gecko; googleweblight) Chrome/38.0.1025.166 Mobile Safari/535.19

Kiểm tra chất lượng quảng cáo trên trang web cho iPhone. Bỏ qua tác nhân người dùng chung (*) trong tệp robots.txt.

Mã thông báo tác nhân người dùng AdsBot-Google-Mobile
Chuỗi tác nhân người dùng đầy đủ Mozilla/5.0 (iPhone; CPU iPhone OS 14_7_1 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/14.1.2 Mobile/15E148 Safari/604.1 (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)

Kiểm tra chất lượng quảng cáo trên trang cho ứng dụng Android. Tuân theo quy tắc trong tệp robots.txt AdsBot-Google nhưng bỏ qua tác nhân người dùng chung (*) trong tệp robots.txt.

Mã thông báo tác nhân người dùng AdsBot-Google-Mobile-Apps
Chuỗi tác nhân người dùng đầy đủ AdsBot-Google-Mobile-Apps
Mã thông báo tác nhân người dùng
  • Googlebot-Image
  • Googlebot
Chuỗi tác nhân người dùng đầy đủ Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.75 Safari/537.36 Google Favicon