Thông tin tổng quan về các trình thu thập dữ liệu của Google (tác nhân người dùng)

"Trình thu thập dữ liệu" là tên gọi chung cho mọi chương trình (chẳng hạn như robot) dùng để tự động phát hiện và quét các trang web bằng cách đi theo các đường liên kết từ trang web này đến trang web khác. Trình thu thập dữ liệu chính của Google có tên là Googlebot. Bảng này trình bày thông tin về những trình thu thập dữ liệu phổ biến của Google mà bạn có thể thấy trong nhật ký liên kết giới thiệu, đồng thời, hướng dẫn cách chỉ định những trình thu thập đó trong tệp robots.txt, thẻ meta robotslệnh HTTP X-Robots-Tag.

Bảng sau đây liệt kê những trình thu thập dữ liệu mà nhiều sản phẩm và dịch vụ của Google sử dụng:

  • Mã tác nhân người dùng ở dòng User-agent: trong tệp robots.txt được dùng để khớp loại trình thu thập dữ liệu khi viết quy tắc thu thập dữ liệu cho trang web của bạn. Một số trình thu thập dữ liệu có nhiều mã (như trình bày trong bảng). Bạn chỉ được sử dụng duy nhất một mã trình thu thập dữ liệu cho mỗi quy tắc để quy tắc đó có hiệu lực. Danh sách này không đầy đủ nhưng bao gồm hầu hết các trình thu thập dữ liệu bạn có thể thấy trên trang web của mình.
  • Chuỗi tác nhân người dùng đầy đủ là phần mô tả đầy đủ về trình thu thập dữ liệu. Chuỗi này xuất hiện trong yêu cầu và nhật ký web của bạn.
Trình thu thập dữ liệu Mã tác nhân người dùng (mã sản phẩm) Chuỗi tác nhân người dùng đầy đủ
APIs-Google

APIs-Google

APIs-Google (+https://developers.google.com/webmasters/APIs-Google.html)
AdSense

Mediapartners-Google

Mediapartners-Google

AdsBot Mobile Web Android

(Kiểm tra chất lượng quảng cáo trong trang web trên Android)

AdsBot-Google-Mobile

Mozilla/5.0 (Linux; Android 5.0; SM-G920A) AppleWebKit (KHTML, like Gecko) Chrome Mobile Safari (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)

AdsBot Mobile Web

(Kiểm tra chất lượng quảng cáo trong trang web trên iPhone)

AdsBot-Google-Mobile

Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1 (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)

AdsBot

(Kiểm tra chất lượng quảng cáo trong trang web dành cho máy tính)

AdsBot-Google

AdsBot-Google (+http://www.google.com/adsbot.html)
Googlebot Image
  • Googlebot-Image
  • Googlebot
Googlebot-Image/1.0
Googlebot-News
  • Googlebot-News
  • Googlebot
Googlebot-News
Googlebot Video
  • Googlebot-Video
  • Googlebot
Googlebot-Video/1.0

Googlebot Desktop

Googlebot

  • Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
  • Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Googlebot/2.1; +http://www.google.com/bot.html) Chrome/W.X.Y.Z Safari/537.36

    hoặc (hiếm khi sử dụng):
  • Googlebot/2.1 (+http://www.google.com/bot.html)

Googlebot Smartphone

Googlebot

Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

Mobile AdSense

Mediapartners-Google

(Nhiều loại thiết bị di động) (compatible; Mediapartners-Google/2.1; +http://www.google.com/bot.html)

Mobile Apps Android

(Kiểm tra chất lượng quảng cáo trong trang trên ứng dụng Android. Tuân theo quy tắc trong tệp robots.txt đối với AdsBot-Google.)

AdsBot-Google-Mobile-Apps

AdsBot-Google-Mobile-Apps

Feedfetcher

FeedFetcher-Google

Không tuân theo quy tắc trong tệp robots.txt – tìm hiểu nguyên nhân

FeedFetcher-Google; (+http://www.google.com/feedfetcher.html)

Google Read Aloud

Google-Read-Aloud

Không tuân theo quy tắc trong tệp robots.txt – tìm hiểu nguyên nhân

Những tác nhân hiện có:

  • Tác nhân cho máy tính: Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.118 Safari/537.36 (compatible; Google-Read-Aloud; +https://developers.google.com/search/docs/advanced/crawling/overview-google-crawlers)
  • Tác nhân cho thiết bị di động: Mozilla/5.0 (Linux; Android 7.0; SM-G930V Build/NRD90M) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.125 Mobile Safari/537.36 (compatible; Google-Read-Aloud; +https://developers.google.com/search/docs/advanced/crawling/overview-google-crawlers)

Tác nhân cũ (đã ngừng sử dụng): google-speakr

Duplex on the web

DuplexWeb-Google

Có thể bỏ qua ký tự đại diện *tìm hiểu nguyên nhân

Mozilla/5.0 (Linux; Android 8.0; Pixel 2 Build/OPD3.170816.012; DuplexWeb-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.131 Mobile Safari/537.36

Google Favicon

(Truy xuất biểu tượng trang web cho nhiều dịch vụ)

Google Favicon

Đối với các yêu cầu do người dùng đưa ra, tác nhân người dùng này sẽ bỏ qua các quy tắc trong robots.txt

Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.75 Safari/537.36 Google Favicon
Web Light

googleweblight

Không tuân theo quy tắc trong tệp robots.txt – tìm hiểu nguyên nhân

Mozilla/5.0 (Linux; Android 4.2.1; en-us; Nexus 5 Build/JOP40D) AppleWebKit/535.19 (KHTML, like Gecko; googleweblight) Chrome/38.0.1025.166 Mobile Safari/535.19
Google StoreBot Storebot-Google

Tác nhân cho máy tính: Mozilla/5.0 (X11; Linux x86_64; Storebot-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36

Tác nhân cho thiết bị di động: Mozilla/5.0 (Linux; Android 8.0; Pixel 2 Build/OPD3.170816.012; Storebot-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Mobile Safari/537.36

Tác nhân người dùng trong tệp robots.txt

Trong trường hợp tệp robots.txt ghi nhận nhiều tác nhân người dùng, Google sẽ tuân theo tác nhân cụ thể nhất. Nếu muốn mọi trình thu thập dữ liệu của Google đều có thể thu thập dữ liệu các trang của bạn, thì bạn không cần tệp robots.txt. Nếu bạn muốn chặn hoặc cho phép mọi trình thu thập dữ liệu của Google truy cập một số nội dung nhất định, bạn có thể thực hiện bằng cách chỉ định Googlebot làm tác nhân người dùng. Ví dụ: nếu bạn muốn tất cả các trang của bạn xuất hiện trên Google Tìm kiếm và nếu bạn muốn quảng cáo AdSense xuất hiện trên các trang của mình thì bạn không cần dùng tệp robots.txt. Tương tự như vậy, nếu bạn muốn chặn hoàn toàn một số trang khỏi Google, việc chặn tác nhân người dùng Googlebot cũng sẽ chặn mọi tác nhân người dùng khác của Google.

Tuy nhiên, bạn có thể thiết lập chi tiết hơn nếu muốn kiểm soát cụ thể hơn. Ví dụ: có thể bạn muốn toàn bộ các trang của mình xuất hiện trên Google Tìm kiếm, nhưng lại không muốn Google thu thập dữ liệu hình ảnh trong thư mục cá nhân của bạn. Trong trường hợp này, hãy sử dụng robots.txt để không cho phép tác nhân người dùng Googlebot-Image thu thập dữ liệu của các tệp trong thư mục cá nhân của bạn (nhưng vẫn cho phép Googlebot thu thập dữ liệu của mọi tệp), chẳng hạn như sau:

User-agent: Googlebot
Disallow:

User-agent: Googlebot-Image
Disallow: /personal

Trong một ví dụ khác, giả sử bạn muốn quảng cáo hiển thị trên tất cả các trang của bạn, nhưng bạn không muốn những trang đó xuất hiện trong Google Tìm kiếm. Trong trường hợp này, bạn cần chặn Googlebot nhưng cho phép tác nhân người dùng Mediapartners-Google, chẳng hạn như sau:

User-agent: Googlebot
Disallow: /

User-agent: Mediapartners-Google
Disallow:

Tác nhân người dùng trong thẻ meta robots

Có một số trang dùng nhiều thẻ meta robots để chỉ định các lệnh cho nhiều trình thu thập dữ liệu, chẳng hạn như sau:

<meta name="robots" content="nofollow">
<meta name="googlebot" content="noindex">

Trong trường hợp này, Google sẽ sử dụng tổng hợp các lệnh cấm và Googlebot sẽ tuân theo cả hai lệnh noindexnofollow. Xem thông tin chi tiết hơn về việc kiểm soát cách Google thu thập dữ liệu và lập chỉ mục trang web của bạn.