Tổng quan về trình thu thập thông tin và trình tìm nạp của Google (tác nhân người dùng)
Google sử dụng trình thu thập thông tin và trình tìm nạp để thực hiện hành động cho các sản phẩm của Google, theo cách tự động hoặc kích hoạt theo yêu cầu của người dùng.
"Trình thu thập thông tin" (đôi khi còn gọi là "robot" hoặc "spider") là thuật ngữ chung để chỉ mọi chương trình có chức năng tự động phát hiện và quét các trang web bằng cách đi theo các đường liên kết từ trang web này đến trang web khác. Trình thu thập thông tin chính mà Google dùng cho Google Tìm kiếm có tên là Googlebot.
Trình tìm nạp, giống như trình duyệt, là công cụ yêu cầu một URL khi được người dùng yêu cầu.
Các bảng sau cho thấy cách các sản phẩm và dịch vụ của Google sử dụng trình thu thập thông tin và trình tìm nạp, cách chúng hiển thị trong nhật ký liên kết giới thiệu và cách chỉ định chúng trong tệp robots.txt. Những danh sách này chưa đầy đủ mà chỉ bao gồm những trình yêu cầu phổ biến nhất có thể xuất hiện trong các tệp nhật ký.
-
Mã thông báo tác nhân người dùng ở dòng
User-agent:
trong tệp robots.txt dùng để so khớp với một loại trình thu thập thông tin khi viết quy tắc thu thập dữ liệu cho trang web của bạn. Một số trình thu thập thông tin có nhiều hơn một mã thông báo (như trình bày trong bảng). Với mỗi quy tắc, bạn chỉ cần khớp với một mã trình thu thập thông tin để quy tắc đó có hiệu lực. Danh sách này tuy không đầy đủ nhưng bao gồm hầu hết các trình thu thập thông tin bạn có thể thấy trên trang web của mình. - Chuỗi tác nhân người dùng đầy đủ là phần mô tả đầy đủ về trình thu thập thông tin. Chuỗi này xuất hiện trong yêu cầu HTTP và nhật ký web của bạn.
Các trình thu thập thông tin chung
Các trình thu thập thông tin chung của Google dùng để tìm thông tin nhằm xây dựng chỉ mục tìm kiếm của Google, thực hiện các hoạt động thu thập dữ liệu khác theo sản phẩm cụ thể và để phân tích. Chúng luôn tuân theo các quy tắc trong tệp robots.txt và thường thu thập dữ liệu từ các dải IP được xuất bản trong đối tượng googlebot.json.
Các trình thu thập thông tin chung | |||||
---|---|---|---|---|---|
Googlebot Smartphone |
|
||||
Googlebot Desktop |
|
||||
Googlebot Image |
Dùng để thu thập dữ liệu các URL hình ảnh cho Google Hình ảnh và các sản phẩm phụ thuộc vào hình ảnh.
|
||||
Googlebot News |
Googlebot News sử dụng Googlebot để thu thập dữ liệu tin bài, nhưng có tuân theo mã thông báo tác nhân người dùng
|
||||
Googlebot Video |
Dùng để thu thập dữ liệu các URL video cho Google Video và các sản phẩm phụ thuộc vào video.
|
||||
Google StoreBot |
Google StoreBot thu thập thông tin trên một số loại trang, bao gồm nhưng không giới hạn ở trang chi tiết sản phẩm, trang giỏ hàng và trang thanh toán.
|
||||
Google-InspectionTool |
Google-InspectionTool là trình thu thập thông tin mà các công cụ kiểm tra của Tìm kiếm sử dụng, chẳng hạn như Kiểm tra kết quả nhiều định dạng và Kiểm tra URL trong Search Console. Ngoài tác nhân người dùng và mã thông báo tác nhân người dùng, tác nhân người dùng này cũng bắt chước Googlebot.
|
||||
GoogleOther |
GoogleOther là một trình thu thập thông tin chung có thể được nhiều nhóm sản phẩm sử dụng để tìm nạp nội dung có thể truy cập công khai trên các trang web. Ví dụ: có thể dùng để thu thập dữ liệu một lần cho mục đích nghiên cứu và phát triển nội bộ.
|
||||
GoogleOther-Image |
GoogleOther-Image là phiên bản được tối ưu hoá của GoogleOther để tìm nạp các URL hình ảnh có thể truy cập công khai.
|
||||
GoogleOther-Video |
GoogleOther-Video là phiên bản được tối ưu hoá của GoogleOther để tìm nạp các URL video có thể truy cập công khai.
|
||||
Google-CloudVertexBot |
Google-CloudVertexBot thu thập dữ liệu trên trang web theo yêu cầu của chủ sở hữu trang web khi xây dựng Tác nhân Vertex AI.
|
||||
Google-Extended |
|
Trình thu thập thông tin theo trường hợp đặc biệt
Trình thu thập thông tin theo trường hợp đặc biệt được một số sản phẩm cụ thể sử dụng khi có thoả thuận giữa trang web được thu thập dữ liệu và sản phẩm về quá trình thu thập thông tin. Ví dụ: AdsBot
bỏ qua tác nhân người dùng chung trong tệp robots.txt (*
) khi có sự cho phép của nhà xuất bản quảng cáo. Các trình thu thập thông tin theo trường hợp đặc biệt có thể bỏ qua các quy tắc trong tệp robots.txt. Do đó, chúng hoạt động trong một dải IP khác với các trình thu thập thông tin chung. Dải IP được xuất bản trong đối tượng special-crawlers.json.
Trình thu thập thông tin theo trường hợp đặc biệt | |||||
---|---|---|---|---|---|
APIs-Google |
Được Google API sử dụng để gửi thông báo đẩy. Bỏ qua tác nhân người dùng chung (
|
||||
AdsBot Mobile Web |
Kiểm tra
chất lượng quảng cáo trên trang web cho thiết bị di động.
Bỏ qua tác nhân người dùng chung (
|
||||
AdsBot |
Kiểm tra chất lượng quảng cáo trên trang web cho máy tính.
Bỏ qua tác nhân người dùng chung (
|
||||
AdSense |
Trình thu thập thông tin của AdSense truy cập trang web của bạn để xác định nội dung của trang web nhằm cung cấp quảng cáo phù hợp. Bỏ qua tác nhân người dùng chung (
|
||||
Mobile AdSense |
Trình thu thập thông tin của Mobile AdSense truy cập trang web của bạn để xác định nội dung trên trang web nhằm cung cấp quảng cáo phù hợp. Bỏ qua tác nhân người dùng chung (
|
||||
Google-Safety |
Tác nhân người dùng Google-Safety sẽ xử lý hoạt động thu thập dữ liệu liên quan đến hành vi sai trái, chẳng hạn như phát hiện phần mềm độc hại trên các đường liên kết được đăng công khai trên các sản phẩm của Google. Tác nhân người dùng này bỏ qua các quy tắc trong tệp robots.txt.
|
Trình tìm nạp do người dùng kích hoạt
Trình tìm nạp do người dùng kích hoạt được người dùng yêu cầu để thực hiện một chức năng tìm nạp theo sản phẩm cụ thể. Ví dụ: Google Site Verifier hoạt động theo yêu cầu của người dùng, hoặc một trang web được lưu trữ trên Google Cloud (GCP) có một tính năng cho phép người dùng trang web này truy xuất một Nguồn cấp dữ liệu RSS bên ngoài. Do người dùng yêu cầu tìm nạp, những trình tìm nạp này thường bỏ qua những quy tắc trong tệp robots.txt. Dải IP mà trình tìm nạp do người dùng kích hoạt sử dụng được xuất bản trong đối tượng user-triggered-fetchers.json và user-triggered-fetchers-google.json.
Trình tìm nạp do người dùng kích hoạt | |||||
---|---|---|---|---|---|
Feedfetcher |
Feedfetcher được dùng để thu thập dữ liệu của nguồn cấp dữ liệu RSS hoặc Atom cho Google Podcasts, Google News và PubSubHubbub.
|
||||
Trung tâm xuất bản của Google |
Tìm nạp và xử lý nguồn cấp dữ liệu mà nhà xuất bản đã cung cấp một cách rõ ràng thông qua Trung tâm xuất bản của Google để dùng trong trang đích trên Google News.
|
||||
Google Read Aloud |
Khi có yêu cầu của người dùng, Google Read Aloud tìm nạp và đọc các trang web bằng tính năng chuyển văn bản sang lời nói (TTS).
|
||||
Google Site Verifier |
Google Site Verifier tìm nạp mã xác minh trong Search Console theo yêu cầu của người dùng.
|
Lưu ý về Chrome/W.X.Y.Z trong tác nhân người dùng
Nếu bạn thấy chuỗi Chrome/W.X.Y.Z trong chuỗi tác nhân người dùng nêu trong bảng trên, thì W.X.Y.Z thực ra là phần giữ chỗ đại diện cho phiên bản trình duyệt Chrome mà tác nhân người dùng đó sử dụng, ví dụ: 41.0.2272.96
. Mã số phiên bản này sẽ tăng theo thời gian để khớp với phiên bản phát hành Chromium mới nhất mà Googlebot sử dụng.
Nếu bạn đang tìm/lọc tác nhân người dùng có mẫu này trong nhật ký/máy chủ, hãy sử dụng ký tự đại diện cho mã số phiên bản thay vì chỉ định một mã số phiên bản chính xác.
Tác nhân người dùng trong tệp robots.txt
Trong trường hợp tệp robots.txt ghi nhận nhiều tác nhân người dùng, Google sẽ tuân theo tác nhân cụ thể nhất. Nếu bạn muốn tất cả trình thu thập thông tin của Google đều có thể thu thập dữ liệu các trang của bạn, thì bạn hoàn toàn không cần dùng tệp robots.txt. Nếu bạn muốn chặn hoặc cho phép mọi trình thu thập thông tin của Google truy cập một số nội dung, bạn có thể thực hiện bằng cách chỉ định Googlebot làm tác nhân người dùng. Ví dụ: nếu bạn muốn tất cả các trang của bạn xuất hiện trên Google Tìm kiếm và muốn quảng cáo AdSense xuất hiện trên các trang của mình thì bạn không cần dùng tệp robots.txt. Tương tự như vậy, nếu bạn muốn chặn hoàn toàn một số trang khỏi Google, việc chặn tác nhân người dùng Googlebot
cũng sẽ chặn mọi tác nhân người dùng khác của Google.
Tuy nhiên, bạn có thể thiết lập chi tiết hơn nếu muốn kiểm soát nhiều hơn. Ví dụ: có thể bạn muốn toàn bộ các trang của mình xuất hiện trên Google Tìm kiếm, nhưng lại không muốn Google thu thập dữ liệu hình ảnh trong thư mục cá nhân của bạn. Trong trường hợp này, hãy sử dụng tệp robots.txt để không cho phép tác nhân người dùng Googlebot-Image
thu thập dữ liệu các tệp trong thư mục cá nhân của bạn (nhưng vẫn cho phép Googlebot thu thập dữ liệu mọi tệp), chẳng hạn như sau:
User-agent: Googlebot Disallow: User-agent: Googlebot-Image Disallow: /personal
Trong một ví dụ khác, giả sử bạn muốn có quảng cáo trên tất cả các trang của bạn, nhưng bạn không muốn những trang đó xuất hiện trong Google Tìm kiếm. Trong trường hợp này, bạn cần chặn Googlebot nhưng cho phép tác nhân người dùng Mediapartners-Google
, chẳng hạn như sau:
User-agent: Googlebot Disallow: / User-agent: Mediapartners-Google Disallow:
Kiểm soát tốc độ thu thập dữ liệu
Mỗi trình thu thập thông tin của Google lại truy cập các trang web cho một mục đích cụ thể và với tốc độ riêng. Google sử dụng các thuật toán để xác định tốc độ thu thập dữ liệu tối ưu cho từng trang web. Nếu trình thu thập thông tin của Google thu thập dữ liệu quá thường xuyên trên trang web của bạn, thì bạn có thể giảm tốc độ thu thập dữ liệu.
Trình thu thập thông tin mà Google đã gỡ bỏ
Các trình thu thập thông tin sau đây của Google không còn được sử dụng nữa mà chỉ được ghi chú tại đây để tham khảo thông tin theo thời gian.
Trình thu thập thông tin mà Google đã gỡ bỏ | |||||
---|---|---|---|---|---|
Duplex trên web |
Hỗ trợ dịch vụ Duplex trên web.
|
||||
Web Light |
Kiểm tra sự hiện diện của tiêu đề
|
||||
AdsBot Mobile Web |
Kiểm tra chất lượng quảng cáo trên trang web cho iPhone.
Bỏ qua tác nhân người dùng chung (
|
||||
Mobile Apps Android |
Kiểm tra chất lượng quảng cáo trên trang cho ứng dụng Android.
Tuân theo quy tắc trong tệp robots.txt
|
||||
Google Favicon |
|