Cẩm nang quản lý ngân sách thu thập dữ liệu dành cho chủ sở hữu trang web lớn

Tổng quan

Cẩm nang này mô tả cách tối ưu hoá hoạt động thu thập dữ liệu của Google đối với các trang web rất lớn và được cập nhật thường xuyên.

Nếu trang web của bạn không có một số lượng lớn các trang thay đổi thường xuyên, hoặc nếu Google dường như thu thập dữ liệu các trang của bạn trong cùng ngày bạn xuất bản những trang đó, thì bạn không cần đọc cẩm nang này mà chỉ cần thường xuyên cập nhật sơ đồ trang webkiểm tra phạm vi lập chỉ mục là đủ.

Nếu bạn đã xuất bản nội dung được một thời gian nhưng Google chưa bao giờ lập chỉ mục nội dung đó, thì đây lại là một vấn đề khác. Trong trường hợp này, hãy dùng Công cụ kiểm tra URL để tìm hiểu lý do Google không lập chỉ mục trang của bạn.

Cẩm nang này dành cho đối tượng nào

Đây là cẩm nang nâng cao dành cho:

  • Trang web lớn (hơn 1 triệu trang không trùng lặp) có nội dung thay đổi khá thường xuyên (một lần một tuần) hoặc
  • Trang web trung bình hoặc trên trung bình (hơn 10.000 trang không trùng lặp) có nội dung thay đổi rất nhanh chóng (hằng ngày).

Xin lưu ý rằng các con số được đưa ra ở đây là ước tính sơ bộ để giúp bạn phân loại trang web của mình. Các con số này không phải là các ngưỡng chính xác.

Lý thuyết chung về hoạt động thu thập dữ liệu

Môi trường web là một không gian gần như vô hạn, vì thế Google không thể khám phá và lập chỉ mục mọi URL đang tồn tại. Vì vậy, Googlebot chỉ có thể dành một lượng thời gian có giới hạn để thu thập dữ liệu của một trang web. Lượng thời gian và tài nguyên mà Google dành cho việc thu thập dữ liệu một trang web thường được gọi là ngân sách thu thập dữ liệu của trang web đó. Xin lưu ý rằng không phải mọi dữ liệu mà Google thu thập trên trang web của bạn đều được lập chỉ mục. Mỗi trang cần trải qua quá trình xem xét, tổng hợp và đánh giá để xác định xem trang có được lập chỉ mục sau khi thu thập dữ liệu hay không.

Ngân sách thu thập dữ liệu được xác định theo hai yếu tố chính: giới hạn khả năng thu thập dữ liệunhu cầu thu thập dữ liệu.

Giới hạn khả năng thu thập dữ liệu

Googlebot muốn thu thập dữ liệu trang web mà không làm máy chủ của bạn quá tải. Để tránh gây quá tải cho máy chủ, Googlebot tính toán giới hạn công suất thu thập dữ liệu. Giới hạn này là số lượng kết nối song song tối đa mà Googlebot có thể sử dụng đồng thời để thu thập dữ liệu một trang web, cũng như thời gian chờ giữa các lần tìm nạp. Googlebot tính toán giới hạn này để thu thập dữ liệu tất cả những nội dung quan trọng mà không làm quá tải máy chủ.

Mức giới hạn khả năng thu thập dữ liệu có thể tăng và giảm dựa trên một vài yếu tố:

  • Tình trạng thu thập dữ liệu: Nếu trang web phản hồi nhanh trong một khoảng thời gian, mức giới hạn sẽ tăng lên, đồng nghĩa với việc Googlebot có thể sử dụng nhiều kết nối hơn để thu thập dữ liệu. Nếu trang web chậm lại hoặc phản hồi bằng các lỗi máy chủ, mức giới hạn sẽ giảm xuống và Googlebot sẽ giảm tần suất thu thập dữ liệu.
  • Giới hạn do chủ sở hữu trang web thiết lập trong Search Console: Nếu muốn, chủ sở hữu trang web có thể giảm mức độ thu thập dữ liệu của Googlebot trên trang web của họ. Xin lưu ý rằng việc đặt giới hạn cao hơn sẽ không tự động làm tăng mức thu thập dữ liệu.
  • Giới hạn thu thập dữ liệu của Google: Google có rất nhiều máy, nhưng số lượng máy không phải là vô hạn. Chúng tôi vẫn cần quyết định sử dụng tài nguyên vào mục đích gì.

Nhu cầu thu thập dữ liệu

Google thường sẽ dành lượng thời gian cần thiết để thu thập dữ liệu một trang web, tùy vào kích thước, tần suất cập nhật, chất lượng trang và mức độ liên quan của trang web đó, so với các trang web khác.

Các yếu tố đóng vai trò quan trọng trong việc xác định nhu cầu thu thập dữ liệu là:

  • Số lượng URL do Google xác định Nếu không nhận được chỉ dẫn từ bạn, Googlebot sẽ cố gắng thu thập dữ liệu tất cả hoặc hầu hết các URL tìm được trên trang web. Nếu trong số các URL này có nhiều URL trùng lặp, hoặc không cần phải thu thập dữ liệu vì lý do nào đó (đã xóa, không quan trọng, v.v.), thì Googlebot sẽ tốn nhiều thời gian vô ích để thu thập dữ liệu trên trang web. Đây là yếu tố bạn có thể kiểm soát chủ động nhất.
  • Mức độ phổ biến: Những URL phổ biến hơn trên Internet thường được thu thập dữ liệu thường xuyên hơn để đảm bảo các URL này luôn mới trong chỉ mục.
  • Độ cũ: Hệ thống của chúng tôi thường xuyên thu thập lại dữ liệu đối với các tài liệu để không bỏ sót thay đổi nào.

Ngoài ra, các sự kiện trên toàn trang web như di chuyển trang web có thể làm tăng nhu cầu thu thập dữ liệu để lập chỉ mục lại nội dung trong các URL mới.

Tóm lại

Google sẽ cân nhắc khả năng thu thập dữ liệu và nhu cầu thu thập dữ liệu, rồi xác định ngân sách thu thập dữ liệu của trang web dưới dạng tập hợp URL mà Googlebot có thể thu thập và muốn thu thập. Ngay cả khi chưa đạt đến mức giới hạn khả năng thu thập dữ liệu, Googlebot vẫn sẽ giảm mức thu thập dữ liệu trang web nếu nhu cầu thu thập dữ liệu thấp.

Ok Google, hãy cho tôi thêm ngân sách thu thập dữ liệu!
Google xác định lượng tài nguyên dành cho việc thu thập dữ liệu nên cung cấp cho mỗi trang web, dựa trên mức độ phổ biến, giá trị người dùng, tính độc đáo và khả năng phân phát. Cách duy nhất để tăng ngân sách thu thập dữ liệu của bạn là tăng khả năng phân phát cho việc thu thập dữ liệu và (quan trọng hơn) tăng giá trị của nội dung trên trang web của bạn cho người tìm kiếm.

Các phương pháp hay nhất

Làm theo các phương pháp hay nhất này để đạt được hiệu quả tối đa từ việc thu thập dữ liệu:

  • Quản lý số lượng URL của bạn: Sử dụng các công cụ thích hợp để cho Google biết trang web nào cần hay không cần thu thập dữ liệu. Nếu Google phải dành quá nhiều thời gian để thu thập dữ liệu trên những URL không thích hợp cho chỉ mục, thì Googlebot có thể quyết định rằng không cần dành thời gian để thu thập dữ liệu những nội dung còn lại trên trang web của bạn (hoặc tăng ngân sách thu thập dữ liệu của bạn).
    • Hợp nhất nội dung trùng lặp. Hãy loại bỏ nội dung trùng lặp để tập trung vào việc thu thập dữ liệu nội dung không trùng lặp thay vì các URL riêng biệt.
    • Chặn quá trình thu thập dữ liệu đối với những URL không nên đưa vào chỉ mục. Một số trang có thể quan trọng đối với người dùng, nhưng không nên xuất hiện trong kết quả Tìm kiếm. Ví dụ: các trang cuộn vô hạn có thông tin trùng lặp với các trang được liên kết hoặc các phiên bản được sắp xếp theo cách khác nhau của cùng một trang. Nếu bạn không thể hợp nhất nội dung như đã mô tả trong phần đầu tiên, hãy chặn các trang không quan trọng (không cần xuất hiện trong kết quả tìm kiếm) này bằng robots.txt hoặc công cụ Tham số URL (đối với nội dung trùng lặp có thể truy cập bằng tham số URL). Đừng dùng noindex, vì Google sẽ vẫn yêu cầu nhưng rồi sẽ loại bỏ trang khi phát hiện thẻ noindex, từ đó làm tốn thời gian thu thập dữ liệu một cách vô ích. Đừng dùng tệp robots.txt để tạm thời giải phóng ngân sách thu thập dữ liệu cho các trang khác. Hãy dùng tệp robots.txt để chặn những trang hoặc tài nguyên mà bạn không muốn chúng tôi thu thập dữ liệu. Google sẽ không sử dụng ngân sách thu thập dữ liệu mà bạn giải phóng bằng tệp robots.txt để thu thập dữ liệu trên các trang khác, trừ trường hợp chúng tôi đã đạt đến mức giới hạn phân phát trên trang web của bạn.
    • Trả về mã lỗi 404/410 cho các trang đã bị xóa vĩnh viễn. Google sẽ không quên một URL đã biết, nhưng mã lỗi 404 là tín hiệu hữu ích để cho Google biết rằng không thu thập dữ liệu lại URL đó. Tuy nhiên, các URL bị chặn sẽ nằm trong hàng thu thập thông tin của bạn lâu hơn và sẽ được thu thập dữ liệu trở lại khi không còn bị chặn nữa.
    • Loại bỏ lỗi 404 mềm. Google sẽ tiếp tục thu thập dữ liệu các trang có lỗi 404 mềm. Việc này sẽ làm lãng phí ngân sách của bạn. Hãy kiểm tra báo cáo Phạm vi lập chỉ mục để phát hiện các lỗi 404 mềm.
    • Thường xuyên cập nhật sơ đồ trang web của bạn. Google thường xuyên đọc sơ đồ trang web của bạn. Vì vậy, hãy đưa tất cả nội dung bạn muốn Google thu thập dữ liệu vào sơ đồ đó. Nếu trang web của bạn có nội dung mới cập nhật, bạn nên dùng thẻ <lastmod>.
    • Tránh các chuỗi chuyển hướng dài vì những chuỗi này gây ảnh hưởng tiêu cực đến hoạt động thu thập dữ liệu.
  • Cải thiện trang của bạn để tải dễ dàng hơn. Khi Google có thể tải và kết xuất trang của bạn nhanh hơn, chúng tôi có thể đọc được nhiều nội dung hơn trên trang web của bạn.
  • Theo dõi hoạt động thu thập dữ liệu trên trang web của bạn. Theo dõi xem liệu trang web của bạn có gặp vấn đề về khả năng truy cập trong quá trình thu thập dữ liệu hay không, đồng thời tìm cách tăng hiệu suất của quá trình thu thập dữ liệu đó.

Theo dõi hoạt động thu thập dữ liệu và lập chỉ mục trang web của bạn

Sau đây là những bước chính để theo dõi hoạt động thu thập dữ liệu trên web của bạn:

  1. Kiểm tra xem Googlebot có đang gặp vấn đề về khả năng truy cập trên trang web của bạn hay không.
  2. Kiểm tra xem có trang nào bạn muốn Google thu thập dữ liệu nhưng vẫn chưa được thu thập dữ liệu hay không.
  3. Kiểm tra xem có phần nào trong trang web cần được đẩy nhanh tốc độ thu thập dữ liệu hay không.
  4. Cải thiện hiệu suất thu thập dữ liệu trên trang web của bạn.
  5. Xử lý tình trạng thu thập dữ liệu quá mức trên trang web của bạn.

1. Kiểm tra xem Googlebot có đang gặp vấn đề về khả năng sử dụng trên trang web của bạn hay không

Việc cải thiện khả năng truy cập vào trang web không đảm bảo ngân sách thu thập dữ liệu của bạn sẽ tăng. Tốc độ thu thập dữ liệu hợp lý nhất được Google xác định dựa trên nhu cầu thu thập dữ liệu, theo mô tả ở trên. Tuy nhiên, các sự cố về khả năng truy cập có thể khiến Google không thể thu thập dữ liệu trên trang web của bạn theo mức độ mà chúng tôi mong muốn.

Chẩn đoán:

Hãy dùng báo cáo Số liệu thống kê về hoạt động thu thập dữ liệu để xem lại quá trình Google thu thập dữ liệu trên trang web của bạn. Báo cáo này hiển thị thời điểm Google gặp sự cố về khả năng sử dụng trên trang web. Nếu trang web của bạn báo lỗi hoặc hiển thị cảnh báo về khả năng sử dụng, hãy xem đồ thị Khả năng sử dụng của máy chủ và tìm các thời điểm mà yêu cầu của Googlebot vượt quá đường giới hạn màu đỏ, nhấp vào biểu đồ để xem URL nào đang gặp vấn đề và cố gắng tìm mối tương quan giữa các URL đó với vấn đề trên trang web.

Xử lý:

  • Đọc tài liệu về báo cáo Số liệu thống kê về hoạt động thu thập dữ liệu để tìm hiểu cách phát hiện và xử lý một số vấn đề về khả năng truy cập.
  • Chặn hoạt động thu thập dữ liệu trên một số trang nếu bạn không muốn những trang đó được thu thập dữ liệu. (Xem cách quản lý số lượng URL của bạn)
  • Tăng tốc độ tải và kết xuất trang. (Xem Cách cải thiện hiệu suất thu thập dữ liệu trên trang web của bạn)
  • Tăng công suất của máy chủ. Nếu Google có vẻ thường xuyên dùng công suất phân phát tối đa của trang web của bạn để thu thập dữ liệu, nhưng bạn vẫn có một số URL quan trọng chưa được thu thập dữ liệu hoặc chưa được cập nhật như mong muốn, thì bạn có thể phải bổ sung tài nguyên phân phát để cho phép Google yêu cầu nhiều trang hơn trong trang web của bạn. Hãy kiểm tra khả năng thu thập dữ liệu qua máy chủ lưu trữ theo thời gian trong báo cáo Số liệu thống kê về hoạt động thu thập dữ liệu để xem liệu tốc độ thu thập dữ liệu của Google có thường xuyên vượt quá giới hạn hay không. Nếu đúng là vậy, hãy tăng tài nguyên phân phát của bạn trong một tháng và xem liệu số lượng yêu cầu thu thập dữ liệu có tăng trong cùng khoảng thời gian đó hay không.

2. Kiểm tra xem có phần nào trên trang web mà bạn muốn Google thu thập dữ liệu nhưng vẫn chưa được thu thập dữ liệu hay không

Google dành lượng thời gian cần thiết để lập chỉ mục toàn bộ những nội dung chất lượng cao và có giá trị với người dùng mà Google tìm được trên trang web của bạn. Nếu bạn cho rằng Googlebot bỏ sót nội dung quan trọng, thì nguyên nhân có thể là do công cụ này không tìm thấy nội dung đó, nội dung bị chặn khỏi Google, hoặc trang web đang hạn chế quyền truy cập của Google (hoặc Google đang cố gắng không làm trang web quá tải).

Hãy nhớ sự khác biệt giữa thu thập dữ liệulập chỉ mục. Trang này hướng dẫn bạn cách giúp Google thu thập dữ liệu trang web hiệu quả, chứ không cung cấp thông tin về việc Google có lập chỉ mục các trang tìm được hay không.

Chẩn đoán:

Search Console không cung cấp bản ghi quá trình thu thập dữ liệu trang web mà bạn có thể lọc theo URL hay đường dẫn, nhưng bạn có thể tham khảo nhật ký trang web để xem Googlebot có thu thập dữ liệu một số URL cụ thể nào đó hay không. Điều này không liên quan đến việc liệu Google có lập chỉ mục các URL đã thu thập dữ liệu hay không.

Hãy nhớ rằng đối với hầu hết các trang web, sẽ mất tối thiểu vài ngày để Google nhận thấy các trang mới. Hầu hết các URL của các trang web sẽ không được thu thập dữ liệu trong cùng ngày, ngoại trừ các trang web có nội dung theo thời hạn như trang web tin tức.

Xử lý:

Nếu bạn thêm trang mới vào trang web của mình và Google không thu thập dữ liệu các trang đó trong một khoảng thời gian tương đối dài, thì nguyên nhân có thể là Google không biết những trang này, nội dung bị chặn, trang web đã đạt công suất phân phát tối đa hoặc bạn đã hết ngân sách thu thập dữ liệu.

  1. Cho Google biết về các trang mới của bạn: hãy cập nhật sơ đồ trang web để phản ánh URL mới.
  2. Kiểm tra các quy tắc trong tệp robots.txt để xác nhận rằng bạn không vô tình chặn trang.
  3. Nếu tất cả những trang chưa được thu thập dữ liệu đều có Tham số URL, thì có thể những trang đó đã bị loại trừ do chế độ cài đặt trong công cụ Tham số URL. Rất tiếc, không có cách nào để kiểm tra các trang bị loại trừ. Do vậy, bạn không nên dùng công cụ đó.
  4. Xem lại mức độ ưu tiên của bạn đối với dữ liệu cần thu thập (nghĩa là sử dụng ngân sách thu thập dữ liệu một cách hợp lý). Quản lý số lượng URLcải thiện hiệu suất thu thập dữ liệu trên trang web của bạn.
  5. Kiểm tra để đảm bảo bạn vẫn còn công suất phân phát. Googlebot sẽ giảm mức thu thập dữ liệu nếu phát hiện thấy máy chủ của bạn gặp khó khăn khi phản hồi yêu cầu thu thập dữ liệu.

Xin lưu ý rằng các trang đã thu thập dữ liệu vẫn có thể không hiển thị trong kết quả tìm kiếm, nếu giá trị của trang không đủ lớn hoặc người dùng không có nhu cầu đối với nội dung trang.

3. Kiểm tra xem Google có thu thập dữ liệu nội dung cập nhật ở tốc độ đủ nhanh hay không

Nếu chúng tôi chưa thu thập dữ liệu các trang mới hoặc vừa cập nhật trên trang web, thì việc này có thể là vì chúng tôi chưa nhận thấy các trang đó hoặc chưa nhận ra rằng trang đã cập nhật. Sau đây là cách bạn có thể thông báo cho chúng tôi về việc cập nhật trang.

Xin lưu ý rằng Google luôn cố gắng kiểm tra và lập chỉ mục các trang trong một khoảng thời gian hợp lý. Đối với hầu hết các trang web, thời gian này kéo dài từ 3 ngày trở lên. Sẽ rất khó để Google có thể lập chỉ mục các trang vào cùng ngày mà bạn xuất bản trang, trừ khi trang của bạn là trang web tin tức hoặc có nội dung có giá trị cao và theo thời hạn.

Chẩn đoán:

Hãy kiểm tra nhật ký trang web của bạn để xem thời điểm Googlebot thu thập dữ liệu các URL cụ thể.

Để biết ngày lập chỉ mục, hãy sử dụng Công cụ kiểm tra URL hoặc tìm kiếm các URL mà bạn đã cập nhật trên Google.

Xử lý:

Những việc nên làm:

Những việc nên tránh:

  • Gửi một sơ đồ trang web chưa thay đổi gì nhiều lần trong ngày.
  • Nghĩ rằng Googlebot sẽ thu thập mọi dữ liệu trong sơ đồ trang web hoặc thu thập dữ liệu sơ đồ trang web ngay lập tức. Bạn nên dùng sơ đồ trang web để giúp Googlebot thu thập dữ liệu, nhưng đây không phải là yêu cầu bắt buộc.
  • Đưa vào sơ đồ trang web những URL không nên xuất hiện trong kết quả tìm kiếm. Điều này có thể khiến bạn lãng phí ngân sách thu thập dữ liệu vào các trang không nên lập chỉ mục.

4. Cải thiện hiệu quả thu thập dữ liệu đối với trang web của bạn

Tăng tốc độ tải trang

Khả năng thu thập dữ liệu của Google bị giới hạn bởi băng thông, thời gian và khả năng sử dụng của các phiên bản Googlebot. Nếu máy chủ của bạn phản hồi yêu cầu nhanh hơn, chúng tôi có thể thu thập dữ liệu nhiều trang hơn trên trang web của bạn. Dù vậy, Google chỉ muốn thu thập dữ liệu nội dung chất lượng cao. Do đó, nếu bạn chỉ tăng tốc độ tải của trang chất lượng thấp hơn, thì Googlebot vẫn sẽ không thu thập dữ liệu nhiều trang trên trang web của bạn hơn. Ngược lại, nếu chúng tôi nghĩ rằng có nội dung chất lượng cao trên trang web bị bỏ sót, chúng tôi có thể tăng ngân sách cho bạn để thu thập dữ liệu nội dung đó.

Sau đây là cách bạn có thể tối ưu hóa các trang và tài nguyên để thu thập dữ liệu:

  • Sử dụng robots.txt để ngăn Googlebot tải các tài nguyên lớn nhưng không quan trọng. Đảm bảo bạn chỉ chặn các tài nguyên không quan trọng, nghĩa là những tài nguyên không cần thiết cho việc tìm hiểu ý nghĩa của trang (chẳng hạn như hình ảnh trang trí).
  • Đảm bảo rằng các trang của bạn tải nhanh.
  • Hãy chú ý các chuỗi chuyển hướng dài, vì các chuỗi này gây ảnh hưởng tiêu cực đến việc thu thập dữ liệu.
  • Cả thời gian để phản hồi yêu cầu của máy chủ và thời gian cần để kết xuất trang đều quan trọng, bao gồm cả thời gian tải và chạy các tài nguyên được nhúng như hình ảnh và tập lệnh. Hãy chú ý đến các tài nguyên lớn hoặc chậm nhưng cần thiết để lập chỉ mục.

Ẩn URL bạn không muốn hiển thị trong kết quả tìm kiếm

Việc lãng phí tài nguyên máy chủ vào các trang không cần thiết có thể làm giảm hoạt động thu thập dữ liệu trên các trang quan trọng đối với bạn, và có thể làm chậm việc khám phá nội dung mới hoặc vừa cập nhật trên trang web.

Dù bạn có chặn hoặc ẩn các trang đã thu thập dữ liệu để Google không thu thập lại dữ liệu, thì Google cũng sẽ không chuyển ngân sách thu thập dữ liệu của bạn sang một phần khác của trang web, trừ phi Google đã đạt đến giới hạn phân phát của trang web của bạn.

Việc hiển thị nhiều URL bạn không muốn Tìm kiếm thu thập dữ liệu có thể ảnh hưởng tiêu cực đến việc thu thập dữ liệu và lập chỉ mục trang web. Thông thường, những URL này thuộc các loại sau:

  • URL điều hướng được phân thuộc tínhgiá trị nhận dạng phiên: (URL điều hướng được phân thuộc tính thường là nội dung trùng lặp trên trang web. Giá trị nhận dạng phiên và các tham số URL khác chỉ có chức năng sắp xếp hoặc lọc những trang không cung cấp nội dung mới.) Sử dụng robots.txt để chặn các trang điều hướng được phân thuộc tính. Nếu bạn nhận thấy Google đang thu thập dữ liệu một số lượng lớn URL có nội dung cơ bản trùng lặp nhưng có các tham số khác nhau trên trang web của bạn, hãy xem xét việc chặn những nội dung trùng lặp có tham số.
  • Nội dung trùng lặp: Hãy giúp Google xác định nội dung trùng lặp để tránh thu thập những dữ liệu không cần thiết.
  • Trang 404 mềm: Hãy trả về mã 404 khi trang không còn tồn tại.
  • Trang bị tấn công: Đừng quên kiểm tra báo cáo Vấn đề bảo mật và sửa hoặc xóa những trang bị tấn công mà bạn tìm được.
  • Không gian vô hạn và proxy: Hãy dùng tệp robots.txt để chặn hoạt động thu thập dữ liệu không gian vô hạn và proxy.
  • Nội dung vi phạm và có chất lượng thấp: Hiển nhiên là bạn nên tránh những nội dung như vậy.
  • Trang giỏ hàng, trang cuộn vô hạn và các trang thực hiện hành động (chẳng hạn như trang "đăng ký" hoặc "mua ngay bây giờ").

Những việc nên làm:

  • Sử dụng robots.txt nếu bạn không muốn chúng tôi thu thập dữ liệu một tài nguyên hoặc một trang.
  • Nếu nhiều trang sử dụng cùng một tài nguyên (chẳng hạn như hình ảnh hoặc tệp JavaScript dùng chung), hãy tham chiếu đến tài nguyên từ cùng một URL trong mỗi trang. Khi đó, Google có thể lưu tài nguyên vào bộ nhớ đệm và sử dụng lại mà không cần yêu cầu tài nguyên đó nhiều lần.

Những việc nên tránh:

  • Thêm hoặc xóa các trang hoặc thư mục khỏi robots.txt thường xuyên để "giải phóng" một phần ngân sách thu thập dữ liệu cho trang web. Chỉ sử dụng robots.txt cho các trang hoặc tài nguyên bạn không muốn xuất hiện trên Google trong thời gian dài.
  • Xoay vòng sơ đồ trang web hoặc dùng các cơ chế ẩn tạm thời khác để "giải phóng thêm ngân sách".

Giảm tốc độ thu thập dữ liệu trong trường hợp khẩn cấp

Googlebot có các thuật toán để tránh hiện tượng các yêu cầu thu thập dữ liệu gây quá tải cho trang web. Tuy nhiên, nếu bạn thấy rằng Googlebot đang làm quá tải trang web của mình, bạn có thể làm một số việc.

Chẩn đoán:

Theo dõi máy chủ của bạn để kiểm tra xem Googlebot có gửi quá nhiều yêu cầu đến trang web hay không.

Xử lý:

Trong trường hợp khẩn cấp, bạn nên thực hiện các bước sau để giảm tốc độ thu thập dữ liệu từ Googlebot:

  1. Tạm thời trả lại mã kết quả HTTP 503/429 cho các yêu cầu của Googlebot khi máy chủ của bạn bị quá tải. Googlebot sẽ thử thu thập lại dữ liệu đối với các URL này sau khoảng 2 ngày. Hãy lưu ý rằng nếu bạn trả lại mã "không thể truy cập" trong quá nhiều ngày, Google sẽ giảm hoặc ngừng vĩnh viễn hoạt động thu thập dữ liệu các URL trên trang web của bạn; vì vậy bạn nên thực hiện thêm những thao tác sau.
  2. Giảm tốc độ thu thập dữ liệu của Googlebot cho trang web của bạn. Hành động này có thể mất tối đa 2 ngày để có hiệu lực và yêu cầu bạn phải có quyền của chủ sở hữu sản phẩm trong Search Console. Chỉ làm việc này khi bạn thấy Google thu thập dữ liệu quá nhiều và liên tục trong báo cáo Số liệu thống kê thu thập dữ liệu, trong biểu đồ Khả năng sử dụng của máy chủ > Sử dụng máy chủ.
  3. Khi tốc độ thu thập dữ liệu bị giảm, hãy ngừng trả lại mã 503/429 cho các yêu cầu thu thập dữ liệu. Việc trả lại 503 nhiều hơn 2 ngày sẽ khiến Google loại bỏ các URL có mã 503 khỏi chỉ mục.
  4. Theo dõi hoạt động thu thập dữ liệu và công suất của máy chủ theo thời gian, và khi thích hợp, hãy tăng tốc độ thu thập dữ liệu trở lại hoặc chọn tốc độ thu thập dữ liệu mặc định.
  5. Nếu trình thu thập dữ liệu gây vấn đề là một trong những trình thu thập dữ liệu AdsBot, thì có khả năng vấn đề là do bạn đã tạo các mục tiêu Quảng cáo tìm kiếm động cho trang web của mình và Google đang cố gắng thu thập dữ liệu trên những mục tiêu đó. Trong trường hợp này, Google sẽ thu thập dữ liệu 2 tuần 1 lần. Nếu máy chủ của bạn không có khả năng xử lý những lần thu thập dữ liệu này, bạn nên giới hạn mục tiêu quảng cáo hoặc tăng khả năng phân phát.

Những điều lầm tưởng và sự thật về hoạt động thu thập dữ liệu

Tôi có thể nén sơ đồ trang web để tăng ngân sách thu thập dữ liệu.

  • Không. Google vẫn phải tìm nạp sơ đồ trang web đã nén từ máy chủ, do đó bạn không giúp chúng tôi tiết kiệm được nhiều thời gian hay nỗ lực khi gửi sơ đồ trang web đã nén.

Google ưu tiên nội dung mới, vì vậy tôi nên liên tục thay đổi trang của mình

  • Nội dung được xếp hạng theo chất lượng, bất kể thời gian. Hãy tạo và cập nhật nội dung nếu bạn thấy cần, nhưng việc cố tình làm mới các trang bằng cách thực hiện các thay đổi không quan trọng và cập nhật ngày tháng của trang sẽ không có tác dụng gì.

Google ưu tiên nội dung cũ (vì có nhiều giá trị) hơn là nội dung mới

  • Sai: Mức độ hữu ích của trang sẽ không thay đổi dù trang đó mới hay cũ.

Google ưu tiên các URL đơn thuần và không thu thập dữ liệu các tham số truy vấn

Các trang web nhỏ không được Google thu thập dữ liệu thường xuyên như các trang web lớn

  • Sai: Nếu trang web có nội dung quan trọng và thay đổi thường xuyên, thì chúng tôi sẽ thu thập dữ liệu trang web đó thường xuyên, bất kể kích thước.

Nội dung của bạn càng gần trang chủ thì Google càng thấy nội dung đó quan trọng

  • Đúng một phần: Trang chủ của trang web thường là trang quan trọng nhất trên trang web. Do đó, những trang được liên kết trực tiếp tới trang chủ có thể được coi trọng hơn và được thu thập dữ liệu thường xuyên hơn. Tuy nhiên, điều này không có nghĩa là những trang như vậy sẽ có xếp hạng cao hơn các trang khác trên trang web của bạn.

Trang của bạn tải và kết xuất càng nhanh, thì Google có thể thu thập dữ liệu càng nhiều nội dung

  • Đúng... vì tài nguyên của chúng tôi bị giới hạn về cả thời gian và số lượng bot thu thập dữ liệu. Trong một khoảng thời gian nhất định, bạn phân phát cho chúng tôi càng nhiều trang thì chúng tôi có thể thu thập dữ liệu càng nhiều trang hơn. Tuy nhiên, chúng tôi có thể dành nhiều thời gian để thu thập dữ liệu trang web có thông tin quan trọng hơn, ngay cả khi các trang đó mất nhiều thời gian hơn. Việc bạn tăng tốc độ của trang để hỗ trợ người dùng sẽ quan trọng hơn là chỉ tăng tốc độ của trang để tăng mức độ thu thập dữ liệu. Bạn có thể giúp Google thu thập dữ liệu bằng một cách đơn giản hơn, đó là cung cấp đúng nội dung cần thu thập thay vì để Google thu thập dữ liệu toàn bộ nội dung.
  • Hãy lưu ý rằng việc thu thập dữ liệu trang web bao gồm cả việc truy xuất và kết xuất nội dung. Thời gian dành cho việc kết xuất trang quan trọng không kém so với thời gian dành cho việc yêu cầu trang. Vì vậy, việc tăng tốc độ kết xuất cho các trang của bạn cũng sẽ làm tăng tốc độ thu thập dữ liệu.

Việc tạo phiên bản URL mới là một cách hữu hiệu để khuyến khích Google quay lại thu thập dữ liệu trên các trang của tôi

  • Đúng một phần: Bạn có thể thành công khi tạo thêm phiên bản URL cho trang của mình để khuyến khích Google sớm thu thập dữ liệu trở lại. Tuy nhiên, việc này thường không cần thiết và sẽ làm lãng phí tài nguyên thu thập dữ liệu nếu trang đó không thực sự thay đổi. Nhìn chung, sơ đồ trang web có giá trị <lastmod> là cách tốt nhất để cho Google biết đâu là nội dung được cập nhật. Nếu bạn muốn tạo thêm phiên bản URL để thông báo nội dung mới, bạn chỉ nên thay đổi URL khi nội dung trên trang có thay đổi quan trọng.

Tốc độ trang web và các lỗi ảnh hưởng đến ngân sách thu thập dữ liệu của tôi

  • Đúng: Việc cải thiện tốc độ trang web sẽ cải thiện trải nghiệm người dùng, đồng thời làm tăng tốc độ thu thập dữ liệu. Đối với Googlebot, một trang web nhanh báo hiệu một máy chủ hoạt động tốt, nhờ đó giúp Googlebot thu thập được nhiều nội dung hơn trên cùng một số lượng kết nối. Mặt khác, một lượng lớn các mã kết quả HTTP 5xx (lỗi máy chủ) hoặc lỗi kết nối hết thời gian chờ sẽ báo hiệu điều ngược lại và làm quá trình thu thập dữ liệu chậm lại.
  • Chúng tôi khuyên bạn nên chú ý đến báo cáo Số liệu thống kê thu thập dữ liệu trong Search Console và hạn chế số lỗi máy chủ.

Quá trình thu thập dữ liệu là một yếu tố xếp hạng

  • Sai: Việc cải thiện tốc độ thu thập dữ liệu không nhất thiết sẽ dẫn đến vị trí tốt hơn trong kết quả Tìm kiếm. Google sử dụng nhiều tín hiệu để xếp hạng kết quả. Mặc dù Google cần thu thập dữ liệu để đưa một trang vào kết quả tìm kiếm, nhưng hoạt động này không phải là tín hiệu xếp hạng.

URL thay thế và nội dung dạng nhúng cũng được tính vào ngân sách thu thập dữ liệu

  • Đúng: Nhìn chung, mọi URL mà Googlebot thu thập dữ liệu đều sẽ được tính vào ngân sách thu thập dữ liệu của trang web. Các URL thay thế, như AMP hoặc hreflang, và cả nội dung dạng nhúng, như CSS và JavaScript, bao gồm cả các lần tìm nạp XHR, đều có thể cần thu thập dữ liệu và sẽ làm tiêu tốn ngân sách thu thập dữ liệu của trang web.

Tôi có thể kiểm soát Googlebot bằng lệnh "crawl-delay"

  • Sai: Googlebot không xử lý lệnh robots.txt "crawl-delay" phi tiêu chuẩn.

Lệnh nofollow có ảnh hưởng đến ngân sách thu thập dữ liệu

  • Đúng một phần: Mọi URL được thu thập dữ liệu đều sẽ ảnh hưởng đến ngân sách thu thập dữ liệu. Vì vậy, ngay cả khi trang của bạn đánh dấu một URL là nofollow, Google vẫn sẽ thu thập dữ liệu URL đó nếu một trang khác trên trang web của bạn (hay bất kỳ trang nào khác trên web) không gắn nhãn nofollow cho URL.