Hướng dẫn quản lý hạn mức thu thập dữ liệu dành cho chủ sở hữu trang web lớn

Hướng dẫn này mô tả cách tối ưu hoá hoạt động thu thập dữ liệu của Google đối với các trang web rất lớn và được cập nhật thường xuyên.

Nếu trang web của bạn không có một số lượng lớn các trang thay đổi thường xuyên, hoặc có vẻ như Google thu thập dữ liệu các trang trong cùng ngày bạn xuất bản những trang đó, thì bạn không cần đọc hướng dẫn này mà chỉ cần thường xuyên cập nhật sơ đồ trang web và kiểm tra phạm vi lập chỉ mục là đủ.

Nếu bạn đã xuất bản nội dung được một thời gian nhưng Google chưa bao giờ lập chỉ mục nội dung đó, thì đây lại là một vấn đề khác. Trong trường hợp này, hãy dùng Công cụ kiểm tra URL để tìm hiểu lý do Google không lập chỉ mục trang của bạn.

Ai nên đọc hướng dẫn này?

Đây là hướng dẫn nâng cao và dành cho:

Trang web quy mô lớn (hơn 1 triệu trang riêng biệt) và có nội dung thay đổi khá thường xuyên (mỗi tuần một lần)
Trang web trung bình hoặc trên trung bình (hơn 10.000 trang riêng biệt) có nội dung thay đổi rất nhanh chóng (hằng ngày)
Các trang web có phần lớn tổng số URL được Search Console phân loại là Đã phát hiện – hiện chưa được lập chỉ mục

Lý thuyết chung về hoạt động thu thập dữ liệu

Môi trường web là một không gian gần như vô hạn, vì thế Google không thể khám phá và lập chỉ mục mọi URL đang tồn tại. Kết quả là Googlebot chỉ có thể dành một lượng thời gian có giới hạn để thu thập dữ liệu của một trang web. Lượng thời gian và tài nguyên mà Google dành cho hoạt động thu thập dữ liệu trên một trang web thường được gọi là hạn mức thu thập dữ liệu của trang web đó. Xin lưu ý rằng không phải mọi dữ liệu mà Google thu thập trên trang web của bạn đều được lập chỉ mục. Trang nào cũng cần trải qua quá trình xem xét, tổng hợp và đánh giá để xác định xem có lập chỉ mục trang đó sau khi thu thập dữ liệu hay không.

Hạn mức thu thập dữ liệu được xác định theo hai yếu tố chính: giới hạn công suất thu thập dữ liệu và nhu cầu thu thập dữ liệu.

Giới hạn công suất thu thập dữ liệu

Googlebot cần thu thập dữ liệu trang web mà không gây quá tải cho máy chủ. Để tránh gây quá tải cho máy chủ, Googlebot sẽ tính toán giới hạn công suất thu thập dữ liệu. Giới hạn này là số lượng kết nối song song tối đa mà Googlebot có thể sử dụng đồng thời để thu thập dữ liệu trên một trang web, cũng như thời gian chờ giữa các lần tìm nạp. Googlebot tính toán giới hạn này để thu thập dữ liệu tất cả nội dung quan trọng mà không làm quá tải máy chủ.

Mức giới hạn công suất thu thập dữ liệu có thể tăng và giảm dựa trên một số yếu tố:

Tình trạng thu thập dữ liệu: Mức giới hạn sẽ tăng lên nếu trang web phản hồi nhanh trong một khoảng thời gian. Điều này đồng nghĩa với việc Googlebot có thể sử dụng thêm nhiều kết nối để thu thập dữ liệu. Nếu trang web chậm lại hoặc phản hồi bằng các lỗi máy chủ, mức giới hạn sẽ giảm xuống và Googlebot sẽ giảm tần suất thu thập dữ liệu.
Giới hạn mức thu thập dữ liệu của Google: Google có rất nhiều máy móc, nhưng không phải là vô hạn. Chúng tôi vẫn phải quyết định xem nên sử dụng tài nguyên vào mục đích gì.

Nhu cầu thu thập dữ liệu

Thường thì Google sẽ dành đủ lượng thời gian cần thiết để thu thập dữ liệu trên một trang web, tuỳ vào kích thước, tần suất cập nhật, chất lượng và mức độ liên quan của trang web đó so với các trang web khác.

Có một số yếu tố đóng vai trò quan trọng trong việc xác định nhu cầu thu thập dữ liệu:

Số lượng URL do Google xác định Nếu không nhận được chỉ dẫn của bạn, Googlebot sẽ cố gắng thu thập dữ liệu tất cả hoặc hầu hết các URL tìm được trên trang web. Nếu trong số các URL này có nhiều URL trùng lặp, hoặc bạn không muốn Google thu thập dữ liệu vì lý do nào đó (đã xoá, không quan trọng, v.v.), thì Googlebot sẽ lãng phí nhiều thời gian vào việc thu thập dữ liệu trên trang web. Đây là yếu tố bạn có thể kiểm soát chủ động nhất.
Mức độ phổ biến: Các URL phổ biến hơn trên Internet thường được thu thập dữ liệu thường xuyên hơn để đảm bảo những URL này luôn được cập nhật trong chỉ mục.
Mức độ lỗi thời: Hệ thống của chúng tôi thường xuyên thu thập lại dữ liệu trên các tài liệu để không bỏ sót thay đổi nào.

Ngoài ra, các sự kiện trên toàn trang web như hoạt động di chuyển trang web có thể làm tăng nhu cầu thu thập dữ liệu để lập chỉ mục lại nội dung trong các URL mới.

Tóm lại

Google sẽ cân nhắc công suất và nhu cầu thu thập dữ liệu, rồi xác định hạn mức thu thập dữ liệu của trang web dưới dạng tập hợp URL mà Googlebot có thể thu thập và muốn thu thập. Ngay cả khi chưa đạt đến mức giới hạn công suất thu thập dữ liệu, Googlebot vẫn sẽ giảm mức thu thập dữ liệu trang web nếu nhu cầu thu thập dữ liệu thấp.

Các phương pháp hay nhất

Hãy làm theo các phương pháp hay nhất này để đạt được hiệu quả tối đa trong hoạt động thu thập dữ liệu:

Quản lý các URL mà bạn đang có: Hãy sử dụng các công cụ thích hợp để cho Google biết trang nào cần hay không cần thu thập dữ liệu. Nếu đã mất quá nhiều thời gian để thu thập dữ liệu những URL không nên có trong chỉ mục, thì Googlebot có thể quyết định không cần dành thời gian để thu thập dữ liệu những nội dung còn lại trên trang web của bạn (hoặc tăng hạn mức thu thập dữ liệu của bạn).
- Hợp nhất nội dung trùng lặp. Hãy loại bỏ nội dung trùng lặp để hoạt động thu thập dữ liệu tập trung vào những nội dung riêng biệt thay vì nhiều URL riêng biệt.
- Chặn thu thập dữ liệu URL bằng tệp robots.txt. Một số trang có thể quan trọng đối với người dùng, nhưng bạn không nhất thiết muốn những trang đó xuất hiện trong kết quả trên Tìm kiếm. Ví dụ: các trang cuộn vô hạn có thông tin trùng lặp với các trang được liên kết hoặc các phiên bản của cùng một trang nhưng có cách sắp xếp khác nhau. Nếu bạn không thể hợp nhất nội dung theo mô tả trong mục đầu tiên của phần này, hãy chặn các trang không quan trọng (không cần xuất hiện trong kết quả tìm kiếm) này bằng tệp robots.txt. Việc chặn URL bằng tệp robots.txt sẽ làm giảm đáng kể khả năng các URL đó được lập chỉ mục.
  Đừng sử dụng noindex, vì Google sẽ vẫn yêu cầu nhưng rồi lại loại bỏ trang khi phát hiện tiêu đề hoặc thẻ meta noindex trong phản hồi HTTP, làm lãng phí thời gian thu thập dữ liệu. Đừng dùng tệp robots.txt để tạm thời giải phóng hạn mức thu thập dữ liệu cho các trang khác. Hãy dùng tệp robots.txt để chặn những trang hoặc tài nguyên mà bạn không hề muốn Google thu thập dữ liệu. Google sẽ không sử dụng hạn mức thu thập dữ liệu mới này cho các trang khác, trừ trường hợp chúng tôi đã đạt đến mức giới hạn phân phát của trang web của bạn.
- Hãy trả về mã trạng thái 404 hoặc 410 đối với các trang đã xoá vĩnh viễn. Google sẽ không quên một URL đã biết, nhưng mã trạng thái 404 là một tín hiệu hữu ích để cho Google biết rằng không nên thu thập lại dữ liệu trên URL đó. Tuy nhiên, những URL bị chặn sẽ nằm trong hàng đợi thu thập dữ liệu lâu hơn và sẽ được thu thập dữ liệu trở lại khi không còn bị chặn nữa.
- Loại bỏ lỗi soft 404. Google sẽ tiếp tục thu thập dữ liệu trên các trang có lỗi soft 404 và làm lãng phí hạn mức của bạn. Hãy kiểm tra báo cáo Phạm vi lập chỉ mục để phát hiện các lỗi soft 404.
- Thường xuyên cập nhật sơ đồ trang web. Google thường xuyên đọc sơ đồ trang web của bạn. Vì vậy, hãy đưa tất cả nội dung bạn muốn Google thu thập dữ liệu vào sơ đồ đó. Nếu trang web của bạn có nội dung mới cập nhật, bạn nên dùng thẻ <lastmod>.
- Tránh các chuỗi chuyển hướng dài vì những chuỗi này gây ảnh hưởng tiêu cực đến hoạt động thu thập dữ liệu.
Cải thiện trang của bạn để tải dễ dàng hơn. Khi có thể tải và kết xuất trang của bạn nhanh hơn, Google có thể đọc được thêm nhiều nội dung trên trang web của bạn.
Theo dõi hoạt động thập dữ liệu trên trang web. Hãy theo dõi xem trang web của bạn có gặp vấn đề về khả năng truy cập trong quá trình thu thập dữ liệu hay không, đồng thời tìm cách tăng hiệu suất của quá trình thu thập dữ liệu đó.

Theo dõi hoạt động thu thập dữ liệu và lập chỉ mục trang web của bạn

Sau đây là những bước chính để theo dõi hoạt động thu thập dữ liệu trên trang web của bạn:

Kiểm tra xem Googlebot có đang gặp vấn đề về khả năng truy cập trên trang web của bạn hay không.
Kiểm tra xem có trang nào bạn muốn Google thu thập dữ liệu nhưng vẫn chưa được thu thập dữ liệu hay không.
Kiểm tra xem có phần nào trong trang web cần được đẩy nhanh tốc độ thu thập dữ liệu hay không.
Cải thiện hiệu quả thu thập dữ liệu đối với trang web của bạn.
Xử lý tình trạng thu thập dữ liệu quá mức trên trang web của bạn.

Kiểm tra xem Googlebot có đang gặp vấn đề về khả năng truy cập trên trang web của bạn hay không

Việc cải thiện khả năng truy cập vào trang web không đảm bảo hạn mức thu thập dữ liệu của bạn sẽ tăng. Tốc độ thu thập dữ liệu hợp lý nhất được Google xác định dựa trên nhu cầu thu thập dữ liệu, như đã mô tả ở trên. Tuy nhiên, các sự cố về khả năng truy cập có thể khiến Google không thể thu thập dữ liệu trên trang web của bạn ở mức mà chúng tôi mong muốn.

Chẩn đoán:

Hãy dùng báo cáo Số liệu thống kê về hoạt động thu thập dữ liệu để xem lại quá trình Googlebot thu thập dữ liệu trên trang web của bạn. Báo cáo này cho biết thời điểm Google gặp sự cố về khả năng truy cập trang web. Nếu trang web của bạn báo lỗi hoặc xuất hiện cảnh báo về khả năng truy cập, hãy xem biểu đồ Khả năng truy cập vào máy chủ và tìm những thời điểm mà yêu cầu của Googlebot vượt quá đường giới hạn màu đỏ, nhấp vào biểu đồ để xem URL nào đang gặp vấn đề rồi cố gắng tìm mối tương quan giữa các URL đó với vấn đề trên trang web.

Ngoài ra, bạn cũng có thể dùng Công cụ kiểm tra URL để kiểm tra một số URL trên trang web của mình. Nếu công cụ này trả về cảnh báo Quá giới hạn tải máy chủ, điều đó nghĩa là Googlebot không thể thu thập dữ liệu tất cả URL phát hiện được từ trang web của bạn.

Xử lý:

Đọc tài liệu hướng dẫn về Báo cáo số liệu thống kê về hoạt động thu thập dữ liệu để tìm hiểu cách phát hiện và xử lý một số vấn đề về khả năng truy cập.
Chặn hoạt động thu thập dữ liệu trên một số trang nếu bạn không muốn chúng tôi thu thập dữ liệu trên những trang đó. (Xem cách quản lý các URL bạn đang có)
Tăng tốc độ tải và kết xuất trang. (Xem Cách cải thiện hiệu suất thu thập dữ liệu trên trang web của bạn)
Tăng công suất của máy chủ. Nếu có vẻ như Google đã liên tục thu thập dữ liệu trang web của bạn ở mức công suất phân phát tối đa của trang web, nhưng một số URL quan trọng của bạn vẫn chưa được thu thập dữ liệu hoặc chưa được cập nhật như mong muốn, thì có thể bạn phải bổ sung tài nguyên phân phát để cho phép Google yêu cầu thêm nhiều trang trong trang web của bạn. Hãy kiểm tra khả năng truy cập vào máy chủ theo thời gian trong báo cáo Số liệu thống kê về hoạt động thu thập dữ liệu để xem liệu tốc độ thu thập dữ liệu của Google có thường xuyên vượt quá giới hạn hay không. Nếu đúng là vậy, hãy tăng tài nguyên phân phát của bạn trong một tháng và xem số lượng yêu cầu thu thập dữ liệu có tăng trong cùng khoảng thời gian đó hay không.

Kiểm tra xem có phần nào trên trang web mà bạn muốn Google thu thập dữ liệu nhưng vẫn chưa được thu thập hay không

Google dành lượng thời gian cần thiết để lập chỉ mục toàn bộ nội dung chất lượng cao và có giá trị đối với người dùng mà Google tìm được trên trang web của bạn. Nếu bạn cho rằng Googlebot bỏ sót nội dung quan trọng, thì nguyên nhân có thể là do công cụ này không tìm thấy nội dung đó, nội dung bị chặn khỏi Google, hoặc trang web đang hạn chế quyền truy cập của Google (hoặc Google đang cố gắng không làm trang web quá tải).

Chẩn đoán:

Search Console không cung cấp nhật ký thu thập dữ liệu có thể lọc theo URL hay đường dẫn, nhưng bạn có thể tham khảo nhật ký trang web để xem Googlebot có thu thập dữ liệu một số URL cụ thể nào đó hay không. Điều này không liên quan đến việc Google có lập chỉ mục các URL đã thu thập dữ liệu hay không.

Hãy nhớ rằng đối với hầu hết các trang web, Google sẽ mất tối thiểu vài ngày để phát hiện thấy các trang mới. Hầu hết các URL của các trang web sẽ không được thu thập dữ liệu trong cùng ngày, ngoại trừ những trang web có nội dung bị ảnh hưởng lớn bởi yếu tố thời gian (chẳng hạn như trang web tin tức).

Xử lý:

Nếu bạn thêm trang mới vào trang web của mình và Google không thu thập dữ liệu các trang đó trong một khoảng thời gian hợp lý, thì nguyên nhân là do Google không biết về các trang đó, nội dung bị chặn, trang web đã đạt đến khả năng phân phát tối đa hoặc bạn đã hết hạn mức thu thập dữ liệu.

Cho Google biết về các trang mới của bạn: hãy cập nhật sơ đồ trang web để phản ánh các URL mới.
Kiểm tra các quy tắc trong tệp robots.txt để chắc chắn rằng bạn không vô tình chặn trang.
Xem lại những mức ưu tiên của bạn trong hoạt động thu thập dữ liệu (nghĩa là sử dụng hạn mức thu thập dữ liệu một cách hợp lý). Quản lý các URL bạn đang có và cải thiện hiệu suất thu thập dữ liệu trên trang web của bạn.
Kiểm tra để đảm bảo bạn vẫn còn công suất phân phát. Googlebot sẽ giảm mức thu thập dữ liệu nếu phát hiện thấy máy chủ của bạn gặp khó khăn khi phản hồi yêu cầu thu thập dữ liệu.

Xin lưu ý rằng các trang đã thu thập dữ liệu vẫn có thể không xuất hiện trong kết quả tìm kiếm nếu trang đó mang lại giá trị không đủ lớn, hoặc người dùng không có nhu cầu truy cập nội dung trên trang.

Kiểm tra xem nội dung cập nhật có được thu thập dữ liệu kịp thời hay không

Nếu chúng tôi chưa thu thập dữ liệu các trang mới hoặc vừa cập nhật trên trang web, thì việc này có thể là vì chúng tôi chưa thấy các trang đó hoặc chưa nhận ra rằng trang đã cập nhật. Sau đây là cách bạn có thể thông báo cho chúng tôi về nội dung cập nhật trên trang.

Xin lưu ý rằng Google luôn cố gắng kiểm tra và lập chỉ mục các trang trong một khoảng thời gian hợp lý. Đối với hầu hết trang web, thời gian này kéo dài từ 3 ngày trở lên. Sẽ rất khó để Google có thể lập chỉ mục các trang vào cùng ngày mà bạn xuất bản trang, trừ trường hợp trang của bạn là trang web tin tức hoặc chứa nội dung có giá trị cao và chịu ảnh hưởng của thời gian.

Chẩn đoán:

Hãy kiểm tra nhật ký trang web của bạn để xem thời điểm Googlebot thu thập dữ liệu các URL cụ thể.

Để biết ngày lập chỉ mục, hãy sử dụng Công cụ kiểm tra URL, hoặc dùng Google Tìm kiếm để tìm các URL mà bạn đã cập nhật.

Xử lý:

Nên làm:

Dùng một sơ đồ trang web Tin tức nếu trang web của bạn có nội dung tin tức.
Dùng thẻ <lastmod> trong sơ đồ trang web để cho biết thời điểm cập nhật một URL đã được lập chỉ mục.
Dùng một cấu trúc URL đơn giản để giúp Google tìm thấy các trang của bạn.
Cung cấp các đường liên kết <a> chuẩn mà Google có thể thu thập dữ liệu để giúp Google tìm thấy các trang của bạn.

Nên tránh:

Gửi cùng một sơ đồ trang web không có thay đổi gì nhiều lần trong ngày.
Nghĩ rằng Googlebot sẽ thu thập mọi dữ liệu trong sơ đồ trang web hoặc thu thập dữ liệu sơ đồ trang web ngay lập tức. Sơ đồ trang web là một cách hữu ích để gợi ý Googlebot thu thập dữ liệu, nhưng không phải là yêu cầu bắt buộc.
Đưa vào sơ đồ trang web những URL bạn không muốn xuất hiện trong các kết quả trên Tìm kiếm. Điều này có thể khiến bạn lãng phí hạn mức thu thập dữ liệu vào các trang mà bạn không muốn Google lập chỉ mục.

Cải thiện hiệu quả thu thập dữ liệu đối với trang web của bạn

Tăng tốc độ tải trang

Khả năng thu thập dữ liệu của Google bị giới hạn bởi băng thông, thời gian và khả năng truy cập của các phiên bản Googlebot. Nếu máy chủ của bạn phản hồi yêu cầu nhanh hơn, chúng tôi có thể thu thập dữ liệu nhiều trang hơn trên trang web của bạn. Dù vậy, Google chỉ muốn thu thập dữ liệu nội dung chất lượng cao. Do đó, nếu bạn chỉ tăng tốc độ của trang chất lượng thấp, thì Googlebot vẫn không thu thập dữ liệu thêm nhiều trang trên trang web của bạn. Ngược lại, nếu cho rằng có nội dung chất lượng cao bị bỏ sót trên trang web, thì chúng tôi có thể tăng hạn mức để thu thập dữ liệu nội dung đó.

Sau đây là cách bạn có thể tối ưu hoá các trang và tài nguyên cho hoạt động thu thập dữ liệu:

Dùng tệp robots.txt để ngăn Googlebot tải các tài nguyên lớn nhưng không quan trọng. Đảm bảo bạn chỉ chặn tài nguyên không quan trọng, tức là những tài nguyên không cần thiết để nắm được ý nghĩa của trang (chẳng hạn như hình ảnh trang trí).
Đảm bảo rằng các trang của bạn tải nhanh.
Hãy chú ý các chuỗi chuyển hướng dài, vì các chuỗi này gây ảnh hưởng tiêu cực đến hoạt động thu thập dữ liệu.
Thời gian để phản hồi yêu cầu của máy chủ và thời gian cần thiết để kết xuất trang đều quan trọng, bao gồm cả thời gian tải và chạy các tài nguyên được nhúng như hình ảnh và tập lệnh. Hãy chú ý đến các tài nguyên lớn hoặc chậm nhưng cần thiết để lập chỉ mục.

Chỉ định nội dung thay đổi bằng mã trạng thái HTTP

Thường thì Google hỗ trợ các tiêu đề If-Modified-Since và If-None-Match của yêu cầu HTTP đối với quy trình thu thập dữ liệu. Trình thu thập dữ liệu của Google không gửi tiêu đề trong tất cả lần thu thập dữ liệu; mà tuỳ thuộc vào trường hợp sử dụng của yêu cầu (ví dụ: thường thì AdsBot sẽ thiết lập tiêu đề If-Modified-Since và If-None-Match của yêu cầu HTTP nhiều hơn). Nếu trình thu thập dữ liệu của chúng tôi gửi tiêu đề If-Modified-Since, thì giá trị của tiêu đề đó sẽ là ngày và giờ của lần gần đây nhất mà Google thu thập dữ liệu nội dung này. Dựa trên giá trị đó, máy chủ có thể chọn trả về một mã trạng thái HTTP 304 (Not Modified) không có nội dung phản hồi. Trong trường hợp đó, Google sẽ sử dụng lại phiên bản đã thu thập dữ liệu lần trước của nội dung. Nếu nội dung mới hơn ngày mà trình thu thập dữ liệu chỉ định trong tiêu đề If-Modified-Since, máy chủ có thể trả về một mã trạng thái HTTP 200 (OK) cùng với nội dung phản hồi.

Ngoài các tiêu đề của yêu cầu, bạn có thể gửi mã trạng thái HTTP 304 (Not Modified) và không có nội dung phản hồi cho bất kỳ yêu cầu nào của Googlebot nếu nội dung không thay đổi kể từ lần gần nhất Googlebot truy cập URL đó. Việc này sẽ giúp bạn tiết kiệm thời gian và tài nguyên xử lý cho máy chủ, qua đó có thể cải thiện hiệu suất thu thập dữ liệu.

Ẩn những URL mà bạn không muốn xuất hiện trong kết quả tìm kiếm

Việc lãng phí tài nguyên máy chủ vào các trang không cần thiết có thể làm giảm khả năng thu thập dữ liệu trên các trang mà bạn thấy quan trọng, đồng thời, có thể làm chậm quá trình khám phá nội dung mới hoặc nội dung vừa cập nhật trên trang web.

Việc đưa vào trang web nhiều URL bạn không muốn Google Tìm kiếm thu thập dữ liệu có thể ảnh hưởng tiêu cực đến hoạt động thu thập dữ liệu và lập chỉ mục trang web. Thông thường, những URL này thuộc các loại sau:

Điều hướng đa chiều và giá trị nhận dạng phiên: URL điều hướng đa chiều thường là nội dung trùng lặp trên trang web. Giá trị nhận dạng phiên và các tham số URL khác chỉ có chức năng sắp xếp hoặc lọc các trang không cung cấp nội dung mới. Dùng tệp robots.txt để chặn các trang điều hướng đa chiều.
Nội dung trùng lặp: Hãy giúp Google xác định nội dung trùng lặp để tránh thu thập những dữ liệu không cần thiết.
Trang soft 404: Trả về mã 404 khi một trang không còn tồn tại.
Trang bị xâm nhập: Đừng quên kiểm tra báo cáo Vấn đề bảo mật và sửa hoặc xoá những trang bị xâm nhập mà bạn tìm được.
Không gian vô hạn và proxy: Hãy dùng tệp robots.txt để chặn hoạt động thu thập dữ liệu trên không gian vô hạn và proxy.
Nội dung rác và chất lượng thấp: Hiển nhiên là bạn nên tránh những nội dung như vậy.
Trang giỏ hàng, trang cuộn vô hạn và các trang thao tác (chẳng hạn như trang "đăng ký" hoặc "mua ngay").

Nên làm:

Dùng tệp robots.txt nếu bạn không muốn Google thu thập dữ liệu trên một tài nguyên hoặc một trang.
Nếu nhiều trang sử dụng cùng một tài nguyên (chẳng hạn như hình ảnh hoặc tệp JavaScript dùng chung), hãy tham chiếu đến tài nguyên từ cùng một URL trong mỗi trang. Khi đó, Google có thể lưu tài nguyên vào bộ nhớ đệm và sử dụng lại mà không cần yêu cầu tài nguyên đó nhiều lần.

Nên tránh:

Đừng thường xuyên thêm hoặc xoá các trang hoặc thư mục khỏi tệp robots.txt như một cách phân bổ lại hạn mức thu thập dữ liệu cho trang web của bạn. Chỉ dùng tệp robots.txt cho các trang hoặc tài nguyên mà bạn không muốn xuất hiện trên Google trong thời gian dài.
Đừng xoay vòng sơ đồ trang web hoặc sử dụng cơ chế ẩn tạm thời khác để phân bổ lại hạn mức.

Xử lý tình trạng thu thập dữ liệu quá mức trên trang web của bạn (trường hợp khẩn cấp)

Googlebot có các thuật toán để tránh tình trạng các yêu cầu thu thập dữ liệu gây quá tải cho trang web. Tuy nhiên, nếu nhận thấy Googlebot đang làm quá tải trang web của mình thì bạn có thể thử một vài cách sau đây.

Chẩn đoán:

Theo dõi máy chủ của bạn để kiểm tra xem Googlebot có gửi quá nhiều yêu cầu đến trang web hay không.

Xử lý:

Trong trường hợp cấp bách, bạn nên thực hiện những bước sau để giảm tốc độ thu thập dữ liệu của Googlebot:

Tạm thời trả về mã trạng thái phản hồi HTTP 503 hoặc 429 cho các yêu cầu của Googlebot khi máy chủ của bạn bị quá tải. Googlebot sẽ thử thu thập lại dữ liệu trên những URL này sau khoảng 2 ngày. Xin lưu ý rằng việc trả lại mã "không thể truy cập" trong vài ngày trở lên sẽ khiến Google giảm hoặc ngừng thu thập dữ liệu URL vĩnh viễn trên trang web của bạn. Vì vậy, hãy thực hiện thêm những bước sau đây.
Khi tốc độ thu thập dữ liệu bị giảm, hãy ngừng trả về mã trạng thái phản hồi HTTP 503 hoặc 429 đối với các yêu cầu thu thập dữ liệu; việc trả lại 503 hoặc 429 trong hơn 2 ngày sẽ khiến Google loại bỏ những URL đó khỏi chỉ mục.
Theo dõi hoạt động thu thập dữ liệu và công suất của máy chủ lưu trữ theo thời gian.
Nếu trình thu thập dữ liệu gây ra vấn đề là một trong những trình thu thập dữ liệu AdsBot, thì vấn đề có thể là do bạn đã tạo các mục tiêu Quảng cáo tìm kiếm động cho trang web của mình và Google đang cố gắng thu thập dữ liệu trên những mục tiêu đó. Trong trường hợp này, Google sẽ thu thập dữ liệu 3 tuần một lần. Nếu máy chủ của bạn không có khả năng xử lý những lần thu thập dữ liệu này, bạn nên giới hạn mục tiêu quảng cáo hoặc tăng công suất phân phát.

Những điều lầm tưởng và sự thật về hoạt động thu thập dữ liệu

Hãy kiểm tra kiến thức của bạn về cách Google thu thập dữ liệu và lập chỉ mục các trang web.

Tôi có thể nén sơ đồ trang web để tăng hạn mức thu thập dữ liệu.

Đúng

Sai

Không. Google vẫn phải tìm nạp sơ đồ trang web đã nén từ máy chủ, do đó bạn không giúp chúng tôi tiết kiệm được nhiều thời gian hay công sức bằng việc gửi sơ đồ trang web đã nén.

Google ưu tiên nội dung mới, vì vậy tôi nên liên tục thay đổi trang của mình.

Đúng

Sai

Nội dung được xếp hạng theo chất lượng, bất kể thời điểm đăng tải. Hãy tạo và cập nhật nội dung nếu bạn thấy cần, nhưng việc cố tình làm mới các trang bằng cách thực hiện các thay đổi không quan trọng và cập nhật ngày tháng của trang sẽ không có tác dụng gì.

Google ưu tiên nội dung cũ (vì có nhiều giá trị) hơn là nội dung mới.

Đúng

Sai

Một trang hữu ích sẽ vẫn hữu ích dù trang đó mới hay cũ.

Google ưu tiên các URL đơn thuần và không thu thập dữ liệu các tham số truy vấn.

Đúng

Sai

Chúng tôi có thể thu thập dữ liệu các tham số.

Trang của bạn tải và kết xuất càng nhanh, thì Google có thể thu thập dữ liệu càng nhiều nội dung.

Đúng

Đúng, vì tài nguyên của chúng tôi bị giới hạn về cả thời gian và số lượng bot thu thập dữ liệu. Trong một khoảng thời gian nhất định, bạn phân phát cho chúng tôi càng nhiều trang thì chúng tôi có thể thu thập dữ liệu càng nhiều trang. Tuy nhiên, chúng tôi có thể dành nhiều thời gian để thu thập dữ liệu trên các trang web có thông tin quan trọng hơn, ngay cả khi mất nhiều thời gian hơn. Việc bạn tăng tốc độ của trang để hỗ trợ người dùng sẽ quan trọng hơn là chỉ tăng tốc độ của trang để tăng mức độ thu thập dữ liệu. Bạn có thể giúp Google thu thập dữ liệu bằng một cách đơn giản hơn, đó là cung cấp đúng nội dung cần thu thập thay vì để Google thu thập dữ liệu toàn bộ nội dung. Hãy lưu ý rằng hoạt động thu thập dữ liệu trang web bao gồm cả hoạt động truy xuất và kết xuất nội dung. Thời gian dành cho hoạt động kết xuất trang cũng quan trọng không kém thời gian dành cho hoạt động yêu cầu trang. Vì vậy, tăng tốc độ kết xuất cho các trang cũng làm tăng tốc độ thu thập dữ liệu.

Sai

Các trang web nhỏ không được Google thu thập dữ liệu thường xuyên như các trang web lớn.

Đúng

Sai

Nếu trang web có nội dung quan trọng và thay đổi thường xuyên, thì chúng tôi sẽ thu thập dữ liệu trang web đó thường xuyên, bất kể kích thước.

Nội dung của bạn càng gần trang chủ thì Google càng thấy nội dung đó quan trọng.

Đúng

Đúng một phần

Trang chủ của trang web thường là trang quan trọng nhất trên trang web. Do đó, những trang được liên kết trực tiếp tới trang chủ có thể được coi trọng hơn và được thu thập dữ liệu thường xuyên hơn. Tuy nhiên, điều này không có nghĩa là những trang như vậy sẽ có thứ hạng cao hơn các trang khác trên trang web của bạn.

Sai

Việc tạo phiên bản URL mới là một cách hữu hiệu để khuyến khích Google quay lại thu thập dữ liệu trên các trang của tôi.

Đúng

Đúng một phần

Việc tạo thêm phiên bản URL cho trang có thể hữu ích trong việc khuyến khích Google sớm thu thập dữ liệu trở lại. Tuy nhiên, việc này thường không cần thiết và sẽ làm lãng phí tài nguyên thu thập dữ liệu nếu trang đó không thực sự thay đổi. Nếu muốn tạo thêm phiên bản URL để thông báo nội dung mới, bạn chỉ nên thay đổi URL khi nội dung trên trang có thay đổi quan trọng.

Sai

Tốc độ trang web và các lỗi ảnh hưởng đến hạn mức thu thập dữ liệu của tôi.

Đúng

Việc cải thiện tốc độ trang web sẽ cải thiện trải nghiệm người dùng, đồng thời làm tăng tốc độ thu thập dữ liệu. Đối với Googlebot, trang web có tốc độ nhanh là dấu hiệu cho thấy máy chủ hoạt động tốt, nhờ vậy, Googlebot có thể thu thập được nhiều nội dung hơn trên cùng một số lượng kết nối. Mặt khác, một lượng lớn mã trạng thái phản hồi HTTP 5xx (lỗi máy chủ) hoặc lỗi hết thời gian chờ kết nối lại báo hiệu điều ngược lại và làm chậm quá trình thu thập dữ liệu. Bạn nên chú ý đến báo cáo Số liệu thống kê về hoạt động thu thập dữ liệu trên Search Console và hạn chế số lượng lỗi máy chủ.

Sai

Quá trình thu thập dữ liệu là một yếu tố xếp hạng.

Đúng

Sai

Việc cải thiện tốc độ thu thập dữ liệu không nhất thiết sẽ dẫn đến vị trí tốt hơn trong các kết quả tìm kiếm. Google sử dụng nhiều tín hiệu để xếp hạng kết quả. Mặc dù Google cần thu thập dữ liệu để đưa một trang vào kết quả tìm kiếm, nhưng hoạt động này không phải là tín hiệu xếp hạng.

URL thay thế và nội dung dạng nhúng có được tính vào hạn mức thu thập dữ liệu hay không?

Đúng

Nhìn chung, mọi URL mà Googlebot thu thập dữ liệu đều sẽ được tính vào hạn mức thu thập dữ liệu của trang web. Các URL thay thế (như AMP hoặc hreflang) cũng như nội dung dạng nhúng (như CSS và JavaScript bao gồm cả các lượt tìm nạp XHR) đều có thể cần thu thập dữ liệu và sẽ làm tiêu tốn hạn mức thu thập dữ liệu của trang web.

Sai

Tôi có thể điều khiển Googlebot bằng lệnh "crawl-delay".

Đúng

Sai

Googlebot không xử lý quy tắc "crawl-delay" không phải tiêu chuẩn của tệp robots.txt.

Quy tắc nofollow có ảnh hưởng đến hạn mức thu thập dữ liệu.

Đúng

Đúng một phần

Mọi URL được thu thập dữ liệu đều sẽ ảnh hưởng đến hạn mức thu thập dữ liệu. Vì vậy, ngay cả khi trang của bạn đánh dấu một URL là nofollow, Google vẫn sẽ thu thập dữ liệu URL đó nếu một trang khác trên trang web của bạn (hay bất kỳ trang nào khác trên web) không gắn nhãn nofollow cho đường liên kết.

Sai

Tôi có thể sử dụng noindex để kiểm soát hạn mức thu thập dữ liệu.

Đúng

Đúng một phần

Mọi URL được thu thập dữ liệu đều sẽ ảnh hưởng đến hạn mức thu thập dữ liệu và Google phải thu thập dữ liệu trên trang đó để tìm quy tắc noindex.

Tuy nhiên, noindex sẽ giúp bạn chặn việc đưa trang vào chỉ mục. Nếu bạn muốn đảm bảo rằng những trang đó không xuất hiện trong chỉ mục của Google, hãy tiếp tục sử dụng noindex và đừng lo về hạn mức thu thập dữ liệu. Ngoài ra, xin lưu ý rằng nếu bạn xoá URL khỏi chỉ mục của Google bằng noindex hoặc cách khác, thì Googlebot có thể tập trung vào các URL khác trên trang web của bạn, tức lànoindex có thể gián tiếp giải phóng một lượng hạn mức thu thập dữ liệu cho trang web của bạn về lâu dài.

Sai

Các trang phân phát mã trạng thái HTTP 4xx đang làm lãng phí hạn mức thu thập dữ liệu.

Đúng

Sai

Các trang phân phát mã trạng thái 4xx (ngoại trừ 429) không gây lãng phí hạn mức thu thập dữ liệu. Google đã cố gắng thu thập dữ liệu trên trang, nhưng nhận được một mã trạng thái và không có nội dung nào khác.