Googlebot sẽ sớm hỗ trợ HTTP/2

Thứ Năm, ngày 17 tháng 9 năm 2020

Bắt đầu từ tháng 11 năm 2020, Googlebot sẽ bắt đầu thu thập dữ liệu trên một số trang web qua HTTP/2.

Kể từ khi các trình duyệt chính thống bắt đầu hỗ trợ phiên bản sửa đổi quan trọng tiếp theo của HTTP, HTTP/2 hoặc gọi ngắn gọn là h2, nhiều chuyên gia web đã hỏi chúng tôi liệu Googlebot có thể thu thập dữ liệu qua phiên bản mới hơn, hiện đại hơn của giao thức này hay không.

Hôm nay, chúng tôi xin công bố rằng kể từ giữa tháng 11 năm 2020, Googlebot sẽ hỗ trợ việc thu thập dữ liệu qua HTTP/2 cho một số trang web.

HTTP/2 là gì

Như chúng tôi đã nói, đây là phiên bản sửa đổi quan trọng tiếp theo của HTTP, giao thức mà Internet sử dụng chủ yếu để truyền dữ liệu. HTTP/2 mạnh mẽ hơn, hiệu quả hơn và nhanh hơn rất nhiều so với phiên bản trước đó do kiến trúc và các tính năng được triển khai cho ứng dụng khách (ví dụ: trình duyệt của bạn) và máy chủ. Nếu bạn muốn đọc thêm về giao thức này, chúng tôi có một bài viết chi tiết về chủ đề HTTP/2.

Lý do có sự thay đổi này

Nói chung, chúng tôi hy vọng thay đổi này sẽ giúp việc thu thập dữ liệu hiệu quả hơn về mặt sử dụng tài nguyên máy chủ. Với h2, Googlebot có thể mở một kết nối TCP với máy chủ và chuyển đồng thời nhiều tệp qua kết nối đó một cách hiệu quả thay vì yêu cầu nhiều kết nối. Số kết nối phải mở càng ít thì máy chủ và Googlebot càng tốn ít tài nguyên hơn để thu thập dữ liệu.

Cách hoạt động

Trong giai đoạn đầu, chúng tôi sẽ thu thập dữ liệu của một số ít trang web qua h2, sau đó sẽ dần hỗ trợ thêm giao thức này trên những trang web khác mà có thể hưởng lợi từ những tính năng được hỗ trợ lúc đầu, như tính năng ghép yêu cầu.

Googlebot quyết định trang web nào cần thu thập dữ liệu qua h2 dựa trên việc trang web đó có hỗ trợ h2 hay không và liệu việc thu thập dữ liệu qua HTTP/2 có mang lại lợi ích cho trang web đó và Googlebot hay không. Nếu máy chủ của bạn hỗ trợ h2 và Googlebot đã thu thập được nhiều dữ liệu trên trang web của bạn, thì có thể bạn đã đủ điều kiện nâng cấp kết nối và không phải làm gì thêm.

Nếu máy chủ của bạn vẫn chỉ hỗ trợ HTTP/1.1 thì cũng không vấn đề gì. Việc thu thập dữ liệu qua giao thức này không chịu hạn chế gì rõ ràng; số lượng và chất lượng của quá trình thu thập dữ liệu vẫn sẽ giữ nguyên.

Cách chọn không tham gia

Các thử nghiệm sơ bộ của chúng tôi không cho thấy vấn đề nào hoặc tác động tiêu cực nào đối với việc lập chỉ mục, nhưng chúng tôi hiểu rằng bạn có thể có nhiều lý do để không muốn trang web của mình được thu thập dữ liệu qua HTTP/2. Bạn có thể làm việc đó bằng cách hướng dẫn máy chủ phản hồi bằng mã trạng thái HTTP 421 khi Googlebot cố thu thập dữ liệu trang web của bạn qua h2. Nếu cách đó không khả thi tại thời điểm này, bạn có thể gửi thông báo cho nhóm Googlebot (tuy nhiên, giải pháp này chỉ là tạm thời).

Nếu bạn có thắc mắc gì thêm về Googlebot và HTTP/2, hãy xem những câu hỏi mà bạn có thể muốn hỏi. Nếu bạn không tìm thấy câu hỏi của mình, hãy liên hệ với chúng tôi qua Twitterdiễn đàn trợ giúp.

Những câu hỏi mà bạn có thể muốn hỏi

Tại sao bây giờ Google lại nâng cấp Googlebot?

Phần mềm chúng tôi sử dụng để Googlebot có thể thu thập dữ liệu qua h2 đã hoàn thiện và có thể đưa vào sử dụng chính thức.

Tôi có cần phải nâng cấp máy chủ của mình càng sớm càng tốt không?

Điều đó thực sự tùy thuộc vào bạn. Tuy nhiên, chúng tôi sẽ chỉ chuyển sang thu thập dữ liệu qua h2 trên các trang web hỗ trợ và thực sự hưởng lợi từ giao thức này. Nếu việc thu thập dữ liệu qua h2 không mang lại lợi ích rõ ràng, Googlebot vẫn sẽ tiếp tục thu thập dữ liệu qua h1.

Làm cách nào để kiểm tra xem trang web của tôi có hỗ trợ h2 hay không?

Cloudflare có một bài đăng trên blog nêu rất nhiều phương pháp để kiểm tra xem một trang web có hỗ trợ h2 hay không.

Làm cách nào để nâng cấp trang web của tôi lên h2?

Điều này thực sự tùy thuộc vào máy chủ của bạn. Bạn nên trao đổi với quản trị viên máy chủ hoặc nhà cung cấp dịch vụ lưu trữ của mình.

Làm cách nào để thuyết phục Googlebot thu thập dữ liệu qua h2 trên trang web của tôi?

Bạn không thể làm điều đó. Nếu trang web của bạn hỗ trợ trang h2, thì trang sẽ đủ điều kiện được thu thập dữ liệu qua h2, nhưng chỉ khi việc đó có lợi cho cả trang web và Googlebot. Ví dụ: nếu việc thu thập dữ liệu qua h2 không giúp tiết kiệm đáng kể tài nguyên, chúng tôi sẽ tiếp tục thu thập dữ liệu trên trang web qua HTTP/1.1.

Tại sao Google không dùng h2 để thu thập dữ liệu mọi trang web hỗ trợ h2?

Qua kết quả đánh giá, chúng tôi nhận thấy việc thu thập dữ liệu qua h2 không mang lại nhiều lợi ích cho một số trang web (ví dụ: những trang có số lượng qps (truy vấn mỗi giây) rất thấp). Do đó, chúng tôi quyết định chỉ chuyển sang thu thập dữ liệu qua h2 khi việc đó mang lại lợi ích rõ ràng cho trang web. Chúng tôi sẽ tiếp tục đánh giá sự gia tăng về hiệu suất và có thể thay đổi tiêu chí cho việc chuyển sang h2 trong tương lai.

Làm cách nào để biết liệu trang web của tôi có được thu thập dữ liệu qua h2 hay không?

Khi một trang web đủ điều kiện được thu thập dữ liệu qua h2, những chủ sở hữu trang đã đăng ký trong Search Console sẽ nhận được thông báo cho biết rằng sau này Google có thể thu thập một phần dữ liệu qua h2 đối với trang web đó Bạn cũng có thể kiểm tra nhật ký máy chủ của mình (ví dụ: trong tệp access.log nếu trang web của bạn chạy trên Apache).

Googlebot hỗ trợ các tính năng h2 nào?

Googlebot hỗ trợ hầu hết các tính năng đi kèm với h2. Một số tính năng như công nghệ đẩy của máy chủ (có thể có lợi cho việc kết xuất) vẫn đang trong giai đoạn đánh giá.

Googlebot có hỗ trợ HTTP/2 văn bản thuần túy (h2c) không?

Không. Trang web của bạn phải sử dụng HTTPS và hỗ trợ HTTP/2 thì mới đủ điều kiện được thu thập dữ liệu qua HTTP/2. Điều này tương đồng với cách xử lý của các trình duyệt hiện đại.

Googlebot có sử dụng tiện ích ALPN để quyết định phiên bản giao thức sẽ dùng để thu thập dữ liệu không?

Tiện ích Thương lượng giao thức lớp ứng dụng (ALPN) sẽ chỉ được sử dụng cho các trang web đã chọn thu thập dữ liệu qua h2 và giao thức duy nhất được chấp nhận cho phản hồi sẽ là h2. Nếu máy chủ phản hồi trong quá trình giao thức TLS bắt tay với một phiên bản giao thức không phải h2, thì Googlebot sẽ dừng và thu thập dữ liệu lần khác qua HTTP/1.1.

Các tính năng h2 sẽ giúp ích cho việc thu thập dữ liệu như thế nào?

Sau đây là một số lợi ích nổi bật nhất của h2:

  • Gửi đồng thời nhiều tệp: Số kết nối TCP cần mở giảm đi nên lượng tài nguyên tiêu tốn cũng sẽ giảm.
  • Nén tiêu đề: Giảm kích thước tiêu đề HTTP một cách đáng kể để tiết kiệm tài nguyên.
  • Công nghệ đẩy của máy chủ: Tính năng này chưa được kích hoạt vì vẫn đang trong giai đoạn đánh giá. Công nghệ này có thể có lợi cho việc kết xuất, nhưng chúng tôi hiện chưa có nội dung cụ thể nào để trình bày.

Nếu bạn muốn biết thêm về các tính năng cụ thể của h2 và tác động của chúng đến việc thu thập dữ liệu, hãy hỏi chúng tôi trên Twitter.

Googlebot có thu thập dữ liệu được nhiều hơn hoặc nhanh hơn qua h2 không?

Lợi ích chính của h2 là tiết kiệm tài nguyên, cho cả máy chủ và Googlebot. Việc chúng tôi thu thập dữ liệu qua h1 hay h2 sẽ không ảnh hưởng đến kết quả lập chỉ mục trang web của bạn và do đó không ảnh hưởng đến lượng dữ liệu chúng tôi dự định thu thập trên trang web của bạn.

Có lợi ích nào đối với thứ hạng khi một trang web được thu thập dữ liệu qua h2 không?

Không.