Ôn lại kiến thức về robot: Giao thức loại trừ cho robot sẵn sàng cho tương lai

Thứ Sáu, ngày 28 tháng 3 năm 2025

Trong các bài đăng trước về Giao thức loại trừ cho robot (REP), chúng ta đã khám phá những việc bạn có thể làm với các thành phần của giao thức này, cụ thể là tệp robots.txt và các chế độ kiểm soát cấp URI. Trong bài đăng này, chúng ta sẽ khám phá cách thức mà REP có thể góp phần hỗ trợ trong mối quan hệ không ngừng phát triển giữa ứng dụng tự động và web của con người.

REP (cụ thể là tệp robots.txt) đã trở thành một tiêu chuẩn vào năm 2022 dưới tên gọi là RFC9309. Tuy nhiên, tệp này đã thực hiện được khối lượng công việc đáng kể trước khi chuẩn hoá: trải qua thời gian kiểm chứng từ năm 1994 đến năm 2022, tệp này trở nên nổi tiếng đến mức được hàng tỷ máy chủ lưu trữ và hầu hết nhà điều hành trình thu thập thông tin lớn sử dụng (ngoại trừ các trình thu thập thông tin đối nghịch như trình quét phần mềm độc hại). Đây là một giải pháp đơn giản và tinh tế để thể hiện các lựa chọn ưu tiên thông qua cú pháp đơn giản mà linh hoạt. Trong 25 năm tồn tại, hầu như không cần phải phát triển tệp này nhiều so với hình thức ban đầu, chỉ có một quy tắc allow nếu chúng ta chỉ xét đến các quy tắc được nhiều trình thu thập thông tin hỗ trợ rộng rãi.

Điều đó không đồng nghĩa với việc không có quy tắc nào khác; mọi nhà điều hành trình thu thập thông tin đều có thể đưa ra quy tắc riêng. Ví dụ: các quy tắc như "clean-param" và "crawl-delay" không thuộc RFC9309, nhưng một số công cụ tìm kiếm lại hỗ trợ các quy tắc này (mặc dù Google Tìm kiếm không hỗ trợ). Quy tắc "sitemap" (không thuộc RFC9309) được tất cả công cụ tìm kiếm lớn hỗ trợ. Nếu được hỗ trợ đầy đủ, quy tắc này có thể trở thành quy tắc chính thức trong REP.

Vì thực tế là REP có thể được "cập nhật". Đây là một giao thức được hỗ trợ rộng rãi và sẽ phát triển đồng hành cùng Internet. Không phải là hoàn toàn không có cách để thay đổi REP, nhưng cũng không dễ thực hiện việc này. Việc thay đổi REP không dễ dàng chính là vì REP được hỗ trợ rộng rãi. Giống như bất cứ thay đổi nào đối với một tiêu chuẩn, phải có sự đồng thuận rằng thay đổi đó sẽ mang lại lợi ích cho phần lớn người dùng giao thức, cả ở phía nhà xuất bản và nhà điều hành trình thu thập thông tin.

Do tính đơn giản và được sử dụng rộng rãi, REP là một ứng viên tuyệt vời để đưa ra các lựa chọn ưu tiên mới về việc thu thập dữ liệu: chẳng hạn như hàng tỷ nhà xuất bản đã quen thuộc với tệp robots.txt và cú pháp của tệp này, vì vậy việc thay đổi tệp này sẽ trở nên bình thường hơn đối với họ. Mặt khác, các nhà điều hành trình thu thập thông tin đã có các trình phân tích cú pháp và trình so khớp mạnh mẽ, được kiểm thử kỹ lưỡng (và Google cũng đưa ra mã nguồn mở của chính trình phân tích cú pháp tệp robots.txt của riêng mình), nghĩa là rất có thể các quy tắc mới sẽ không gặp phải vấn đề về việc phân tích cú pháp.

Điều này cũng áp dụng cho các nội dung mở rộng của REP ở cấp URI, như tiêu đề HTTP X-robots-tag và thẻ meta tương ứng. Nếu cần một quy tắc mới để đưa ra các lựa chọn ưu tiên về việc chọn không thu thập dữ liệu, có thể dễ dàng mở rộng các quy tắc đó. Nhưng làm cách nào?

Điều quan trọng nhất mà bạn (dưới vai trò là độc giả) có thể làm là công khai nói về ý tưởng của mình và thu hút nhiều người ủng hộ ý tưởng đó. Vì REP là một tiêu chuẩn công khai, nên không một pháp nhân nào có thể đơn phương thay đổi tiêu chuẩn này; chắc chắn là họ có thể triển khai hỗ trợ cho một tính năng mới của riêng họ, nhưng nội dung đó sẽ không trở thành TIÊU CHUẨN. Tuy nhiên, việc thảo luận và thể hiện cho cả hệ sinh thái (cả các nhà điều hành trình thu thập thông tin và hệ sinh thái phát hành) rằng thay đổi đó mang lại lợi ích cho mọi người sẽ thúc đẩy sự đồng thuận và mở đường cho việc cập nhật tiêu chuẩn.

Tương tự, nếu giao thức này còn gì thiếu sót, chúng ta hãy cùng thảo luận công khai. sitemap đã trở thành một quy tắc được hỗ trợ rộng rãi trong tệp robots.txt vì quy tắc này hữu ích cho cả nhà sáng tạo nội dung và công cụ tìm kiếm, từ đó mở đường cho việc áp dụng nội dung mở rộng này. Nếu bạn có ý tưởng mới về một quy tắc, hãy tham khảo người dùng tệp robots.txt và nhà sáng tạo về ý tưởng đó, đồng thời phối hợp cùng họ để giải quyết các vấn đề tiềm ẩn (và có thể xảy ra) mà họ nêu ra, sau đó viết một đề xuất.

Nếu động lực của bạn là cống hiến vì lợi ích chung, thì nỗ lực đó hoàn toàn xứng đáng.


Hãy xem các phần còn lại của loạt bài Ôn lại kiến thức về robot: