Trình phân tích cú pháp robots.txt của Google hiện là nguồn mở

Thứ Hai, ngày 1 tháng 7 năm 2019

Trong 25 năm, Giao thức loại trừ cho robot (REP) chỉ là một tiêu chuẩn bất thành văn. Điều này đôi khi gây ra tình huống rắc rối khó chịu. Một mặt, các quản trị viên trang web không chắc mình phải làm gì trong các trường hợp hiếm gặp, chẳng hạn như khi trình chỉnh sửa văn bản của họ đưa ký tự BOM vào tệp robots.txt. Mặt khác, các nhà phát triển công cụ và trình thu thập dữ liệu cũng gặp bối rối; ví dụ: họ nên làm gì với tệp robots.txt có kích thước hàng trăm megabyte?

Googlebot mở hộp một trang web

Hôm nay, chúng tôi xin thông báo về việc tiên phong thúc đẩy REP trở thành một tiêu chuẩn trên Internet. Đây là một bước tiến quan trọng nhưng cũng đặt ra thêm nhiệm vụ cho các nhà phát triển có thực hiện phân tích cú pháp tệp robots.txt.

Chúng tôi luôn sẵn sàng trợ giúp: chúng tôi đã tạo nguồn mở cho thư viện C++ mà hệ thống sản xuất của chúng tôi sử dụng để phân tích cú pháp và so khớp các quy tắc trong tệp robots.txt. Thư viện này đã tồn tại khoảng 20 năm và chứa các đoạn mã được viết vào những năm 90. Kể từ đó, thư viện đã phát triển; chúng tôi cũng học được rất nhiều về cách quản trị viên trang web viết tệp robots.txt và các trường hợp hiếm gặp mà chúng tôi phải tính đến, đồng thời bổ sung những hiểu biết góp nhặt trong nhiều năm qua vào bản thảo Internet sao cho phù hợp.

Chúng tôi cũng cung cấp công cụ kiểm tra vào gói nguồn mở để giúp bạn kiểm tra một số quy tắc. Sau khi tạo, cách sử dụng sẽ rất đơn giản:

robots_main <robots.txt content> <user_agent> <url>

Nếu bạn muốn xem thư viện này, hãy truy cập kho lưu trữ GitHub của chúng tôi để tìm trình phân tích cú pháp robots.txt. Chúng tôi rất mong được thấy những thành quả mà bạn có thể xây dựng thông qua thư viện này! Nếu bạn xây dựng nội dung bằng thư viện, hãy gửi bình luận cho chúng tôi trên Twitter và nếu bạn có bình luận hoặc thắc mắc về thư viện, hãy liên hệ với chúng tôi trên GitHub (GitHub).