robots.txt không hợp lệ

Tệp robots.txt cho các công cụ tìm kiếm biết chúng có thể thu thập dữ liệu những trang nào trên trang web của bạn. Cấu hình robots.txt không hợp lệ có thể gây ra 2 loại sự cố:

  • Phương thức này có thể ngăn công cụ tìm kiếm thu thập dữ liệu các trang công khai, khiến nội dung của bạn hiển thị ít thường xuyên hơn trong kết quả tìm kiếm.
  • Cách này có thể khiến công cụ tìm kiếm thu thập dữ liệu các trang mà bạn không muốn chúng xuất hiện trong kết quả tìm kiếm.

Cách quy trình kiểm tra Lighthouse robots.txt không thành công

Lighthouse gắn cờ tệp robots.txt không hợp lệ:

Kiểm tra Lighthouse cho thấy tệp robots.txt không hợp lệ

Mở rộng nội dung kiểm tra robots.txt không hợp lệ trong báo cáo của bạn để tìm hiểu xem robots.txt của bạn gặp vấn đề gì.

Các lỗi phổ biến bao gồm:

  • No user-agent specified
  • Pattern should either be empty, start with "/" or "*"
  • Unknown directive
  • Invalid sitemap URL
  • $ should only be used at the end of the pattern

Lighthouse không kiểm tra để đảm bảo rằng tệp robots.txt của bạn nằm ở đúng vị trí. Để hoạt động chính xác, tệp phải nằm trong thư mục gốc của miền hoặc miền con của bạn.

Cách khắc phục vấn đề liên quan đến robots.txt

Đảm bảo robots.txt không trả về mã trạng thái HTTP 5XX

Nếu máy chủ của bạn trả về lỗi máy chủ (mã trạng thái HTTP trong 500 giây) đối với robots.txt, thì công cụ tìm kiếm sẽ không biết nên thu thập dữ liệu trên trang nào. Chúng có thể ngừng thu thập dữ liệu trên toàn bộ trang web của bạn, từ đó sẽ ngăn Google lập chỉ mục nội dung mới.

Để kiểm tra mã trạng thái HTTP, hãy mở robots.txt trong Chrome rồi kiểm tra yêu cầu trong Công cụ của Chrome cho nhà phát triển.

Giữ cho robots.txt nhỏ hơn 500 KiB

Công cụ tìm kiếm có thể ngừng xử lý robots.txt giữa chừng nếu tệp lớn hơn 500 KiB. Điều này có thể khiến công cụ tìm kiếm nhầm lẫn, dẫn đến việc thu thập dữ liệu trang web của bạn không chính xác.

Để giữ cho robots.txt có kích thước nhỏ, hãy hạn chế tập trung vào các trang bị loại trừ riêng lẻ và tập trung nhiều hơn vào các mẫu rộng hơn. Ví dụ: nếu bạn cần chặn hoạt động thu thập dữ liệu trên các tệp PDF, đừng cho phép từng tệp riêng lẻ. Thay vào đó, hãy không cho phép tất cả URL chứa .pdf bằng cách dùng disallow: /*.pdf.

Khắc phục mọi lỗi định dạng

  • Chỉ được phép sử dụng các dòng, nhận xét và lệnh trống khớp với định dạng "name: value" trong robots.txt.
  • Đảm bảo các giá trị allowdisallow đang trống hoặc bắt đầu bằng / hoặc *.
  • Không sử dụng $ ở giữa giá trị (ví dụ: allow: /file$html).

Đảm bảo có giá trị cho user-agent

Tên tác nhân người dùng để cho trình thu thập dữ liệu của công cụ tìm kiếm biết cần tuân theo lệnh nào. Bạn phải cung cấp giá trị cho mỗi thực thể của user-agent để công cụ tìm kiếm biết có nên tuân theo tập hợp các lệnh được liên kết hay không.

Để chỉ định một trình thu thập dữ liệu của công cụ tìm kiếm cụ thể, hãy sử dụng tên tác nhân người dùng trong danh sách đã xuất bản. (Ví dụ: đây là Danh sách tác nhân người dùng của Google được dùng để thu thập dữ liệu.)

Hãy sử dụng * để khớp với tất cả các trình thu thập dữ liệu không phù hợp.

Không nên
user-agent:
disallow: /downloads/

Chưa xác định tác nhân người dùng nào.

Nên
user-agent: *
disallow: /downloads/

user-agent: magicsearchbot
disallow: /uploads/

Xác định một tác nhân người dùng chung và một tác nhân người dùng magicsearchbot.

Đảm bảo không có lệnh allow hoặc disallow trước user-agent

Tên tác nhân người dùng xác định các phần trong tệp robots.txt. Trình thu thập dữ liệu của công cụ tìm kiếm sử dụng các phần đó để xác định các lệnh cần tuân theo. Việc đặt một lệnh trước tên tác nhân người dùng đầu tiên có nghĩa là sẽ không có trình thu thập dữ liệu nào theo sau tên tác nhân người dùng đó.

Không nên
# start of file
disallow: /downloads/

user-agent: magicsearchbot
allow: /

Sẽ không có trình thu thập dữ liệu của công cụ tìm kiếm nào đọc lệnh disallow: /downloads.

Nên
# start of file
user-agent: *
disallow: /downloads/

Tất cả công cụ tìm kiếm đều không được phép thu thập dữ liệu thư mục /downloads.

Trình thu thập dữ liệu của công cụ tìm kiếm chỉ tuân theo các lệnh trong mục có tên tác nhân người dùng cụ thể nhất. Ví dụ: nếu bạn có các lệnh cho user-agent: *user-agent: Googlebot-Image, thì Googlebot Hình ảnh sẽ chỉ tuân theo các lệnh trong phần user-agent: Googlebot-Image.

Cung cấp URL tuyệt đối cho sitemap

Tệp Sơ đồ trang web là một cách tuyệt vời để cho công cụ tìm kiếm biết về các trang trên trang web của bạn. Tệp sơ đồ trang web thường bao gồm danh sách các URL trên trang web của bạn, cùng với thông tin về thời điểm các URL đó được thay đổi lần gần đây nhất.

Nếu bạn chọn gửi tệp sơ đồ trang web trong robots.txt, hãy nhớ sử dụng URL tuyệt đối.

Không nên
sitemap: /sitemap-file.xml
Nên
sitemap: https://example.com/sitemap-file.xml

Tài nguyên