Giới thiệu về tệp robots.txt

Tệp robots.txt cho trình thu thập dữ liệu của công cụ tìm kiếm biết có thể truy cập vào những URL nào trên trang web của bạn. Tệp này chủ yếu dùng để ngăn trình thu thập dữ liệu gửi quá nhiều yêu cầu cho trang web; đây không phải là cơ chế để ẩn một trang web khỏi Google. Để ẩn một trang web khỏi Google, hãy chặn lập chỉ mục bằng noindex hoặc bảo vệ trang đó bằng mật khẩu.

Tệp robots.txt dùng để làm gì?

Tệp robots.txt chủ yếu dùng để quản lý lưu lượng truy cập của trình thu thập dữ liệu vào trang web của bạn và thường dùng để ẩn một tệp khỏi Google, tùy thuộc vào loại tệp:

Ảnh hưởng của tệp robots.txt đến các loại tệp
Trang web

Đối với các trang web (HTML, PDF hoặc các định dạng không phải nội dung phương tiện khác mà Google đọc được), bạn có thể dùng một tệp robots.txt để quản lý lưu lượng thu thập dữ liệu nếu cho rằng máy chủ của bạn sẽ quá tải do số lượng yêu cầu của trình thu thập dữ liệu của Google. Bạn cũng có thể dùng tệp này để tránh thu thập dữ liệu các trang không quan trọng hoặc tương tự nhau trên trang web.

Nếu trang web của bạn bị chặn bằng một tệp robots.txt thì URL của trang đó vẫn có thể xuất hiện trong kết quả tìm kiếm, nhưng kết quả tìm kiếm đó sẽ không có nội dung mô tả. Các tệp hình ảnh, tệp video, tệp PDF và các tệp không phải HTML khác sẽ bị loại trừ. Nếu bạn thấy kết quả tìm kiếm này cho trang của mình và muốn sửa kết quả, hãy xóa tệp robots.txt đang chặn trang. Nếu bạn muốn ẩn hoàn toàn trang khỏi kết quả tìm kiếm, hãy dùng phương thức khác.

Tệp đa phương tiện

Hãy dùng tệp robots.txt để quản lý lưu lượng thu thập dữ liệu, đồng thời để ngăn các tệp hình ảnh, video và âm thanh xuất hiện trong kết quả tìm kiếm trên Google. Tệp này sẽ không ngăn các trang hoặc người dùng khác liên kết đến tệp hình ảnh/video/âm thanh của bạn.

Tệp tài nguyên Bạn có thể dùng tệp robots.txt để chặn các tệp tài nguyên (chẳng hạn như hình ảnh, tập lệnh hoặc các tệp định kiểu không quan trọng) nếu cho rằng lệnh chặn này sẽ không ảnh hưởng đáng kể đến những trang có thể tải mà không cần những tài nguyên này. Tuy nhiên, nếu trình thu thập dữ liệu của Google khó có thể hiểu được trang của bạn khi thiếu những tài nguyên này, thì bạn đừng chặn. Nếu không, Google sẽ không thể phân tích chính xác những trang cần đến những tài nguyên đó.

Tìm hiểu những hạn chế của tệp robots.txt

Trước khi tạo hoặc chỉnh sửa tệp robots.txt, bạn nên biết những hạn chế của phương pháp chặn URL này. Tùy thuộc vào mục tiêu và tình huống của bạn, bạn nên cân nhắc những cơ chế khác để đảm bảo URL của bạn không tìm được trên web.

  • Một số công cụ tìm kiếm có thể không hỗ trợ các lệnh trong tệp robots.txt.
    Hướng dẫn trong các tệp robots.txt không thể bắt một trình thu thập dữ liệu làm theo một hành vi cụ thể. Trình thu thập dữ liệu có quyền quyết định việc có tuân theo lệnh trong tệp hay không. Googlebot và các trình thu thập dữ liệu web có uy tín khác tuân thủ hướng dẫn trong tệp robots.txt, tuy nhiên, một số trình thu thập dữ liệu khác có thể không như vậy. Vì vậy, nếu bạn muốn đảm bảo an toàn cho thông tin của mình trước các trình thu thập dữ liệu web, bạn nên dùng những phương thức chặn khác, chẳng hạn như bảo vệ các tệp riêng tư bằng mật khẩu trên máy chủ.
  • Mỗi trình thu thập dữ liệu sẽ phân tích cú pháp theo những cách riêng.
    Các trình thu thập dữ liệu web có uy tín sẽ tuân theo các lệnh trong tệp robots.txt, tuy nhiên, có thể mỗi trình thu thập dữ liệu lại có cách thức riêng để diễn giải các lệnh. Bạn nên nắm được cú pháp thích hợp dành cho từng trình thu thập dữ liệu web vì một số trình thu thập có thể không hiểu được một số hướng dẫn nhất định.
  • Một trang bị tệp robots.txt chặn vẫn có thể được lập chỉ mục nếu có trang web khác liên kết đến trang đó.
    Google sẽ không thu thập dữ liệu hoặc lập chỉ mục nội dung bị tệp robots.txt chặn, tuy nhiên, chúng tôi vẫn có thể tìm thấy và lập chỉ mục một URL bị tệp robots.txt chặn khi có những nơi khác liên kết đến URL đó. Kết quả là các địa chỉ URL và có thể là cả thông tin công khai khác như văn bản liên kết trong các đường liên kết đến trang vẫn sẽ xuất hiện trong kết quả tìm kiếm trên Google. Để ngăn URL của bạn xuất hiện trong kết quả tìm kiếm trên Google, hãy bảo vệ các tệp trên máy chủ bằng mật khẩu, dùng thẻ meta noindex hoặc tiêu đề phản hồi hoặc xóa toàn bộ trang.

Tạo tệp robots.txt

Nếu bạn cho là mình cần một tệp robots.txt, hãy tìm hiểu cách tạo tệp robots.txt.