Các quy tắc hữu ích đối với tệp robots.txt

Sau đây là một số quy tắc phổ biến và hữu ích trong tệp robots.txt:

Quy tắc hữu ích
Không cho phép thu thập thông tin trên toàn bộ trang web

Xin lưu ý rằng trong một số trường hợp, Google vẫn có thể lập chỉ mục các URL thuộc trang web mặc dù chưa thu thập thông tin những URL đó.

User-agent: *
Disallow: /
Cho phép thu thập thông tin trên toàn bộ trang web (bằng quy tắc Disallow trống)

Điều này cho phép tất cả trình thu thập thông tin truy cập vào toàn bộ trang web. Về chức năng, quy tắc này tương đương với việc không có tệp robots.txt hoặc sử dụng quy tắc Allow: /.

User-agent: *
Disallow:
Không cho phép thu thập thông tin một thư mục và nội dung trong đó

Thêm dấu gạch chéo lên vào tên thư mục để không cho phép thu thập thông tin toàn bộ thư mục.

User-agent: *
Disallow: /calendar/
Disallow: /junk/
Disallow: /books/fiction/contemporary/

Không cho phép thu thập thông tin trên một trang của trang web

Ví dụ: không cho phép trang useless_file.html nằm tại https://example.com/useless_file.htmlother_useless_file.html trong thư mục junk.

User-agent: *
Disallow: /useless_file.html
Disallow: /junk/other_useless_file.html

Không cho phép thu thập thông tin trên toàn bộ trang web, ngoại trừ một thư mục con

Trình thu thập thông tin chỉ có thể truy cập vào thư mục con public.

User-agent: *
Disallow: /
Allow: /public/
Cho phép truy cập vào một trình thu thập thông tin

Chỉ Googlebot-News mới có thể thu thập thông tin trên toàn bộ trang web.

User-agent: Googlebot-News
Allow: /

User-agent: *
Disallow: /
Cho phép tất cả trình thu thập thông tin truy cập nhưng ngoại trừ một trình thu thập thông tin

Unnecessarybot không được thu thập thông tin trên trang web, mọi bot khác có thể thu thập thông tin trên trang web.

User-agent: Unnecessarybot
Disallow: /

User-agent: *
Allow: /

Không cho phép thu thập thông tin trên toàn bộ trang web, nhưng cho phép Storebot-Google

Phương thức triển khai này ẩn các trang của bạn khỏi kết quả trên Google Tìm kiếm, nhưng trình thu thập thông tin web Storebot-Google vẫn có thể phân tích những trang đó để hiện sản phẩm của bạn trên Google Mua sắm.

User-agent: *
Disallow: /

User-agent: Storebot-Google
Allow: /

Chặn mọi hình ảnh trên trang web của bạn khỏi Google (bao gồm cả mọi nơi mà hình ảnh xuất hiện trên Google, kể cả Google Hình ảnh và Khám phá)

Google không thể lập chỉ mục hình ảnh và video mà không thu thập thông tin hình ảnh và video đó.

User-agent: Googlebot-Image
Disallow: /

Chặn một hình ảnh cụ thể khỏi Google Hình ảnh

Ví dụ: không cho phép hình ảnh dogs.jpg.

User-agent: Googlebot-Image
Disallow: /images/dogs.jpg

Không cho phép thu thập thông tin trong các tệp thuộc một loại tệp cụ thể

Ví dụ: không cho phép thu thập thông tin trong mọi tệp .gif.

User-agent: Googlebot
Disallow: /*.gif$
Sử dụng ký tự đại diện *$ để khớp với những URL kết thúc bằng một chuỗi cụ thể

Ví dụ: không cho phép mọi tệp .xls:

User-agent: Googlebot
Disallow: /*.xls$
Kết hợp nhiều tác nhân người dùng vào một nhóm duy nhất

Việc hợp nhất các quy tắc đối với nhiều trình thu thập thông tin vào một nhóm giúp tệp ngắn hơn và dễ quản lý hơn, vì tất cả quy tắc trong nhóm đều áp dụng cho mọi tác nhân người dùng được liệt kê. Điều này cũng giống như việc liệt kê một tác nhân người dùng hai lần bằng các quy tắc tương ứng.

User-agent: Googlebot
User-agent: Storebot-Google
Allow: /cats
Disallow: /