Các quy tắc hữu ích đối với tệp robots.txt
Sau đây là một số quy tắc phổ biến và hữu ích trong tệp robots.txt:
| Quy tắc hữu ích | |
|---|---|
| Không cho phép thu thập thông tin trên toàn bộ trang web |
Xin lưu ý rằng trong một số trường hợp, Google vẫn có thể lập chỉ mục các URL thuộc trang web mặc dù chưa thu thập thông tin những URL đó. User-agent: * Disallow: / |
Cho phép thu thập thông tin trên toàn bộ trang web (bằng quy tắc Disallow trống)
|
Điều này cho phép tất cả trình thu thập thông tin truy cập vào toàn bộ trang web. Về chức năng, quy tắc này tương đương với việc không có tệp robots.txt hoặc sử dụng quy tắc User-agent: * Disallow: |
| Không cho phép thu thập thông tin một thư mục và nội dung trong đó |
Thêm dấu gạch chéo lên vào tên thư mục để không cho phép thu thập thông tin toàn bộ thư mục. User-agent: * Disallow: /calendar/ Disallow: /junk/ Disallow: /books/fiction/contemporary/ |
|
Không cho phép thu thập thông tin trên một trang của trang web |
Ví dụ: không cho phép trang User-agent: * Disallow: /useless_file.html Disallow: /junk/other_useless_file.html |
|
Không cho phép thu thập thông tin trên toàn bộ trang web, ngoại trừ một thư mục con |
Trình thu thập thông tin chỉ có thể truy cập vào thư mục con User-agent: * Disallow: / Allow: /public/ |
| Cho phép truy cập vào một trình thu thập thông tin |
Chỉ User-agent: Googlebot-News Allow: / User-agent: * Disallow: / |
| Cho phép tất cả trình thu thập thông tin truy cập nhưng ngoại trừ một trình thu thập thông tin |
User-agent: Unnecessarybot Disallow: / User-agent: * Allow: / |
|
Không cho phép thu thập thông tin trên toàn bộ trang web, nhưng cho phép |
Phương thức triển khai này ẩn các trang của bạn khỏi kết quả trên Google Tìm kiếm, nhưng
trình thu thập thông tin web User-agent: * Disallow: / User-agent: Storebot-Google Allow: / |
|
Chặn mọi hình ảnh trên trang web của bạn khỏi Google (bao gồm cả mọi nơi mà hình ảnh xuất hiện trên Google, kể cả Google Hình ảnh và Khám phá) |
Google không thể lập chỉ mục hình ảnh và video mà không thu thập thông tin hình ảnh và video đó. User-agent: Googlebot-Image Disallow: / |
|
Chặn một hình ảnh cụ thể khỏi Google Hình ảnh |
Ví dụ: không cho phép hình ảnh User-agent: Googlebot-Image Disallow: /images/dogs.jpg |
|
Không cho phép thu thập thông tin trong các tệp thuộc một loại tệp cụ thể |
Ví dụ: không cho phép thu thập thông tin trong mọi tệp User-agent: Googlebot Disallow: /*.gif$ |
Sử dụng ký tự đại diện * và $ để khớp với những URL kết thúc bằng một chuỗi cụ thể
|
Ví dụ: không cho phép mọi tệp User-agent: Googlebot Disallow: /*.xls$ |
| Kết hợp nhiều tác nhân người dùng vào một nhóm duy nhất |
Việc hợp nhất các quy tắc đối với nhiều trình thu thập thông tin vào một nhóm giúp tệp ngắn hơn và dễ quản lý hơn, vì tất cả quy tắc trong nhóm đều áp dụng cho mọi tác nhân người dùng được liệt kê. Điều này cũng giống như việc liệt kê một tác nhân người dùng hai lần bằng các quy tắc tương ứng. User-agent: Googlebot User-agent: Storebot-Google Allow: /cats Disallow: / |