Duy trì cấu trúc URL đơn giản

Cấu trúc URL của trang web nên càng đơn giản càng tốt. Hãy cân nhắc việc sắp xếp nội dung sao cho URL được tạo một cách logic và dễ hiểu đối với con người (hãy dùng các từ dễ đọc thay cho các mã số dài nếu được). Ví dụ: Nếu bạn tìm kiếm thông tin về hàng không (tiếng Anh là "aviation") thì URL sau đây có thể giúp bạn quyết định có nên nhấp vào đường liên kết hay không:

http://en.wikipedia.org/wiki/Aviation

Người dùng sẽ thấy URL sau đây kém thu hút hơn:

http://www.example.com/index.php?id_sezione=360&sid=3a5ebc944f41daa6f849f730f1

Hãy cân nhắc việc sử dụng dấu câu trong URL. URL http://www.example.com/green-dress.html hữu ích hơn nhiều so với http://www.example.com/greendress.html. Bạn nêu dùng dấu gạch ngang - thay vì dấu gạch dưới _ trong URL.

Những URL quá phức tạp, đặc biệt là những URL chứa nhiều tham số, có thể khiến các trình thu thập dữ liệu gặp sự cố do tạo ra nhiều URL không cần thiết cùng trỏ đến nội dung giống hoặc tương tự nhau trên trang web. Hậu quả là Googlebot có thể tốn nhiều băng thông hơn mức cần thiết, hoặc không thể lập chỉ mục hoàn chỉnh mọi nội dung trên trang web.

Nguyên nhân phổ biến dẫn đến sự cố này

Việc tồn tại một số lượng lớn URL không cần thiết có thể là do một số vấn đề. Bao gồm:

  • Lọc bổ sung nhóm các nội dung. Có những trang web cung cấp nhiều chế độ xem cho cùng một nhóm nội dung hoặc kết quả tìm kiếm. Thường thì những trang web đó cho phép người dùng lọc bằng các tiêu chí có sẵn (ví dụ: hiện cho tôi các khách sạn trên bãi biển). Việc tổng hợp các bộ lọc chỉ mang tính bổ sung thông tin (ví dụ: các khách sạn trên bãi biển và có trung tâm thể dục thể hình) sẽ khiến số lượng URL (chế độ xem dữ liệu) trong trang web tăng lên rất nhiều. Việc tạo một số lượng lớn danh sách khách sạn chỉ khác nhau đôi chút là không cần thiết vì Googlebot chỉ cần xem một số lượng nhỏ trong danh sách rồi từ đó truy cập trang của từng khách sạn. Ví dụ:
    • Các khách sạn có "mức giá tốt":
      http://www.example.com/hotel-search-results.jsp?Ne=292&N=461
    • Các khách sạn có "mức giá tốt" nằm trên bãi biển:
      http://www.example.com/hotel-search-results.jsp?Ne=292&N=461+4294967240
    • Các khách sạn có "mức giá tốt" nằm trên bãi biển và có trung tâm thể dục thể hình:
      http://www.example.com/hotel-search-results.jsp?Ne=292&N=461+4294967240+4294967270
  • Tạo tài liệu theo phương thức động. Việc này có thể dẫn tới thay đổi nhỏ do các bộ đếm, dấu thời gian hoặc quảng cáo.
  • URL chứa tham số có vấn đề. Ví dụ: Các mã phiên có thể tạo số lượng bản sao khổng lồ và làm tăng số lượng URL.
  • Tham số sắp xếp. Một số trang mua sắm lớn đưa ra nhiều cách để sắp xếp cùng một mục, từ đó dẫn đến số lượng URL lớn hơn. Ví dụ:
    http://www.example.com/results?search_type=search_videos&search_query=tpb&search_sort=relevance&search_category=25
  • Tham số không liên quan trong URL, chẳng hạn như tham số giới thiệu. Ví dụ:
    http://www.example.com/search/noheaders?click=6EE2BF1AF6A3D705D5561B7C3564D9C2&clickPage=OPD+Product+Page&cat=79
    http://www.example.com/discuss/showthread.php?referrerid=249406&threadid=535913
    http://www.example.com/products/products.asp?N=200063&Ne=500955&ref=foo%2Cbar&Cn=Accessories.
  • Vấn đề liên quan đến lịch. Lịch tạo theo phương thức động có thể tạo ra các đường liên kết đến những ngày trong tương lai hoặc quá khứ mà không có giới hạn ngày bắt đầu hoặc ngày kết thúc. Ví dụ:
    http://www.example.com/calendar.php?d=13&m=8&y=2011
    http://www.example.com/calendar/cgi?2008&month=jan
  • Đường liên kết tương đối bị hỏng. Các đường liên kết tương đối bị hỏng thường tạo ra các khoảng trống vô hạn. Thông thường, sự cố này xuất hiện do các phần tử lặp lại trong đường dẫn. Ví dụ:
    http://www.example.com/index.shtml/discuss/category/school/061121/html/interview/category/health/070223/html/category/business/070302/html/category/community/070413/html/FAQ.htm

Giải quyết sự cố này

Để tránh các sự cố có khả năng xảy ra với cấu trúc URL, bạn nên:

  • Xem xét sử dụng tệp robots.txt để chặn Googlebot truy cập những URL có vấn đề. Thường thì bạn nên xem xét việc chặn các URL động, chẳng hạn như các URL tạo kết quả tìm kiếm hoặc URL tạo khoảng trống vô hạn (ví dụ: lịch). Việc dùng các biểu thức chính quy trong tệp robots.txt có thể cho phép bạn dễ dàng chặn số lượng lớn URL.
  • Bất cứ khi nào có thể, hãy tránh sử dụng mã phiên trong URL. Hãy kiểm tra Nguyên tắc quản trị trang web của chúng tôi để biết thêm thông tin.
  • Bất cứ khi nào có thể, hãy rút ngắn URL bằng cách cắt bớt các tham số không cần thiết.
  • Nếu trang web của bạn có lịch vô hạn, hãy thêm thuộc tính nofollow vào đường liên kết đến các trang lịch được tạo theo phương thức động cho các năm sắp tới.
  • Kiểm tra trang web của bạn để tìm các đường liên kết có liên quan bị hỏng.