Tạo và gửi sơ đồ trang web

Trang này mô tả cách tạo và gửi sơ đồ trang web cho Google. Tìm hiểu thêm về sơ đồ trang web tại đây.

  1. Quyết định sẽ để Google thu thập dữ liệu những trang nào trên trang web của bạn và xác định phiên bản chuẩn của mỗi trang.
  2. Quyết định định dạng sơ đồ trang web bạn muốn sử dụng. Bạn có thể tạo sơ đồ trang web theo cách thủ công hoặc chọn một trong số các công cụ bên thứ ba để tạo sơ đồ trang web cho bạn.
  3. Cung cấp sơ đồ trang web của bạn cho Google bằng cách thêm sơ đồ đó vào tệp robots.txt hoặc gửi trực tiếp qua Search Console.

Định dạng sơ đồ trang web

Google hỗ trợ nhiều định dạng sơ đồ trang web theo mô tả dưới đây. Bạn nên gửi cho Google giao thức sơ đồ trang web chuẩn ở tất cả các định dạng. Hiện tại, Google sẽ bỏ qua thuộc tính <priority> trong sơ đồ trang web.

Cho dù bạn dùng định dạng nào, Google đều áp dụng giới hạn 50 MB (kích thước không nén) và 50.000 URL cho một sơ đồ trang web. Nếu bạn có tệp lớn hơn hoặc nhiều URL hơn, bạn sẽ phải tách danh sách của mình thành nhiều sơ đồ trang web. Bạn cũng có thể chọn tạo một tệp chỉ mục sơ đồ trang web (một tệp trỏ đến danh sách sơ đồ trang web) và gửi tệp chỉ mục đó cho Google. Bạn có thể gửi nhiều sơ đồ trang web và/hoặc tệp chỉ mục sơ đồ trang web cho Google.

XML

Sau đây là một sơ đồ trang web XML rất cơ bản chứa thông tin vị trí của một URL:

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <url>
    <loc>http://www.example.com/foo.html</loc>
   <lastmod>2018-06-04</lastmod>
  </url>
</urlset>

Các ví dụ phức tạp hơn và tài liệu đầy đủ có tại sitemaps.org.

Bạn có thể xem ví dụ về những sơ đồ trang web chỉ định các trang ngôn ngữ thay thế và những sơ đồ trang web cho các tệp tin tức, hình ảnh hoặc video.

RSS, mRSS và Atom 1.0

Nếu bạn có blog với nguồn cấp dữ liệu RSS hoặc Atom, bạn có thể gửi URL của nguồn cấp dữ liệu dưới dạng sơ đồ trang web. Hầu hết các phần mềm viết blog có thể tạo nguồn cấp dữ liệu cho bạn, nhưng xin lưu ý rằng nguồn cấp dữ liệu này chỉ cung cấp thông tin về các URL gần đây.

Văn bản

Nếu sơ đồ trang web của bạn chỉ chứa URL của trang web, bạn có thể cung cấp cho Google một tệp văn bản đơn giản chứa một URL trên mỗi dòng. Ví dụ:

http://www.example.com/file1.html
http://www.example.com/file2.html

Nguyên tắc đối với sơ đồ trang web ở dạng tệp văn bản:

  • Mã hóa tệp bằng phương thức mã hóa UTF-8.
  • Tệp văn bản của bạn chỉ được chứa danh sách URL mà không được chứa nội dung gì khác.
  • Bạn có thể đặt tên bất kỳ tùy thích cho tệp văn bản, miễn là tên đó có phần mở rộng .txt (ví dụ: sodotrangweb.txt).

Google Sites

Nếu bạn đã dùng Google Sites để tạo và xác minh một trang web, Google Sites sẽ tự động tạo một sơ đồ trang web cho bạn. Bạn không thể sửa đổi sơ đồ trang web đó, nhưng bạn có thể gửi sơ đồ đó cho Google nếu bạn muốn đọc dữ liệu báo cáo sơ đồ trang web. Hãy lưu ý rằng sơ đồ trang web của bạn có thể không hiển thị đúng cách nếu bạn có nhiều hơn 1.000 trang trong một thư mục con duy nhất.

  • Nếu trang web của bạn được lưu trữ tại Google Sites, URL của sơ đồ trang web sẽ có dạng http://sites.google.com/site/yoursitename/system/feeds/sitemap
  • Nếu bạn đã dùng Google Workspace để tạo trang web, URL của sơ đồ trang web sẽ có dạng https://sites.google.com/yourdomain/yoursitename/system/feeds/sitemap

Phần mở rộng của sơ đồ trang web dành cho các loại nội dung phương tiện khác

Google hỗ trợ cú pháp sơ đồ trang web mở rộng cho những loại nội dung đa phương tiện sau đây. Hãy dùng những phần mở rộng này để mô tả các tệp video, hình ảnh và các nội dung khó phân tích cú pháp khác trên trang web của bạn nhằm cải thiện việc lập chỉ mục.

Nguyên tắc chung đối với sơ đồ trang web

  • Dùng các URL nhất quán và đủ điều kiện. Google sẽ thu thập dữ liệu trên các URL của bạn một cách chính xác như được nêu trong sơ đồ trang web. Ví dụ: nếu trang web của bạn ở https://www.example.com/, đừng chỉ định URL là https://example.com/ (thiếu www) hoặc ./mypage.html (URL tương đối).
  • Bạn có thể đăng sơ đồ trang web ở bất cứ đâu trên trang web của mình, nhưng một sơ đồ trang web chỉ tác động đến các thư mục con của thư mục gốc. Một sơ đồ trang web đăng ở thư mục gốc của trang web có thể tác động đến mọi tệp trên trang web. Do đó, bạn nên đăng sơ đồ trang web ở thư mục gốc.
  • Không đưa mã nhận dạng phiên trong URL vào sơ đồ trang web của bạn để giảm việc thu thập dữ liệu trùng lặp trên những URL đó.
  • Cho Google biết về các phiên bản ngôn ngữ khác của một URL bằng chú thích hreflang.
  • Tệp sơ đồ trang web phải được mã hóa bằng phương thức UTF-8, và dùng mã thoát dành cho URL một cách thích hợp.
  • Chia các sơ đồ trang web lớn thành các sơ đồ trang web nhỏ hơn: kích thước sơ đồ trang web tối đa là 50.000 URL/50MB không nén. Dùng một tệp chỉ mục sơ đồ trang web để liệt kê mọi sơ đồ trang web riêng lẻ và gửi tệp này cho Google thay vì gửi các sơ đồ trang web riêng lẻ.
  • Chỉ liệt kê URL chính tắc trong sơ đồ trang web của bạn. Nếu trang của bạn có hai phiên bản, bạn chỉ nên liệt kê phiên bản chuẩn (do Google chọn) trong sơ đồ trang web. Nếu trang web của bạn có hai phiên bản (ví dụ: phiên bản có tiền tố www và phiên bản không có tiền tố www), hãy chọn trang web bạn muốn và đặt sơ đồ trang web ở đó rồi thêm rel=canonical hoặc lệnh chuyển hướng trên trang web còn lại.
  • Nếu một trang của bạn có các URL riêng cho phiên bản dành cho thiết bị di động và phiên bản dành cho máy tính, sơ đồ trang web của bạn chỉ nên trỏ đến một phiên bản. Tuy nhiên, nếu bạn cảm thấy cần phải trỏ đến cả hai URL đó, hãy chú thích các URL của bạn để chỉ rõ phiên bản dành cho máy tính và phiên bản dành cho thiết bị di động.
  • Dùng phần mở rộng của sơ đồ trang web để trỏ đến các loại nội dung phương tiện bổ sung như video, hình ảnh và tin tức.
  • Nếu có các trang riêng cho mỗi ngôn ngữ hoặc khu vực, bạn có thể dùng chú thích hreflang trong sơ đồ trang web hoặc trong thẻ html để chỉ rõ các URL thay thế.
  • Ký tự không phải chữ và số và phi La-tinh. Chúng tôi yêu cầu tệp sơ đồ trang web của bạn phải được mã hoá bằng phương thức UTF-8 (thường thì bạn có thể thực hiện điều này khi lưu tệp). Cũng như với mọi tệp XML, tất cả giá trị dữ liệu (kể cả các URL) đều phải sử dụng các mã thoát của thực thể cho những ký tự được liệt kê trong bảng dưới đây. Một sơ đồ trang web chỉ có thể chứa các ký tự ASCII; sơ đồ trang web không được chứa ký tự ASCII hoặc một số mã kiểm soát nhất định hoặc những ký tự đặc biệt như * và {}. Nếu URL của sơ đồ trang web của bạn chứa những ký tự này, bạn sẽ gặp lỗi khi thêm sơ đồ đó.
    Ký tự Mã thoát
    Ký hiệu & & &amp;
    Dấu nháy đơn ' &apos;
    Dấu nháy kép " &quot;
    Lớn hơn > &gt;
    Nhỏ hơn < &lt;
    Ngoài ra, tất cả các URL (kể cả URL sơ đồ trang web) phải được mã hoá sao cho có thể đọc được bằng máy chủ web có chứa các URL này và phải có mã thoát URL. Tuy nhiên, nếu bạn sử dụng bất kỳ loại tập lệnh, công cụ hoặc tệp nhật ký nào để tạo URL của mình (bất cứ phương thức gì ngoại trừ việc nhập URL theo cách thủ công) thì thông thường, yêu cầu trên đã được thực hiện sẵn cho bạn. Nếu bạn gửi sơ đồ trang web và nhận được lỗi Google không thể tìm thấy một số URL, hãy kiểm tra để chắc chắn các URL của bạn tuân thủ chuẩn RFC-3986 cho URI, chuẩn RFC-3987 cho IRI và chuẩn XML.

    Sau đây là ví dụ về một URL dùng ký tự không phải ASCII (ü), cũng như một ký tự yêu cầu mã thoát của thực thể (&):
    http://www.example.com/ümlat.html&q=name
    Sau đây vẫn là URL đó, nhưng được mã hóa theo ISO-8859-1 (để lưu trữ trên một máy chủ sử dụng phương thức mã hóa này) và dùng mã thoát dành cho URL:
    http://www.example.com/%FCmlat.html&q=name
    Sau đây vẫn là URL đó, nhưng được mã hóa bằng phương thức UTF-8 (để lưu trữ trên một máy chủ sử dụng phương thức mã hóa này) và dùng mã thoát dành cho URL:
    http://www.example.com/%C3%BCmlat.html&q=name
    Và cuối cùng vẫn là URL đó nhưng dùng mã thoát của thực thể:
    http://www.example.com/%C3%BCmlat.html&amp;q=name
  • Hãy nhớ rằng sơ đồ trang web là một phương thức để bạn đề xuất cho Google những trang mà bạn cho là quan trọng; Google không cam kết sẽ thu thập dữ liệu trên mọi URL trong sơ đồ trang web.
  • Google bỏ qua các giá trị <priority><changefreq>, vì vậy, bạn không cần thêm những giá trị đó.
  • Google có đọc giá trị <lastmod>. Nhưng nếu bạn thể hiện không đúng, chúng tôi sẽ ngừng đọc giá trị đó.
  • Vị trí của một URL trong sơ đồ trang web không quan trọng; Google không thu thập dữ liệu về URL theo thứ tự xuất hiện trong sơ đồ trang web của bạn.

Cung cấp sơ đồ trang web cho Google (Gửi sơ đồ trang web cho Google)

Google không kiểm tra sơ đồ trang web mỗi lần thu thập dữ liệu đối với sơ đồ đó; chúng tôi chỉ kiểm tra một sơ đồ trang web một lần sau khi phát hiện, và sau đó chỉ kiểm tra lại khi bạn ping chúng tôi để thông báo rằng sơ đồ đó đã thay đổi. Bạn chỉ nên thông báo cho Google về một sơ đồ trang web khi bạn tạo một sơ đồ mới hoặc cập nhật sơ đồ hiện có; đừng gửi hoặc ping Google nhiều lần về một sơ đồ trang web không đổi.

Có vài cách để bạn cung cấp sơ đồ trang web cho Google:

  • Dùng công cụ Sơ đồ trang web trong Search Console để gửi sơ đồ trang web cho Google
  • Chèn dòng sau vào vị trí bất kỳ trong tệp robots.txt của bạn để xác định đường dẫn đến sơ đồ trang web của bạn:
    Sitemap: http://example.com/sitemap_location.xml
  • Dùng chức năng "ping" để yêu cầu chúng tôi thu thập dữ liệu sơ đồ trang web của bạn. Gửi yêu cầu HTTP GET như sau:
    http://www.google.com/ping?sitemap=<complete_url_of_sitemap>
    ví dụ:
    http://www.google.com/ping?sitemap=https://example.com/sitemap.xml

Khắc phục sự cố liên quan đến sơ đồ trang web

Xem hướng dẫn khắc phục sự cố liên quan đến sơ đồ trang web.