Tạo và gửi sơ đồ trang web

Trang này mô tả cách tạo sơ đồ trang web và cung cấp cho Google. Tìm hiểu thêm về sơ đồ trang web tại đây.

  1. Quyết định xem bạn muốn Google thu thập dữ liệu những trang nào trên trang web của bạn và xác định phiên bản chính tắc của mỗi trang.
  2. Lựa chọn định dạng sơ đồ trang web bạn muốn sử dụng. Bạn có thể tạo sơ đồ trang web bằng cách thủ công hoặc chọn một công cụ bên thứ ba để tạo sơ đồ trang web cho bạn.
  3. Cung cấp sơ đồ trang web của bạn cho Google bằng cách thêm sơ đồ đó vào tệp robots.txt hoặc gửi trực tiếp qua Search Console.

Định dạng sơ đồ trang web

Google hỗ trợ nhiều định dạng sơ đồ trang web như mô tả dưới đây. Mọi định dạng gửi cho Google đều phải theo giao thức sơ đồ trang web chuẩn. Hiện tại, Google sẽ bỏ qua thuộc tính <priority> trong sơ đồ trang web.

Mọi định dạng đều giới hạn một sơ đồ trang web ở kích thước 50 MB (khi chưa nén) và 50.000 URL. Nếu có nhiều URL hơn hoặc tệp lớn hơn, bạn sẽ phải tách danh sách trang của mình thành nhiều sơ đồ trang web. Bạn cũng có thể chọn cách tạo một tệp chỉ mục sơ đồ trang web (tệp này trỏ đến một danh sách sơ đồ trang web) rồi gửi tệp chỉ mục đó cho Google. Bạn có thể gửi nhiều sơ đồ trang web và/hoặc nhiều tệp chỉ mục sơ đồ trang web cho Google.

XML

Sau đây là một sơ đồ trang web XML rất cơ bản, chứa thông tin về vị trí của một URL duy nhất:

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>http://www.example.com/foo.html</loc>
<lastmod>2018-06-04</lastmod>
</url>
</urlset>

Bạn có thể tham khảo các ví dụ phức tạp hơn và tài liệu đầy đủ tại sitemaps.org.

Bạn có thể xem các ví dụ về sơ đồ trang web có chỉ định các trang ngôn ngữ thay thế nhau và sơ đồ trang web cho các tệp video, hình ảnh hoặc tin tức.

RSS, mRSS và Atom 1.0

Nếu bạn có một trang blog sử dụng nguồn cấp dữ liệu RSS hoặc Atom, bạn có thể gửi sơ đồ trang web dưới dạng URL của nguồn cấp dữ liệu đó. Hầu hết các phần mềm blog đều có thể tạo nguồn cấp dữ liệu cho bạn, nhưng hãy lưu ý rằng nguồn cấp dữ liệu này chỉ cung cấp thông tin về những URL gần đây.

Văn bản

Nếu sơ đồ trang web của bạn chỉ bao gồm URL của các trang web, bạn có thể cung cấp cho Google một tệp văn bản đơn giản có chứa một URL trên mỗi dòng. Ví dụ:

http://www.example.com/file1.html
http://www.example.com/file2.html
        

Nguyên tắc đối với sơ đồ trang web ở dạng tệp văn bản:

  • Mã hóa tệp bằng phương thức mã hóa UTF-8.
  • Đừng đưa thông tin nào khác ngoài các URL vào tệp sơ đồ trang web.
  • Bạn có thể đặt cho tệp văn bản tên gì cũng được, chỉ cần có phần mở rộng là .txt (ví dụ: sodotrangweb.txt).

Google Sites

Nếu bạn dùng Google Sites để tạo và xác minh một trang web, Google Sites sẽ tự động tạo một sơ đồ trang web cho bạn. Bạn không thể sửa đổi sơ đồ trang web đó, nhưng bạn có thể gửi sơ đồ đó cho Google nếu muốn đọc dữ liệu báo cáo về sơ đồ trang web. Hãy lưu ý rằng sơ đồ trang web của bạn có thể không hiển thị đúng cách nếu bạn có nhiều hơn 1.000 trang trong một thư mục con duy nhất.

  • Nếu trang web của bạn được lưu trữ tại Google Sites, URL của sơ đồ trang web sẽ có dạng http://sites.google.com/site/yoursitename/system/feeds/sitemap.
  • Nếu bạn dùng Google Workspace để tạo trang web, URL của sơ đồ trang web sẽ có dạng https://sites.google.com/yourdomain/yoursitename/system/feeds/sitemap.

Phần mở rộng của sơ đồ trang web dành cho các loại nội dung đa phương tiện khác

Google hỗ trợ cú pháp sơ đồ trang web mở rộng cho những loại nội dung đa phương tiện sau đây. Hãy dùng những phần mở rộng này để mô tả các tệp video, hình ảnh và các nội dung khó phân tích cú pháp khác trên trang web của bạn nhằm tăng hiệu quả lập chỉ mục.

Nguyên tắc chung đối với sơ đồ trang web

  • Dùng các URL nhất quán và đủ điều kiện. Google sẽ thu thập dữ liệu các URL của bạn y như đã nêu trong sơ đồ trang web. Ví dụ: Nếu trang web của bạn có địa chỉ là https://www.example.com/, đừng nêu ra URL là https://example.com/ (thiếu www) hoặc ./mypage.html (URL tương đối).
  • Bạn có thể đăng sơ đồ trang web ở bất cứ đâu trên trang web của mình, nhưng sơ đồ trang web chỉ tác động đến các thư mục con thuộc thư mục mẹ. Vì vậy, một sơ đồ trang web đăng tại thư mục gốc có thể tác động đến mọi tệp trên trang web. Đó chính là nơi bạn nên đăng sơ đồ trang web của mình.
  • Không đưa mã nhận dạng phiên trong URL vào sơ đồ trang web của bạn để giảm tình trạng thu thập dữ liệu trùng lặp từ những URL đó.
  • Thông báo cho Google về các phiên bản ngôn ngữ thay thế nhau của một URL bằng thẻ chú thích hreflang.
  • Tệp sơ đồ trang web phải được mã hóa bằng phương thức UTF-8 và dùng mã thoát dành cho URL một cách thích hợp.
  • Chia nhỏ sơ đồ trang web lớn thành các sơ đồ trang web nhỏ: một sơ đồ trang web có thể chứa tối đa 50.000 URL và không được vượt quá 50 MB khi chưa nén. Dùng một tệp chỉ mục sơ đồ trang web để liệt kê hết các sơ đồ trang web rồi gửi tệp này cho Google thay vì gửi từng sơ đồ trang web riêng lẻ.
  • Chỉ liệt kê các URL chính tắc trong sơ đồ trang web của bạn. Nếu một trang có hai phiên bản thì trong sơ đồ trang web, hãy chỉ liệt kê phiên bản bạn muốn xuất hiện trong kết quả tìm kiếm. Nếu trang web của bạn có hai phiên bản (ví dụ: phiên bản có www và phiên bản không có www), hãy chọn trang web bạn ưu tiên và đặt sơ đồ trang web ở đó rồi thêm rel=canonical hoặc lệnh chuyển hướng trên trang web còn lại.
  • Nếu một trang có các URL riêng cho phiên bản dành cho thiết bị di động và phiên bản dành cho máy tính, thì sơ đồ trang web chỉ nên trỏ đến một phiên bản. Tuy nhiên, nếu bạn muốn trỏ đến cả hai URL, hãy chú thích các URL đó để chỉ rõ phiên bản dành cho máy tính và phiên bản dành cho thiết bị di động.
  • Dùng phần mở rộng của sơ đồ trang web để trỏ đến các loại nội dung đa phương tiện khác như video, hình ảnh và tin tức.
  • Nếu có các trang thay thế nhau cho từng ngôn ngữ hoặc khu vực, bạn có thể sử dụng hreflang trong sơ đồ trang web hoặc trong thẻ html để chỉ rõ các URL thay thế.
  • Ký tự không phải chữ/số và ký tự không thuộc hệ chữ Latinh. Chúng tôi yêu cầu tệp sơ đồ trang web của bạn phải được mã hoá bằng phương thức UTF-8 (thường thì bạn có thể thực hiện việc này khi lưu tệp). Cũng như với mọi tệp XML, tất cả giá trị dữ liệu (kể cả URL) đều phải sử dụng mã thoát của thực thể cho những ký tự liệt kê trong bảng dưới đây. Sơ đồ trang web chỉ có thể chứa ký tự ASCII, không được chứa ký tự ASCII viết hoa hoặc một số mã kiểm soát hay ký tự đặc biệt như *{}. Nếu URL trong sơ đồ trang web của bạn chứa những ký tự này, bạn sẽ gặp lỗi khi cố gắng thêm URL đó.
    Ký tự Mã thoát
    Ký hiệu & & &amp;
    Dấu nháy đơn ' &apos;
    Dấu nháy kép " &quot;
    Dấu lớn hơn > &gt;
    Dấu nhỏ hơn < &lt;
    Ngoài ra, tất cả URL (kể cả URL của sơ đồ trang web) đều phải dùng mã thoát và phải được mã hoá sao cho máy chủ web lưu trữ những URL đó có thể đọc được. Tuy nhiên, nếu bạn sử dụng các loại tập lệnh, công cụ hoặc tệp nhật ký để tạo URL (bất kỳ phương thức nào khác ngoài cách nhập thủ công URL) thì thông thường, công đoạn này đã được hoàn thành sẵn cho bạn. Nếu bạn gửi sơ đồ trang web và gặp phải lỗi cho biết Google không thể tìm thấy một số URL, hãy kiểm tra để chắc chắn các URL của bạn tuân thủ chuẩn RFC-3986 cho URI, chuẩn RFC-3987 cho IRI và chuẩn XML.

    Sau đây là ví dụ về một URL dùng ký tự không phải ASCII (ü) và một ký tự cần có mã thoát của thực thể (&):
    http://www.example.com/ümlat.html&q=name
    Sau đây vẫn là URL đó, nhưng được mã hóa theo ISO-8859-1 (để lưu trữ trên một máy chủ sử dụng phương thức mã hóa này) và dùng mã thoát dành cho URL:
    http://www.example.com/%FCmlat.html&q=name
    Sau đây vẫn là URL đó, nhưng được mã hóa bằng phương thức UTF-8 (để lưu trữ trên một máy chủ sử dụng phương thức mã hóa này) và dùng mã thoát dành cho URL:
    http://www.example.com/%C3%BCmlat.html&q=name
    Cuối cùng, vẫn là URL đó nhưng dùng mã thoát của thực thể:
    http://www.example.com/%C3%BCmlat.html&amp;q=name
  • Hãy lưu ý rằng sơ đồ trang web là một cách đề xuất cho Google những trang mà bạn đánh giá là quan trọng. Google không cam kết sẽ thu thập dữ liệu mọi URL trong sơ đồ trang web.
  • Google sẽ bỏ qua các giá trị <priority><changefreq>.
  • Google sử dụng giá trị <lastmod> nếu giá trị đó chính xác một cách nhất quán và có thể xác minh (ví dụ: so với bản sửa đổi mới nhất của trang).
  • Vị trí của một URL trong sơ đồ trang web không quan trọng. Google không thu thập dữ liệu URL theo thứ tự xuất hiện trong sơ đồ trang web của bạn.

Cung cấp sơ đồ trang web cho Google (Gửi sơ đồ trang web cho Google)

Google không kiểm tra sơ đồ trang web mỗi lần thu thập dữ liệu từ một trang web. Chúng tôi chỉ kiểm tra sơ đồ trang web khi lần đầu tiên phát hiện sơ đồ đó và chỉ kiểm tra lại khi bạn thông báo cho chúng tôi rằng sơ đồ đó đã thay đổi. Bạn chỉ nên thông báo cho Google về một sơ đồ trang web khi bạn tạo sơ đồ mới hoặc cập nhật sơ đồ hiện có. Đừng gửi hoặc thông báo cho Google nhiều lần về một sơ đồ trang web không có thay đổi.

Để cung cấp sơ đồ trang web của bạn cho Google, có một số cách như sau:

  • Dùng báo cáo Sơ đồ trang web trong Search Console để gửi sơ đồ trang web cho Google
  • Chèn dòng sau vào vị trí bất kỳ trong tệp robots.txt để xác định đường dẫn đến sơ đồ trang web của bạn:
    Sitemap: http://example.com/sitemap_location.xml
  • Dùng dịch vụ "ping" (thông báo) để yêu cầu Google thu thập dữ liệu sơ đồ trang web. Gửi một yêu cầu HTTP GET như sau:
    http://www.google.com/ping?sitemap=<complete_url_of_sitemap>
    ví dụ:
    http://www.google.com/ping?sitemap=https://example.com/sitemap.xml

Khắc phục sự cố liên quan đến sơ đồ trang web

Xem hướng dẫn khắc phục sự cố liên quan đến sơ đồ trang web.