Tạo và gửi sơ đồ trang web

Trang này mô tả cách tạo sơ đồ trang web và cung cấp cho Google. Tìm hiểu thêm về sơ đồ trang web tại đây.

  1. Quyết định định dạng sơ đồ trang web bạn muốn sử dụng.
  2. Tạo sơ đồ trang web, theo cách tự động hoặc thủ công.
  3. Cung cấp sơ đồ trang web của bạn cho Google bằng cách thêm sơ đồ đó vào tệp robots.txt hoặc gửi trực tiếp qua Search Console.

Định dạng sơ đồ trang web

Google hỗ trợ nhiều định dạng sơ đồ trang web:

Mọi định dạng gửi cho Google đều phải theo giao thức sơ đồ trang web chuẩn. Hiện tại, Google sẽ bỏ qua thuộc tính <priority> trong sơ đồ trang web.

Đối với mọi định dạng, một sơ đồ trang web chỉ được phép có kích thước tối đa là 50 MB (khi chưa nén) và chứa không quá 50.000 URL. Nếu có nhiều URL hơn hoặc tệp lớn hơn, bạn sẽ phải tách danh sách trang của mình thành nhiều sơ đồ trang web. Bạn cũng có thể chọn cách tạo một tệp chỉ mục sơ đồ trang web (tệp này trỏ đến một danh sách sơ đồ trang web) rồi gửi tệp chỉ mục đó cho Google. Bạn có thể gửi nhiều sơ đồ trang web và/hoặc nhiều tệp chỉ mục sơ đồ trang web cho Google.

XML

Sau đây là một sơ đồ trang web XML rất cơ bản, chứa thông tin về vị trí của một URL duy nhất:

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <url>
    <loc>http://www.example.com/foo.html</loc>
    <lastmod>2018-06-04</lastmod>
  </url>
</urlset>

Bạn có thể tham khảo các ví dụ phức tạp hơn và tài liệu đầy đủ tại sitemaps.org.

Bạn có thể xem các ví dụ về sơ đồ trang web có chỉ định các trang ngôn ngữ thay thế nhau và sơ đồ trang web cho các tệp video, hình ảnh hoặc tin tức.

RSS, mRSS và Atom 1.0

Nếu bạn có một trang blog sử dụng nguồn cấp dữ liệu RSS hoặc Atom, bạn có thể gửi sơ đồ trang web dưới dạng URL của nguồn cấp dữ liệu đó. Hầu hết các phần mềm blog đều có thể tạo nguồn cấp dữ liệu cho bạn, nhưng hãy lưu ý rằng nguồn cấp dữ liệu này chỉ cung cấp thông tin về những URL gần đây.

Văn bản

Nếu sơ đồ trang web của bạn chỉ bao gồm URL của các trang web, bạn có thể cung cấp cho Google một tệp văn bản đơn giản có chứa một URL trên mỗi dòng. Ví dụ:

http://www.example.com/file1.html
http://www.example.com/file2.html

Nguyên tắc đối với sơ đồ trang web dạng tệp văn bản

  • Mã hóa tệp bằng phương thức mã hóa UTF-8.
  • Đừng đưa thông tin nào khác ngoài các URL vào tệp sơ đồ trang web.
  • Bạn có thể đặt tên tùy thích cho tệp văn bản đó, miễn là tệp đó có phần mở rộng .txt (ví dụ: sodotrangweb.txt).

Phần mở rộng của sơ đồ trang web dành cho các loại nội dung đa phương tiện khác

Google hỗ trợ cú pháp sơ đồ trang web mở rộng cho những loại nội dung đa phương tiện sau đây. Hãy dùng những phần mở rộng này để mô tả các tệp video, hình ảnh và các nội dung khó phân tích cú pháp khác trên trang web của bạn nhằm tăng hiệu quả lập chỉ mục.

Nguyên tắc chung đối với sơ đồ trang web

  • Dùng các URL nhất quán và đủ điều kiện. Google sẽ thu thập dữ liệu các URL của bạn đúng như những gì được liệt kê. Ví dụ: Nếu trang web của bạn có địa chỉ là https://www.example.com/, đừng nêu ra URL là https://example.com/ (thiếu www) hoặc ./mypage.html (URL tương đối).
  • Bạn có thể đăng sơ đồ trang web ở bất cứ đâu trên trang web của mình, nhưng sơ đồ trang web chỉ tác động đến các thư mục con thuộc thư mục mẹ. Sơ đồ trang web đăng tại thư mục gốc có thể tác động đến mọi tệp trên trang web. Vì vậy, thư mục gốc của trang web chính là nơi bạn nên đăng sơ đồ trang web của mình.
  • Không đưa mã nhận dạng phiên trong URL vào sơ đồ trang web. Điều này giúp giảm tình trạng thu thập dữ liệu nội dung trùng lặp trên những URL đó.
  • Thông báo cho Google về các phiên bản ngôn ngữ thay thế nhau của một URL bằng thẻ chú thích hreflang.
  • Tệp sơ đồ trang web phải được mã hóa bằng phương thức UTF-8 và dùng mã thoát dành cho URL một cách thích hợp.
  • Chia nhỏ sơ đồ trang web lớn thành các sơ đồ trang web nhỏ: một sơ đồ trang web có thể chứa tối đa 50.000 URL và không được vượt quá 50 MB khi chưa nén. Dùng một tệp chỉ mục sơ đồ trang web để liệt kê hết các sơ đồ trang web rồi gửi tệp này cho Google thay vì gửi từng sơ đồ trang web riêng lẻ.
  • Chỉ liệt kê các URL chính tắc trong sơ đồ trang web của bạn. Nếu một trang có hai phiên bản thì trong sơ đồ trang web, hãy chỉ liệt kê phiên bản bạn muốn xuất hiện trong kết quả tìm kiếm. Nếu trang web của bạn có hai phiên bản (ví dụ: phiên bản có www và phiên bản không có www), hãy chọn trang web bạn ưu tiên và đặt sơ đồ trang web ở đó rồi thêm rel=canonical hoặc lệnh chuyển hướng trên trang web còn lại.
  • Nếu một trang có các URL riêng cho phiên bản dành cho thiết bị di động và phiên bản dành cho máy tính, thì sơ đồ trang web chỉ nên trỏ đến một phiên bản. Tuy nhiên, nếu bạn muốn trỏ đến cả hai URL, hãy chú thích các URL đó để chỉ rõ phiên bản dành cho máy tính và phiên bản dành cho thiết bị di động.
  • Dùng phần mở rộng của sơ đồ trang web để trỏ đến các loại nội dung đa phương tiện khác như video, hình ảnh và tin tức.
  • Nếu có các trang thay thế nhau cho từng ngôn ngữ hoặc khu vực, bạn có thể sử dụng hreflang trong sơ đồ trang web hoặc trong thẻ html để chỉ rõ các URL thay thế.
  • Ký tự không phải chữ/số và ký tự không thuộc hệ chữ Latinh. Chúng tôi yêu cầu tệp sơ đồ trang web của bạn phải được mã hoá bằng phương thức UTF-8 (thường thì bạn có thể thực hiện việc này khi lưu tệp). Cũng như với mọi tệp XML, tất cả giá trị dữ liệu (kể cả URL) đều phải sử dụng mã thoát của thực thể cho những ký tự liệt kê trong bảng dưới đây. Sơ đồ trang web chỉ có thể chứa ký tự ASCII, không được chứa ký tự ASCII mở rộng hoặc một số mã điều khiển hay ký tự đặc biệt như *{}. Nếu URL trong sơ đồ trang web của bạn chứa những ký tự như vậy, bạn sẽ gặp lỗi khi cố gắng thêm chúng.
    Ký tự Biểu tượng Mã thoát
    Ký hiệu & & &amp;
    Dấu nháy đơn ' &apos;
    Dấu nháy kép " &quot;
    Dấu lớn hơn > &gt;
    Dấu nhỏ hơn < &lt;

    Ngoài ra, tất cả URL (kể cả URL của sơ đồ trang web) đều phải dùng mã thoát dành cho URL và phải được mã hoá sao cho máy chủ web lưu trữ những URL đó có thể đọc được. Tuy nhiên, nếu bạn sử dụng các loại tập lệnh, công cụ hoặc tệp nhật ký để tạo URL (bất kỳ phương thức nào khác ngoài cách nhập thủ công URL) thì thông thường, công đoạn này đã được hoàn thành sẵn cho bạn. Nếu bạn gửi sơ đồ trang web và gặp phải lỗi cho biết Google không thể tìm thấy một số URL, hãy kiểm tra để chắc chắn các URL của bạn tuân thủ chuẩn RFC-3986 cho URI, chuẩn RFC-3987 cho IRI và chuẩn XML.

    Sau đây là ví dụ về một URL dùng ký tự không phải ASCII (ü) và dùng một ký tự cần có mã thoát cho thực thể (&):

    http://www.example.com/ümlat.html&q=name

    Sau đây vẫn là URL đó, nhưng được mã hóa theo ISO-8859-1 (để lưu trữ trên một máy chủ sử dụng phương thức mã hóa này) và dùng mã thoát dành cho URL:

    http://www.example.com/%FCmlat.html&q=name

    Sau đây vẫn là URL đó, nhưng được mã hóa theo UTF-8 (để lưu trữ trên một máy chủ sử dụng phương thức mã hóa này) và dùng mã thoát dành cho URL:

    http://www.example.com/%C3%BCmlat.html&q=name

    Sau đây vẫn là URL đó, với mã thoát cho thực thể:

    http://www.example.com/%C3%BCmlat.html&amp;q=name
  • Hãy lưu ý rằng sơ đồ trang web là một cách đề xuất cho Google những trang mà bạn đánh giá là quan trọng. Google không cam kết sẽ thu thập dữ liệu mọi URL trong sơ đồ trang web.
  • Google bỏ qua các giá trị <priority><changefreq>.
  • Google sử dụng giá trị <lastmod> nếu giá trị đó chính xác một cách nhất quán và có thể xác minh (ví dụ: so với bản sửa đổi mới nhất của trang).
  • Vị trí của một URL trong sơ đồ trang web không quan trọng. Google không thu thập dữ liệu URL theo thứ tự xuất hiện trong sơ đồ trang web.

Tạo sơ đồ trang web

Sơ đồ trang web giúp bạn cho công cụ tìm kiếm biết những URL nào bạn muốn ưu tiên xuất hiện trong các kết quả tìm kiếm. Đó là các URL chính tắc. Nếu bạn có nhiều URL cùng dẫn tới nội dung giống nhau, hãy chọn URL mà bạn ưu tiên và đưa URL đó vào sơ đồ trang web thay vì đưa tất cả URL dẫn tới cùng nội dung.

Khi bạn đã xác định được URL nên đưa vào sơ đồ trang web, hãy chọn một trong những cách sau đây để tạo sơ đồ trang web (tùy thuộc vào kích thước và cấu trúc trang web của bạn):

Để CMS tạo sơ đồ trang web giúp bạn

Nếu đang dùng một hệ thống quản lý nội dung (CMS) chẳng hạn như WordPress, Wix hoặc Blogger, thì có khả năng là CMS của bạn đã tạo sẵn sơ đồ trang web và cung cấp sơ đồ đó cho các công cụ tìm kiếm. Hãy thử tìm thông tin về cách CMS của bạn tạo sơ đồ trang web, hoặc cách tạo sơ đồ trang web nếu CMS của bạn không tự động tạo. Ví dụ: trong trường hợp của Wix, hãy tìm theo cụm từ "wix sitemap" (hay "sơ đồ trang web wix").

Đối với những chế độ thiết lập trang web khác, bạn sẽ phải tự tạo sơ đồ trang web.

Tạo sơ đồ trang web theo cách thủ công

Đối với những sơ đồ trang web không có quá nhiều URL, bạn có thể tạo sơ đồ trang web theo cách thủ công. Để thực hiện việc này, hãy mở một trình chỉnh sửa văn bản, chẳng hạn như Windows Notepad hoặc Nano (Linux, MacOS), rồi tuân theo cú pháp mô tả trong phần Định dạng sơ đồ trang web.

Bạn cũng có thể tạo những trang web lớn hơn theo cách thủ công nhưng quá trình đó sẽ thật tẻ nhạt.

Tạo sơ đồ trang web theo cách tự động

Đối với những sơ đồ trang web có rất nhiều URL, bạn sẽ phải tạo sơ đồ trang web theo cách tự động. Có nhiều công cụ có thể tạo sơ đồ trang web. Tuy nhiên, cách tốt nhất là để phần mềm trang web của bạn tạo giúp bạn. Ví dụ: bạn có thể trích các URL của trang web qua cơ sở dữ liệu của trang web rồi xuất những URL đó vào dữ liệu mà máy chủ web tạo ra hoặc vào tệp thực tế trên máy chủ web. Hãy trao đổi với nhà phát triển hoặc người quản lý máy chủ của bạn về giải pháp này. Nếu bạn cần hướng dẫn về mã, hãy tham khảo bộ sưu tập cũ của chúng tôi về trình tạo sơ đồ trang web của bên thứ ba.

Hãy lưu ý rằng sơ đồ trang web không được lớn hơn 50 MB. Tìm hiểu thêm về cách quản lý các sơ đồ trang web lớn.

Gửi sơ đồ trang web cho Google

Google không kiểm tra sơ đồ trang web mỗi lần thu thập dữ liệu từ một trang web. Chúng tôi chỉ kiểm tra sơ đồ trang web khi lần đầu tiên phát hiện sơ đồ đó và chỉ kiểm tra lại khi bạn thông báo cho chúng tôi rằng sơ đồ đó đã thay đổi. Hãy thông báo cho Google về một sơ đồ trang web chỉ khi bạn tạo sơ đồ mới hoặc cập nhật sơ đồ hiện có. Đừng gửi hoặc thông báo cho Google nhiều lần về một sơ đồ trang web không có thay đổi.

Nếu bạn đã cập nhật một số trang trong sơ đồ trang web, hãy đánh dấu những trang đó bằng thuộc tính <lastmod>. Các tệp XML khác cũng có trường tương tự, chẳng hạn như <updated> đối với Atom XML. Bạn cũng có thể tìm hiểu cách tính ngày này.

Có một số cách để cung cấp sơ đồ trang web của bạn cho Google:

  • Gửi sơ đồ trang web bằng báo cáo Sơ đồ trang web.
  • Sử dụng công cụ ping. Gửi yêu cầu GET trong trình duyệt hoặc dòng lệnh đến địa chỉ sau đây, trong đó chỉ định URL đầy đủ của sơ đồ trang web. Bạn cần chắc chắn rằng tệp sơ đồ trang web có thể truy cập được:
    https://www.google.com/ping?sitemap=FULL_URL_OF_SITEMAP

    Ví dụ:

    https://www.google.com/ping?sitemap=https://example.com/sitemap.xml
  • Chèn dòng sau vào vị trí bất kỳ trong tệp robots.txt để chỉ định đường dẫn đến sơ đồ trang web. Chúng tôi sẽ tìm dòng này vào lần tiếp theo chúng tôi thu thập dữ liệu tệp robots.txt của bạn.
    Sitemap: https://example.com/my_sitemap.xml
  • Dùng WebSub nếu bạn sử dụng Atom/RSS cho sơ đồ trang web và muốn thông báo về thay đổi của bạn cho các công cụ tìm kiếm khác ngoài Google.

Khắc phục sự cố liên quan đến sơ đồ trang web

Xem hướng dẫn khắc phục sự cố liên quan đến sơ đồ trang web.