Chú thích: Xác định trang web để tìm kiếm

Trang này mô tả cách xác định phạm vi của công cụ tìm kiếm bằng tệp chú thích XML.

  1. Overview
  2. Sử dụng định dạng XML của Công cụ tìm kiếm có thể lập trình
  3. Cải thiện mức độ phù hợp trên Mạng Tìm kiếm
  4. Giới hạn chú thích

Tổng quan

Việc quản lý một tập hợp lớn các trang web có thể là một công việc tẻ nhạt nếu bạn xây dựng một công cụ tìm kiếm lớn. Thay vào đó, bạn có thể thêm và quản lý nhiều trang web bằng cách liệt kê chúng trong tệp chú thích và tải lên. Ngoài ra, tệp chú thích cho bạn nhiều quyền kiểm soát hơn đối với thứ hạng của kết quả tìm kiếm.

Tệp chú thích chỉ đơn giản là một danh sách các chú thích. Mỗi chú thích có hai thành phần: trang web và các nhãn liên quan. Nhãn này cho Công cụ tìm kiếm có thể lập trình biết cách xử lý một trang web, tức là một trang web nên được thêm vào, bị loại trừ, được thăng cấp hay giảm hạng. Trong tệp ngữ cảnh, bạn xác định nhãn; trong tệp chú thích, bạn gắn thẻ các trang web bằng các nhãn thích hợp.

Khi bạn bắt đầu chỉnh sửa tệp chú thích, hãy bắt đầu với một số ít chú thích. Việc kiểm tra và khắc phục sự cố công cụ tìm kiếm của bạn bằng một số chú thích sẽ trở nên dễ dàng hơn. Khi nhận được kết quả như mong đợi, hãy thêm dần các chú thích khác.

Bạn có thể tải tệp chú thích lên Bảng điều khiển. Để biết thông tin chi tiết về giới hạn tệp, hãy xem phần Giới hạn chú thích.

Trở lại đầu trang

Sử dụng định dạng XML của Công cụ tìm kiếm có thể lập trình

Nếu bạn muốn tận dụng tất cả tính năng có sẵn trong tệp cấu hình của Công cụ tìm kiếm có thể lập trình, thì bạn có thể dùng XML.

Chú thích XML

Sau đây là ví dụ về chú thích XML. Tệp chú thích này yêu cầu Công cụ tìm kiếm có thể lập trình bao gồm mọi thứ trong www.webmd.com/hw/* nhưng loại trừ mọi thứ trong www.webmd.com/hw/cancer/*.

<Annotations>
  <Annotation about="www.cancer.gov/cancertopics/types/liver/*">
    <Label name="_include_"/>
    <Comment>government site</Comment>
  </Annotation>
  <Annotation about="www.medicinenet.com/liver_cancer/">
    <Label name="_exclude_"/>
    <Comment>site on symptoms</Comment>
  </Annotation>
  <Annotation about="www.webmd.com/hw/*">
    <Label name="_include_"/>
    <Comment>great sites for patients!</Comment>
  </Annotation>
  <Annotation about="www.webmd.com/hw/cancer/*">
    <Label name="_exclude_"/>
    <Comment>great sites for patients!</Comment>
  </Annotation>
  <Annotation about="www.oncologychannel.com/*/treatment">
    <Label name="_exclude_"/>
  </Annotation>
</Annotations>

Tệp chú thích có 4 phần tử trong hệ phân cấp sau:

  • Annotations (phần tử gốc)
    • Annotation
      • Label
      • Comment (không bắt buộc)

Trở lại đầu trang

Tạo chú thích bên ngoài

Để liệt kê các trang web bạn muốn công cụ tìm kiếm bao gồm, hãy làm như sau:

  1. Bắt đầu tệp bằng thành phần gốc <Annotations></Annotations>.
  2. Tạo chú thích bằng cách thêm thẻ <Annotation></Annotation>, sau đó xác định thuộc tính about bằng mẫu URL của trang web.
    <Annotations>
       <Annotation about="www.webmd.com/hw/cancer/*">
       </Annotation>
       </Annotations>
    
  3. Liên kết trang web với công cụ tìm kiếm bằng cách dùng thẻ <Label name=" "/> và chỉ định cách công cụ tìm kiếm xử lý trang web đó. Bạn có thể lấy nhãn cho công cụ tìm kiếm trong tệp Ngữ cảnh của công cụ tìm kiếm đó. Bạn sẽ thấy hai nhãn: một nhãn để thêm các trang web vào Công cụ tìm kiếm có thể lập trình và một nhãn để loại trừ các trang web khỏi Công cụ tìm kiếm có thể lập trình. Nếu bạn chưa thay đổi tên của nhãn công cụ tìm kiếm trong tệp ngữ cảnh, nhãn để bao gồm các trang web ở dạng _include_, và nhãn để loại trừ các trang web ở dạng _exclude_. Để tránh lỗi, hãy sao chép và dán các nhãn này thay vì nhập theo cách thủ công.
       <Annotations>
       <Annotation about="http://www.solarenergy.org/*">
         <Label name="_include_"/>
       </Annotation>
    </Annotations>
    

    Một trang web có thể có nhiều nhãn liên kết,

    Nếu bạn đã đổi tên nhãn trong tệp ngữ cảnh, hãy nhớ cập nhật các giá trị Label name trong tệp chú thích.

  4. Để thêm nhiều trang web hơn, hãy tạo và xác định một phần tử Annotation khác.
  5. Lưu tệp XML.

Trở lại đầu trang

Cải thiện mức độ phù hợp trên Mạng Tìm kiếm

Công cụ tìm kiếm có thể lập trình được xây dựng dựa trên chỉ mục của Google. Điều này có nghĩa là các trang web trong chỉ mục của Google sẽ được cung cấp cho công cụ tìm kiếm của bạn; ngược lại, các trang web không được Google thu thập dữ liệu sẽ không xuất hiện trong kết quả tìm kiếm của bạn. Nếu bạn muốn Công cụ tìm kiếm có thể lập trình của bạn đưa vào các trang web hiện không có trong chỉ mục của Google, hãy gửi một Sơ đồ trang web đến Google Search Console.

Sơ đồ trang web bao gồm danh sách các trang trong trang web của bạn, cũng như thông tin về tần suất cập nhật của các trang web và tầm quan trọng của chúng so với nhau. Việc gửi Sơ đồ trang web giúp Google tìm thấy trang web của bạn và cải thiện lịch thu thập dữ liệu. Để tìm hiểu thêm về Sơ đồ trang web, hãy xem Trung tâm trợ giúp quản trị trang webSử dụng Giao thức sơ đồ trang web. Nếu bạn quan tâm đến việc xây dựng Sơ đồ trang web đẹp hơn, hãy xem http://www.sitemaps.org/protocol.php.

Việc gửi Sơ đồ trang web đặc biệt hữu ích nếu trang web của bạn có:

  • Nội dung động
  • Các trang web không dễ dàng phát hiện bởi Googlebot (trình thu thập dữ liệu web của Google), chẳng hạn như các trang có tính năng AJAX hoặc Flash phong phú
  • Một số ít trang web liên kết đến URL này.

    Googlebot thu thập dữ liệu web bằng cách đi theo các đường liên kết từ trang này sang trang khác, vì vậy, nếu trang web của bạn không được liên kết đúng cách, trình thu thập dữ liệu sẽ khó có thể phát hiện ra trang web đó. Nếu trang web của bạn mới được tạo, có thể không có nhiều trang web trỏ đến trang web của bạn.

  • Kho lưu trữ lớn các trang nội dung không có mạng liên kết chéo mạnh mẽ

Google chỉ có thể lập chỉ mục những trang mà Google có thể truy cập. Vì vậy, nếu bạn sử dụng robots.txt hoặc thẻ meta robots trong trang web của mình, hãy đảm bảo những trang đó không chặn trình thu thập dữ liệu.

Việc cải thiện mức độ phù hợp không diễn ra ngay lập tức vì sẽ mất một khoảng thời gian để Google thu thập dữ liệu và lập chỉ mục các trang. Tuy nhiên, một khi các trang web của bạn có trong chỉ mục, chúng có thể xuất hiện trong cả Google Tìm kiếm và Công cụ tìm kiếm có thể lập trình.

Trở lại đầu trang

Giới hạn chú thích

Bảng sau đây liệt kê các giới hạn đối với tệp chú thích được tải lên Công cụ tìm kiếm có thể lập trình:

Lưu ý: Hãy theo dõi chặt chẽ các giới hạn này; nếu vượt quá giới hạn, công cụ tìm kiếm của bạn có thể không hiển thị kết quả.

Tỷ lệ Hạn mức
Kích thước tệp (tệp ngữ cảnh hoặc chú thích) 30KB
Số chú thích tối đa trên mỗi công cụ tìm kiếm 5.000

Mẹo: Nếu bạn thấy công cụ tìm kiếm của mình vượt quá hạn mức lớn 5.000 trang web, hãy cân nhắc việc hợp nhất từng URL thành các mẫu URL.

Trở lại đầu trang