註解:定義要搜尋的網站

本頁說明如何使用 XML 註解檔案,定義搜尋引擎的涵蓋範圍。

  1. Overview
  2. 使用程式化搜尋 XML 格式
  3. 改善搜尋涵蓋率
  4. 註解限制

總覽

若要建置大型搜尋引擎,管理大量的網站可能會是件麻煩事。反之,你可以將許多網站列在註解檔中,然後上傳,即可新增及管理許多網站。此外,註解檔案可讓您進一步掌控搜尋結果的排名。

註解檔案只是一份註解清單,每個註解都包含兩個元件:網站及其相關標籤。這個標籤會告知程式化搜尋引擎如何處理網站,也就是是否應納入、排除、宣傳或降低網站排名。您可以在內容檔案中定義標籤,然後在註解檔案中為網站加上適當的標籤。

開始編輯註解檔案時,請先建立少量的註解。新增幾註解有助於測試搜尋引擎並排解相關問題。如果希望結果符合預期,請逐步新增更多註解。

您可以將註解檔案上傳到控制台。如要進一步瞭解檔案限制,請參閱「註解限制」一節。

返回頁首

使用程式化搜尋 XML 格式

如果想要充分運用程式化搜尋引擎設定檔中的所有功能,建議使用 XML。

XML 註解

以下是 XML 註解的範例。這個註解檔案會指示程式化搜尋引擎納入 www.webmd.com/hw/* 下的所有內容,但排除 www.webmd.com/hw/cancer/* 下的所有內容。

<Annotations>
  <Annotation about="www.cancer.gov/cancertopics/types/liver/*">
    <Label name="_include_"/>
    <Comment>government site</Comment>
  </Annotation>
  <Annotation about="www.medicinenet.com/liver_cancer/">
    <Label name="_exclude_"/>
    <Comment>site on symptoms</Comment>
  </Annotation>
  <Annotation about="www.webmd.com/hw/*">
    <Label name="_include_"/>
    <Comment>great sites for patients!</Comment>
  </Annotation>
  <Annotation about="www.webmd.com/hw/cancer/*">
    <Label name="_exclude_"/>
    <Comment>great sites for patients!</Comment>
  </Annotation>
  <Annotation about="www.oncologychannel.com/*/treatment">
    <Label name="_exclude_"/>
  </Annotation>
</Annotations>

這個註解檔案包含下列階層的四個元素:

  • Annotations (根元素)
    • Annotation
      • Label
      • Comment (選填)

返回頁首

建立外部註解

如要列出您希望搜尋引擎涵蓋的網站,請按照下列步驟操作:

  1. 使用 <Annotations></Annotations> 根元素啟動檔案。
  2. 新增 <Annotation></Annotation> 標記來建立註解,然後使用網站網址模式定義 about 屬性。
    <Annotations>
       <Annotation about="www.webmd.com/hw/cancer/*">
       </Annotation>
       </Annotations>
    
  3. 使用 <Label name=" "/> 標記將網站和搜尋引擎建立關聯,並指定搜尋引擎處理該網站的方式。您可以透過搜尋引擎的內容檔案取得搜尋引擎的標籤。畫面上會顯示兩個標籤:一個用於將網站新增至程式化搜尋引擎,另一個則用來排除網站。如果您尚未在結構定義檔案中變更搜尋引擎標籤名稱,納入網站的標籤就會採用 _include_ 格式,排除網站標籤則會採用 _exclude_ 格式。為避免發生錯誤,請複製並貼上這些標籤,而不要手動輸入。
       <Annotations>
       <Annotation about="http://www.solarenergy.org/*">
         <Label name="_include_"/>
       </Annotation>
    </Annotations>
    

    一個網站可以有多個相關聯的標籤

    如果您在結構定義檔案中變更了標籤名稱,請記得更新註解檔案中的 Label name 值。

  4. 如要新增更多網站,請建立並定義其他 Annotation 元素。
  5. 儲存 XML 檔案。

返回頁首

提高搜尋涵蓋率

程式化搜尋引擎是以 Google 索引為基礎。這表示您的搜尋引擎可以存取 Google 索引中的網頁;反之,尚未由 Google 檢索的網頁不會顯示在搜尋結果中。如要讓程式化搜尋引擎納入目前不在 Google 索引中的網站,請將 Sitemap 提交給 Google Search Console

Sitemap 內含你網站中的網頁清單,以及網頁更新頻率及其相對重要性的相關資訊。提交 Sitemap 有助於 Google 找出你的網頁,並改善檢索排程。如要進一步瞭解 Sitemap,請參閱網站管理員說明中心使用 Sitemap 通訊協定。如果您想建立粉絲 Sitemap,請參閱 http://www.sitemaps.org/protocol.php

如果你的網站符合下列條件,提交 Sitemap 就會特別有幫助:

  • 動態內容
  • Googlebot (Google 的網路檢索器) 難以找到的網頁,例如具有豐富 AJAX 或 Flash 功能的網頁
  • 很少有連結到該網站的網站。

    Googlebot 檢索網頁時會前往各網頁的連結,因此如果你網站的連結數量不多,檢索器就難以發現。如果網站才剛建立,可能沒有太多網站指向你的網站。

  • 缺乏大量交叉連結網路的內容網頁封存檔

Google 只會為可存取的網頁建立索引。因此,如果你在網頁中使用 robots.txt 檔案或漫遊器中繼標記,請確認這些網頁並未封鎖檢索器。

由於系統需要一些時間檢索網頁並建立索引,因此改善涵蓋範圍不會立即生效。不過,要是網頁編入索引後,網頁就可能同時出現在 Google 搜尋和程式化搜尋引擎中。

返回頁首

註解限制

下表列出上傳至程式化搜尋引擎的註解檔案數量上限:

注意:請密切留意相關規定。如果超過上限,搜尋引擎可能不會顯示結果。

長寬比 限制
檔案大小 (結構定義檔案或註解檔案) 30KB
每個搜尋引擎的註解數量上限 5,000

提示:如果你發現搜尋引擎超過 5,000 個網站的上限,請考慮將個別網址合併為網址模式

返回頁首