robots.txt 簡介

robots.txt 檔案能夠告訴搜尋引擎檢索器,可存取網站上的哪些網址。 這個檔案主要用來避免網站因要求過多而超載,而不是讓特定網頁無法出現在 Google 搜尋結果。如要防止自己的網頁出現在搜尋結果,請使用 noindex 指令,或使用密碼保護網頁。

robots.txt 檔案的用途是什麼?

robots.txt 檔案主要用於管理檢索器對您網站造成的流量;「通常」可以讓 Google 搜尋結果不顯示特定檔案,相關規範取決於以下檔案類型:

robots.txt 對不同檔案類型產生的影響
網頁

如果您認為 Google 檢索器提出的要求會讓伺服器不堪負荷,或者想避免 Google 檢索網站上不重要或類似的網頁,可以使用 robots.txt 檔案管理網頁的檢索流量,適用的網頁類型包括 HTML、PDF 或其他 Google 可讀取的非媒體格式

如果您透過 robots.txt 檔案禁止網頁出現在搜尋結果中,搜尋結果仍會顯示該網頁的網址,但不會提供網頁說明。在這種情況下,系統會排除圖片檔、影片檔、PDF 和其他非 HTML 檔案,如果不想讓搜尋結果以這種方式顯示您的網頁,請移除封鎖該網頁的 robots.txt 項目來加以修正。如果想在搜尋結果中完全隱藏您的網頁結果,請採用其他方法

媒體檔案

您可以使用 robots.txt 管理檢索流量,並防止圖片、影片和音訊檔案出現在 Google 搜尋結果中。不過,這麼做無法防止其他網頁或使用者連結至您的圖片、影片或音訊檔案。

資源檔案 如果您認為在載入網頁時略過不重要的圖片、指令碼或樣式檔案等資源,並不會造成太大的影響,那麼可以使用 robots.txt 檔案來封鎖這些資源檔案。但如果缺少這些資源會造成 Google 檢索器難以瞭解網頁內容,請不要封鎖這些資源,否則 Google 會無法正確分析仰賴這些資源的網頁。

瞭解 robots.txt 檔案的限制

建立或編輯 robots.txt 檔案之前,請務必瞭解這個網址封鎖方式的限制。您可以視目標和狀況而改用其他機制,確保無人能透過網路搜尋到您的網址。

  • 並非所有搜尋引擎都能支援 robots.txt 指令。
    robots.txt 檔案中的指示無法強制規範檢索器對網站所採取的行為,檢索器能夠決定是否遵循這些指示。雖然 Googlebot 和一些值得信任的網路檢索器都會遵循 robots.txt 檔案中的指示,但並非每個檢索器都是如此。因此,如要確保特定資訊不會受到網路檢索器存取,建議您使用其他封鎖方式,例如使用密碼保護伺服器上的私人檔案
  • 各種檢索器解讀語法的方式有所不同。
    雖然值得信任的網路檢索器都會遵循 robots.txt 檔案中的指令,但各種檢索器解讀指令的方式可能有些不同。有些網路檢索器可能無法理解特定指示,因此請對不同網路檢索器採用合適的語法
  • 如果其他網站連結到 robots.txt 所封鎖的網頁,系統仍然可以為該網頁建立索引。
    雖然 Google 不會對 robots.txt 所封鎖的內容進行檢索或建立索引,但如果我們透過網路上其他網頁的連結發現封鎖的網址,仍然會建立這些網址的索引。在這種情況下,網頁網址或者網頁連結中的錨定文字這類公開資訊,仍會顯示在 Google 搜尋結果中。如要完全避免這種情形,建議您使用密碼保護伺服器上的檔案使用 noindex 中繼標記或回應標頭,或是完全移除網頁。

建立 robots.txt 檔案

如果您決定使用 robots.txt 檔案,請參閱這篇文章,瞭解如何建立 robots.txt 檔案。